0 Comments

采集内容表设计

发布于:12-11-20  |   作者:广州网站建设

采集内容表设计 采集内容表(articles)的作用是存储采集到的数据,从命名就可以看出它的设计和一般文章内容表有很多相似的地方。这部分的数据库设计相对更简单些,只有一个采集

+阅读全文

标签: 日志分类:网站建设知识围观群众:166人
0 Comments

规则存储表设计

发布于:12-11-20  |   作者:广州网站建设

数据库设计 内容自动采集器模块的数据库设计目的是满足两个需求:一个是规则存储表(spiders)存储采集规则、采集源URL地址、栏目分类;另一个是采集内容表(articles)用来存储采集

+阅读全文

标签: 日志分类:网站建设知识围观群众:202人
0 Comments

分页分析

发布于:12-11-20  |   作者:广州网站建设

分页分析 当文章内容过多时通常都会采用分页的形式,这样保证了页面的整体美观。但是对于采集程序而言就需要多做一步分页的分析工作,程序根据不同的分页样式分析出上下页形式

+阅读全文

标签: 日志分类:网站建设知识围观群众:136人
0 Comments

获取全部列出形式

发布于:12-11-20  |   作者:广州网站建设

获取全部列出形式 在执行以上的步骤后,程序已经获得了所需的内容信息。在对页面进行分页分析整理后全部列出形式,核心流程代码如下: 广州网站设计 ? php //正则匹配分页区域

+阅读全文

标签: 日志分类:网站建设知识围观群众:169人
0 Comments

延时函数

发布于:12-11-20  |   作者:广州网站建设

延时函数 由于PHP脚本有30秒的执行限制,当执行时间大于30秒时,系统会报一个超时的致命级错误终止程序运行,所以在抓取大量内容时需要应用下面的延时函数。 广州网站建设 ? php

+阅读全文

标签: 日志分类:网站建设知识围观群众:201人
0 Comments

获得内容页面信息

发布于:12-11-20  |   作者:广州网站建设

获得内容页面信息 当获得待下载的列表页面后,就可以提取需要的信息了。该程序功能最重要的就是提取正则表达式的部分,因为只要获得部分采集者认为有意义的信息即可。内容获取

+阅读全文

标签: 日志分类:网站建设知识围观群众:98人
0 Comments

URL地址列表分析

发布于:12-11-20  |   作者:广州网站建设

URL地址列表分析 待采集列表页面形式可以分为单页网址、多页网站、复合页网址3种。根据页面的不同类型采用不同的流程控制,具体的流程控制代码如下: 广州网站建设 ? php switch(U

+阅读全文

标签: 日志分类:网站建设知识围观群众:190人
0 Comments

内容自动采集器功能及采集原理

发布于:12-11-20  |   作者:广州网站建设

内容自动采集器模块(爬虫+FCKeditor编辑器+任务接力) 网站内容的组成除了编辑录入原创内容外,还可以通过后台的内容采集功能获取指定内容源信息。使用内容自动采集器可以使得网

+阅读全文

标签: 日志分类:网站建设知识围观群众:202人
飞机