0
Comments
采集内容表设计
发布于:12-11-20 | 作者:广州网站建设采集内容表设计 采集内容表(articles)的作用是存储采集到的数据,从命名就可以看出它的设计和一般文章内容表有很多相似的地方。这部分的数据库设计相对更简单些,只有一个采集
标签:
日志分类:网站建设知识围观群众:166人
0
Comments
规则存储表设计
发布于:12-11-20 | 作者:广州网站建设数据库设计 内容自动采集器模块的数据库设计目的是满足两个需求:一个是规则存储表(spiders)存储采集规则、采集源URL地址、栏目分类;另一个是采集内容表(articles)用来存储采集
标签:
日志分类:网站建设知识围观群众:202人
0
Comments
分页分析
发布于:12-11-20 | 作者:广州网站建设分页分析 当文章内容过多时通常都会采用分页的形式,这样保证了页面的整体美观。但是对于采集程序而言就需要多做一步分页的分析工作,程序根据不同的分页样式分析出上下页形式
标签:
日志分类:网站建设知识围观群众:136人
0
Comments
获取全部列出形式
发布于:12-11-20 | 作者:广州网站建设获取全部列出形式 在执行以上的步骤后,程序已经获得了所需的内容信息。在对页面进行分页分析整理后全部列出形式,核心流程代码如下: 广州网站设计 ? php //正则匹配分页区域
标签:
日志分类:网站建设知识围观群众:169人
0
Comments
延时函数
发布于:12-11-20 | 作者:广州网站建设延时函数 由于PHP脚本有30秒的执行限制,当执行时间大于30秒时,系统会报一个超时的致命级错误终止程序运行,所以在抓取大量内容时需要应用下面的延时函数。 广州网站建设 ? php
标签:
日志分类:网站建设知识围观群众:201人
0
Comments
获得内容页面信息
发布于:12-11-20 | 作者:广州网站建设获得内容页面信息 当获得待下载的列表页面后,就可以提取需要的信息了。该程序功能最重要的就是提取正则表达式的部分,因为只要获得部分采集者认为有意义的信息即可。内容获取
标签:
日志分类:网站建设知识围观群众:98人
0
Comments
URL地址列表分析
发布于:12-11-20 | 作者:广州网站建设URL地址列表分析 待采集列表页面形式可以分为单页网址、多页网站、复合页网址3种。根据页面的不同类型采用不同的流程控制,具体的流程控制代码如下: 广州网站建设 ? php switch(U
标签:
日志分类:网站建设知识围观群众:190人
0
Comments
内容自动采集器功能及采集原理
发布于:12-11-20 | 作者:广州网站建设内容自动采集器模块(爬虫+FCKeditor编辑器+任务接力) 网站内容的组成除了编辑录入原创内容外,还可以通过后台的内容采集功能获取指定内容源信息。使用内容自动采集器可以使得网
标签:
日志分类:网站建设知识围观群众:202人



