网站内容的组成除了编辑录入原创内容外,还可以通过后台的内容采集功能获取指定内容源信息。使用内容自动采集器可以使得网站的内容多样化,同时减少网站编辑人员的工作量。因此,内容自动采集器功能是网站后台的必要功能之一。读者通过本章的学习,可以了解内容采集的基本原理和实现方法,直观地了解正则表达式在内容采集过程中的核心作用,其中涉及的技术细节和知识点也将在讲解例子的时候逐一阐述。
file_get_contents()函数:函数把整个文件读入一个字符串中。
preg_match_all()函数:进行全局正则表达式匹配。广州网站设计
FCKeditor编辑器:被广泛使用的、开放源代码的"所见即所得"文字编辑器。
任务接力模式:任务接力模式的本质是对一个任务做拆分,将一个任务拆分成多个子任务来实现。广州网站设计
8.1 内容自动采集器功能及采集原理
内容采集,顾名思义就是对互联网的公共信息资源按照一定的要求进行自动的采集、过滤、整理,再按照一定的规则存入数据库中。根据这个目标可以看到,内容自动采集器的功能由3部分组成,即数据规则模型管理、采集节点管理、已下载内容管理。
在实际的应用中,根据不同的业务应用领域会对应强化某部分的功能。如果要采集的目标网站内容格式十分复杂,就要强化"数据规则模型管理"定制适用于不同类型站点的采集规则;如果需要经常更换采集的信息源,则需要强化"采集节点管理"和"重复内容过滤"功能。常见的典型应用则是将上述的功能整合到一起,在一个界面上操作会更高效、快捷。总之,需要根据实际业务将上述的功能结合使用。广州网站建设
内容自动采集器采集数据的一般流程如下:
(1)根据预先定义的抓取规则,获取一个栏目的网页中的所有内容,需要先将这个网页的网址列表记录下来制作成采集列表。广州网站建设
(2)程序根据定义的规则抓取列表页面,从中分析整理出网址列表,然后再去抓取获得网址的网页中的内容。
(3)程序根据具体页面的采集规则,对下载到的网页分析,将标题内容等信息分离开,核对无误后存入数据库。广州网站建设
本节具体介绍内容采集技术实现的原理和流程。



