当获得待下载的列表页面后,就可以提取需要的信息了。该程序功能最重要的就是提取正则表达式的部分,因为只要获得部分采集者认为有意义的信息即可。内容获取部分的流程代码如下:广州网站设计
- <?php
- //功能:获得内容页面信息
- foreach ( $list_data [1] as $detail_url ) {
- $handles = @file_get_contents ( $detail_url ); //载入URL地址页
- preg_match_all ("/".链接规则."/is",$handles,$content_match);
- //正则表达式匹配链接规则
- INSERT INTO 'links' ( 'title' , 'url' , 'rules' , 'date' )
- //所得内容页面链接地址写入数据库Link表
- }
- ?>
【代码解读】
其中,变量$list_data[1]代表已获得的列表数组,$content_match代表正则表达式匹配链接内容的规则。其中核心的部分是两个函数,即file_get_contents()和preg_match_all()。preg_match_all()是正则函数,用来安装正则表达式定制的规则并提取相应的内容。



