0 Comments

获得内容页面信息

发布于:2012-11-20  |   作者:广州网站建设  |   已聚集:人围观
获得内容页面信息

当获得待下载的列表页面后,就可以提取需要的信息了。该程序功能最重要的就是提取正则表达式的部分,因为只要获得部分采集者认为有意义的信息即可。内容获取部分的流程代码如下:广州网站设计

 


  1. <?php 
  2. //功能:获得内容页面信息  
  3. foreach ( $list_data [1] as $detail_url ) {  
  4.     $handles = @file_get_contents ( $detail_url );  //载入URL地址页  
  5.     preg_match_all ("/".链接规则."/is",$handles,$content_match);  
  6.                                                     //正则表达式匹配链接规则  
  7.     INSERT INTO 'links' ( 'title' , 'url' , 'rules' , 'date' )  
  8.                                         //所得内容页面链接地址写入数据库Link表  
  9. }  
  10. ?> 

【代码解读】

其中,变量$list_data[1]代表已获得的列表数组,$content_match代表正则表达式匹配链接内容的规则。其中核心的部分是两个函数,即file_get_contents()和preg_match_all()。preg_match_all()是正则函数,用来安装正则表达式定制的规则并提取相应的内容。

注意:file_get_contents()函数是远程读取网页内容的,需要在PHP5以上的版本才能使用。广州网站建设

标签:
飞机