0 Comments

URL地址列表分析

发布于:2012-11-20  |   作者:广州网站建设  |   已聚集:人围观
URL地址列表分析

待采集列表页面形式可以分为单页网址、多页网站、复合页网址3种。根据页面的不同类型采用不同的流程控制,具体的流程控制代码如下:广州网站建设


  1. <?php 
  2. switch (URL) {  
  3.     case 1 :  
  4.         //单页的设置  
  5.         $url [0] = URL;  
  6.         break;  
  7.     case 2 :  
  8.         //多页的设置  
  9.         $list_content = file_get_contents ( $row->url );  
  10.         //观察链接特征:<li> <a href="/news/ 2010-05-21/1705605024_4.shtml"         title="自主的胜利?"  target="_blank" class="fl">自主的胜利?</a><i> 
  11.         //获取列表正则规则  
  12.         $list_match = $row [2];  
  13.         preg_match_all ( $list_match, $list_content, $list_data );  
  14.         break;  
  15.         case3  
  16.         //其他类型的网址观察具体的链接特征应用不同的正则规则  
  17.         break;  
  18. }  
  19. ?> 

【代码解读】

上述代码通过switch()函数判断链接的类型,然后根据链接"特征"匹配正则表达式的规则获取指定的内容,这里可以将switch()函数看作程序的流程控制器。广州网站设计

标签:
飞机