在执行以上的步骤后,程序已经获得了所需的内容信息。在对页面进行分页分析整理后全部列出形式,核心流程代码如下:
广州网站设计
- <?php
- //正则匹配分页区域
- preg_match ("/".分页规则."/is",$buffer, $regs2);
- //查找每个分割里面的网址 for保证网址不重复
- preg_match_all ("/".'<[^<>]*(href|value)=(\”|\’)?([^\’\”<>]*)(\”|\’)?[^<>]*>’.”/is”,$regs2[1],$regs3);
- for($i = 0; $i <= count ( $regs3 [3] ); $i ++) {
- $gethttp = $string->gethttp ( $regs3 [3] [$i] );
- $buffer2 = @file_get_contents ( $gethttp );
- //延时
- if (empty ( $buffer2 )) {
- if ($phpcurl_init == yes) {
- $ch = curl_init ();
- $timeout = 10; //设置延时时间
- curl_setopt ( $ch, CURLOPT_URL, $regsar [$i] );
- curl_setopt ( $ch, CURLOPT_RETURNTRANSFER, 1 );
- curl_setopt ( $ch, CURLOPT_CONNECTTIMEOUT, $timeout );
- $buffer2 = curl_exec ( $ch ); //执行句柄
- curl_close ( $ch ); //关闭连接
- }
- preg_match (”/”.内容规则.”/is”,$buffer2, $regss);
- $cont .= $regss [1];
- }
- }
- ?>
【代码解读】
上述代码通过分页的规则匹配出分页列表,然后通过查找每个分割单元里的网址(for函数排除重复网址),从而获得全部列出形式的列表数组。广州网站建设



