当文章内容过多时通常都会采用分页的形式,这样保证了页面的整体美观。但是对于采集程序而言就需要多做一步分页的分析工作,程序根据不同的分页样式分析出上下页形式。分页分析的流程代码如下:广州网站建设
- <?php
- if(preg_match ("/".分页规则."/is",$buffer, $ljregs))
- {
- while ( $ljregs [1] != "" ) {
- $ljregs [1] = $string->gethttp ( $ljregs [1] );
- $buffer = @file_get_contents ( $ljregs [1] );
- //延时
- if (empty ( $buffer )) {
- if ($phpcurl_init == "yes") {
- $ch = curl_init ();
- $timeout = 10; //设置超时时间
- curl_setopt ( $ch, CURLOPT_URL, $ljregs [1] );
- curl_setopt ( $ch, CURLOPT_RETURNTRANSFER, 1 );
- curl_setopt ( $ch, CURLOPT_CONNECTTIMEOUT, $timeout );
- $buffer = curl_exec ( $ch ); //执行句柄
- curl_close ( $ch ); //关闭连接
- }
- }
- preg_match ( "/" . $body_rule . "/is", $buffer, $regs );//匹配规则
- $cont .= $regs [1];
- }
- }
- ?>
【代码解读】
上述代码根据获得分页规则的不同,匹配不同的上下页形式,通过while()函数嵌套if()函数,对获得内容过程中的异常状态进行排除处理。



