刚接触到帝国,采集分页出现错误,请熟悉采集的朋友帮助看看,谢谢! 问题1.部分可以采集到内容,有一些只能采集到标题。 2.分页正则这样设置无法采集到第三页,预览看到第二页采集了2次(有2页同样的内容)
采集页面: http://www.pconline.com.cn/digital/dc/hangqing/bj/ 内容页地址前缀: http://www.pconline.com.cn 过滤广告正则: <div style="float:left;width:320px"> <ul style="padding:0px;margin:0px"> <li style="list-style-type: none;height:283px"> [!--ad--] </li> <li style="list-style-type: none;htight:51px"> [!--ad--] </li> </ul> </div>,<a [!--ad--]> 信息页链接正则: <TD CLASS="sfont">*<a href="[!--newsurl--]" 标题正则: <td align="center" valign="middle" > <b class="art_title f18"><h1>[!--title--]</h1></b></td> 作者正则:<td align="CENTER" class="555">作者:[!--writer--]</td> 新闻正文正则:<td width="100%" height="62" class="article">[!--newstext--]<P align=left> <table width="100%" border="0" cellspacing="0" cellpadding="6"> <tr> <td> </td> </tr> </table></td> "全部列出"式正则设置: 分页区域正则([!--smallpageallzz--]) <font STYLE='color:#FF0000;'>[!--smallpageallzz--]下一页 分页链接正则([!--pageallzz--]) <a href="[!--pageallzz--]" 再次感谢!
|