感觉采集这个网站很难的,这个网站的大部分网页都有分页,不分页的内容结束特征码 和分页的特征码不一样,我就先暂时不采集只有1页的文章了。 现在分页遇到问题,分2页的文章 都能采集完,但是遇到分页比较多的就不能采集完了,要麻是中间有部分网页不能采集到,要麻就是最后一页采集得不对 我把采集帖出来,麻烦大家帮我看看: 采集页面地址: http://www.rs66.com/a/1/87/087_1.html 内容页地址前缀:http://www.rs66.com/a/1/87/ 信息链接区域正则:阅读次数[!--smallurl--]<td height="25" 信息页链接正则:<a href="/a/1/87/[!--newsurl--]" title=" 标题正则:<title>[!--title--]--人生指南 新闻正文正则:class="NewsContent">[!--newstext--]<p align="center"><b> 分页形式:全部列出式 全部列出"式正则设置:分页区域正则:<font color="red">[!--smallpageallzz--]txt3.js 全部列出"式正则设置:分页链接正则:<a href="[!--pageallzz--]">
谢谢帮忙修改一下 先谢了
|