求助：采集分页出现重复页面帝国cms - 安全、强大、稳定、灵活

帝国论坛 → 帝国网站管理系统交流区 → 采集使用交流 → 求助：采集分页出现重复页面

【本版专题贴子】

tzlhsj
用户头衔：举人

精华贴   ：0
发贴数   ：58
经验值   ：736
注册时间：2007-04-29

信息

搜索

好友

发送悄悄话

【精益求精－帝国网站管理系统7.5正式版开源发布】 [第 1 楼]

求助：采集分页出现重复页面

刚接触到帝国，采集分页出现错误，请熟悉采集的朋友帮助看看，谢谢！
问题1.部分可以采集到内容，有一些只能采集到标题。
2.分页正则这样设置无法采集到第三页，预览看到第二页采集了2次(有2页同样的内容)

采集页面：
http://www.pconline.com.cn/digital/dc/hangqing/bj/
内容页地址前缀：
http://www.pconline.com.cn
过滤广告正则：
<div style="float:left;width:320px">
<ul style="padding:0px;margin:0px">
<li style="list-style-type: none;height:283px">
[!--ad--]
</li>
<li style="list-style-type: none;htight:51px">
[!--ad--]
</li>
</ul>
</div>,<a [!--ad--]>
信息页链接正则：
<TD CLASS="sfont">*<a href="[!--newsurl--]"
标题正则：
<td align="center" valign="middle" > <b class="art_title f18"><h1>[!--title--]</h1></b></td>
作者正则：<td align="CENTER" class="555">作者：[!--writer--]</td>
新闻正文正则：<td width="100%" height="62" class="article">[!--newstext--]<P align=left>
      <table width="100%"  border="0" cellspacing="0" cellpadding="6">
      <tr>
         <td> </td>
      </tr>
   </table></td>
"全部列出"式正则设置:
分页区域正则([!--smallpageallzz--])
<font STYLE='color:#FF0000;'>[!--smallpageallzz--]下一页
分页链接正则([!--pageallzz--])
<a href="[!--pageallzz--]"
再次感谢！