[分享]采集图片及分页经验谈帝国cms - 安全、强大、稳定、灵活

帝国论坛 → 帝国网站管理系统交流区 → 采集使用交流 → [分享]采集图片及分页经验谈

【本版专题贴子】

arnol
用户头衔：书生

精华贴   ：0
发贴数   ：24
经验值   ：117
注册时间：2007-06-05

信息

搜索

好友

发送悄悄话

【精益求精－帝国网站管理系统7.5正式版开源发布】 [第 1 楼]

[分享]采集图片及分页经验谈

以下是偶采集系统之家的一点小经验，希望能给新手带来帮助！

以http://it.xtzj.com/xtyh/Vista/2007-03-19/1399.html页面为例！

看一下图片代码，第一张图片的代码是<img height="496" src="/d/file1/xtyh/Vista/2007-03-19/0d05163a334c5b41282735d2c916e60c.jpg" width="499" twffan="done" />

第三张图片的代码是<img style="BORDER-LEFT-COLOR: rgb(0,0,0); BORDER-BOTTOM-COLOR: rgb(0,0,0); BORDER-TOP-COLOR: rgb(0,0,0); BORDER-RIGHT-COLOR: rgb(0,0,0)" alt="点击放大此图片" src="/d/file1/xtyh/Vista/2007-03-19/1b0d92e0c99143996c7127bdadf03067.jpg" border="1" twffan="done" />

有没发现第三张图片的代码比第一张的复杂多了？那这采集规则怎么写呢？

找一下它们的共同点就是，都是以<img 开头并且以twffan="done" />结尾，找到共同点就好办多了。我们大家都知道在电脑里*号可以代表任意个字符，那么我们就把图片的规则写成<img * src="[!--titlepic--]" twffan="done" />。<img 之后和src="之前的所有字符都可以用*号代替，这样就采集成功了。

我在论坛里还看到有很多人都问关于分页采集的问题，在这里也随便说一下。

还是以刚才的那个页面做例子，我们找到分页部份，其代码如下：

<div align="right"><a href="http://it.xtzj.com/xtyh/Vista/2007-03-19/1399.html"><strong>1</strong></a> <a href="http://it.xtzj.com/xtyh/Vista/2007-03-19/1399_2.html">2</a> <a href="http://it.xtzj.com/xtyh/Vista/2007-03-19/1399_3.html">3</a> <a href="http://it.xtzj.com/xtyh/Vista/2007-03-19/1399_2.html">下一页</a>  </div>

我们只要把div标签中间的部份替换成[!--smallpagezz--]就可以了，代码：<div align="right">[!--smallpagezz--]下一页</a>  </div>

分页链接代码：href="[!--pagezz--]"

这样就可以采集分页了。