以下是偶采集系统之家的一点小经验,希望能给新手带来帮助!
以http://it.xtzj.com/xtyh/Vista/2007-03-19/1399.html页面为例!
看一下图片代码,第一张图片的代码是<img height="496" src="/d/file1/xtyh/Vista/2007-03-19/0d05163a334c5b41282735d2c916e60c.jpg" width="499" twffan="done" />
第三张图片的代码是<img style="BORDER-LEFT-COLOR: rgb(0,0,0); BORDER-BOTTOM-COLOR: rgb(0,0,0); BORDER-TOP-COLOR: rgb(0,0,0); BORDER-RIGHT-COLOR: rgb(0,0,0)" alt="点击放大此图片" src="/d/file1/xtyh/Vista/2007-03-19/1b0d92e0c99143996c7127bdadf03067.jpg" border="1" twffan="done" />
有没发现第三张图片的代码比第一张的复杂多了?那这采集规则怎么写呢?
找一下它们的共同点就是,都是以<img 开头并且以twffan="done" />结尾,找到共同点就好办多了。我们大家都知道在电脑里*号可以代表任意个字符,那么我们就把图片的规则写成<img * src="[!--titlepic--]" twffan="done" />。<img 之后和src="之前的所有字符都可以用*号代替,这样就采集成功了。
我在论坛里还看到有很多人都问关于分页采集的问题,在这里也随便说一下。
还是以刚才的那个页面做例子,我们找到分页部份,其代码如下:
<div align="right"><a href="http://it.xtzj.com/xtyh/Vista/2007-03-19/1399.html"><strong>1</strong></a> <a href="http://it.xtzj.com/xtyh/Vista/2007-03-19/1399_2.html">2</a> <a href="http://it.xtzj.com/xtyh/Vista/2007-03-19/1399_3.html">3</a> <a href="http://it.xtzj.com/xtyh/Vista/2007-03-19/1399_2.html">下一页</a> </div>
我们只要把div标签中间的部份替换成[!--smallpagezz--]就可以了,代码:<div align="right">[!--smallpagezz--]下一页</a> </div>
分页链接代码:href="[!--pagezz--]"
这样就可以采集分页了。
|