如连接 <a href='aaa.html'>aaa</a> <a href='bbb.html' target='_black'>bbb</a>
<a href='aaa.html'>aaa</a> <a href='bbb.html' target='_black'>bbb</a>
<a href='aaa.html'>aaa</a> <a href='bbb.html' target='_black'>bbb</a>
<a href='aaa.html'>aaa</a> <a href='bbb.html' target='_black'>bbb</a> 比如是这样的连接 要采集<a href='bbb.html' target='_black'>bbb</a> 写规则<a href='[[!--newsurl--]]' target='_black'>或<a href='[[!--newsurl--]]' target='_black'>*</a>
这样在匹配的时候可以采集到第一组的数据 但以后的就有问题了 也就是大家经常看到的采集的连接里面有标题的问题
第一组匹配完后 到第三行连接 <a href='aaa.html'>aaa</a>这时候由于没有找到target='_black' 所以会继续向下匹配查找 一直到第四行<a href='bbb.html' target='_black'>bbb</a>出现target='_black' 所以 结果是 aaa.html'>aaa</a><a href='bbb.html'这样字的,把第三行的和第四行的作为一个匹配结果了
有高手看看 我说的对吗 我看采集到的页面代码也确实是这个结果
|