怎么听起来好象正则很随便。。 采集路漫漫…… |
我个人感觉是,正则越简单越好,比如链接正则,可以表达为<a href='[!--newsurl--]'的,就不要在后面加target=_blank(如果里面有这个的话),甚至连后面的>也不要加。以免他前几页带target=_blank,后几页不带,或是两个看起来一样的页面,一个带一个不带,这样就可以尽量多的采到你要的内容。有时我甚至链接正则直接就写成href='[!--newsurl--]'
但也不能太简单。在你没把握可以过滤掉别的无用信息的时候,正则写得太简单会大大增加入库时的工作量,有时甚至可能会没采到你要的,而被你不要的信息所干扰,采到一堆不要的或是什么也采不到。
所以说尺度只有靠经验把握。其实也就是不断调整、预览、再调整、再预览,直到你自己满意再开始采集。
|