由于各位前辈没有做个软件采集方面的专门教程,使得我们新手很难操纵。 今天特来分享一下自己的软件采集经验。请指教。
我以“天空软件站--系统工具类”为例:
列表地址:http://www.skycn.com/sort/sort020000_indate_DESC_1.html
在源码可看到列表里缺少内容页地址前缀
所以要添加“内容页地址前缀”
填写信息页链接正则:
软件名称正则:
选择地填写以下内容:
下载地址正则会令很多新手犯迷糊,怎么会有两个标签呢?一个是下载地址链接,另一个是下载站名称。如图:
又由于写“下载站名称正则”时,各条信息前面的代码有变动,所以可用*表示。
最后是软件简介正则:
好了,搞定了。
若有不妥 请高手赐教!
|