帝国论坛帝国网站管理系统交流区采集使用交流现在已经有自动识别和提取网页正文的工具了 【本版专题贴子】  
主题:现在已经有自动识别和提取网页正文的工具了 [加入收藏夹]   

redalpha
用户头衔:举人

精华贴   :0
发贴数   :146
经验值   :623
注册时间:2010-06-02
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 1 楼]
现在已经有自动识别和提取网页正文的工具了
还在用古老的编制规则的方式采集。




2018-10-21 14:19:12 已设置保密 顶部 回复 引用 报告 编辑 删除

飞机
用户头衔:进士

精华贴   :0
发贴数   :1474
经验值   :4477
注册时间:2008-02-26
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 2 楼]

只是部分网站可以




2018-10-21 19:20:31 已设置保密 顶部 回复 引用 报告 编辑 删除

redalpha
用户头衔:举人

精华贴   :0
发贴数   :146
经验值   :623
注册时间:2010-06-02
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 3 楼]

不是部分吧,你看url2io这个项目,基本上都可以。你觉得哪个不行呢,到其demo上测试。
官网www.url2io.com
测试地址:http://url2io.applinzi.com/products#url2article




2018-10-22 09:49:09 已设置保密 顶部 回复 引用 报告 编辑 删除

jiuhecai
用户头衔:探花

精华贴   :0
发贴数   :2986
经验值   :8508
注册时间:2014-07-02
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 4 楼]

我的单页面采集,也可以达到自动识别标题和正文,还有下一页



帝国插件 插件定制。帝国临时工。查杀顽固木马。专业解决难题。qq--110102296
2018-10-22 15:46:46 已设置保密 顶部 回复 引用 报告 编辑 删除

saintjordi
用户头衔:书生

精华贴   :0
发贴数   :111
经验值   :229
注册时间:2012-11-02
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 5 楼]

是有了



体育装备-www.verodillan.com
2019-09-15 20:07:43 已设置保密 顶部 回复 引用 报告 编辑 删除

快速回复
内容

表情
使用EBB代码 使用smile代码 显示签名 自动分析url 自动分析img
     【进入高级模式】   (按 Ctrl+Enter 直接提交)
    顶部  加入收藏夹
关于帝国 | 广告服务 | 联系我们 | 法律声明 | 隐私条款 | 许可协议
Powered by: EBB Version 2.2.1