帝国论坛帝国网站管理系统交流区帝国CMS使用交流采集简单教程 【本版专题贴子】  
 1/2     1 2 ›› ›|
主题:采集简单教程 [加入收藏夹]   

tjingxian
用户头衔:举人 *

精华贴   :0
发贴数   :375
经验值   :1375
注册时间:2005-04-29
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 1 楼]
采集简单教程
王老大的采集教程好是好,但新手不易看懂,所以我做了一个更简单的,希望对大家有用。

采集对象就是帝国主页上PHP编程。

首先要明白采集也就和大家读网页一下,只不过读的对象由人变成了程序,所以我们要让程序知道在网页中什么地方要,什么地方不要,那些正则的作用就在这里。

先大家准备采集的工具DW,我们菜鸟们要用它来分析网页的表格结构,因为像孟孟大虾这样的人物他们只要看看代码就行了,偶们可没这么厉害。

接着继续了……




2005-09-01 03:45:29 已设置保密 顶部 回复 引用 报告 编辑 删除

tjingxian
用户头衔:举人 *

精华贴   :0
发贴数   :375
经验值   :1375
注册时间:2005-04-29
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 2 楼]

我将采集HTML发上来,大家参考一下,然后分别讲一下这些正则是怎么出来的。

上传以下附件:
[下载 *.htm](文件大小:18.79 KB,下载次数:112)




2005-08-31 15:49:07 已设置保密 顶部 回复 引用 报告 编辑 删除

wm_chief
用户头衔:管理员

精华贴   :21
发贴数   :48941
经验值   :114161
注册时间:2002-10-30
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 3 楼]

先谢谢tjingxian,不过例子,教程上有很多的



[零基础入门教程] [模板制作教程] [采集使用教程]
2005-08-31 15:59:38 已设置保密 顶部 回复 引用 报告 编辑 删除

tjingxian
用户头衔:举人 *

精华贴   :0
发贴数   :375
经验值   :1375
注册时间:2005-04-29
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 4 楼]

首先分析信息链接区域正则:

打开http://www.phome.net

然后查看它的源代码

打开DW,新建一HTML文件,将源代码粘贴到代码视窗,这样孟孟网站的首页就被偶搞下来了。

接着切换到设计窗口,找到PHP编程栏,用鼠标选中PHP编程的表格,这里就是我们要的信息链接区域,我截图说明。

上传以下图片:





2005-08-31 16:02:20 已设置保密 顶部 回复 引用 报告 编辑 删除

tjingxian
用户头衔:举人 *

精华贴   :0
发贴数   :375
经验值   :1375
注册时间:2005-04-29
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 5 楼]

接下来看这一图

上传以下图片:





2005-08-31 16:04:26 已设置保密 顶部 回复 引用 报告 编辑 删除

tjingxian
用户头衔:举人 *

精华贴   :0
发贴数   :375
经验值   :1375
注册时间:2005-04-29
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 6 楼]

下面是分析,这是最重要的一部分,因为每个正则都是用这种分析得出来的。

我们分换到代码视窗

第一张图是整个信息链接区域表格,第二张图是我们要采集的内容,

然后分别看看选中以上两个图的表格时的代码抺黑部份的差别,我帖图说明。

第一图是黑色部分,第二图是黄线之内的部分(由于代码很长,截图不全,但有这么多做说明足够了。)

通过分析我们可能得出结论,信息链接区域正则由以上代码构成,只要将黄线内的代码用[!--smallurl--]表示就可以了,这样我们通过用DW分析网页的表格结构很轻易的就得到了信息链接区域正则。

上传以下图片:





2005-08-31 16:21:53 已设置保密 顶部 回复 引用 报告 编辑 删除

tjingxian
用户头衔:举人 *

精华贴   :0
发贴数   :375
经验值   :1375
注册时间:2005-04-29
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 7 楼]

通过替换,我们得到了如图所示的内容,而这部分内容的代码正是信息链接区域正则



上传以下图片:





2005-08-31 16:26:41 已设置保密 顶部 回复 引用 报告 编辑 删除

tjingxian
用户头衔:举人 *

精华贴   :0
发贴数   :375
经验值   :1375
注册时间:2005-04-29
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 8 楼]

接下来是信息页链接正则:

照样看图说话,我要选中表格中的一行

++++++++++++++++++++++++++++++++++++++
有点晕,传上来的图改不了,这个图有点错,红框只画到日期前,跟下一帖对应。



上传以下图片:


[该贴被修改 2 次,最后修改时间 2005-08-31 16:47:00 ]



2005-08-31 16:30:37 已设置保密 顶部 回复 引用 报告 编辑 删除

tjingxian
用户头衔:举人 *

精华贴   :0
发贴数   :375
经验值   :1375
注册时间:2005-04-29
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 9 楼]

然后切换到代码视窗,在这里我们按照孟孟写的说明:

信息页链接正则:
截取的地方加上  
如:<a href="新闻链接">标题</a>
正则就是:
<a href="[!--newsurl--]">*</a>

我们将这一行的代码中的a href=后的链接地址用[!--newsurl--]替换,将标题用*号替换就得到了所需要的信息页链接正则。

看图

上传以下图片:





2005-08-31 16:41:53 已设置保密 顶部 回复 引用 报告 编辑 删除

tjingxian
用户头衔:举人 *

精华贴   :0
发贴数   :375
经验值   :1375
注册时间:2005-04-29
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 10 楼]

通过上面两个例子的分析,我们可以很简单的得到想要正则,关健是发将表格结构分析清楚,将要的内容用标签替代就行了。

剩下的部分还要说下去吗?

我个人觉帝国的采集其实很简单,只不过是大家没有掌握方法而已。

由于时间关系,今天只能写到这了,如果大家觉得有必要将下面部分写完的话就跟帖说明一下,我明天继续。




2005-08-31 16:57:33 已设置保密 顶部 回复 引用 报告 编辑 删除
 1/2     1 2 ›› ›|

快速回复
内容

表情
使用EBB代码 使用smile代码 显示签名 自动分析url 自动分析img
     【进入高级模式】   (按 Ctrl+Enter 直接提交)
    顶部  加入收藏夹
关于帝国 | 广告服务 | 联系我们 | 法律声明 | 隐私条款 | 许可协议
Powered by: EBB Version 2.2.1