帝国论坛帝国网站管理系统交流区采集使用交流[求助]请问采集这个页面的分页正则怎么写? 【本版专题贴子】  
 1/2     1 2 ›› ›|
主题:[求助]请问采集这个页面的分页正则怎么写? [加入收藏夹]   

夏威夷海盗
用户头衔:进士

精华贴   :1
发贴数   :742
经验值   :3036
注册时间:2005-10-17
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 1 楼]
[求助]请问采集这个页面的分页正则怎么写?
http://www.pconline.com.cn/notebook/testing/0602/760952.html


等待ing



抖音:babyucan
2006-03-01 12:04:18 已设置保密 顶部 回复 引用 报告 编辑 删除

wm_chief
用户头衔:管理员

精华贴   :21
发贴数   :48941
经验值   :114161
注册时间:2002-10-30
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 2 楼]

以下是正则,没有测试,你试一下吧(请不要复制下面的代码,复制原文件的代码,因为空格论坛会替换成&nbsp)

1.选择列表式

2.区域正则
<table width="572" border="0" cellpadding="6" cellspacing="0" background="http://www.pconline.com.cn/images/point.gif">[!--smallpageallzz--]下一页

3.链接正则:
<a href="[!--pageallzz--]"



[零基础入门教程] [模板制作教程] [采集使用教程]
2006-03-01 12:14:01 已设置保密 顶部 回复 引用 报告 编辑 删除

夏威夷海盗
用户头衔:进士

精华贴   :1
发贴数   :742
经验值   :3036
注册时间:2005-10-17
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 3 楼]

不行啊

我改成这样了,不是说“[“前面要加\\么?

<table width="572" border="0" cellpadding="6" cellspacing="0" background="http://www.pconline.com.cn/images/point.gif">[!--smallpageallzz--]\\[下一页\\]

不过这样也不行



抖音:babyucan
2006-03-01 12:29:11 已设置保密 顶部 回复 引用 报告 编辑 删除

wm_chief
用户头衔:管理员

精华贴   :21
发贴数   :48941
经验值   :114161
注册时间:2002-10-30
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 4 楼]

你自己多试一下吧。



[零基础入门教程] [模板制作教程] [采集使用教程]
2006-03-01 12:44:44 已设置保密 顶部 回复 引用 报告 编辑 删除

夏威夷海盗
用户头衔:进士

精华贴   :1
发贴数   :742
经验值   :3036
注册时间:2005-10-17
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 5 楼]

。。。。。。。。。继续求助。。。。。。



抖音:babyucan
2006-03-01 12:59:39 已设置保密 顶部 回复 引用 报告 编辑 删除

rockguitar
用户头衔:书生

精华贴   :0
发贴数   :34
经验值   :130
注册时间:2006-02-03
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 6 楼]

wc是好淫!



完美生活.99广安论坛
2006-03-01 13:13:20 已设置保密 顶部 回复 引用 报告 编辑 删除

夏威夷海盗
用户头衔:进士

精华贴   :1
发贴数   :742
经验值   :3036
注册时间:2005-10-17
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 7 楼]

是啊,帮忙帮到底了,我研究不透。。。弄半天都不行。。。



抖音:babyucan
2006-03-01 13:15:38 已设置保密 顶部 回复 引用 报告 编辑 删除

wm_chief
用户头衔:管理员

精华贴   :21
发贴数   :48941
经验值   :114161
注册时间:2002-10-30
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 8 楼]

正则看下面链接,本地测试完全ok:

http://www.phome.net/doc/ecms/zz/pconline.html

注意看一下内容正则



[零基础入门教程] [模板制作教程] [采集使用教程]
2006-03-01 13:41:32 已设置保密 顶部 回复 引用 报告 编辑 删除

夏威夷海盗
用户头衔:进士

精华贴   :1
发贴数   :742
经验值   :3036
注册时间:2005-10-17
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 9 楼]
还是不行,,,
WC老大,你提供的正则确定通过测试了么?只有最新的一篇文章还有第一页的内容在,其他的都没有内容。

我把正文正则:

"></IFRAME>[!--newstext--]<br clear=all>

可以采集第一页的内容,也不用过滤广告。

但是分页还是搞不定。你提供的

<font STYLE='color:#FF0000;'>[!--smallpageallzz--]下一页

我没有测试成功。

而且最下面提示:

3.对于特殊字符请在前面加上“\\”,当然直接将特殊字符改为“*”最合适了。特殊字符如下:
),(,{,},[,],\,?

上面的分页正则是不是应该是?

<font STYLE='color:#FF0000;'>[!--smallpageallzz--]\\[下一页

还是没有成功。

并没有表示什么意思,有问题大家一起讨论解决哦。哪位兄弟也帮忙测试一下采集PCONLINE的信息。。谢了。。



抖音:babyucan
2006-03-01 17:37:07 已设置保密 顶部 回复 引用 报告 编辑 删除

wm_chief
用户头衔:管理员

精华贴   :21
发贴数   :48941
经验值   :114161
注册时间:2002-10-30
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 10 楼]

请一模一样的参照上面,不要自己乱写正则。来否定别人的东东



[零基础入门教程] [模板制作教程] [采集使用教程]
2006-03-01 17:46:13 已设置保密 顶部 回复 引用 报告 编辑 删除
 1/2     1 2 ›› ›|

快速回复
内容

表情
使用EBB代码 使用smile代码 显示签名 自动分析url 自动分析img
     【进入高级模式】   (按 Ctrl+Enter 直接提交)
    顶部  加入收藏夹
关于帝国 | 广告服务 | 联系我们 | 法律声明 | 隐私条款 | 许可协议
Powered by: EBB Version 2.2.1