帝国论坛帝国网站管理系统交流区采集使用交流能否获得目标采集页面的网址? 【本版专题贴子】  
主题:能否获得目标采集页面的网址? [加入收藏夹]   

daoing
用户头衔:秀才

精华贴   :0
发贴数   :82
经验值   :481
注册时间:2005-06-10
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 1 楼]
能否获得目标采集页面的网址?
比如,我采集了新浪体育栏目列表中的一篇新闻,我想在我的新闻页面中标准:来源地址,那么,如何获得这条新闻的原始网址呢?




2006-07-25 18:32:58 已设置保密 顶部 回复 引用 报告 编辑 删除

wm_chief
用户头衔:管理员

精华贴   :21
发贴数   :48941
经验值   :114161
注册时间:2002-10-30
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 2 楼]

标题图片



[零基础入门教程] [模板制作教程] [采集使用教程]
2006-07-25 19:04:05 已设置保密 顶部 回复 引用 报告 编辑 删除

daoing
用户头衔:秀才

精华贴   :0
发贴数   :82
经验值   :481
注册时间:2005-06-10
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 3 楼]

老大,我是说的网址不是标题图片啊
比如,我从新浪的http://sports.sina.com.cn/chinaa/old/这个页面采集文章,

第19轮精彩回顾 大羽完美弧线曲波显狂态(组图)
巴西俱乐部蓝狮小将发挥出色 热身赛活跃闪耀全场
国安金德之战前瞻:历史战绩悬殊 主场失分成看点

那么,我如何能采集到这些新闻页面对应的网址呢?因为都在地址栏,所以不知道该如何搞定啊。

比如
第19轮精彩回顾 大羽完美弧线曲波显狂态(组图)
巴西俱乐部蓝狮小将发挥出色 热身赛活跃闪耀全场
国安金德之战前瞻:历史战绩悬殊 主场失分成看点

对应的网址如下:
http://sports.sina.com.cn/j/2006-07-25/19042360142.shtml
http://sports.sina.com.cn/j/2006-07-25/18552360139.shtml
http://sports.sina.com.cn/j/2006-07-25/18142360117.shtml




2006-07-25 19:15:48 已设置保密 顶部 回复 引用 报告 编辑 删除

phamlily
用户头衔:进士 *

精华贴   :1
发贴数   :1442
经验值   :2557
注册时间:2006-03-28
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 4 楼]

想在来源里链接新闻来源信息的具体网址?这个可能得自己手动添了。而且不适合标明在“来源”里,估计要自己手动一篇篇添加。

一般都是只注明来源网站,而没有来源具体哪一篇网页的。



我是菜鸟……跳过……
2006-07-26 15:51:44 已设置保密 顶部 回复 引用 报告 编辑 删除

daoing
用户头衔:秀才

精华贴   :0
发贴数   :82
经验值   :481
注册时间:2005-06-10
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 5 楼]

wm_chief 老大,我按照你说的“标题图片”,确实可以通过在标题图片设好正则获得采集页的网址。
可是,随之而来的问题是,因为我要获得的网址肯定和要采集的链接地址一样,所以,预览的结果是,只要标题图片的网址链接采集正确,那么上面的采集链接网址里面就多了http://…………[phome-titlepic]…………[/phome-titlepic]…….html。

我发现[phome-titlepic]和[/phome-titlepic]之间的字符正好是和标题图片的一样的。从另一个帖子http://wtbbs.phome.net/ShowThread/?threadid=11423&forumid=32中你的回复看,看来也是因为“链接地址与标题图片不能重叠”所导致。

那么,有什么去掉[phome-titlepic]和[/phome-titlepic],或者,有没有其他能够能否获得目标采集页面的网址的办法呢?

我真的很需要,因为现在网络转载版权更严格了,所以,我想把转载的每一篇都留下来源页面的地址。




2006-07-26 22:43:13 已设置保密 顶部 回复 引用 报告 编辑 删除

wm_chief
用户头衔:管理员

精华贴   :21
发贴数   :48941
经验值   :114161
注册时间:2002-10-30
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 6 楼]

标题图片与链接不能是同一个地方的



[零基础入门教程] [模板制作教程] [采集使用教程]
2006-07-27 15:30:34 已设置保密 顶部 回复 引用 报告 编辑 删除

daoing
用户头衔:秀才

精华贴   :0
发贴数   :82
经验值   :481
注册时间:2005-06-10
信息 搜索 好友 发送悄悄话 精益求精-帝国网站管理系统7.5正式版开源发布】   [第 7 楼]

对老大说的“标题图片与链接不能是同一个地方的”,还是有点不太明白啊。
像http://sports.sina.com.cn/date_2006/7.27.shtml,这一个页面里面的每篇文章的链接都有一个,那么,如果我想通过标题图片这个正则获得每篇文章的网址的话,在“信息页链接正则”和“标题图片正则”这两部分该填写什么才行呢?

麻烦了。




2006-07-27 18:42:33 已设置保密 顶部 回复 引用 报告 编辑 删除

xx.oo
用户头衔:书生

精华贴   :0
发贴数   :17
经验值   :79
注册时间:2006-06-07
信息 搜索 好友 发送悄悄话 免费开源-EBMA系统:更安全的MYSQL管理和备份系统】   [第 8 楼]

学习中!




2006-07-28 14:42:43 已设置保密 顶部 回复 引用 报告 编辑 删除

快速回复
内容

表情
使用EBB代码 使用smile代码 显示签名 自动分析url 自动分析img
     【进入高级模式】   (按 Ctrl+Enter 直接提交)
    顶部  加入收藏夹
关于帝国 | 广告服务 | 联系我们 | 法律声明 | 隐私条款 | 许可协议
Powered by: EBB Version 2.2.1