在采集页面中有特殊字符,标题和页面内容,采集不成功。怎样过滤特殊字符?
系统里面的说明 3.对于特殊字符请在前面加上“\\”,当然直接将特殊字符改为“*”最合适了。特殊字符如下: ),(,{,},[,],\,?
对这个不理解,没明白怎么替换。
已经在整体页面替换和替换(针对标题和内容)进行了如下替换: 将),(,{,},[,],\,?,替换为\\),\\(,\\{,\\},\\[,\\],\\\,\\?,
采集还是不成功,提示标题为空不采集。
采集页面:http://gongwuyuan.kswchina.com/xingzheng/yybd/625898.html
请高手指点迷津。
|