栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > PHP > php开源框架 > dedecms

织梦火车头采集文章列表地址列表错误URL没有协议头是//解决方法

dedecms 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

织梦火车头采集文章列表地址列表错误URL没有协议头是//解决方法

今天打开火车头采集器需要更新下织梦网站,可是点了开始后发现错误了重新修改了列表采集规则。没仔细看等抓完300多个连接导入数据库时发生错了,仔细一看该目标站的文章列表页将文章url地址做了处理。

   表现:

   常规的文章列表文章URL应该是  才对,而该站处理成了,就是把协议头https或者http给取消了,这个 在一定程度上是可以防范很多采集程序,软件,爬虫的。采集后的地址列表会多一层网址,就成了https://www.dede58.com/www.dede58.com/URL.html,这样的话就无法正确采集内容了。

   

解决方法:

   在网址获取选项里点选“手动填写链接地址规则”,

   右侧脚本规则填写【a class="item" href="[参数]" title="(*)" target="_blank">】这里的参数就是原始目前的不带协议头的网址。

    实际连接:填写【http:[参数1]】如果该网站是https的这里就填写【https:[参数1]】

   结果:

   以上操作后点获取网址测试正确,从采集,入库等都OK了。

    PS:

    这个网址问题以前看到过,用DEDECMS织梦采集就是网址错误,今天在火车头上总算是解决了。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/5225.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号