栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

告诉机器人除人类访客以外的其他统计信息?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

告诉机器人除人类访客以外的其他统计信息?

人类和机器人会做类似的事情,但是机器人会做人类不会做的事情。让我们尝试识别那些东西。在研究行为之前,让我们接受RayQuang的评论是有用的。如果访问者具有漫游器的用户代理字符串,则可能是漫游器。我无法将使用“ Google
Crawler”(或类似的东西)的任何人想象成UA,除非他们正在努力破坏某些东西。我知道您不希望手动更新列表,而是自动拉动一个列表应该是好的,即使它在接下来的十年中保持陈旧状态,也将有所帮助。

有些人已经提到了Javascript和图像加载,但是Google会两者兼而有之。我们必须假设现在有几个机器人可以同时做这两个,所以这些不再是人类的指标。但是,僵尸程序仍将唯一执行的操作是跟随“不可见”链接。以用户无法看到的非常偷偷摸摸的方式链接到页面。如果能够做到这一点,我们就有了一个机器人。

漫游器通常会(尽管并非总是如此)尊重robots.txt。用户不在乎robots.txt,我们可以假定检索robots.txt的任何人都是机器人。不过,我们可以更进一步,将虚拟CSS页面链接到robots.txt排除的页面。如果我们的普通CSS已加载,但我们的虚拟CSS没有加载,那肯定是机器人。您必须通过IP构建(可能是内存中的)负载表,并进行不包含在匹配中的表,但这确实是一个很可靠的判断。

因此,要使用所有这些方法:通过ip地址维护bot的数据库表,可能会有时间戳限制。添加不可见链接之后的所有内容,添加可加载“真实”
CSS但忽略robots.txt
CSS的所有内容。也许还要添加所有robots.txt下载器。过滤用户代理字符串作为最后一步,并考虑使用它来进行快速的统计分析,并查看这些方法在识别我们所知道的机器人方面发挥了多大作用。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/594814.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号