栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

网站为什么要反爬虫?

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

网站为什么要反爬虫?

互联网有很多业务或者说网页,是不需要用户进行登录的,这些不需要登录的页面,往往会包含大量的聚合信息,比如新闻门户网站、视频门户网站、搜索引擎,这些信息是公开的,是可以被爬虫抓取的。

一、网站为什么要反爬虫?
1、爬虫占总PV比例较高,浪费服务器资源
通过程序进行 URL 请求去获得数据的成本是很低的,这就造成大量低质量网页爬虫在网络横行,对目标网站产生大量的访问,导致目标网站的服务器资源大量消耗,轻则影响正常用户的访问速度,重则导致网站服务不可用。
2、公司可免费查询的资源被批量抓走,丧失竞争力
很多软件的价格可以在非登录状态下直接被查询,如果没有反爬虫,竞争对手就可以批量复制网页信息,抓取到软件的价格、资源等各种信息,时间长了企业的竞争力就会大大减少。

二、我们在反什么样的爬虫?
1.黄牛恶意竞争
黄牛党利用恶意爬虫遍历航空公司的低价票,同时批量发起机器请求进行占座,导致航班座位资源被持续占用产生浪费,最终引发航班空座率高对航空公司造成业务损失,并且损害正常用户的利益。
2.没人去停止的失控爬虫
互联网将近60%的访问量都是爬虫带来的,网站已经对这些爬虫程序进行了限制,阻止它们爬取数据,可这些爬虫依然孜孜不倦地运行着,即使抓取不到任何数据。这是因为一些托管在某些服务器上的爬虫,已经是无人认领的状态了,没有人停止。
3、同行竞争对手
企业需要数据来分析用户行为、自己产品的不足之处以及竞争对手的信息等,就会爬取竞争对手的信息,像电商类网站、招聘类网站就会爬取竞争对手的产品信息,为保证自己的产品竞争力,企业往往会针对此类爬虫。
4、网站点击欺诈
投放广告通常是为了触达符合网站定位的潜在消费者,而恶意爬虫造成的点击欺诈使得广告的点击率虚高,使得网站承担了本不应承担的点击费用,给网站造成实实在在的利益损失。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/313657.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号