栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

1 爬虫是什么

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

1 爬虫是什么

一、爬虫的概念

        网络爬虫就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

        原则上,只要是客户端(浏览器)能做的事请,爬虫都能够做。

        爬虫也只能获取客户端(浏览器)所展示出来的数据。

二、爬虫的作用         1、数据采集

        a、抓取微博评论(机器学习,舆情监控)

        b、抓取招聘网站的招聘信息(数据分析、挖掘)

        c、新浪滚动新闻

        d、百度新闻网站

        2、软件测试

        a、爬虫之自动化测试

        b、虫师(博客) 

        3、12306抢票         4、网站投票(刷票)         5、网络安全

        a、短信轰炸---注册页面

        b、web漏洞扫描

三、爬虫的分类         1、根据被爬取网站的数量不同,可分为:

        a、通用爬虫  如搜索引擎

        b、聚焦爬虫  特定网站(2)

        2、根据是否以获取数据为目的,可以分为:

        a、功能性爬虫 如投票、点赞

        b、数据增量爬虫 如招聘信息(3)

        3、根据url地址和对应的页面内容是否改变,数据增量爬虫可以分为:

        a、基于url地址变化、内容也随之变化的数据增量爬虫        

        b、url地址不变,内容变化的数据增量爬虫

四、爬虫的流程(原理)

1、获取一个url

2、向url发送请求,并获取响应(需要http协议)

3、如果从响应中提取url,则继续发送请求获取响应

4、如果从响应中提取数据,则将数据进行保存

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/293522.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号