栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python爬虫学习笔记(1)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python爬虫学习笔记(1)

什么是爬虫?

       通过编写程序,模拟浏览器上网,然后去互联网上抓取数据的过程。

       爬虫的价值:抓取互联网上的数据为我所用,有了大量的数据,就如同有了一个数据银行一样。通过对数据的分析可以获取自己觉得有用的信息。

爬虫在使用场景中的分类:

       通用爬虫:抓取系统重要组成部分。抓取的是一整张页面数据。

       聚焦爬虫:建立在通用爬虫基础上。抓取的是页面中特定的局部内容。

       增量爬虫:检测网站中数据更新的情况。智慧抓取网站中最新更新出来的数据。

爬虫的矛与盾:

       反爬机制:

              相关网站可以通过指定相应策略或者技术手段,防止爬虫程序记性网站数据的爬取。

       反反爬策略:

              爬虫程序可以通过制定相关的策略或技术手段,破解门户网站具备的反爬机制,从而可以获取门户网页的数据。

       Robots.txt协议:

              君子协议(防“君子”,不防小人)。规定了网站中那些数据可以被爬取,那些数据不可以被爬取。

       http协议(超文本传输协议):

              概念:服务器与客户端支架内进行数据交互的一种形式

              常用请求头信息:

                     User-Agent:进行网络搜索的载体的身份标识。比如:用谷歌浏览器搜搜网页内容,User-Agent就是谷歌浏览器对应的版本系统等等信息。

                     Connection:请求成功后是断开连接还是保持连接。

              常用响应头信息:

                     Conten-Type:服务器端相应回客户端的数据类型”

       https协议:

              安全的http协议(安全的:经过数据加密)

              加密方式:

                     对称秘钥加密:客户端将数据加密后将密文和秘钥发送给服务器,由服务器接受信息。(被第三方拦截信息后,容易被破解信息。)

                     非对称秘钥加密:服务器告诉客户端使用自己发送给其的公钥进行数据加密,客户端将信息加密后将信息发送给服务器,服务器使用的自己的私钥对信息进行解密,得到完整信息。(效率比较低,第三方可以拦截公钥,将公钥拦截后通过篡改公钥使用户端接受到的公钥为第三方所掌有,达到窃取信息的目的)

                     证书秘钥加密:服务器端指定加密方式后,先将公钥发送给第三方证书认证机构,给公钥进行签名,再将经过签名后的公钥发送给客户端。用户端给服务器端传送信息时的方法也同理。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/829280.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号