python爬虫学习笔记（1）

什么是爬虫？

通过编写程序，模拟浏览器上网，然后去互联网上抓取数据的过程。

爬虫的价值：抓取互联网上的数据为我所用，有了大量的数据，就如同有了一个数据银行一样。通过对数据的分析可以获取自己觉得有用的信息。

爬虫在使用场景中的分类：

通用爬虫：抓取系统重要组成部分。抓取的是一整张页面数据。

聚焦爬虫：建立在通用爬虫基础上。抓取的是页面中特定的局部内容。

增量爬虫：检测网站中数据更新的情况。智慧抓取网站中最新更新出来的数据。

爬虫的矛与盾：

反爬机制：

相关网站可以通过指定相应策略或者技术手段，防止爬虫程序记性网站数据的爬取。

反反爬策略：

爬虫程序可以通过制定相关的策略或技术手段，破解门户网站具备的反爬机制，从而可以获取门户网页的数据。

Robots.txt协议：

君子协议（防“君子”，不防小人）。规定了网站中那些数据可以被爬取，那些数据不可以被爬取。

http协议（超文本传输协议）：

概念：服务器与客户端支架内进行数据交互的一种形式

常用请求头信息：

User-Agent：进行网络搜索的载体的身份标识。比如：用谷歌浏览器搜搜网页内容，User-Agent就是谷歌浏览器对应的版本系统等等信息。

Connection：请求成功后是断开连接还是保持连接。

常用响应头信息：

Conten-Type：服务器端相应回客户端的数据类型”

https协议：

安全的http协议（安全的：经过数据加密）

加密方式：

对称秘钥加密：客户端将数据加密后将密文和秘钥发送给服务器，由服务器接受信息。（被第三方拦截信息后，容易被破解信息。）

非对称秘钥加密：服务器告诉客户端使用自己发送给其的公钥进行数据加密，客户端将信息加密后将信息发送给服务器，服务器使用的自己的私钥对信息进行解密，得到完整信息。（效率比较低，第三方可以拦截公钥，将公钥拦截后通过篡改公钥使用户端接受到的公钥为第三方所掌有，达到窃取信息的目的）

证书秘钥加密：服务器端指定加密方式后，先将公钥发送给第三方证书认证机构，给公钥进行签名，再将经过签名后的公钥发送给客户端。用户端给服务器端传送信息时的方法也同理。