爬虫学习日记 Day1 什么是request，respond，url，headers

注：这些知识只是必要的前件知识，没有必要打破沙锅问到底，只需了解即可

前件知识：

1.request和respond

request是爬虫向互联网发送请求，respond是互联网对爬虫的回应。

在我们实际对一个页面的操作就是这一步：

按下一个按键（google搜索关键词从而搜索内容）------>互联网对用户操作进行反馈，网页把源代码进行编译，产生图形界面让用户观看。

用户输入，向互联网发送请求

互联网对用户请求的响应

如图

对网页源代码进行编译解释，形成我们想要的网页

2.URL与Headers

而我们要给爬虫做的，就是模拟人类用户的过程。

headers的意思是请求头，在网页中，存在反爬机制，避免爬虫机器人去爬取数据，其中headers之中的User-Agent算一个

我们右键inspect（或者F12）就可以找到它。

用户在浏览器的操作User-Agent就是浏览器内核和用户操作系统的信息。

而如果使用爬虫，User-Agent则为使用爬虫的python信息。

网页通过检测User-Agent来检测是否为机器人爬虫。

回归正题，为了避免网页把我们的爬虫检测到，我们可以通过伪装成普通用户访问的操作。

操作步骤是：

headers = {'User-Agent':'User-Agent大全'}

记住格式就行，Google去搜索user-agent大全即可。注意这里格式一个都不能错。大小写，单引号，冒号必须为英文格式

URL是什么呢：

简单点理解，它就是一个地址

爬虫不可能像用户一样敲击回车或者按搜索键，所以我们需要信息URL地址，有了地址，我们就可以通过爬虫去访问。

我们学习了一些前件概念，什么是url，headers，request和respond是什么意思，这些只需了解即可，不必打破沙锅问到底，我们下一篇文章再见。