栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫学习日记 Day1 什么是request,respond,url,headers

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫学习日记 Day1 什么是request,respond,url,headers

注:这些知识只是必要的前件知识,没有必要打破沙锅问到底,只需了解即可

前件知识:

1.request和respond

request是爬虫向互联网发送请求,respond是互联网对爬虫的回应。

在我们实际对一个页面的操作就是这一步:

按下一个按键(google搜索关键词从而搜索内容)------>互联网对用户操作进行反馈,网页把源代码进行编译,产生图形界面让用户观看。


用户输入 ,向互联网发送请求

互联网对用户请求的响应

 如图

 对网页源代码进行编译解释,形成我们想要的网页

 


2.URL与Headers

 而我们要给爬虫做的,就是模拟人类用户的过程。

headers的意思是请求头,在网页中,存在反爬机制,避免爬虫机器人去爬取数据,其中headers之中的User-Agent算一个

我们右键inspect(或者F12)就可以找到它。 

用户在浏览器的操作User-Agent就是浏览器内核和用户操作系统的信息。

而如果使用爬虫,User-Agent则为使用爬虫的python信息。

网页通过检测User-Agent来检测是否为机器人爬虫。

回归正题,为了避免网页把我们的爬虫检测到,我们可以通过伪装成普通用户访问的操作。

操作步骤是:

headers = {'User-Agent':'User-Agent大全'}

记住格式就行,Google去搜索user-agent大全即可。注意这里格式一个都不能错。大小写,单引号,冒号必须为英文格式

URL是什么呢:

简单点理解,它就是一个地址

 爬虫不可能像用户一样敲击回车或者按搜索键,所以我们需要信息URL地址,有了地址,我们就可以通过爬虫去访问。

我们学习了一些前件概念,什么是url,headers,request和respond是什么意思,这些只需了解即可,不必打破沙锅问到底,我们下一篇文章再见。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/689493.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号