栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python爬虫系列06——requests模块(1)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python爬虫系列06——requests模块(1)

系列目录

上一篇:05、Python爬虫之正则表达式常用方法(超全)


目录
  • 系列目录
  • 前言
  • 一、浏览器的来源
  • 二、request模块
    • 1、安装request模块
    • 2、get请求和post请求初识
  • 总结


前言

从这节开始,我们将进入requests模块的学习,本想直接了当的讲解它的各种使用方法和注意事项,但是想了想还是决定来唠嗑一下它的原理,方便大家对爬虫有一个直观的理解。后面码文,都会在前言附加上关键字,方便快速了解全文重点,按需取用。

关键字:浏览器认识、requests模块初识


一、浏览器的来源

相信大家对浏览器都不陌生了,在手机电脑或者其他电子设备都可以看到它的身影。而requests模块,它的原理本身就是模拟浏览器,向服务器端发送请求。

我们在搜索引擎输入关键词,就会出现URL列表(这里就简单说是网址吧)包含各种简单的信息。一点击访问,我们就拿到了相应的页面内容,那么搜索引擎是怎么知道这些URL的呢?

假设每个人都有一个网站,一个人对应一个URL。现在我们想要访问小胖的网站,需记住小胖的域名,即www.xiaopang.com。这不轻轻松松,我们马上就记住了。然而,当你要访问李华、李波、张三…的网站。于是我们就分别需要记住:www.lihua.com
www.libo.com www.zhangsan.comand so on,而这是不现实的,可能会出现以下两种情况:

  • 随着你需要访问的人数增加,域名需要记得越来越多。
  • 倘若你要访问的人,他的名字有点拗口。例如乾隆皇帝的全称:高宗法天隆运至诚先觉体元立极敷文奋武钦明孝慈神圣纯皇帝,那么你访问它:www.乾隆皇帝全称.com (拼音君已下线)

那怎么解决以上两点问题呢?每个上网的用户都拿个小本本把别人的信息记录下来,类似于路由表那样,但这样依然无法不是太好,总不能人手一本走天下吧。于是,出现了一个专门做这个事情的人——浏览器。

浏览器来自不同公司的搜索引擎,它们把尽可能的把所有网址记录下来,并给他们标上关键字,例如:

小胖——海鲜老板,李华——人工智能,张三——法外狂徒

这样关键字与网址就形成了映射关系,再按照关键字对各个网站进行分类,当你在浏览器的搜索引擎输入关键字,浏览器便会为你匹配到对应的网络列表(到了这里,就是咋们平常最熟悉的环节)。所以百度、谷歌等类似于中间商,他们所做的工作重点便是替你整理和保管这个小本本,使网站与关键字形成映射关系,方便你依照关键字进行筛选匹配。

二、request模块 1、安装request模块

在终端输入:pip install requests

2、get请求和post请求初识
  • 对于get,一般不用登录,可以直接拿取页面
import requests

response = requests.get("https://www.sogou.com/")
print(response.text)   #拿到了文本信息

结果如下: