简单爬虫案例：抓取百度首页（易懂,内附源码）

目标：利用爬虫抓取百度首页

requests模块：

在这之前首先需要了解一下，什么是requests模块？

requests的底层实现就是urllib，它贯穿爬虫的始终！

在python中，我们要使用第三方库requests去发送网络请求

所以requests模块的作用：就是发送网络请求，返回响应数据

接下来就是要去下载它：利用： pip install requests -i https://pypi.douban.com/simple命令下载（注：在这下载出现问题的小伙伴们，可以私聊找我额，手把手教你如何成功下载！）

具体步骤：

0：导入requests模块

import requests

1：确定URL

在抓取某个网页之前，一定要做的必然就是确定所要抓取的网页；

我们所要的百度网页域名即是https://www.baidu.com/

保存在变量中

url='https://www.baidu.com/'

2：发送请求

这一步主要就是将上一步URL中的数据获取

我们就开始利用requests模块中的get方法获取URL网页数据，保存在response的变量当中

接下来需要来类型的转换利用text和content转换为字符串和字节类型

response=request.get(url)    #注：这里的response并不是数据
print（response）    #可以试着利用print打印看看是什么样的数据
str_data=response.text    #转换为字符串类型
bytes_data=response.content    #转换为字节类型
#爬虫爱好者们都可以试着去打印一下它们的类型以及变量中装这啥？

3：提取数据（略）

此步骤有许多许多种方式方法，在这里因为是重要的一个步骤，所以在此列出。

在抓取百度首页没有必要去筛选百度首页的数据，所以略~

想跟我学习的小伙伴们，关注我，一起学习！每天都要加油呃~

4：保存数据

保存数据，显而易见的就是为了将你在网页中抓取下来的数据保存在电脑中。

with open("baidu_01.html",'w',encoding="UTF-8")as f:
    f.write(str_data)
with open("baidu_02.html",'wb')as f:
    f.write(bytes_data)

with open（"文件名","标识符"",encoding="UTF-8")）as f：

f.write(需要存入文件的变量名)

可以理解为一个简单的语法格式，套上去即可。

标识符中：分为w与wb，分别为字符串和字节类型。区别在于wb下载下来保存的网页无乱码。因为网页为字节类型。

注：

文件操作：使用open进行文件操作使建议使用with创建运行环境，可以不用close()方法关闭文件，无论在文件使用中遇到什么问题都能安全的退出，即使发生错误，退出运行时环境时也能安全退出文件并给出报错信息。

with创建临时运行环境的作用：with用于创建一个临时的运行环境，运行环境中的代码执行完后自动安全退出环境。

最后的最后赋予大家们一个源代码：

import requests
url='https://www.baidu.com/'
response=requests.get(url)
str_data=response.text
bytes_data=response.content
with open("baidu_01.html",'w',encoding="utf-8")as f:
    f.write(str_data)
with open("baidu_02.html",'wb')as f:
    f.write(bytes_data)

简单爬虫案例：抓取百度首页（易懂,内附源码）

Python相关栏目本月热门文章