目标:利用爬虫抓取百度首页
requests模块:
在这之前首先需要了解一下,什么是requests模块?
requests的底层实现就是urllib,它贯穿爬虫的始终!
在python中,我们要使用第三方库requests去发送网络请求
所以requests模块的作用:就是发送网络请求,返回响应数据
接下来就是要去下载它:利用: pip install requests -i https://pypi.douban.com/simple命令下载(注:在这下载出现问题的小伙伴们,可以私聊找我额,手把手教你如何成功下载!)
具体步骤:
0:导入requests模块
import requests
1:确定URL
在抓取某个网页之前,一定要做的必然就是确定所要抓取的网页;
我们所要的百度网页域名即是https://www.baidu.com/
保存在变量中
url='https://www.baidu.com/'
2:发送请求
这一步主要就是将上一步URL中的数据获取
我们就开始利用requests模块中的get方法获取URL网页数据,保存在response的变量当中
接下来需要来类型的转换利用text和content转换为字符串和字节类型
response=request.get(url) #注:这里的response并不是数据 print(response) #可以试着利用print打印看看是什么样的数据 str_data=response.text #转换为字符串类型 bytes_data=response.content #转换为字节类型 #爬虫爱好者们都可以试着去打印一下它们的类型以及变量中装这啥?
3:提取数据(略)
此步骤有许多许多种方式方法,在这里因为是重要的一个步骤,所以在此列出。
在抓取百度首页没有必要去筛选百度首页的数据,所以略~
想跟我学习的小伙伴们,关注我,一起学习!每天都要加油呃~
4:保存数据
保存数据,显而易见的就是为了将你在网页中抓取下来的数据保存在电脑中。
with open("baidu_01.html",'w',encoding="UTF-8")as f:
f.write(str_data)
with open("baidu_02.html",'wb')as f:
f.write(bytes_data)
with open("文件名","标识符"",encoding="UTF-8"))as f:
f.write(需要存入文件的变量名)
可以理解为一个简单的语法格式,套上去即可。
标识符中:分为w与wb,分别为字符串和字节类型。区别在于wb下载下来保存的网页无乱码。因为网页为字节类型。
注:
文件操作:使用open进行文件操作使建议使用with创建运行环境,可以不用close()方法关闭文件,无论在文件使用中遇到什么问题都能安全的退出,即使发生错误,退出运行时环境时也能安全退出文件并给出报错信息。
with创建临时运行环境的作用:with用于创建一个临时的运行环境,运行环境中的代码执行完后自动安全退出环境。
最后的最后赋予大家们一个源代码:
import requests
url='https://www.baidu.com/'
response=requests.get(url)
str_data=response.text
bytes_data=response.content
with open("baidu_01.html",'w',encoding="utf-8")as f:
f.write(str_data)
with open("baidu_02.html",'wb')as f:
f.write(bytes_data)



