栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

简单爬虫案例:抓取百度首页(易懂,内附源码)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

简单爬虫案例:抓取百度首页(易懂,内附源码)

目标:利用爬虫抓取百度首页

requests模块:

在这之前首先需要了解一下,什么是requests模块?

requests的底层实现就是urllib,它贯穿爬虫的始终!

在python中,我们要使用第三方库requests去发送网络请求

所以requests模块的作用:就是发送网络请求,返回响应数据

接下来就是要去下载它:利用: pip install requests -i https://pypi.douban.com/simple命令下载(注:在这下载出现问题的小伙伴们,可以私聊找我额,手把手教你如何成功下载!)

具体步骤:

0:导入requests模块

import requests

1:确定URL

在抓取某个网页之前,一定要做的必然就是确定所要抓取的网页;

我们所要的百度网页域名即是https://www.baidu.com/

保存在变量中

url='https://www.baidu.com/'

2:发送请求

这一步主要就是将上一步URL中的数据获取

我们就开始利用requests模块中的get方法获取URL网页数据,保存在response的变量当中

接下来需要来类型的转换利用text和content转换为字符串和字节类型

response=request.get(url)    #注:这里的response并不是数据
print(response)    #可以试着利用print打印看看是什么样的数据
str_data=response.text    #转换为字符串类型
bytes_data=response.content    #转换为字节类型
#爬虫爱好者们都可以试着去打印一下它们的类型以及变量中装这啥?

3:提取数据(略)

此步骤有许多许多种方式方法,在这里因为是重要的一个步骤,所以在此列出。

在抓取百度首页没有必要去筛选百度首页的数据,所以略~

想跟我学习的小伙伴们,关注我,一起学习!每天都要加油呃~

4:保存数据

保存数据,显而易见的就是为了将你在网页中抓取下来的数据保存在电脑中。

with open("baidu_01.html",'w',encoding="UTF-8")as f:
    f.write(str_data)
with open("baidu_02.html",'wb')as f:
    f.write(bytes_data)

with open("文件名","标识符"",encoding="UTF-8"))as f:

        f.write(需要存入文件的变量名)

可以理解为一个简单的语法格式,套上去即可。

标识符中:分为w与wb,分别为字符串和字节类型。区别在于wb下载下来保存的网页无乱码。因为网页为字节类型。

注:

文件操作:使用open进行文件操作使建议使用with创建运行环境,可以不用close()方法关闭文件,无论在文件使用中遇到什么问题都能安全的退出,即使发生错误,退出运行时环境时也能安全退出文件并给出报错信息。

with创建临时运行环境的作用:with用于创建一个临时的运行环境,运行环境中的代码执行完后自动安全退出环境。

最后的最后赋予大家们一个源代码:

import requests
url='https://www.baidu.com/'
response=requests.get(url)
str_data=response.text
bytes_data=response.content
with open("baidu_01.html",'w',encoding="utf-8")as f:
    f.write(str_data)
with open("baidu_02.html",'wb')as f:
    f.write(bytes_data)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/688620.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号