第一个Python爬虫程序丨Python基础实战系列(1)

提示：文末有福利！最新Python爬虫资料/学习指南>>戳我直达

文章目录

- 前言
- 获取网页html信息
- - - 1) 获取响应对象
    - 2) 输出HTML信息
- 常用方法
- - - 1) urlopen()
    - 2) Request()
    - 3) html响应对象方法
    - 4) 编码解码操作
- 小结

前言

本节编写一个最简单的爬虫程序，作为学习 Python 爬虫前的开胃小菜。

下面使用 Python 内置的 urllib 库获取网页的 html 信息。注意，urllib 库属于 Python 的标准库模块，无须单独安装，它是 Python 爬虫的常用模块。

话不多说，开练

获取网页html信息 1) 获取响应对象

向百度（http://www.baidu.com/）发起请求，获取百度首页的 HTML 信息，代码如下：

#导包,发起请求使用urllib库的request请求模块
import urllib.request
# urlopen()向URL发请求,返回响应对象,注意url必须完整
response=urllib.request.urlopen('http://www.baidu.com/')
print(response)

上述代码会返回百度首页的响应对象，其中 urlopen() 表示打开一个网页地址。注意：请求的 url 必须带有 http 或者 https 传输协议。

输出结果，如下所示：

上述代码也有另外一种导包方式，也就是使用 from，代码如下所示：

#发起请求使用urllib库的request请求模块
from urllib import request
response=request.urlopen('http://www.baidu.com/')
print(response)

2) 输出HTML信息

在上述代码的基础上继续编写如下代码：

#提取响应内容
html = response.read().decode('utf-8')
#打印响应内容
print(html)

输出结果如下，由于篇幅过长，此处只做了简单显示：

...

通过调用 response 响应对象的 read() 方法提取 HTML 信息，该方法返回的结果是字节串类型(bytes)，因此需要使用 decode() 转换为字符串。程序完整的代码程序如下：

import urllib.request
# urlopen()向URL发请求,返回响应对象
response=urllib.request.urlopen('http://www.baidu.com/')
# 提取响应内容
html = response.read().decode('utf-8')
# 打印响应内容
print(html)

通过上述代码获取了百度首页的 html 信息，这是最简单、最初级的爬虫程序。后续我们还学习如何分析网页结构、解析网页数据，以及存储数据等。

常用方法

在本节您认识了第一个爬虫库 urllib，下面关于 urllib 做简单总结。

1) urlopen()

表示向网站发起请求并获取响应对象，如下所示：

urllib.request.urlopen(url,timeout)

urlopen() 有两个参数，说明如下：

url：表示要爬取数据的 url 地址。
timeout：设置等待超时时间，指定时间内未得到响应则抛出超时异常。

2) Request()

该方法用于创建请求对象、包装请求头，比如重构 User-Agent（即用户代理，指用户使用的浏览器）使程序更像人类的请求，而非机器。重构 User-Agent 是爬虫和反爬虫斗争的第一步。在下一节会做详细介绍。

urllib.request.Request(url,headers)

参数说明如下：

url：请求的URL地址。
headers：重构请求头。

3) html响应对象方法

bytes = response.read() # read()返回结果为 bytes 数据类型
string = response.read().decode() # decode()将字节串转换为 string 类型
url = response.geturl() # 返回响应对象的URL地址
code = response.getcode() # 返回请求时的HTTP响应码

4) 编码解码操作

#字符串转换为字节码
string.encode("utf-8") 
#字节码转换为字符串
bytes.decode("utf-8")

小结

第一个Python爬虫程序丨Python基础实战系列(1) 就到这啦，在学爬虫的老铁记得持续关注！阿星祝你早日修炼成为爬虫大佬！当然，如果你准备系统地学爬虫及更多Python编程技术，可点我文末的二维码名片[Free领取精心准备的Python爬虫资料，还提供免费咨询、学习规划，你值得拥有~]

戳我名片 · 领取福利

第一个Python爬虫程序丨Python基础实战系列(1)

Python相关栏目本月热门文章