栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python爬虫

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python爬虫

python爬虫基本库——从urllib库开始

urllib是python内置的HTTP请求库,它可以看作处理url组件的集合。urllin库包含四大模块分别是:

(1)urllib.request:请求模块

(1)urllib.error:异常处理模块

(3)urllib.parse:url解析模块

下面我们利用urllib模块快速爬取百度首页的内容:

import urllib.request  # 导入urlli.request请求模块

# 导入urllib.request库中的urlopen()方法,并传入百度的url
response = urllib.request.urlopen("http://www.baidu.com")
# 使用read()读取爬到的网页内容,并采用utf-8的编码方式
html = response.read().decode("utf-8")
print(html)

上述代码就是一个简单爬取网页的案例,爬取到的是整个百度页面的HTML内容。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/325962.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号