栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python爬虫

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python爬虫

文章目录
  • 爬虫
  • requests
    • 安装requests
    • 获取网页
    • 图片下载

爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
爬虫流程分为三步:
1.爬取网页。
2.根据前端的语法或者正则表达式提取数据。
3.保存网页。

requests

第三方库中的模块,通过网址向服务器发送请求,等待服务器的响应结果。

安装requests
pip install requests
获取网页

一般网站都有反爬机制,因此我们需要做最基本的UA伪装。

URL = 'https://www.bilibili.com/'
# 向B站发送请求,获取B站服务器的响应结果
response = requests.get(url=URL)
print(response)
# status_code:状态码 --> 判断服务器和网页状态
print(response.status_code)
# text:页面源代码(字符串类型)
print(response.text, type(response.text))
图片下载
import requests
URL = 'https://game.gtimg.cn/images/yxzj/coming/v2/skins//image/20220623/16559919637365.jpg'
response = requests.get(url=URL)
if response.status_code == 200:
    print(response.content)
    # 将图片写入本地文件
    photo = open('1.jpg', 'wb')
    photo.write(response.content)
    photo.close()
else:
    print(f'状态码:{response.status_code}')
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/1005366.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号