栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

Requests库网络爬取实例

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Requests库网络爬取实例


[](()2.亚马逊


当我们遇到状态码不是200,可能是网站存在识别反爬。

这是我们需要伪装成浏览器以躲过审查从而访问到网页

伪装前:

伪装后:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6Xhkuv3H-1651554817672)(https:/ 《一线大厂Java面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》无偿开源 威信搜索公众号【编程进阶路】 /img-blog.csdnimg.cn/20210703000131554.png)]

具体代码:

import requests

url = “”

try:

kv = {‘user-agent’:‘Mozilla/5.0’}

r = requests.get(url,headers=kv)

r.raise_for_status

r.encoding = r.apparent_encoding

print(r.text[100:1000])

except:

print(“异常”)

[](()3.百度360搜索关键字提交


import requests

keyword = “Python”

try:

Kv= {‘wd’:‘Python’}

r = requests.get(“http://www.baidu.com/s”,params=Kv)

print(r.request.url)

r.raise_for_status()

print(len(r.text))

except:

print(“错误”)

[](()4.图片爬取


from os import path

import requests

import os

root = “D://图片//”

url = “https://img1.baidu.com/it/u=3515647265,4278043926&fm=26&fmt=auto&gp=0.jpg”

path = root+url.split(‘/’)[-1]

try:

if not os.path.exists(root):

os.mkdir(root)
65,4278043926&fm=26&fmt=auto&gp=0.jpg"

path = root+url.split(‘/’)[-1]

try:

if not os.path.exists(root):

os.mkdir(root)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/854898.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号