[](()2.亚马逊
当我们遇到状态码不是200,可能是网站存在识别反爬。
这是我们需要伪装成浏览器以躲过审查从而访问到网页
伪装前:
伪装后:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6Xhkuv3H-1651554817672)(https:/ 《一线大厂Java面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》无偿开源 威信搜索公众号【编程进阶路】 /img-blog.csdnimg.cn/20210703000131554.png)]
具体代码:
import requests
url = “”
try:
kv = {‘user-agent’:‘Mozilla/5.0’}
r = requests.get(url,headers=kv)
r.raise_for_status
r.encoding = r.apparent_encoding
print(r.text[100:1000])
except:
print(“异常”)
[](()3.百度360搜索关键字提交
import requests
keyword = “Python”
try:
Kv= {‘wd’:‘Python’}
r = requests.get(“http://www.baidu.com/s”,params=Kv)
print(r.request.url)
r.raise_for_status()
print(len(r.text))
except:
print(“错误”)
[](()4.图片爬取
from os import path
import requests
import os
root = “D://图片//”
url = “https://img1.baidu.com/it/u=3515647265,4278043926&fm=26&fmt=auto&gp=0.jpg”
path = root+url.split(‘/’)[-1]
try:
if not os.path.exists(root):
os.mkdir(root)
65,4278043926&fm=26&fmt=auto&gp=0.jpg"
path = root+url.split(‘/’)[-1]
try:
if not os.path.exists(root):
os.mkdir(root)



