栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫-request模块

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫-request模块

爬虫-1

request模块

1、基本操作2、UA伪装3、小案例

request模块 1、基本操作
'''
    - 指定url
    - 发起请求
    - 获取响应的数据
    - 持久化存储
'''
import requests
if __name__ == "__main__":
    # 指定url
    url = "https://www.sogou.com/"
    # 发送请求
    response = requests.get(url=url)
    # 获取相应数据,text返回的是字符串类型的相应数据
    page_text = response.text
    print(page_text)
    # 持久化存储
    with open("./sougou.html", "w", encoding="UTF-8") as fp:
        fp.write(page_text)
2、UA伪装
# UA:user-agent
# UA伪装
import requests
if __name__ == "__main__":
    url = "https://www.sogou.com/web"

    kw = input('enter a word:')
    # UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:96.0) Gecko/20100101 Firefox/96.0'
    }
    # 字典,相当于url的请求里的参数
    param = {
        'query': kw
    }
    # 代理,正常用https和sockets5
    proxies = {"HTTP":"http://123.169.122.201:9999"}
    response = requests.get(url=url, params=param, headers=headers, proxies=proxies)
    page_text = response.text
    with open("./sougou.html", "w", encoding="UTF-8") as fp:
        fp.write(page_text)
3、小案例
# 整张页面的局部数据
# 破解百度翻译
'''
- poat请求(携带了参数)
- 相应的数据是一组json数据
json.load('json数据')可以变成字符串形式
'''

import requests
import json
if __name__ == "__main__":
    post_url = "https://fanyi.baidu.com/sug"
    # post请求的参数
    data = {
        'kw': 'dog'
    }
    #UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:96.0) Gecko/20100101 Firefox/96.0'
    }
    response = requests.post(url=post_url, data=data, headers=headers)
    # 返回的是一个json对象(相应的数据必须为json数据)
    dic_obj = post_text = response.json()
    # print(dic_obj)
    # 存储
    with open('./dog.json', 'w', encoding='UTF-8') as fp:
        json.dump(dic_obj, fp=fp, ensure_ascii=False, indent=2)
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/739701.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号