栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python爬虫爬取壁纸

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python爬虫爬取壁纸

Python爬取壁纸
    • 导入用到的库
    • 目标网址
    • 利用正则表达式获取图片详情页的网址
    • 完整代码

导入用到的库
import requests
import re
import time

目标网址
for page in range(2, 140):  # 对网站多个网页进行爬取
    download_one_page('https://pic.netbian.com/4kdongman/index_' + str(page) + '.html')
利用正则表达式获取图片详情页的网址
 re_temp = '
  • # 正则表达式匹配所需要的图片详情页连接
  • 完整代码
    import requests
    import re
    import time
    
    
    def download(url, name):
        time.sleep(2)  # 避免对服务器造成破坏
        resp = requests.get(url)
        resp.encoding = 'gbk'  # 网页编码格式
        suffix = url.split('.')[-1]
        name.replace(' ', '')
        address = "E:壁纸动漫壁纸" + "\" + name + '.' + suffix
        try:
            with open(address, 'wb') as file:
                file.write(resp.content)
        except:
            print('下载错误:', name)
    
    
    def download_next_one_page(url):
        time.sleep(2)
        response = requests.get(url)
        response.encoding = 'gbk'
        re_temp = ''
        result = re.findall(re_temp, response.text)
    
        download('https://pic.netbian.com' + result[0][0], result[0][2])
    
    
    def download_one_page(one_page_url):
        time.sleep(1)
        response = requests.get(one_page_url)
        response.encoding = 'gbk'  # 网站编码
        re_temp = '
  • # 正则表达式匹配所需要的图片详情页连接 result = re.findall(re_temp, response.text) for i in result: download_next_one_page('https://pic.netbian.com' + i) # name url for page in range(2, 140): # 对网站多个网页进行爬取 download_one_page('https://pic.netbian.com/4kdongman/index_' + str(page) + '.html')
  • 仅用作技术交流和分享,请勿对网站进行破坏,要有逼格!

    转载请注明:文章转载自 www.mshxw.com
    本文地址:https://www.mshxw.com/it/857957.html
    我们一直用心在做
    关于我们 文章归档 网站地图 联系我们

    版权所有 (c)2021-2022 MSHXW.COM

    ICP备案号:晋ICP备2021003244-6号