栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

No.4 爬虫学习——数据解析之正则解析,以爬取糗图百科中图片为例

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

No.4 爬虫学习——数据解析之正则解析,以爬取糗图百科中图片为例

1、聚焦爬虫:爬取页面中的指定内容。

—编码流程:

(1)指定url

(2)发起请求

(3)获取响应数据

(4)持久化存储

2、数据解析分类:

(1)正则

(2)bs4

(3)xpath(最通用)

3、数据解析原理概述:

(1)解析的局部的文本内容都会在标签之间或标签对应的属性中进行存储

(2)进行指定标签的定位

(3)标签或标签对应的属性中存储的数据值进行提取(解析)

4、需求:爬取嗅事百科中糗图版块下所有的糗图图片

#如何爬取图片数据

import requests
if _name_ == "_main_":
    url = '图片的链接'
    img_data = requests.get(url=url).content  #content返回的是二进制的图片的数据
    #text(字符串) content(二进制)  json()(对象)
    
    with open('./qiutu.jpg','wb') as fp:
        fp.write(img_data)

5、爬取一页的图片

import requests
import re
import os

 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.44'}

if _name_ =="_main_":
    #创建一个文件夹,保存所有所有的图片
    if not os.path.exists('./qiutulibs'):
        os.madir('./qiutulibs')
    url = 'https://www.qiushibaike.com/'
   
    #使用通过爬虫对url对应的一整张页面进行爬取
   page.text = requests.get(url=url,headers=headers).text

    #拷贝源代码1如下图
    '''
    

    
    
    
    
    '''
    #写上述正则表达式,使用聚焦爬虫将页面中所有的糗图进行解析/提取
    ex = '.*?

文中源代码1拷贝于下图黑色部分

 2用/分割

运行得出结果:

6、修改上面代码,实现多页图片的爬取

import requests
import re
import os

 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.44'}


if _name_ =="_main_":
    #创建一个文件夹,保存所有所有的图片
    if not os.path.exists('./qiutulibs'):
        os.madir('./qiutulibs')
    #设置一个通用的url模板
    url = 'https://www.qiushibaike.com/8hr/page/%d/'
    pageNum = 2
    
    for pageNum in range(1,36):
        #对应页码的url
        new_url = format(url%pageNum)

       

        #使用通过爬虫对url对应的一整张页面进行爬取
       page_text = requests.get(url=new_url,headers=headers).text

        #拷贝源代码1如下图
        '''
        

        
        
        
        
        '''
        #写上述正则表达式,使用聚焦爬虫将页面中所有的糗图进行解析/提取
        ex = '.*?

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/499005.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号