栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

哔哩哔哩代码优化

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

哔哩哔哩代码优化

废了,这个csdn有点严格,一些源码放上去直接将你的删除。所以后续可能就不怎么用csnd了,爬虫这东西本来就敏感。那后续的加密数据爬取就没办法写了。

优化:
    --1.合成视频之后,删除掉纯视频,纯音频文件

    --2.屏蔽掉ffmpeg的调试信息: 加载终端命令的最后 -loglevel quiet
        --如果没有达到预期,就不要去屏蔽,可以查看报错信息

    --3.手动抓包的30080,30280数据包的url,,并不是固定不变的,动态变化的...
        目的: 通过访问详情页网址栏的url,,直接解析获取到对应的实时的30080,30280的url.....
        分析过程:
            --1.复制30080的url,,,
            --2.点击右上角的三个点,search,,全局搜索
            --3.出现结果之后,点击进入文件
            --4.文件右下角,点击{} 美观输出, 格式化输出
            --5.文件空白处.鼠标点击定位, ctrl+F,,出现搜索框,输入要搜索的部分 30080的url
            --6. video: id:80 1920*1080 id:64 1280*720 id:32 852*480 id:16 640*320
                 猜测: 是否是各个分辨率所对应的数据
                 audio:
                 已经找到了存放 视频 和 音频 url 的文件,,位置
            --7.发现是一个html的文件,对该html的url发送请求,拿到响应解析即可...
                html文件的url > 是这个详情页面,网址栏的url...
                xpath语法过滤:
                    --根据文本数据过滤
                        当文本数据过多,,只提取一部分,,使用模糊查询
            --8.xpath提取到对应的字符串部分之后,,使用正则去进行提取具体的url
                video url正则提取:"video":[{"id":d+,"baseUrl":"(.*?)"
                audio url正则提取:"audio":[{"id":d+,"baseUrl":"(.*?)"

            --9.input检测到是可以访问的url,,会直接访问,,打一个空格之后再回车
            
            --10.获取到视频主页的视频名称,,作为文件的名称
                -- 一个h1标签的title属性的数据
                -- 一个span标签的文件数据
                以上两个并不通用,,,有些视频主页取不到
                通用的xpath提取名称写法://title/text()
                我半夜唱Lemon直接把室友给唱哭了!!!!【米津玄师】_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
                我半夜唱Lemon直接把室友给唱哭了!!!!【米津玄师】
                xpath://title/text()
                正则:re.findall(r'(.*?)_哔哩哔哩',str_)[0]

优化解析就是这样,你们自己写吧。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/272975.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号