提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录- 前言
- 一、分析搜索页,将链接列出
- 对当前页面展示的列表进行爬取和整理,步骤如下:
- 分析数据存在位置(html,js)
- 获取数据, 获取网页源代码,对网页数据进行分析,因为查看源代码可以看到,数据只有120行,试问一个网页那么多标签和Css,怎么可能才120行,有两种可能(都和js有关),一种是有一个链接可以访问json,另一种是把json都加载到js的变量里了,所以就得去分析源码里的js和分析一些请求了.
- 方法如下:
- 找到所在位置之后分析其展示的结果,这明显是第二种:把所有json都加载到了一个js里面。这种情况就得找关键词对代码进行分割
- 找到一个分割点对html所有代码进行分割
- 分割后找到相应的json数据
- 得到格式化的json数据,再对json进行分析
- 处理json数据得到链接
- 可以发现,这个json数据不深,非常浅,直接找到html就好,分析html的方法,就是直接去网页上F12进行查找
- 二、对单个视频进行分析
- 下节
前言
分析如何爬取某视频网址
一、分析搜索页,将链接列出 对当前页面展示的列表进行爬取和整理,步骤如下:
- 分析数据存在位置(html,js)
- 找到一个分割点对html所有代码进行分割
- 分割后找到相应的json数据
- 处理json数据得到链接
url="Ac--fun网页地址"
headers = {
"User-Agent": '自己的请求头'
}
response = requests.get(url, headers=headers)
# print(response.text)
获取数据, 获取网页源代码,对网页数据进行分析,因为查看源代码可以看到,数据只有120行,试问一个网页那么多标签和Css,怎么可能才120行,有两种可能(都和js有关),一种是有一个链接可以访问json,另一种是把json都加载到js的变量里了,所以就得去分析源码里的js和分析一些请求了.
方法如下:
找到一些关键字,确保是惟一或者为数不多的关键词,复制下来,然后去NetWork找请求包
至于为啥找下面这段呢,因为感觉它是独一无二的,为啥从第一个截取呢,因为它前面的基本上都是没用,目标主要是找json数据
ss = str(response.text).split("""

