栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python+selenium统计CSDN博客(下):统计收藏量

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python+selenium统计CSDN博客(下):统计收藏量

前文提要:通过python+selenium统计CSDN博客(上):统计阅读量

由于个人主页的摘要信息中,并没有提供收藏数,为了获取收藏数,就得逐一点相应的页面,所以要获取标题对应的链接。

首先还是进入博客主页

from selenium import webdriver
url = 'https://blog.csdn.net/m0_37816922?type=blog'
driver = webdriver.Edge()
driver.get(url)

然后发现链接被存放在一个a标签中

【C标准库】get和put

为了获取链接,可以先复制一下这个a标签的完整Xpath,得到

/html/body/div[2]/div/div[1]/div/div/div/div/div/div[2]/div/div[2]/div/div[2]/div/article[1]/a

然后获取所有a标签所对应的链接,需要注意,刚刚获取的xpath仅仅是一篇文章的,所以article后面有一个[1],在下面的代码中,去掉这个[1],可以获取当前页面上的所有这个路径下的a标签,然后再提取出a标签中的href就行了

xpath = '/html/body/div[2]/div/div[1]/div/div/div/div/div/div[2]/div/div[2]/div/div[2]/div/article/a'
links = driver.find_elements_by_xpath(xpath)
links = [L.get_attribute('href') for L in links]

若要获取所有文章链接,则需如前文所述不断下拉。

接下来需要打开每一个链接,然后研究一下博客页面,有关博客的信息精简如下

【C标准库】stdio.h

其中,标题位于h1中的title-article类;阅读量为read-count类的一个span。比较尴尬的是我选的这篇文章竟然没人收藏。不得已打开一个有收藏的文章,发现收藏数被放在一个get-collection的span中,则按照此前的方法不难得到各种信息

infoDict = {
    "title":'title-article',
    "time":"time",
    "read":'read-count',
    "collection":'get-collection'}
getElement = lambda value : driver.find_element_by_class_name(value).text
tmp = {key:getElement(infoDict[key]) for key in infoDict}

从而得到

{'title': '【C标准库】stdio.h', 'time': '2021-12-20 11:46:45', 'read': '6', 'collection': ''}

接下来可以逐一对所有的链接执行此项操作

infos = []
for url in links:
    driver.get(url)
    infos.append({key:getElement(infoDict[key]) for key in infoDict})

最后将infos写入csv

import csv
f = open('blogs.csv','w',newline='')
w = csv.writer(f)
for info in infos:
    w.writerow(list(info.values()))

f.close()

然后就得到了所有博文的收藏量

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/675079.html

Python相关栏目本月热门文章

我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号