前文提要:通过python+selenium统计CSDN博客(上):统计阅读量
由于个人主页的摘要信息中,并没有提供收藏数,为了获取收藏数,就得逐一点相应的页面,所以要获取标题对应的链接。
首先还是进入博客主页
from selenium import webdriver url = 'https://blog.csdn.net/m0_37816922?type=blog' driver = webdriver.Edge() driver.get(url)
然后发现链接被存放在一个a标签中
【C标准库】get和put
为了获取链接,可以先复制一下这个a标签的完整Xpath,得到
/html/body/div[2]/div/div[1]/div/div/div/div/div/div[2]/div/div[2]/div/div[2]/div/article[1]/a
然后获取所有a标签所对应的链接,需要注意,刚刚获取的xpath仅仅是一篇文章的,所以article后面有一个[1],在下面的代码中,去掉这个[1],可以获取当前页面上的所有这个路径下的a标签,然后再提取出a标签中的href就行了
xpath = '/html/body/div[2]/div/div[1]/div/div/div/div/div/div[2]/div/div[2]/div/div[2]/div/article/a'
links = driver.find_elements_by_xpath(xpath)
links = [L.get_attribute('href') for L in links]
若要获取所有文章链接,则需如前文所述不断下拉。
接下来需要打开每一个链接,然后研究一下博客页面,有关博客的信息精简如下
【C标准库】stdio.h



