2021-09-27 人民邮电出版社网址下获取新书推荐的所有图书名称

##### 输入网址启动浏览器访问指定网站运行之后一个谷歌浏览页面便会打开显示10s的等待时间把一个列表赋给allbookName python url https://www.ptpress.com.cn/ driver webdriver.Chrome() #启动浏览器 driver.get(url) #访问指定网站 print(driver.page_source) wait WebDriverWait(driver, 10) # 设置等待时长 allbookName []

#获取新书推荐的所有图书的名称
for i in range(1,18):
 /confirm/i_btn wait.until(
 EC.element_to_be_clickable(
 (By.CSS_SELECTOR, #newBook div.main div.tabs span:nth-child({}) .format(i)) # 定位按钮位置
 /confirm/i_btn.click() # 执行点击操作
 soup BeautifulSoup(driver.page_source, lxml ) # 解析网页
 souped soup.select( div.new-book div.box a p ) # 定义目标原生
 bookName [i.text for i in souped] # 获取书名
 allbookName.extend(bookName)
 print(allbookName)
 print(len(allbookName))
 time.sleep(2)

新书推荐的所有图书种类一共有17种分别事是计算机、电子、科普、通信、摄影、经济、管理、金融与投资、成功/励志、心理学、设计、音乐、电影、美妆、生活、工业、绘画。每一种图书种类下面各有8本书所以需要做个循环循环17次。定位按钮位置右击电子按钮点击检查查看此按钮对应的代码把它的路径写下来接着循环17次这样爬虫就能自动翻页爬取到所有的图书了。定位到每一次的图书种类的按钮时执行点击操作使用 lxml解释器进行解析然后使用select方法获取soup对象中的想要提取的目标路径图书名称以此获取书名放入allbookName里每循环一个图书种类获取到8本书后休眠2秒再进行循环。

成功了

最后一步建立一个Dataframe 保存为csv文件

#保存为csv文件
data pd.Dataframe({ #将数据转为数据框形式
 bookName :allbookName
data.to_csv( all_book.csv ,index None,encoding utf-8 ) #保存数据

2021-09-27 人民邮电出版社网址下获取新书推荐的所有图书名称

Python相关栏目本月热门文章