场景描述
- 在使用Selenium的时候,如果遇到a标签列表,而且每个都需通过点击(click())进入a标签对应的页面进行单独处理,而直接访问a链接无法访问(防盗链),那么这个时候该怎么处理呢?
- 最好的办法就是先获取到a标签列表,然后遍历a标签列表,依次在新标签页上打开链接,然后切换到新标签页再做单独处理,处理完毕后再调用close()方法关闭当前标签页。
- 对于a标签中带有target="_blank"参数的链接,打开的时候会自动在新的标签页打开,如:
新闻
- 对于没有带target="_blank"参数的链接,如:新闻打开的时候会在当前标签页打开,这样就会覆盖掉原来的a标签列表页,导致后边的链接无法打开(防盗链),那么遇到这种情况该怎么在新标签页打开a标签呢?
解决方案
from selenium import webdriver
from selenium.webdriver.common.by import By
driver = webdriver.Chrome()
driver.get(url)
# 查找帖子列表(40条)
post_list = driver.find_elements(By.XPATH, '//ul[@id="waterfall"]/li/h3/a[1]')
# 存储原始窗口的 ID
original_window = driver.current_window_handle
for i in range(0, 40):
# 点击进入帖子
print(f'第{i + 1}个帖子')
# 获取帖子链接
href = post_list[i].get_attribute('href')
# 在新的标签页打开链接
driver.execute_script(f'window.open("{href}", "_blank");')
# 切换到新的标签页
driver.switch_to.window(driver.window_handles[-1])
# 单独处理
do sth...
# 关闭当前标签页
driver.close()
# 切回到之前的标签页
driver.switch_to.window(original_window)
driver.quit()
参考链接