栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

selenium对雪球新闻爬取

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

selenium对雪球新闻爬取

from selenium import webdriver
import time

url = 'https://xueqiu.com/?category=livenews'
driver = webdriver.Chrome()
driver.get(url)
driver.implicitly_wait(5)

driver.find_element_by_xpath('//*[@id="app"]/div[3]/div[1]/div[2]/div[1]/a[2]').click()

## 下拉到页面底端
for y in range(200):
    js = 'window.scrollBy(0,100)'  ##  下拉滚动条
    driver.execute_script(js)      ##执行js代码  

    time.sleep(0.01)
    continue

##  下拉到页面底端出现加载更多按钮
for t in range(20):
    ## 点击加载更多按钮 重复20次
    driver.find_element_by_xpath('//*[@id="app"]/div[3]/div[1]/div[2]/div[2]/a').click()
    for j in range(200):  ## 下拉
        js = 'window.scrollBy(0,100)'
        driver.execute_script(js)

        time.sleep(0.01)


#js = 'window.scrollTo(0,10000)'
#driver.execute_script(js)
#driver.find_element_by_xpath('//*[@id="app"]/div[3]/div[1]/div[2]/div[2]/a').click()
el_list = driver.find_elements_by_xpath('//*[@id="app"]/div[3]/div[1]/div[2]/div[2]/div[1]/div/table/tbody/tr/td[3]/a')

for el in el_list:
    print(el.text,el.get_attribute('href'))


##################################################################################
## 无界面模式
from selenium import webdriver
import time

url = 'https://xueqiu.com/?category=livenews'
## 环境配置
opt = webdriver.ChromeOptions()
opt.add_argument('--headless')
opt.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options=opt)
driver.get(url)
driver.implicitly_wait(5)

driver.find_element_by_xpath('//*[@id="app"]/div[3]/div[1]/div[2]/div[1]/a[2]').click()

for y in range(200):
    js = 'window.scrollBy(0,100)'
    driver.execute_script(js)

    time.sleep(0.01)
    continue
for t in range(20):
    driver.find_element_by_xpath('//*[@id="app"]/div[3]/div[1]/div[2]/div[2]/a').click()
    for j in range(200):
        js = 'window.scrollBy(0,100)'
        driver.execute_script(js)

        time.sleep(0.01)


#js = 'window.scrollTo(0,10000)'
#driver.execute_script(js)
#driver.find_element_by_xpath('//*[@id="app"]/div[3]/div[1]/div[2]/div[2]/a').click()
el_list = driver.find_elements_by_xpath('//*[@id="app"]/div[3]/div[1]/div[2]/div[2]/div[1]/div/table/tbody/tr/td[3]/a')

for el in el_list:
    print(el.text,el.get_attribute('href'))

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/301550.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号