栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫-第一节-selenium的简单使用

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫-第一节-selenium的简单使用

用selenium模拟人的浏览网页的行为
  • 1 在windows10使用selenium爬取KEGG网页
    • 1.1 安装必要的包和软件
      • 1.1.1 安装chromedriver
    • 1.2 实例(爬取KEGG网页的KEGG Pathway)

最近学会一个非常好用的包,用来爬取网页,做一个记录

1 在windows10使用selenium爬取KEGG网页

需要的环境:

  1. 安装chrome和chromedriver(安装需要的浏览器,这里以Chrome为例;安装对应版本的chromedriver;加入环境变量;下面做详细说明)
  2. 安装selenium包(打开cmd;pip install selenium)
1.1 安装必要的包和软件 1.1.1 安装chromedriver

找到Chrome的版本号,在https://chromedriver.chromium.org/downloads下载对应的chromedriver。
解压到Chrome的安装目录,见下图。

将以上两个软件加入环境变量。若加入成功,在cmd界面运行chrome

1.2 实例(爬取KEGG网页的KEGG Pathway)
from selenium import webdriver

driver = webdriver.Chrome()
driver.get('https://www.kegg.jp/kegg/')##输入需要爬取的网页网址


按Ctrl+Shift+i打开开发者模式,按照下图顺序找到我们需要的KEGG PATHWAY的链接

link = driver.find_element_by_link_text('KEGG PATHWAY')##根据链接文本找到链接元素
link.click()##点击链接跳转到新的页面,见下图

html_source = driver.page_source##获取新网页的源代码
print(html_source)##见下图


参考:
https://www.geeksforgeeks.org/find_element_by_link_text-driver-method-selenium-python/
https://blog.csdn.net/xhaimail/article/details/105435794
https://chromedriver.chromium.org/downloads

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/314098.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号