栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 系统运维 > 运维 > Linux

【Python

Linux 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

【Python

此篇博客介绍如何用python进行网页爬虫,对一些需要登陆的网页可绕开SSH认证

STEP 1 从谷歌商店 下载chromedriver

STEP 2 把文件放在local/bin 文件夹下,由于我用anaconda, 所以我放置的文件夹是anaconda3/bin

from selenium import webdriver

#1.创建Chrome浏览器对象,这会在电脑上在打开一个浏览器窗口,此步会直接绕过SSH认证
browser = webdriver.Chrome()

#2.通过浏览器向服务器发送URL请求
html = browser.get("input your url here")

STEP 3 使用 beautiful soup 或者 pd.read_html() 对网页内容进行爬取 (如果只需对网页中表格进行爬取,强烈建议使用pd.read_html(), 简单省事)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/836398.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号