此篇博客介绍如何用python进行网页爬虫,对一些需要登陆的网页可绕开SSH认证
STEP 1 从谷歌商店 下载chromedriver
STEP 2 把文件放在local/bin 文件夹下,由于我用anaconda, 所以我放置的文件夹是anaconda3/bin
from selenium import webdriver
#1.创建Chrome浏览器对象,这会在电脑上在打开一个浏览器窗口,此步会直接绕过SSH认证
browser = webdriver.Chrome()
#2.通过浏览器向服务器发送URL请求
html = browser.get("input your url here")
STEP 3 使用 beautiful soup 或者 pd.read_html() 对网页内容进行爬取 (如果只需对网页中表格进行爬取,强烈建议使用pd.read_html(), 简单省事)



