栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

<爬虫> 通过selenium爬取历史电力数据

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

<爬虫> 通过selenium爬取历史电力数据

网址:Sonnagh, Ireland Weather History | Weather Underground

观察

通过观察发现,不同日期的数据网址的末尾有差别。例如,2019年11月1号和2号的数据网址分别如下:

https://www.wunderground.com/history/daily/ie/sonnagh/EIKN/date/2019-11-1

https://www.wunderground.com/history/daily/ie/sonnagh/EIKN/date/2019-11-2

因此只需要改变网址末尾的日期就可以爬到不同日期的数据。

代码
from selenium import webdriver
from bs4 import BeautifulSoup as bs
import time
import pandas as pd

获取网页的源代码函数,要等待网站加载完才能爬到数据,因此设置time.sleep( )

def get_soup(url):
    browser.get(url)
    time.sleep(9)
    html = browser.page_source # 获得网页源代码
    soup = bs(html) 
    return soup

按照网页的结构找到需要的

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/588124.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号