栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

使用Python,BeautifulSoup进行动态数据Web抓取

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

使用Python,BeautifulSoup进行动态数据Web抓取

如果您使用requests.get检索页面,则Javascript代码将不会执行。因此,应改为使用硒。在浏览器中打开页面时,它将模仿用户喜欢的行为,因此将执行js代码。

要开始使用selenium,您需要安装

pip install selenium
。然后使用以下代码检索您的商品:

from selenium import webdriverbrowser = webdriver.Firefox()# List of the page url and selector of element to retrieve.wiki_pages = [("https://tools.wmflabs.org/pageviews/?project=en.wikipedia.org&platform=all-access&agent=user&range=latest-20&pages=Star_Wars:_The_Last_Jedi",    ".summary-column--container .legend-block--pageviews .linear-legend--counts:first-child span.pull-right"),]for wiki_page in wiki_pages:    url = wiki_page[0]    selector = wiki_page[1]    browser.get(wiki_page)    page_views_count = browser.find_element_by_css_selector(selector)    print page_views_count.textbrowser.quit()

注意
:如果需要运行无头浏览器,请考虑使用PyVirtualDisplay(Xvfb的包装器)运行无头WebDriver测试,请参阅“如何在Xvfb中运行Selenium?‘ 欲获得更多信息。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/516775.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号