栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

如何使用Python检索动态html内容的值

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

如何使用Python检索动态html内容的值

假设您正试图从使用javascript模板(例如handlebars之类)呈现的页面获取值,那么这就是任何标准解决方案(即

beautifulsoup
requests
)所能获得的。

这是因为浏览器使用javascript更改了接收到的内容并创建了新的DOM元素。

urllib
将像浏览器一样执行请求部分,而不是模板呈现部分。本文讨论了三种主要解决方案:

  1. 直接解析ajax JSON
  2. 使用离线Javascript解释器处理SpiderMonkey和Crowbar请求
  3. 使用浏览器自动化工具分解

编辑

从您的评论看来,它是一个由把手驱动的网站。这个答案给出了一个很好的代码示例,可能会有用:

from bs4 import BeautifulSoupfrom selenium import webdriverdriver = webdriver.Firefox()driver.get('http://eve-central.com/home/quicklook.html?typeid=34')html = driver.page_sourcesoup = BeautifulSoup(html)# check out the docs for the kinds of things you can do with 'find_all'# this (untested) snippet should find tags with a specific class ID# see: http://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-by-css-classfor tag in soup.find_all("a", class_="my_class"):    print tag.text

硒基本上是从您的浏览器获取呈现的HTML,然后您可以使用来自

page_source
属性的BeautifulSoup对其进行解析。祝好运 :)



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/575387.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号