栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

如何克服Javascript的“ onclick”按钮来抓取网页?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

如何克服Javascript的“ onclick”按钮来抓取网页?

首先,检查所需的数据是否已经存在-在html中(它在背景中-在那里)。

另一种选择是selenium::

from selenium import webdriverimport timebrowser = webdriver.Firefox()browser.get("http://www.prudential.com.hk/PruServlet?module=fund&purpose=searchHistFund&fundCd=MMFU_U")elem = browser.find_element_by_xpath('//*[@id="disclaimer"]/div/div')elem.click()time.sleep(0.2)elem = browser.find_element_by_xpath("//*")print elem.get_attribute("outerHTML")

另一种选择是使用

mechanize
。它无法执行js代码,但是根据源代码,
AgreeClick
只需将
cookie
设置为
ListFundShowDisclaimer
即可
true
。这是一个起点(不确定是否可行):

import cookielibimport mechanizebr = mechanize.Browser()cj = cookielib.cookieJar()ck = cookielib.cookie(version=0, name='ListFundShowDisclaimer', value='true', port=None, port_specified=False,domain='www.prudential.com.hk', domain_specified=False, domain_initial_dot=False, path='/',path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None,rest={'HttpOnly': None}, rfc2109=False)cj.set_cookie(ck)br.set_cookiejar(cj)br.open("http://www.prudential.com.hk/PruServlet?module=fund&purpose=searchHistFund&fundCd=MMFU_U")print br.response().read()

然后,你可以使用

BeautifulSoup
或任何你喜欢的内容解析结果。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/392697.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号