栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

使用Python进行屏幕抓取

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

使用Python进行屏幕抓取

在处理静态HTML时,有很多选项,其他响应也涵盖了这些选项。但是,如果需要Javascript支持并希望保留在Python中,建议您使用webkit渲染网页(包括Javascript),然后检查生成的HTML。例如:

import sysimport signalfrom PyQt4.QtCore import *from PyQt4.QtGui import *from PyQt4.QtWebKit import QWebPageclass Render(QWebPage):    def __init__(self, url):        self.app = QApplication(sys.argv)        QWebPage.__init__(self)        self.html = None        signal.signal(signal.SIGINT, signal.SIG_DFL)        self.connect(self, SIGNAL('loadFinished(bool)'), self._finished_loading)        self.mainframe().load(QUrl(url))        self.app.exec_()    def _finished_loading(self, result):        self.html = self.mainframe().toHtml()        self.app.quit()if __name__ == '__main__':    try:        url = sys.argv[1]    except IndexError:        print 'Usage: %s url' % sys.argv[0]    else:        javascript_html = Render(url).html


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/626400.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号