栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

在python中使用scrapy执行Javascript提交表单功能

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

在python中使用scrapy执行Javascript提交表单功能

检出以下有关如何将selenium一起使用的摘要。爬网速度会变慢,因为你不仅要下载html,还可以完全访问DOM。

注意:由于先前提供的链接不再起作用,因此我已复制粘贴此代码段。

# Snippet imported from snippets.scrapy.org (which no longer works)from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors.sgml import SgmllinkExtractorfrom scrapy.selector import HtmlXPathSelectorfrom scrapy.http import Requestfrom selenium import seleniumclass SeleniumSpider(CrawlSpider):    name = "SeleniumSpider"    start_urls = ["http://www.domain.com"]    rules = (        Rule(SgmllinkExtractor(allow=('.html', )),        callback='parse_page',follow=True),    )    def __init__(self):        CrawlSpider.__init__(self)        self.verificationErrors = []        self.selenium = selenium("localhost", 4444, "*chrome", "http://www.domain.com")        self.selenium.start()    def __del__(self):        self.selenium.stop()        print self.verificationErrors        CrawlSpider.__del__(self)    def parse_page(self, response):        item = Item()        hxs = HtmlXPathSelector(response)        #Do some XPath selection with Scrapy        hxs.select('//div').extract()        sel = self.selenium        sel.open(response.url)        #Wait for javscript to load in Selenium        time.sleep(2.5)        #Do some crawling of javascript created content with Selenium        sel.get_text("//div")        yield item


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/368245.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号