栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

动态start_urls

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

动态start_urls

start_urlsclass
属性包含起始网址-仅此而已。如果你要提取其他网页的网址,
parse
请使用
[another]
回调从相应的回调请求中获取收益:

class Spider(baseSpider):    name = 'my_spider'    start_urls = [     'http://www.domain.com/'    ]    allowed_domains = ['domain.com']    def parse(self, response):        '''Parse main page and extract categories links.'''        hxs = HtmlXPathSelector(response)        urls = hxs.select("//*[@id='tSubmenuContent']/a[position()>1]/@href").extract()        for url in urls: url = urlparse.urljoin(response.url, url) self.log('Found category url: %s' % url) yield Request(url, callback = self.parseCategory)    def parseCategory(self, response):        '''Parse category page and extract links of the items.'''        hxs = HtmlXPathSelector(response)        links = hxs.select("//*[@id='_list']//td[@]/a/@href").extract()        for link in links: itemlink = urlparse.urljoin(response.url, link) self.log('Found item link: %s' % itemlink, log.DEBUG) yield Request(itemlink, callback = self.parseItem)    def parseItem(self, response):


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/370150.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号