栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

抓图下载图片

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

抓图下载图片

我认为您抓取的图片网址是相对的。要构建绝对URL,请使用urlparse.urljoin:

def parse(self, response):    ...    image_relative_url = hxs.select("...").extract()[0]    import urlparse    image_absolute_url = urlparse.urljoin(response.url, image_relative_url.strip())    item['image_urls'] = [image_absolute_url]    ...

尚未使用ITEM_PIPELINES,但是文档说:

在Spider中,您刮取一个项目并将其图像的URL放入image_urls字段。

因此,item [‘image_urls’]应该是图像URL的列表。但是您的代码具有:

item['image_urls'] = 'http://www.domain.com' + item['image_urls']

因此,我想它逐个字符地循环访问您的单个URL字符-使用每个URL作为URL。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/653417.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号