我认为您抓取的图片网址是相对的。要构建绝对URL,请使用urlparse.urljoin:
def parse(self, response): ... image_relative_url = hxs.select("...").extract()[0] import urlparse image_absolute_url = urlparse.urljoin(response.url, image_relative_url.strip()) item['image_urls'] = [image_absolute_url] ...尚未使用ITEM_PIPELINES,但是文档说:
在Spider中,您刮取一个项目并将其图像的URL放入image_urls字段。
因此,item [‘image_urls’]应该是图像URL的列表。但是您的代码具有:
item['image_urls'] = 'http://www.domain.com' + item['image_urls']
因此,我想它逐个字符地循环访问您的单个URL字符-使用每个URL作为URL。



