这是为我工作的python程序:
from scrapy.selector import HtmlXPathSelectorfrom scrapy.spider import baseSpiderfrom scrapy.http import RequestDOMAIN = 'example.com'URL = 'http://%s' % DOMAINclass MySpider(baseSpider): name = DOMAIN allowed_domains = [DOMAIN] start_urls = [ URL ] def parse(self, response): hxs = HtmlXPathSelector(response) for url in hxs.select('//a/@href').extract(): if not ( url.startswith('http://') or url.startswith('https://') ): url= URL + url print url yield Request(url, callback=self.parse)将此保存在名为的文件中
spider.py。
然后,你可以使用Shell管道来后期处理以下文本:
bash$ scrapy runspider spider.py > urls.outbash$ cat urls.out| grep 'example.com' |sort |uniq |grep -v '#' |grep -v 'mailto' > example.urls
这为我提供了网站中所有唯一URL的列表。



