比较幸运,在命令行使用pip install scrapy就一次性安装成功了,命令行输入scrapy、scrapy bench查看是否安装成功
项目实践- 创建项目
使用pycharm,在其workspace目录下进入cmd,输入scrapy startproject 项目名
- 创建爬虫
进入项目文件夹,在该目录下输入scrapy genspider 爬虫名 域名爬虫名不要和项目名重复,比较方便的命名方式:
项目名:kuaidailiSpider
爬虫名:kuaidaili网站域名是允许爬虫采集的域名robot协议:访问网站域名/robots.txt
- 分析网站
提取数据:可以使用正则表达式、XPath、CSSget():获取一个元素,getall()获取多个元素
- 运行爬虫
在项目文件夹下输入scrapy crawl 爬虫名字 or 在pycharm运行保存数据:scrapy crawl 爬虫名 -o 保存的数据.格式
- 补充说明
setting.py中:
FEED_EXPORT_ENCODING = 'utf-8' # 解决保存的数据乱码的问题
# utf-8 :保存为 utf-8格式
# utf-8 sig :保存为 utf-8 BOM格式
ROBOTSTXT_OBEY = False
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent': # 随便找一个自己填上即可
}



