栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Scrapy爬虫学习笔记(一)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Scrapy爬虫学习笔记(一)

安装Scrapy

比较幸运,在命令行使用pip install scrapy就一次性安装成功了,命令行输入scrapy、scrapy bench查看是否安装成功

项目实践

- 创建项目

使用pycharm,在其workspace目录下进入cmd,输入scrapy startproject 项目名

- 创建爬虫

进入项目文件夹,在该目录下输入scrapy genspider 爬虫名 域名爬虫名不要和项目名重复,比较方便的命名方式:
项目名:kuaidailiSpider
爬虫名:kuaidaili网站域名是允许爬虫采集的域名robot协议:访问网站域名/robots.txt

- 分析网站

提取数据:可以使用正则表达式、XPath、CSSget():获取一个元素,getall()获取多个元素

- 运行爬虫

在项目文件夹下输入scrapy crawl 爬虫名字 or 在pycharm运行保存数据:scrapy crawl 爬虫名 -o 保存的数据.格式

- 补充说明
setting.py中:

FEED_EXPORT_ENCODING = 'utf-8' # 解决保存的数据乱码的问题 
# utf-8 :保存为 utf-8格式
# utf-8 sig :保存为 utf-8 BOM格式
ROBOTSTXT_OBEY = False
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent': # 随便找一个自己填上即可
}
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/755254.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号