此系列内容为 自己学习、整理内容,分享知识并供自己日后回顾。如果你能够看到内容有误,欢迎指正。如果你有疑问,欢迎提出,一起探讨,一起进步。
目录
1.Scrapy定义
2.Scrapy内容
3.Scrapy数据流过程
4.安装 Scrapy
1.Scrapy定义
Scrapy 是一个纯 Python 实现的、流行的网络爬虫框架,它使用了一些高级功能来简化网页的爬取,能让我们的爬虫更加地规范、高效。
2.Scrapy内容
| Scrapy Engine | Scrapy 引擎,负责控制整个系统地数据流和事件地触发 |
| Scheduler | 调度器,接受 Scrapy 引擎发来的请求并将其夹取队列中,等待引擎后续需要时使用 |
| Downloader | 下载器,爬取网页内容,将爬取道德数据返回给 Spiders (爬虫) |
| Spider | 爬虫,这部分是核心代码,用于解析、提取出需要地数据 |
| Item Pipeline | 数据管道,处理提取出的数据,主要是数据清洗、验证和数据存储 |
| Downloader middlewares | 下载器中间件,处理 Scrapy 引擎和下载器之间的请求和响应 |
| Spider middlewares | 爬虫中间件,处理爬虫输入的响应以及输出结果或新的请求 |
3.Scrapy数据流过程
| 1 | Scrapy 引擎打开一个网站,找到处理该网站对应的爬虫,并爬取网页的第一个页面 |
| 2 | Scarpy 引擎从爬虫中获取第一个网页地址,并将其作为请求放进调度器中进行调度 |
| 3 | Scrapy 引擎从调度器中获取下一个网页的地址 |
| 4 | 调度器返回下一个网页的地址给 Scrapy 引擎,Scrapy 引擎通过下载器中间件传递给下载器进行爬取 |
| 5 | 爬取到数据后,下载器通过下载器中间件回传给 Scrapy 引擎 |
| 6 | Scrapy 引擎将爬取到数据通过爬虫中间件传递给爬虫进行数据解析、提取 |
| 7 | 爬虫处理完数据后,将提取的数据和新得请求回传给 Scrapy 引擎 |
| 8 | Scrapy 将提取出的数据传给数据管道进行数据清晰等操作,同时将新得请求传递给调度器准备进行下一页的爬取 |
| 9 | 重复 2-8 步,直到调度器中没有新的请求,数据爬取结束 |
4.安装 Scrapy
打开命令行,执行下列语句就可以在自己电脑中安装 Scrapy :
pip install scrapy -i https://pypi.doubanio.com/simple/ # 这句话后面 -i https://pypi.doubanio.com/simple/ 表示使用豆瓣的源,这样安装会更快
安装完成后在命令行里输入 scarpy+回车,看到类似下列的输出内容就表示安装成功了。
Scrapy 2.5.1 - no active project Usage: scrapy[options] [args] Available commands: bench Run quick benchmark test commands fetch Fetch a URL using the Scrapy downloader genspider Generate new spider using pre-defined templates runspider Run a self-contained spider (without creating a project) settings Get settings values shell Interactive scraping console startproject Create new project version Print Scrapy version view Open URL in browser, as seen by Scrapy [ more ] More commands available when run from project directory Use "scrapy -h" to see more info about a command



