栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

关于Scrapy爬虫框架架构那些事儿

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

关于Scrapy爬虫框架架构那些事儿

前言:都说爬虫学的好,局子蹲到老。小编可是遵纪守法的大大的良民,我们学习爬虫只是为了服务大众千万不要谋取个人利益。切记!切记!切记!重要的事情说三遍!

一:谈起Scrapy框架客观咱们先看图说话
(1)-> 框架核心(代号:引擎)Scrapy Engine :负责控制数据在系统中所有组件间的流动,并在相应动作发生触发事件。
(2)-> 调度器Scheduler:从引擎接受Request并将它们放入一个网络请求队列,方便引擎请求时提供给引擎。爬虫的网络请求在被创建后会由Scheduler进行调度,比如多个请求间隔多少时间,那个请求在前那个请求在后。
(3)-> HTTP请求的真正执行者Downloader,完成网络请求工作,负责获取页面数据并提供给引擎,再提交给spider。
启动爬虫框架后在不考虑细节的情况下分为一下7步。
①:启动爬虫,Scrapy Engine (引擎)开始工作。
②: 引擎调用Spider中的方法,在spider中请求第一个要爬取的URL即是起始url(satrt_urls列表中的URL),并包含爬取目标网页URL的Request对象。
③:Spider中将构造的Request作为方法返回值返回给Scrapy Engine转发给Downloader。
④:Scrapy Engine 把经过Spider Middlewares 加工的Request转发给Scheduler.
⑤:Scheduler会在合适的时机,将Request通过Scrapy转发给Downloader,这个过程中Request又被Downloader Middlewares再次加工。
⑥:Downloader负责下载网页数据,然后将返回的数据以Response对象的形式通过Scrapy Engine 传给Spider,在此过程中如有必要,Response 对象会经过Downloader Middlewares的加工处理默认情况下spider中的parse() 方法被调用,此时就可以执行数据解析逻辑,提取网页中的目标数据。
⑦:在parse()方法中提取的数据会被构造成item的形式,并以返回值的形式传递给Scrapy Engine,然后再被pipeline模块进行保存数据。

  • 经过上面把各个组件之间的关系简单的介绍了一下,下面说一说爬虫的创建与目录中模块的作用。

二 : 创建爬虫框架
流程如下
①:scrapy startproject 爬虫名(工程名根据实际情况起)
②:cd 爬虫名 (进入到框架中)
③: scrapy genspider 爬虫文件名 + 起始url
如 :scrapy genspider file www.baidu.com

  • 这里就是创建的爬虫工程,file是我们的爬虫文件,start.py是我们创建用来启动爬虫的文件,主要是不想每次都在命令行写启动命令。

    satrt.py编写上启动命令:
    from scrapy.cmdline import execute
    execute(‘scrapy crawl file’.split())
    file 是我们的爬虫文件。
  1. scrapy.cfg不需要更改这里不做介绍
  2. spiders 目录下面放file.py爬虫文件,file中name变量是定义爬虫的名字,allowed_domains变量注释掉,start_url变量:定义爬取的起始url
  3. items.py 是统一各个组件间数据的格式
  4. pipeline 管道,是处理数据的模块,在这个模块可以通过代码把数据保存到 MySql 或者 MongoDB 等数据库中。
  5. middlewares.py 中间件 为了扩展方便爬虫框架功能而存在。允许用户一定程度上定义自己的爬虫
  6. settings.py 是非常重要的模块,承担了设置爬虫行为模块,模块的启用等功能,涉及到配置反反爬虫的设置。

关于爬虫框架重要的内容就是这些。
欢迎提出问题,收藏点赞转发谢谢客观!

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/876807.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号