栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python——爬虫(Scrapy框架定义、内容、数据流流程、安装)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python——爬虫(Scrapy框架定义、内容、数据流流程、安装)

此系列内容为 自己学习、整理内容,分享知识并供自己日后回顾。如果你能够看到内容有误,欢迎指正。如果你有疑问,欢迎提出,一起探讨,一起进步。

目录

1.Scrapy定义

2.Scrapy内容

3.Scrapy数据流过程

4.安装 Scrapy


1.Scrapy定义

        Scrapy 是一个纯 Python 实现的、流行的网络爬虫框架,它使用了一些高级功能来简化网页的爬取,能让我们的爬虫更加地规范、高效。

2.Scrapy内容
Scrapy内容
Scrapy EngineScrapy 引擎,负责控制整个系统地数据流和事件地触发
Scheduler调度器,接受 Scrapy 引擎发来的请求并将其夹取队列中,等待引擎后续需要时使用
Downloader下载器,爬取网页内容,将爬取道德数据返回给 Spiders (爬虫)
Spider爬虫,这部分是核心代码,用于解析、提取出需要地数据
Item Pipeline数据管道,处理提取出的数据,主要是数据清洗、验证和数据存储
Downloader middlewares下载器中间件,处理 Scrapy 引擎和下载器之间的请求和响应
Spider middlewares爬虫中间件,处理爬虫输入的响应以及输出结果或新的请求

3.Scrapy数据流过程
Scarpy数据流过程
1Scrapy 引擎打开一个网站,找到处理该网站对应的爬虫,并爬取网页的第一个页面
2Scarpy 引擎从爬虫中获取第一个网页地址,并将其作为请求放进调度器中进行调度
3Scrapy 引擎从调度器中获取下一个网页的地址
4调度器返回下一个网页的地址给 Scrapy 引擎,Scrapy 引擎通过下载器中间件传递给下载器进行爬取
5

爬取到数据后,下载器通过下载器中间件回传给 Scrapy 引擎

6Scrapy 引擎将爬取到数据通过爬虫中间件传递给爬虫进行数据解析、提取
7爬虫处理完数据后,将提取的数据和新得请求回传给 Scrapy 引擎
8Scrapy 将提取出的数据传给数据管道进行数据清晰等操作,同时将新得请求传递给调度器准备进行下一页的爬取
9重复 2-8 步,直到调度器中没有新的请求,数据爬取结束

4.安装 Scrapy

        打开命令行,执行下列语句就可以在自己电脑中安装 Scrapy :

pip install scrapy -i https://pypi.doubanio.com/simple/
# 这句话后面 -i https://pypi.doubanio.com/simple/ 表示使用豆瓣的源,这样安装会更快

         安装完成后在命令行里输入 scarpy+回车,看到类似下列的输出内容就表示安装成功了。

Scrapy 2.5.1 - no active project

Usage:
  scrapy  [options] [args]

Available commands:
  bench         Run quick benchmark test
  commands
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy  -h" to see more info about a command

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/488517.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号