栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

一、Scrapy爬虫概述

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

一、Scrapy爬虫概述

python编程快速上手(持续更新中…) python爬虫从入门到精通 Scrapy爬虫框架

文章目录
  • python编程快速上手(持续更新中…)
  • python爬虫从入门到精通
  • Scrapy爬虫框架
    • 1. scrapy的概念
    • 2. scrapy框架的作用
    • 3.scrapy的工作流程
      • 3.1 回顾之前的爬虫流程
      • 3.2上面的流程可以改写为
      • 3.3 scrapy的流程
      • 3.4 scrapy的三个内置对象
      • 3.5 scrapy中每个模块的具体作用

1. scrapy的概念

Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。
Scrapy 使用了Twisted['tw?st?d]异步网络框架,可以加快我们的下载速度。
Scrapy文档地址:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html

2. scrapy框架的作用

少量的代码,就能够快速的抓取

3.scrapy的工作流程 3.1 回顾之前的爬虫流程

3.2上面的流程可以改写为

3.3 scrapy的流程


其流程可以描述如下:
1.爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器
2.调度器把request–>引擎–>下载中间件—>下载器
3.下载器发送请求,获取response响应---->下载中间件---->引擎—>爬虫中间件—>爬虫
4.爬虫提取url地址,组装成request对象---->爬虫中间件—>引擎—>调度器,重复步骤2
5.爬虫提取数据—>引擎—>管道处理和保存数据

注意:
图中中文是为了方便理解后加上去的
图中绿色线条的表示数据的传递
注意图中中间件的位置,决定了其作用
注意其中引擎的位置,所有的模块之前相互独立,只和引擎进行交互

3.4 scrapy的三个内置对象

request请求对象:由url method post_data headers等构成
response响应对象:由url body status headers等构成
item数据对象:本质是个字典

3.5 scrapy中每个模块的具体作用


注意:
爬虫中间件和下载中间件只是运行逻辑的位置不同,作用是重复的:如替换UA等

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/630798.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号