栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python爬虫学习笔记

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python爬虫学习笔记

爬虫框架之scrapy
1,什么是框架
2,爬虫框架scrapy结构
3,scrapy框架组件说明
4,scrapy框架安装与坑
5,使用框架创建第一个爬虫

前言
1,本课需要你对类、面向对象编程有一定的了解,包含对象,继承,重写
2,对生成器有一定了解
3,并非爬虫必修课,没有框架也可以爬
4,框架是从业务对高复用代码的封装
5,工业级产物,类似我们从沟通靠喊到OA协同办公
6,需要在管理层面和可持续性维护的层面来看待框架

什么是框架
框架(framework)是构成一类特定软件可复用设计的一组相互协作的类。框架规定了你的应用的体系结构。它定义了整体结构,类和对象的分割,各部分的主要
责任,类别和对象怎么协作,以及控制流程。框架预定义了这些设计参数,以便于应用设计者或实现者能集中精力与应用本身的特定细节

框架特点:
1,框架是工作单元是一个工程文件组,并非一个或多个PY文件
2,框架内部已经对特定功能基于业务需求进行了封装(例如random,randint)
3,框架本身会组织,协调内部的工作流程,这个有别于我们常规的理解
4,框架通常由多个模块组成,每个模块有具体的任务或功能
5,框架其实就是一个项目模板或者说写作大纲
6,框架的执行效率通常高于普通硬编码(对输入输出都有优化)

框架很像一条流水线,每个单元只要把自己的活干好了即可。这条流水线可以生产汽车,可以生产口罩

爬虫框架scrapy结构
爬虫器:Spider 请求发起 数据解析
管道: Items/Pipelines 数据持久化保存
调度器:Scheduler 任务存储 任务执行调度
下载器:Downloader 执行请求或下载动作
主引擎:ENGINE

scrapy框架组件
Engine(引擎):负责Spider,ItemPipline,Downloader,Scheduler中间的通讯,信号,数据传递以及流程控制

Scheduler(调度器):负责接受引擎发送来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎

Downloader(下载器):负责下载Scrapy Engine发送的所有Requests请求,并将其获取到的Responses交给Scrapy Engine,由引擎交给Spider来处理。

Spider(爬虫):负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler。

Item Pipelines(管道):负责处理Spider中获取到的Item,并进行后期处理(详细分析,过滤,存储器)的地方

Dowmlodaer Middlewares(下载中间件):可以当做是一个可以自定义扩展下载功能的组件。

Spider Middlewares(Spider中间件):可理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

scrapy框架安装与坑
scrapy需要C++的依赖库,python提供了一个wheel包,根据不同的库需要的wheel包进行下载
下载网站:http://www.Ifd.uci.edu/~gohlke/pythonlibs/
windows用户注意:
1,pip install wheel
2,pip install pywin32
3,pip install Twisted-20.30-cp37m-win amd64.whl(按需安装,先下载)
4,pip install scrapy
wheel包的存放位置:放哪都行,建议放在scripts目录下
安装后测试
命令行,交互模式下,import scrapy,运行后没有报错
纯命令行,执行:scrapy-h,运行后没有报错

如何使用scrapy框架
创建项目 scrapy startproject mySpiderProject (注意:这个在命令行完成)
创建完成后,有一个mySpiderProject文件
生成工程文件:
创建爬虫文件:scrapy genspider theSpider www.baidu.com(命令行完成)
执行爬虫 scrapy crawl theSpider(命令行完成)

好了我去实战一下试试。
课程笔记2021年12月15日

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/665361.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号