栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Scrapy学习

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Scrapy学习

scrapy入门 1.scrapy简介

Scrapy是一个基于Twisted的异步处理框架,是纯python实现的爬虫框架。使用少量代码就能快速抓取数据。
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如baseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

2.Scrapy框架及功能 2.1 框架图

2.2 各部分功能
名称功能
Scrapy Engine(Scrapy引擎)Scrapy引擎是框架的核心,负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等
Spiders(爬虫)负责处理引擎发来的所有Response,从中提取数据,提取URl,并提交给引擎
Scheduler(调度器)负责接受引擎发送过来的Request请求
Downloader(下载器)负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理。
Item Pipeline(项目管道)负责引擎传来的数据,并进行后期处理(数据分析,数据存储等)
3.Scrapy安装 3.1安装命令

windows下:

	pip install Scrapy


检测是否安装成功:

scrapy startProject 项目名



You can start your first spider with:
第一步: cd myspider
第二步:scrapy genspider example(爬虫名) example.com(你要爬取的网站)


网站用xxxx代替

编写完代码后:执行爬虫

scrapy crawl 爬虫名

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/700442.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号