栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python > python爬虫

python爬虫入门之Scrapy框架是什么

python爬虫 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python爬虫入门之Scrapy框架是什么

python爬虫中有很多高效的爬虫框架,提起python爬虫框架,那首先想到的肯定是Scrapy框架。Scrapy框架可以很方便的进行web抓取,而且可以根据自己的需求去爬取需要的内容,避免重复下载最近已经下载过的数据,爬虫效率很高。本文向大家介绍python爬虫框架。

、Scrapy框架是什么?

是一个为了爬取网站数据,提取结构性数据而编写的应用框架。

可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

二、Scrapy框架安装方法:

Windows:在终端输入命令:pip install scrapy;

Mac:在终端输入命令:pip3 install scrapy;

三、Scrapy运行流程:

1、引擎从调度器中取出一个链接(URL)用于接下来的抓取;

2、引擎把URL封装成一个请求(Request)传给下载器;

3、下载器把资源下载下来,并封装成应答包(Response);

4、爬虫解析Response;

5、解析出实体(Item),则交给实体管道进行进一步的处理;

6、解析出的是链接(URL),则把URL交给调度器等待抓取;

四、Scrapy创建工程

终端下:

scrapy startproject PROJECT_NAME
      PROJECT_NAME为工程名字
scrapy genspider SPIDER_NAME SPIDER_URL
      SPIDER_NAME 爬虫文件名、SPIDER_URL  爬取网站地址

五:使用用python爬虫scrapy框架中获取内容

六:使用python爬虫scrapy框架:爬取药网

以上就是python爬虫常用框架Scrapy的介绍,希望能帮助你快速入门python爬虫哦~更多python爬虫学习推荐:python爬虫教程。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/12538.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号