栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Scrapy框架(一. 快速入门)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Scrapy框架(一. 快速入门)

Scrapy框架(一. 快速入门)



目录:

一. Scrapy初识:

​          1.官网 :https://scrapy.org/

​          2. Scrapy是什么?

​          3. Scrapy可以用来干什么?

二. 下载Scrapy库

三. 使用Scrapy框架,步骤(这里以 www.baidu.com 为例)

​                            1. 新建项目

​                            2. 明确目标 (编写items.py文件) target_name = scrapy.Field()

​                             3. 制作爬虫文件 (spiders/xxx.py)

​                                                         a. 创建爬虫文件 scrapy genspider baidu 'baidu.com'

​                                                        b. 编写爬虫代码

​                            4. 持久化存储爬取的数据

​                             这里将单独编写一篇博客讲解,如何使用Scrapy框架进行持久化存储数据 :

​                                                                                   点击跳转至该博客

​                             5.执行Scrapy程序、获取数据

                                                      输入命令: scrapy crawl baidu

一. Scrapy初识 :

   

Scrapy是适用于Python网络爬虫的应用框架

​             框架内的各个部分相互协调,最终实现爬取目标数据

Scrapy 功能 :

  1. 通常 Scrapy 框架用于爬取指定网站的内容或图片,并进行持久化存储
  2. 数据挖掘
  3. 信息处理
  4. 存储历史数据
  5. 监测
  6. 自动化测试



二. 下载Scrapy库:(cmd 打开命令提示符窗口, 分别输入)
  1. 升级pip :

    ​ python -m pip install --upgrade pip

  1. 安装scrapy库:

    ​ pip install scrapy

也可在pyCharm中分别对pip进行升级、对scrapy库进行下载



三. Scrapy项目

1. 新建项目: (这里以创建一个 名为MyspiderName的项目为例)

   通过PyCharm 中的Terminal窗口,输入命令:
                                             scrapy start MyspiderName

​   创建完成,则自动生成一系列文件:




2. 明确目标(编写items.py文件):

以 TargetName = scrapy.Field() 格式编写 (TargetName: 目标名称)




3. 制作爬虫文件

a. 创建爬虫文件:


b. 编写爬虫代码

i. 简单粗暴,直接输出响应的文本形式、将自动生成的pass注释掉

ii. 由于Scrapy默认服从robots.txt协议(取消注释、将True改为False)

5. 执行程序、获取数据

在PyCharm中Terminal窗口中输入 scrapy crawl baidu命令

等待,则输出响应的文本格式

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/674577.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号