栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

scrapy入门

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

scrapy入门

  • Scrapy常用命令
  1. startproject:创建新的爬虫项目,参数project_name和project_dir分别表示项目的名称和项目存储的目录。

scrapy startproject [project_dir]

  1. genspider:在当前文件夹或者当前项目,创建一个新的爬虫文件,参数name表示创建的爬虫文件名,domain表示要爬取的网址,-t表示是否使用模板,可以使用“scrapy genspider -l”的方式查看所有的命令类型,或者使用“scrapy genspider -d”查看模板名称。

scrapy genspider [-t template]

  1. runspider:运行爬虫文件,参数spider_file.py表示要运行的爬虫文件。

scrapy runspider

  1. 获取指定的URL,并且能够显示出获取的过程。

scrapy fetch

  1. 在浏览器中打开指定的URL。

scrapy view

  1. 运行爬虫项目。

scrapy crawl

  1. 列出当前项目下的所有爬虫文件。

scrapy list

  • 创建项目框架

运行scrapy startproject命令创建新的爬虫项目框架,项目名称为quotes

scrapy startproject quotes

为方便项目开发,可以借助Python的集成开发工具PyCharm进行开发,打开PyCharm,如图1-15。选择“Open”选择项目目录,如图1-16所示。

 

 

 

 

点击“OK”按钮确认选择爬虫项目的目录,这样爬虫框架的代码就加载到PyCharm中,Scrapy生成的框架代码结构如图所示。

 

 

 

 

Scrapy框架代码

框架生成的源代码包括::items.py、pipelines.py、settings.py。

  • items.py:定义结构化数据字段,用来保存爬取到的数据,也就是准备爬取的网页元素的特征。例如,爬取新闻网站上的新闻,items.py可以定义新闻标题、新闻内容、作者及发布时间等字段。
  • pipelines.py:定义如何对抓取到的内容进行再处理,常见的处理方式有将网络爬虫爬取的数据保存为一个文件,或者写入关系型数据库或者NoSQL类型数据库,如MongoDB。
  • settings.py:是Scrapy的设置文件,通过修改配置文件可以对网络爬虫程序进行灵活的配置,以使用不同的应用场景。
  • spiders目录: 实现网络爬虫的核心处理逻辑。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/360447.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号