实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 软件开发 > 后端开发 > Python

scrapy入门

Python 更新时间：2026-06-04 05:00:03 发布时间：1675天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

Scrapy常用命令

startproject：创建新的爬虫项目，参数project_name和project_dir分别表示项目的名称和项目存储的目录。

scrapy startproject [project_dir]

genspider：在当前文件夹或者当前项目，创建一个新的爬虫文件，参数name表示创建的爬虫文件名，domain表示要爬取的网址，-t表示是否使用模板，可以使用“scrapy genspider -l”的方式查看所有的命令类型，或者使用“scrapy genspider -d”查看模板名称。

scrapy genspider [-t template]

runspider：运行爬虫文件，参数spider_file.py表示要运行的爬虫文件。

scrapy runspider

获取指定的URL，并且能够显示出获取的过程。

scrapy fetch

在浏览器中打开指定的URL。

scrapy view

运行爬虫项目。

scrapy crawl

列出当前项目下的所有爬虫文件。

scrapy list

创建项目框架

运行scrapy startproject命令创建新的爬虫项目框架，项目名称为quotes

scrapy startproject quotes

为方便项目开发，可以借助Python的集成开发工具PyCharm进行开发，打开PyCharm，如图1-15。选择“Open”选择项目目录，如图1-16所示。

点击“OK”按钮确认选择爬虫项目的目录，这样爬虫框架的代码就加载到PyCharm中，Scrapy生成的框架代码结构如图所示。

Scrapy框架代码

框架生成的源代码包括：：items.py、pipelines.py、settings.py。

items.py：定义结构化数据字段，用来保存爬取到的数据，也就是准备爬取的网页元素的特征。例如，爬取新闻网站上的新闻，items.py可以定义新闻标题、新闻内容、作者及发布时间等字段。
pipelines.py：定义如何对抓取到的内容进行再处理，常见的处理方式有将网络爬虫爬取的数据保存为一个文件，或者写入关系型数据库或者NoSQL类型数据库，如MongoDB。
settings.py:是Scrapy的设置文件，通过修改配置文件可以对网络爬虫程序进行灵活的配置，以使用不同的应用场景。
spiders目录：实现网络爬虫的核心处理逻辑。

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/360447.html

上一篇 openeuler cmp: command not found

下一篇在python中怎么用转义字符输出汉字

Python相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号