实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 软件开发 > 后端开发 > Python

如何用scrapy框架构建python爬虫？

Python 更新时间：2026-05-21 13:54:39 发布时间：1918天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

小编一直在更新文章，主要还是把更多的python知识分享给小伙伴们，当然小编也在写python文章的同时，不断加深了对Python的理解。讲了这么多篇的scrapy框架，主要是为了之后抓取数据，搭建python爬虫做准备的。听到这里很多小伙伴是不是恍然大悟，接下来一起学习搭建方法吧。

制作爬虫，总体来说分为两步：先爬再取。

也就是说，首先你要获取整个网页的所有内容，然后再取出其中对你有用的部分。

要建立一个Spider，你必须用scrapy.spider.baseSpider创建一个子类，并确定三个强制的属性：

name：爬虫的识别名称，必须是唯一的，在不同的爬虫中你必须定义不同的名字。
start_urls：爬取的URL列表。爬虫从这里开始抓取数据，所以，第一次下载的数据将会从这些urls开始。其他子URL将会从这些起始URL中继承性生成。
parse()：解析的方法，调用的时候传入从每一个URL传回的Response对象作为唯一参数，负责解析并匹配抓取的数据(解析为item)，跟踪更多的URL。

创建douban_spider.py文件，保存在doubanspiders目录下。并导入我们需用的模块

编写主要模块：

然后运行一下，

会看到有403错误，是因为我们爬取的时候没加头部导致的：

我们来伪装一下，在settings.py里加上USER_AGENT：

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 
(KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'

再次运行，即可看到正确结果。

看完本篇的文章，相信小伙伴们对用scrapy框架构建python爬虫有了一定的了解，还没搭建好的小伙伴也不用着急，多尝试找寻搭建的方法。更多Python学习推荐:PyThon学习网教学中心。

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/11872.html

上一篇 scrapy在python爬虫中搭建出错怎么办？

下一篇 python爬虫Selenium中等待机制怎么用？

Python相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号