Scrapy爬取小实战——以新浪股市为例
前言
- 相信大家已经在CSDN上找到了很多讲解scrapy爬虫原理、详解balabala…的一大堆,所以这里我就不去对scrapy的原理做什么讲解,就只是用代码与注释来告诉大家要如何操作scrapy写一个爬虫小应用。
第一部分:看看网站
- 这次案例我们要爬新浪股市某一条评论里面的三个内容:评论内容、时间、作者。
- 我随机打开一个评论:
- 可以看到要爬的就是框起来的三个内容,通过F12我们可以看到它详细的html代码,这里我就不打开看了。
- 因为我们后面爬取要涉及到正则表达式,所以建议大家要学会如何使用正则表达式来找信息,如果大家不会的话也可以下载chrome的xpath插件,查看每一部分的正则表达式代码。
这里附上链接:Xpath-helper插件下载戳这里!!!!.
第二部分:创建一个spider项目
- 首先,在你想要创建项目的目录下打开cmd并进入python环境:
(这里我把完整路径擦掉了,但我相信大家知道这是我想要创建项目的路径,且python环境叫’class’)
- 一定要在python环境下分别输入:scrapy startproject 项目名 ,以及 scrapy genspider 名称 “网站”:
(这里项目名和名称我建议写不同的。不过当然,开心就好)
- 在pycharm里查看one目录下自动创建的文件:
(这些文件就是接下来我们要配置的文件)
第三部分:配置文件
- 这部分我们要配置几个文件,细节都在图里xdm。
- 首先配置setting文件:
(setting文件里主要是基本配置,比如你的用户啊、协议什么的。)
- 配置items文件:
(因为我们这次就只是爬一页评论里面的:评论内容、评论时间、评论作者,所以就这三行)
- 配置pipeline管道文件:
管道文件是最后用来把存在item里面的数据以json的格式写到本地文件,这个要知道。
我这里pipeline文件一部分是借鉴了其他大佬在这块的操作,但这部分也比较好理解。
第四部分:编写文件
- 注意,这里编写的文件都要在spider文件夹目录下编写,别乱放地方。
- 编写run文件:
(run文件主要用来运行爬虫)
- 编写xinlangdata主要文件:
注1:基本上需要注意的几句话我都做了注释,这里如果你想爬很多页面的数据,可以单独写一个程序用来爬url返回列表,然后替换掉现在的那个urls就可以了
注2:爬内容的那三句话是正则表达式,有兴趣可以了解一下。
注3:虽然我只爬了两个页面但把前后循环读取的部分写的比较复杂,主要是方便有的好兄弟要爬很多很多页,只替换urls列表要简单很多哦。
第五部分:让我康康!
- 执行run文件:
没报错且最后是酱紫就成功了。
- 康康数据:
找到同文件夹下的json文件:
只爬了两行数据有些少,也没怎么洗,有兴趣自己去洗把。
结语
- scrapy是很方便很好的爬虫工具,希望大家在实现这个小项目后也能回过头来仔细学习一下它的原理与功能,只是会用是远远不够的,还要学会为什么会这样用。
- 这次的小案例目的只是让大家体验scrapy爬虫带来的快感,很多细节的地方没有做过多的强调,爬取的内容也比较简单。
- 最后希望大家多多关注我哦,我会不定期更新一些有关爬虫、数据分析、机器学习相关的小项目或者案例,把我的学习经验同大家交流。
- 瑞斯拜!!



