2021SC@SDUSC
一.项目背景互联网大数据时代,给予我们的是生活的便利以及海量数据爆炸式的出现在网络中。在如此海量的信息碎片中,我们如何获取对自己有用的信息呢?答案是筛选!
通过某项技术将相关的内容收集起来,在分析删选才能得到我们真正需要的信息。这门技术正是网络爬虫。
二.项目目标本学期希望通过分析ECommerceCrawlers代码,掌握网络爬虫核心技术,学习优秀代码,提升编程能力。
三.开发环境 (一)从gitee上下载源码(本项目的gitee源码地址)使用PyCharm打开
(二)首先安装scrapy
file-->setting-->Python Interpreter ,点击+
输入scrapy,点击Install Package (requests,selenium的安装,也是在这里输入相应的名称即可)
安装成功后会显示提示信息
项目应该还有一些第三方库,以后也用这种方式来安装即可。
目前博主只安装了三个最基本的库,requests,scrapy,selenium
四.学习任务博主未来将分析下面四个项目,分别是scrapy 博客园爬取,大众点评爬取,scrapy 爬取东方财富网,其他爬虫例子。



