此次爬虫是爬取一个彩票网站的历史开奖数据,我本来想象的发现什么规律。然实际效果很差啊!
[彩票网站的数据],我用爬虫把它保存下来。
scrapy startproject ssq
建立一个scrapy项目,然后它自动生成下面的文件:
.
├── scrapy.cfg
└── ssq
├── __init__.py
├── items.py
├── pipelines.py
├── settings.py
└── spiders
└── __init__.py
我们主要编辑两个文件,items.py。
这个文件简单来说,就像数据库,我们要在这里定义每张表,以及每张表的属性。这次比较简单,我们只需要定义一张‘表‘,就是双色球,以及双色球的红球1,红球2,红球3,红球4,红球5,红球6,和篮球,还有期号。就像这样:
写好了我们都需要爬取哪些数据,现在开始正式写爬虫文件。
在spider这个文件里新建一个文件,文件名自拟。
在这个文件里,我们需要用到刚才的items.py这个文件,除此之外我肯定需要导入scrapy这个module,为了绕过网站对于爬虫的过滤,我要加上header,这里就需要scrapy.http 下面的request。最后需要对返回的response进行处理,这里使用scrapy.selector下面的Selector。 如下图所示
从chrome复制出http的header
把它写到类里,除此之外,每一个scrapy项目应该有的三个属性,name,allowed_domains,start_url。
name:运行这个项目时候必备。
allowed_domains: 爬虫爬取的域名范围
start_url: 爬虫入口。(正常情况下,都是由此url开始爬取,然后把返回值交给parse函数处理数据。但是由于今天我们需要自定义header来简单绕过网站的反爬虫机制,所以没有使用默认的方法)
这里开始一个函数start_request(self),自定义提交request的时候。,把header加入到request当中,并把返回response交给下一个函数处理
request(url,header,callback)这个函数有很多参数,这里我只用到了三个就够了。
callback意味着这个函数执行以后,继续调用parse2这个函数处理response。
接着,我们写parse2这个函数,来处理返回的response。
观察我需要处理的response,这里我使用selector.css()方法来定位数据所在的准确位置,当然你也可以用xpath
我们把返回值response交给selector处理,它的css方法会找到所有标签
由于我们要处理每一个
然后对其中的每一个
至此,代码部分结束了,不懂的,有疑惑的可以私信交流。
现在我们运行它
得到一些数据,其实真的没什么用。
Python相关栏目本月热门文章
- 1【Linux驱动开发】设备树详解(二)设备树语法详解
- 2别跟客户扯细节
- 3Springboot+RabbitMQ+ACK机制(生产方确认(全局、局部)、消费方确认)、知识盲区
- 4【Java】对象处理流(ObjectOutputStream和ObjectInputStream)
- 5【分页】常见两种SpringBoot项目中分页技巧
- 6一文带你搞懂OAuth2.0
- 7我要写整个中文互联网界最牛逼的JVM系列教程 | 「JVM与Java体系架构」章节:虚拟机与Java虚拟机介绍
- 8【Spring Cloud】新闻头条微服务项目:FreeMarker模板引擎实现文章静态页面生成
- 9JavaSE - 封装、static成员和内部类
- 10树莓派mjpg-streamer实现监控及拍照功能调试
- 11用c++写一个蓝屏代码
- 12从JDK8源码中看ArrayList和LinkedList的区别
- 13idea 1、报错java: 找不到符号 符号: 变量 log 2、转换成Maven项目
- 14在openwrt使用C语言增加ubus接口(包含C uci操作)
- 15Spring 解决循环依赖
- 16SpringMVC——基于MVC架构的Spring框架
- 17Andy‘s First Dictionary C++ STL set应用
- 18动态内存管理
- 19我的创作纪念日
- 20Docker自定义镜像-Dockerfile



