python 爬虫之scrapy中Request的使用

一、Request和Response（请求和响应）

Request对象在爬虫程序中生成并传递到系统，直到它们到达下载程序，后者执行请求并返回一个Response对象，该对象返回到发出请求的爬虫程序。

二、Request对象

一个Request对象表示一个HTTP请求，它通常是在爬虫生成，并由下载执行，从而生成Response

三、请求子类 FormRequest对象

FormRequest类扩展了Request具有处理HTML表单的功能的基础。它使用lxml.html表单从Response对象的表单数据预填充表单字段

class scrapy.http.FormRequest(url[, formdata, ...])

本FormRequest类增加了新的构造函数的参数。其余的参数与Request类相同

参数：formdata（元组的dict或iterable） - 是一个包含HTML Form数据的字典（或（key，value）元组的迭代），它将被url编码并分配给请求的主体。

四、该FormRequest对象支持除标准以下类方法Requests的方法

返回一个新FormRequest对象，其中的表单字段值已预先

填充在给定响应中包含的HTML 元素中.

参数：

response（Responseobject） - 包含将用于预填充表单字段的HTML表单的响应
formname（string） - 如果给定，将使用name属性设置为此值的形式
formid（string） - 如果给定，将使用id属性设置为此值的形式
formxpath（string） - 如果给定，将使用匹配xpath的第一个表单
formcss（string） - 如果给定，将使用匹配css选择器的第一个形式
formnumber（integer） - 当响应包含多个表单时要使用的表单的数量。第一个（也是默认）是0
formdata（dict） - 要在表单数据中覆盖的字段。如果响应元素中已存在字段，则其值将被在此参数中传递的值覆盖
clickdata（dict） - 查找控件被点击的属性。如果没有提供，表单数据将被提交，模拟第一个可点击元素的点击。除了html属性，控件可以通过其相对于表单中其他提交表输入的基于零的索引，通过nr属性来标识
dont_click（boolean） - 如果为True，表单数据将在不点击任何元素的情况下提交