栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python爬虫基础

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python爬虫基础

HTTP基本原理

参考资料:

  • HTTP 教程 | 菜鸟教程 (runoob.com)
  • 个人博客链接

URI和URL

URI:统一资源标识符

URL:统一资源定位符

URN:统一资源名称

现在互联网,URN用得很少,一般网页链接称为URL


超文本

网页源代码HTML称为超文本


HTTP和HTTPS

HTTP:超文本传输协议

HTTPS:HTTP下加入SSL层


HTTP 请求过程

我们利用浏览器”检查“工具的网络来观察这个过程

  • General部分

    • Request URL:请求的URL

    • Request Method:请求方法

    • Status Code: 响应状态码

    • Remote Address:远程服务器的地址和端口

    • Referrer Policy:Referrer判别策略

  • Response Header:响应头

  • Request Header:请求头


请求

请求由客户端发出,分为4部分

  • 请求方法:Request Method

  • 请求网址:Request URL

  • 请求头:Request Headers

  • 请求体:Request Body

请求方法

常见的为:GET和POST

GET 与POST区别

  • GET的参数在URL里面,而POST请求的数据以表单传输,包含在请求体

  • GET的数据只有1024字节,而POST没有限制

其他请求方法

请求的网址

请求的网址即URL

请求头
  • Accept:请求报头域,指定客户端接收哪些类型的信息

  • Accept-Language:指定客户端可接受语言类型

  • Host:指定请求资源的主机IP和端口

  • Cookie:储存在用户本地终端上的数据,特定的 web文档关联在一起, 保存了该客户机访问这个Web 文档时的信息, 当客户机再次访问这个 Web 文档时这些信息可供该文档使用。

  • Referer:标识请求是从那个页面发过来的

  • User-Agent:一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

  • Content-Type:内容类型,一般是指网页中存在的Content-Type,用于定义网络文件的类型和网页的编码,决定文件接收方将以什么形式、什么编码读取这个文件

请求体

请求体承载的是POST的表单数据,对于GET,请求为空


响应 响应状态码

常见的 HTTP 状态码:

  • 200 - 请求成功
  • 301 - 资源(网页等)被永久转移到其它URL
  • 404 - 请求的资源(网页等)不存在
  • 500 - 内部服务器错误

其它可以参考HTTP 状态码 | 菜鸟教程

响应头

响应头包含服务器对请求的应答信息,如Content-Type、Sever、Set-Cookie

响应体

响应体包含响应的正文数据


网页基础 网页组成

网页是由HTML、CSS、JavaScript组成

如果想学爬虫,必须要点Web基础
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/1037001.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号