栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫 - urlparse 及 URL 是什么

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫 - urlparse 及 URL 是什么

 # 1. URL的语法格式
URI = scheme:[//authority]path[?query][#fragment]
authority = [userinfo@]host[:port]
userinfo = [user_name:password]
图源维基百科
# 2. urllib.parse.urlparse 的解析格式
scheme://netloc/path;params?query#fragment

scheme:在“://”前面,代表协议。
netloc:在第一个“/”前面,代表域名。
path:在“/”后面,代表访问路径。
params:在分号后面,代表参数。
query:在问号后面,代表查询条件,一般用作GET类型的URL。
fragment:在#后面,代表锚点,用于直接指定页面内部下拉距离。

# 3. 实例

## 3.1 代码实现

# -*- coding = utf-8 -*-
# @Time : 2021/10/6 1:13
# @Author : LIUYU
# @File : test_urlib_parse_urlparser.py
# @Software : PyCharm

import urllib.parse

url = 'https://blog.csdn.net/m0_62298204?spm=1001.2101.3001.5343'

# urllib.parse.urlparse
result = urllib.parse.urlparse(url)
print(result.scheme)
print(result.netloc)
print(result.path)
if result.params:
    print(result.params)
else:
    print('There's no params in this URL.')

## 3.2 运行结果

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/294349.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号