Python `urlparse()` 完整指南 - URL 解析的关键工具

在互联网时代，URL（统一资源定位符）是表示信息位置的基本地址。在网页开发或数据分析等多个领域，我们常常需要处理 URL，有时需要提取特定部分（例如：域名、路径、查询参数）而不是整个 URL。在这种情况下，Python 的 urllib.parse 模块中的 urlparse() 函数是一个强大的工具。

本文将详细介绍 urlparse() 函数的基本用法、常用的 .netloc 属性的含义和使用案例，以及 urlparse() 返回的 ParseResult 对象的各种属性。

1. `urlparse()` 是什么?

urlparse() 是一个将 URL 字符串根据 RFC 1738（WWW 中的统一资源定位符）和 RFC 3986（均匀资源标识符（URI）：通用语法）标准分解为多个组件的函数。分解后的每个组件都会被封装在名为 ParseResult 的特殊对象中返回。

基本用法

urlparse() 函数需要从 urllib.parse 模块导入。

from urllib.parse import urlparse

url = 'https://user:pass@www.example.com:8080/path/to/resource?name=Alice&age=30#section1'
parsed_url = urlparse(url)

print(parsed_url)
# 输出: ParseResult(scheme='https', netloc='user:pass@www.example.com:8080', path='/path/to/resource', params='', query='name=Alice&age=30', fragment='section1')

parsed_url 对象可以通过索引以元组的方式访问，也可以通过命名属性（named attribute）访问，后者更具可读性。

2. `ParseResult` 对象的主要属性

urlparse() 返回的 ParseResult 对象包含以下属性。

`scheme`

含义: URL 的协议部分。 (http, https, ftp, mailto 等)
示例: 'https'

`netloc` （网络位置）

含义: 包含主机名（域名）、端口号，以及可选的用户认证信息（user:pass@）部分。
示例: 'user:pass@www.example.com:8080'
用途: 提取特定网络服务的域名，或检查端口号以便用于网络连接时非常有用。后面会详细介绍。

`path`

含义: 表示 web 服务器内特定资源的路径。
示例: '/path/to/resource'

`params` （路径参数）

含义: 用分号（;）分隔的路径参数。虽然在 RFC 中有定义，但在现代网页中几乎不使用，通常使用查询（query）。
示例: ';sessionid=xyz'（很少使用）

`query`

含义: 问号（?）后面的查询字符串。用于以键值对的形式将数据传递给服务器。
示例: 'name=Alice&age=30'
用途: 与 urllib.parse.parse_qs() 函数结合使用，可以轻松解析为字典形式。

from urllib.parse import parse_qs
query_params = parse_qs(parsed_url.query)
print(query_params)
# 输出: {'name': ['Alice'], 'age': ['30']}

`fragment`

含义: 哈希（#）后跟的片段标识符。通常用于跳转到网页内的特定部分，未被发送到服务器，仅在浏览器中处理。
示例: 'section1'

3. `.netloc` 属性的深入分析

.netloc 是 urlparse() 结果中非常重要的一个属性。netloc 是 网络位置（Network Location） 的缩写，包含与 URL 相关的核心信息。

`netloc` 的组成部分

netloc 可以由以下几个元素组成。

用户信息（Userinfo）: 可能包含以 user:password@ 形式的用户名和密码。出于安全原因，在常见的网页 URL 中几乎不使用，但在 FTP 等其他协议中可能会看到。
主机（Host）: 域名（www.example.com）或 IP 地址（192.168.1.1）。
端口（Port）: 跟在 : 后面的端口号。当使用 HTTP 的默认端口 80、HTTPS 的默认端口 443 等基本端口时，netloc 中可以省略端口号。

示例:

URL	netloc 结果	说明
`https://www.example.com`	`www.example.com`	仅包含域名（省略 HTTPS 默认端口 443）
`http://myhost:8000/app`	`myhost:8000`	包含主机和端口
`ftp://user:pass@ftp.example.org`	`user:pass@ftp.example.org`	包含用户信息和主机

`.netloc` 的用途与场景

域名提取和验证:
- 通过 netloc 简单提取域名部分，以验证请求来自哪个网站，从而应用安全策略或仅允许特定域名。
- 使用 parsed_url.hostname 属性可以获得不包括端口号的主机名。

url = 'https://www.example.com:8080/path'
parsed = urlparse(url)
print(parsed.netloc)    # 'www.example.com:8080'
print(parsed.hostname)  # 'www.example.com'
print(parsed.port)      # 8080 (int)

URL 重新构建或修改:
- 虽然通过 urlparse() 分解的 ParseResult 对象是不可变的（immutable），但是可以使用 .replace() 方法创建一个新的 ParseResult 对象，只修改特定属性。然后将这个修改后的对象传递给 urlunparse() 函数，以轻松重新构建新的 URL。
- 例如，在实现重定向到特定域名时，仅通过修改 netloc 来生成 URL。

from urllib.parse import urlparse, urlunparse

original_url = 'https://old.example.com/data'
parsed_original = urlparse(original_url)

# 仅修改域名以生成新 URL
new_netloc = 'new.example.com'
modified_parsed = parsed_original._replace(netloc=new_netloc)
new_url = urlunparse(modified_parsed)

print(new_url) # 输出: https://new.example.com/data

URL 的相同性比较（基于域名/端口）:
- 当需要验证两个 URL 是否指向同一服务器时，比较 netloc 属性非常有用。

url1 = 'https://api.myapp.com/v1/users'
url2 = 'https://api.myapp.com:443/v2/products' # 443 是 HTTPS 默认端口
url3 = 'https://oldapi.myapp.com/v1/users'

parsed1 = urlparse(url1)
parsed2 = urlparse(url2)
parsed3 = urlparse(url3)

print(parsed1.netloc == parsed2.netloc) # True (默认端口可以被忽略，因此视为相同)
print(parsed1.hostname == parsed2.hostname) # True
print(parsed1.netloc == parsed3.netloc) # False

4. `urlparse()` 与 `urlsplit()` 的区别

urllib.parse 模块中还有一个与 urlparse() 非常相似的 urlsplit() 函数。这两个函数的主要区别在于处理 params 属性的方式。

urlparse(): 单独分离 params 属性。
urlsplit(): 将 params 属性包含在 path 属性中返回。返回 SplitResult 对象，而不包含 params 属性。

在现代网络开发中，params 几乎不再使用，因此在很多情况下使用 urlsplit() 也没有问题。然而，urlparse() 提供了更为通用和全面的拆分。

结论: URL 解析的必备工具

Python 的 urlparse() 函数是一个强大的工具，可以系统性地分解复杂的 URL 字符串，并提取所需部分。特别是 .netloc 属性提供了与 URL 相关的主机和端口信息，能够在基于域名的逻辑处理或 URL 重新构建时非常有用。

对于所有处理 URL 的 Python 开发者来说，urlparse() 是必备知识，无论是网页抓取、API 请求处理还是安全验证。通过这个函数，更有效地管理和使用 URL 数据吧。

urlparse概念图

Python `urlparse()` 完整指南 - URL 解析的关键工具

1. `urlparse()` 是什么?

基本用法

2. `ParseResult` 对象的主要属性

`scheme`

`netloc` （网络位置）

`path`

`params` （路径参数）

`query`

`fragment`

3. `.netloc` 属性的深入分析

`netloc` 的组成部分

`.netloc` 的用途与场景

4. `urlparse()` 与 `urlsplit()` 的区别

结论: URL 解析的必备工具

类似的帖子

类基视图(CBV)探索系列① 从FBV到CBV的原因与开发者的态度

当 Django 管理后台搜索令人头疼时：创建仅针对特定字段搜索的 Mixin

【Python 标准库－5】数值处理：运用 math 与 statistics

[Python 标准库 - 4] random 模块实战：选择、采样、洗牌与可复现性

留下评论

添加新评论

1. urlparse() 是什么?

基本用法

2. ParseResult 对象的主要属性

scheme

netloc （网络位置）

path

params （路径参数）

query

fragment

3. .netloc 属性的深入分析

netloc 的组成部分

.netloc 的用途与场景

4. urlparse() 与 urlsplit() 的区别

结论: URL 解析的必备工具

类似的帖子

类基视图(CBV)探索系列① 从FBV到CBV的原因与开发者的态度

当 Django 管理后台搜索令人头疼时：创建仅针对特定字段搜索的 Mixin

【Python 标准库－5】数值处理：运用 math 与 statistics

[Python 标准库 - 4] random 模块实战：选择、采样、洗牌与可复现性

留下评论

添加新评论

1. `urlparse()` 是什么?

2. `ParseResult` 对象的主要属性

`scheme`

`netloc` （网络位置）

`path`

`params` （路径参数）

`query`

`fragment`

3. `.netloc` 属性的深入分析

`netloc` 的组成部分

`.netloc` 的用途与场景

4. `urlparse()` 与 `urlsplit()` 的区别