爬虫urllib库的使用方法-快上网网站建设公司

爬虫urllib库的使用方法

这篇文章给大家分享的是有关爬虫urllib库的使用方法的内容。小编觉得挺实用的，因此分享给大家做个参考。一起跟随小编过来看看吧。

创新互联服务项目包括洪山网站建设、洪山网站制作、洪山网页制作以及洪山网络营销策划等。多年来，我们专注于互联网行业，利用自身积累的技术优势、行业经验、深度合作伙伴关系等，向广大中小型企业、政府机构等提供互联网行业的解决方案，洪山网站推广取得了明显的社会效益与经济效益。目前，我们服务的客户以成都为中心已经辐射到洪山省份的部分城市，未来相信会继续扩大服务区域并继续获得客户的支持与信任！

URL（Uniform Resource Locator）对象代表统一资源定位器，它是指向互联网“资源”的指针。资源可以是简单的文件或目录，也可以是对复杂对象的引用，例如对数据库或搜索引擎的查询。在通常情况下，URL 可以由协议名、主机、端口和资源路径组成，即满足如下格式：

protocol://host:port/path

例如如下的 URL 地址：

http://www.crazyit.org/index.php

urllib 模块则包含了多个用于处理 URL 的子模块：

urllib.request：这是最核心的子模块，它包含了打开和读取 URL 的各种函数。
urllib.error：主要包含由 urllib.request 子模块所引发的各种异常。
urllib.parse：用于解析 URL。
urllib.robotparser：主要用于解析 robots.txt 文件。

通过使用 urllib 模块可以打开任意 URL 所指向的资源，就像打开本地文件一样，这样程序就能完整地下载远程页面。如果再与 re 模块结合使用，那么程序完全可以提取页面中各种信息，这就是所谓的“网络爬虫”的初步原理。

下面先介绍 urllib.parse 子模块中用于解析 URL 地址和查询字符串的函数：

urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)：该函数用于解析 URL 字符串。程序返回一个 ParseResult 对象，可以获取解析出来的数据。

urllib.parse.urlunparse(parts)：该函数是上一个函数的反向操作，用于将解析结果反向拼接成 URL 地址。

urllib.parse.parse_qs(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace')：该该函数用于解析查询字符串（application/x-www-form-urlencoded 类型的数据），并以 dict 形式返回解析结果。

urllib.parse.parse_qsl(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace')：该函数用于解析查询字符串（application/x-www-form-urlencoded 类型的数据），并以列表形式返回解析结果。

urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=quote_plus)：将字典形式或列表形式的请求参数恢复成请求字符串。该函数相当于 parse_qs()、parse_qsl() 的逆函数。

urllib.parse.urljoin(base, url, allow_fragments=True)：该函数用于将一个 base_URL 和另一个资源 URL 连接成代表绝对地址的 URL。

例如，如下程序使用 urlparse() 函数来解析 URL 字符串：

from urllib.parse import *

# 解析URL字符串
result = urlparse('http://www.crazyit.org:80/index.php;yeeku?name=fkit#frag')
print(result)
# 通过属性名和索引来获取URL的各部分
print('scheme:', result.scheme, result[0])
print('主机和端口:', result.netloc, result[1])
print('主机:', result.hostname)
print('端口:', result.port)
print('资源路径:', result.path, result[2])
print('参数:', result.params, result[3])
print('查询字符串:', result.query, result[4])
print('fragment:', result.fragment, result[5])
print(result.geturl())

上面程序中使用 urlparse() 函数解析 URL 字符串，解析结果是一个 ParseResult 对象，该对象实际上是 tuple 的子类。因此，程序既可通过属性名来获取 URL 的各部分，也可通过索引来获取 URL 的各部分。

感谢各位的阅读！关于爬虫urllib库的使用方法就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到吧！

网页名称：爬虫urllib库的使用方法
转载源于：http://cdkjz.cn/article/ipccpp.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

爬虫urllib库的使用方法

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

爬虫urllib库的使用方法

相关资讯

python自动生成k8s集群yaml文件-创新互联

Python如何爬取爱奇艺电影信息-创新互联

win10wlan属性打不开如何解决-创新互联

怎么在postgresql中对字段长度进行修改-创新互联

LinuxShell在目录下如何使用for循环结合if查找文件-创新互联

php中get与post有哪些不同的地方-创新互联

c语言qsort函数（快速排序）-创新互联

Angular1.x个人使用的示例分析-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接