网站建设 >

查看其它板块

Python3urllib.request库的基本使用-创新互联

urllib.request库是 Python3 自带的模块(不需要下载，导入即可使用)
python 自带的模块库文件都是在C:\Python\Lib目录下（C:\Python是我Python的安装目录），python第三方模块库都是在C:\Python\Lib\site-packages 下。
urllib.request库在windows下的路径（C:\Python\Lib\urllib）。

创新互联是一家集网站建设,吉木萨尔企业网站建设,吉木萨尔品牌网站建设,网站定制,吉木萨尔网站建设报价,网络营销,网络优化,吉木萨尔网站推广为一体的创新建站企业，帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿，时刻以成就客户成长自我，坚持不断学习、思考、沉淀、净化自己，让我们为更多的企业打造出实用型网站。

一：用urllib.request 里的urlopen()方法发送一个请求


import urllib.request                                                                                      # 导入urllib.request 库
response = urllib.request.urlopen("https://blog.51cto.com/alun51cto")        # 向指定的url发送请求，并返回服务器响应的类文件对象。urlopen方法支持重定向

# 服务器返回的类文件对象支持Python文件对象的操作方法，如read()方法读取文件全部内容，返回字符串
html = response.read()

print(html)                                                                                      # 打印响应的内容

注：urllib.request 里的 urlopen()不支持构造HTTP请求，不能给编写的请求添加head,无法模拟真实的浏览器发送请求。

python的“User-agent”默认的是client_version，而client_version = "Python-urllib/%s" % version。
urllib.request库的urlopen()方法默认的“User-agent”是本机Python的版本（User-agent：Python-urllib/3.4），对于服务器而言，一下就能识别出这是爬虫。
urlopen()的参数就是一个url地址；但是如果需要执行更复杂的操作，比如增加HTTP报头，必须创建一个 Request 实例来作为urlopen()的参数；而需要访问的url地址则作为 Request 实例的参数。

二：用urllib.request 里的request ()方法

import urllib.request                                                                                  # url 作为Request()方法的参数，构造并返回一个Request对象
request = urllib.request.Request("https://blog.51cto.com/alun51cto")      # Request对象作为urlopen()方法的参数，发送给服务器并接收响应
response = urllib.request.urlopen(request)
html = response.read()
print(html)

运行结果：跟第一个代码是一样。
Request实例，除了必须要有 url 参数之外，还可以设置另外两个参数：
data：如果是GET请求，data（默认空），如果是POST请求，需要加上data参数，伴随 url 提交的数据。
headers（默认空）：是一个字典，包含了需要发送的HTTP报头的键值对。
通过抓包可以抓到https://blog.51cto.com/alun51cto 请求的head信息

【Host】：主域 （发请求时，可以不写）
【Connection: keep-alive】：保持登录后的长连接
【User-Agent】：最重要的参数
【Accept】：接受数据的格式，例如：text文本、json等
【Accept-Encoding】：数据的压缩方式 （爬虫不是服务器，没有解压方法，不能写）
【Accept-Language】：支持的语言 （可以不写）
【Cookie】：缓存，Cookie在爬虫里主要获取登录后的状态，跟登录相关的可以用Cookie处理，如果只是获取一个静态页面的数据，就不需要用Cookie。

web项目通过都是通过浏览器去访问，要想真实模拟一个用户用浏览器去访问web项目，在发送请求的时候，会有不同的User-Agent头。 urllib默认的User-Agent头为：Python-urllib/x.y，所以就需要我们在发request请求的时候添加一个head信息

三：用urllib.request 里的request ()方法里加上head信息

import urllib.request

header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36" 
}
request = urllib.request.Request("https://blog.51cto.com/alun51cto")           # url 作为Request()方法的参数，构造并返回一个Request对象
response = urllib.request.urlopen(request)                                                    # Request对象作为urlopen()方法的参数，发送给服务器并接收响应
html = response.read()
print(html)

`四：Request.get_header()与Request.add_header（）`

import urllib.request

url ="https://blog.51cto.com/alun51cto"
header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
}

request = urllib.request.Request(url)                      # url 作为Request()方法的参数，构造并返回一个Request对象
request.add_header("Connection", "keep-alive")   #也可以通过调用request.add_header() 添加/修改一个特定的header
print(request.get_header(header_name="Connection"))  # 也可以通过调用Request.get_header()来查看header信息
response = urllib.request.urlopen(request)            # Request对象作为urlopen()方法的参数，发送给服务器并接收响应
html = response.read()
#print(html)

五：随机添加/修改User-Agent

import urllib.request
import random

url = "https://blog.51cto.com/alun51cto"

#定义一个User-Agent列表
user_agent_list = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36,",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
    "Mozilla/5.0 (Macintosh; Intel Mac OS... "
]
user_agent = random.choice(user_agent_list)              #随机抽取一个User-Agent值
request = urllib.request.Request(url)                             # url 作为Request()方法的参数，构造并返回一个Request对象
request.add_header("User-Agent", user_agent)           #通过调用Request.add_header() 添加一个特定的header
print(request.get_header("User-agent"))                       # 第一个字母大写，后面的全部小写
response = urllib.request.urlopen(request)                   # Request对象作为urlopen()方法的参数，发送给服务器并接收响应
html = response.read()
print(html)

另外有需要云服务器可以了解下创新互联cdcxhl.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

文章题目：Python3urllib.request库的基本使用-创新互联
当前地址：http://cdkjz.cn/article/dcgsoi.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

绵阳网站建设成都未宇聚广汉锦华建材成都微信二次开发公司高端网站设计 jxruijie.cn 微信小程序开发成都网站设计公司网站运营商城网站

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python3urllib.request库的基本使用-创新互联

一：用urllib.request 里的urlopen()方法发送一个请求

二：用urllib.request 里的request ()方法

三：用urllib.request 里的request ()方法里加上head信息

`四：Request.get_header()与Request.add_header（）`

五：随机添加/修改User-Agent

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python3urllib.request库的基本使用-创新互联

一：用urllib.request 里的urlopen()方法发送一个请求

二：用urllib.request 里的request ()方法

三：用urllib.request 里的request ()方法里加上head信息

四：Request.get_header()与Request.add_header（）

五：随机添加/修改User-Agent

相关资讯

开源的图形化Redis客户端管理软件有哪些

区块链的跨链技术有哪些

什么是Python中的多态

Node.js中怎么实现串行化流程控制

win7专业版怎么安装

平台整数类型，进度条编辑类型介绍

怎么实现两个浏览器窗口间通信

软件是什么

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

`四：Request.get_header()与Request.add_header（）`

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接