网站建设 >

查看其它板块

Python爬虫入门之urllib库

一、urllib库：模拟浏览器发送请求的库，python自带，无需安装;

创新互联建站长期为上千家客户提供的网站建设服务，团队从业经验10年，关注不同地域、不同群体，并针对不同对象提供差异化的产品和服务；打造开放共赢平台，与合作伙伴共同营造健康的互联网生态环境。为桂林企业提供专业的成都网站设计、成都网站制作，桂林网站改版等技术服务。拥有十年丰富建站经验和众多成功案例,为您定制开发。

二、Python2和Python3的urllib库的区别：

1. urllib是python提供的一个用于操作url的模块。

2. 在python2中，有urllib库和urllib2库，在python3中，urllib2合并到urllib库中,我们爬取网页的时候，经常用到这个库，升级合并后，模块中包的位置变化的地方较多。

3. 区别：

在python2中使用import urllib2————对应的，在python3中会使用import urllib.request,urllib.error;

在python2中使用import urllib————对应的，在python3中会使用import urllib.request,urllib.error,urllib.parse;

在python2中使用import urlparse————对应的，在python3中会使用import urllib.parse;

在python2中使用urllib2.urlopen————对应的，在python3中会使用urllib.request.urlopen;

在python2中使用urllib.urlencode————对应的，在python3中会使用urllib.parse.urlencode;

在python2中使用urllib.quote————对应的，在python3中会使用urllib.request.quote;

在python2中使用cookielib.CookieJar————对应的，在python3中会使用http.CookieJar;

在python2中使用urllib2.Request————对应的，在python3中会使用urllib.request.Request

以上就是urllib相关模块从python2到python3的常见一些变化

三、urllib两个常用模块：urllib.request，urllib.parse

1. urllib.request.urlopen(url, data=None, proxies=None)：它可以创建一个表示远程url的类文件对象，然后我们可以像对本地文件一样，用同样的方法去操作这个类文件对象以此获取远程数据。

import urllib.request

url = "https://www.baidu.com/"

# response：是一个文件

response = urllib.request.urlopen(url=url)

print(response.read().decode())

返回结果===》

url：远程数据的路径，一般是网址;

data：以post方式提交到url的数据，如果要传必须传 bytes(字节流)类型的，如果是一个字典，可以先用 urllib.parse 模块里的 urlencode() 编码;

proxies用于设置代理;

1. urlopen返回一个类文件对象(fd)，它提供了如下方法：

(I)read()：读取相应内容，内容是字节类型;

(II)geturl()：获取请求的url

示例：

print(response.geturl())

结果：

https://www.baidu.com/

(III)getheaders()：获取头部信息，列表里面有元组

示例：

print(response.getheaders())

结果：

[('Accept-Ranges', 'bytes'), ('Cache-Control', 'no-cache'), ('Content-Length', '227'), ('Content-Type', 'text/html'), ('Date', 'Sat, 30 Nov 2019 15:32:47 GMT'), ('P3p', 'CP=" OTI DSP COR IVA OUR IND COM "'), ('P3p', 'CP=" OTI DSP COR IVA OUR IND COM "'), ('Pragma', 'no-cache'), ('Server', 'BWS/1.1'), ('Set-Cookie', 'BD_NOT_HTTPS=1; path=/; Max-Age=300'), ('Set-Cookie', 'BIDUPSID=52DFB72BEBE10DAD15531561E0516914; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 'PSTM=1575127967; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 'BAIDUID=52DFB72BEBE10DADB9398376B7470E3A:FG=1; max-age=31536000; expires=Sun, 29-Nov-20 15:32:47 GMT; domain=.baidu.com; path=/; version=1; comment=bd'), ('Strict-Transport-Security', 'max-age=0'), ('Traceid', '1575127967028891188210707054848444292954'), ('X-Ua-Compatible', 'IE=Edge,chrome=1'), ('Connection', 'close')]

(IV)getcode()：获取状态码

示例：

print(response.getcode())

结果：

200

(V)readlines()：按行读取，返回列表，都是字节类型

示例：

print(response.readlines())

结果：

[b'\r\n', b'\r\n', b'\t\r\n', b'\r\n', b'\r\n', b'\t\r\n', b'\r\n', b'']

注释：“\b”在Python中表示二进制

【注意】像1和5这种返回是“字节类型(二进制)”都要进行解码才能显示出来

2. urllib.request.Request(url, headers, data)：参数和urllib.request.urlopen()函数一样，一个请求不仅仅只有url，还要有Headers等信息，这时我们把Request()用于包装请求头，返回一个请求头，可以作为urllib.request.urlopen()的参数。

示例：郑州人流医院 http://mobile.zzzzyy120.com/

import urllib.request

headers = {

'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) '

'AppleWebKit/537.36 (KHTML, like Ge'

'cko) Chrome/71.0.3578.98 Safari/537.36'

}

url = "https://www.baidu.com/"

request = urllib.request.Request(url=url, headers=headers)

response = urllib.request.urlopen(request)

print(response.getcode())

结果：

200

3. urllib.parse.quote()：url编码函数，将中文进行转化为%xxx

示例：

import urllib.parse

url = "小编是大帅哥!"

result = urllib.parse.quote(url)

print(result)

结果：

%E5%B0%8F%E7%BC%96%E6%98%AF%E5%A4%A7%E5%B8%85%E5%93%A5%EF%BC%81

4. urllib.parse.unquote()：url解码函数，将%xxx进行转化为中文

示例：

import urllib.parse

string = "%E5%B0%8F%E7%BC%96%E6%98%AF%E5%A4%A7%E5%B8%85%E5%93%A5%EF%BC%81"

result = urllib.parse.unquote(string)

print(result)

结果：

小编是大帅哥!

5. urllib.parse.urlencode()：给一个字典，将字典拼接为query_string，并且实现了编码的功能

示例：

import urllib.parse

data = {

'name': 'Alien',

'age': '20',

'address': 'Chinese'

}

result = urllib.parse.urlencode(data)

print(result)

结果：

name=Alien&age=20&address=Chinese

四、字符串与二进制之间的转换：

encode(encoding=None)：字符串 ===》二进制，参数encoding默认是“utf-8”;

decode(encoding=Node)：二进制 ===》字符串，参数encoding默认是“utf-8”;

要是传encoding的值大多数也是“gbk”

Python打开文件时也有编码设置

open("文件名", "w", encoding='utf8')

当前标题：Python爬虫入门之urllib库
标题URL：http://cdkjz.cn/article/iighhd.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

胜锦安防科技成都商城网站建设网络推广公司广东网站建设手机网站制作梓潼网站建设成都防护栏视频运营成都门窗定制成都小程序开发

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图