网站建设 >

查看其它板块

python爬虫函数解码 py爬虫代码

python爬虫抓下来的网页，中间的中文乱码怎么解决

对于python的中文编码问题可以参考下面的帖子

创新互联是一家专注于成都网站建设、成都做网站与策划设计,金乡网站建设哪家好?创新互联做网站,专注于网站建设10年,网设计领域的专业建站公司;建站业务涵盖:金乡等地区。金乡做网站价格咨询:18980820575

同时，对于网页的中文乱码，建立使用requests模块代替urllib\urllib2

requests的content方法，对中文编码，支持比较好，基本不会出现乱码。

req=requests.get(url,cookies=mecookies)

print req.content

具体用法，参见下面两个帖子，较详细：

python3爬虫urllib.request.urlopen("网址").read() 本来是utf-8，为什么还要加上urlencode（“utf-8”）

你这行代码是不需要urlencode()的。

对于返回的request对象，其read()方法获得的其实是一个字节流对象，而非字符串对象，所以这时需要调用该字节流对象的decode()方法，按指定编码方式进行解码。

至于urlencode()，这是urllib中的一个函数，它的作用是将字符串进行url编码。这个编码其实就是个转义的过程，将那些因可能造成解释器误会或安全问题而不适合出现在请求中的符号进行转义，并且把超出url编码表的字符降维。

如何入门 Python 爬虫

爬虫我也是接触了1个月，从python小白到现在破译各种反爬虫机制，我给你说说我的方向：

1、学习使用解析网页的函数，例如：

import urllib.request

if __name__ == '__main__':

url = "..."

data = urllib.request.urlopen(url).read() #urllib.request.urlopen(需要解析的网址)

data = data.decode('unicode_escape','ignore') #用unicode_escape方式解码

print(data)

2、学习正则表达式：

正则表达式的符号意义在下面，而正则表达式是为了筛选出上面data中的信息出来，例如：

def get_all(data):

reg = r'(search.+)(" )(mars_sead=".+title=")(.+)(" data-id=")'

all = re.compile(reg);

alllist = re.findall(all, data)

return alllist

3、将得到的结果压进数组：

if __name__ == '__main__':

info = []

info.append(get_all(data))

4、将数组写进excel：

import xlsxwriter

if __name__ == '__main__':

info = []

info.append(get_all(data))

workbook = xlsxwriter.Workbook('C:\\Users\\Administrator\\Desktop\\什么文件名.xlsx') # 创建一个Excel文件

worksheet = workbook.add_worksheet() # 创建一个工作表对象

for i in range(0,len(info)):

worksheet.write(行, 列, info[i], font)#逐行逐列写入info[i]

workbook.close()#关闭excel

一个简单的爬虫搞定，爬虫的进阶不教了，你还没接触过更加看不懂

分享文章：python爬虫函数解码 py爬虫代码
当前链接：http://cdkjz.cn/article/dosijsh.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

香港云虚拟主机成都网站排名达州网站设计西部信息中心西信中心乐山电信机房天泽尚品企业网站建设公司公司logo设计德阳机房

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

python爬虫函数解码 py爬虫代码

python爬虫抓下来的网页，中间的中文乱码怎么解决

python3爬虫urllib.request.urlopen("网址").read() 本来是utf-8，为什么还要加上urlencode（“utf-8”）

如何入门 Python 爬虫

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

python爬虫函数解码 py爬虫代码

python爬虫抓下来的网页，中间的中文乱码怎么解决

python3爬虫urllib.request.urlopen("网址").read() 本来是utf-8，为什么还要加上urlencode（“utf-8”）

如何入门 Python 爬虫

相关资讯

javascript讲课,javascript课程介绍

连线html5,连线题图片

html5达内,达内web前端开发

jquery手机验证,jquery验证手机号

html5上下滑动,div上下滑动

精简javascript,精简退休感言

android的下拉刷新,android的下拉刷新怎么做

ios开发qq群,ios怎么群发

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接