资讯

精准传达 • 有效沟通

从品牌网站建设到网络营销策划,从策略到执行的一站式服务

scrapy导出文件中文乱码问题-创新互联

背景:

使用scrapy crawl spidername -o filename.json命令执行爬虫,并将item写入文件,发现中文乱码,比如这样子:
scrapy导出文件中文乱码问题

创新互联公司提供网站设计制作、成都网站设计、网页设计,高端网站设计广告投放平台等致力于企业网站建设与公司网站制作,十载的网站开发和建站经验,助力企业信息化建设,成功案例突破近1000家,是您实现网站建设的好选择.

解决方法

第一种方法:

使用scrapy命令导出时指定编码格式

scrapy crawl baidu -o baidu_med.json -s FEED_EXPORT_ENCODING=utf-8
第二种方法:

借助Pipeline将item写入到文件
1.修改pipelines.py,添加:

import json
import codecs

class YiyaoPipeline(object):
    def __init__(self):
        self.file = codecs.open('item.json', 'wb', encoding='utf-8')

    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + '\n'
        self.file.write(line)
        return item

2.修改settings.py,激活pipeline:

ITEM_PIPELINES = {
   'yiyao.pipelines.YiyaoPipeline': 300,
}

注意:settings.py默认有ITEM_PIPELINES配置,只是注销掉了。
3.使用scrapy命令导出时,直接执行:

scrapy crawl baidu 

本文名称:scrapy导出文件中文乱码问题-创新互联
文章位置:http://cdkjz.cn/article/djdoep.html
多年建站经验

多一份参考,总有益处

联系快上网,免费获得专属《策划方案》及报价

咨询相关问题或预约面谈,可以通过以下方式与我们联系

大客户专线   成都:13518219792   座机:028-86922220