从品牌网站建设到网络营销策划,从策略到执行的一站式服务
这篇文章将为大家详细讲解有关使用Python实现一个快速比较大文件的功能,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。
创新互联坚持“要么做到,要么别承诺”的工作理念,服务领域包括:成都网站制作、成都网站建设、企业官网、英文网站、手机端网站、网站推广等服务,满足客户于互联网时代的大足网站设计、移动媒体设计的需求,帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴!解决方法
利用set()的different(方法)可快速比较,两个set集合的不同之处,也就是对集合进行数学运算
假设:数据1拥有858882条记录,数据2有360029条记录,快速挑选出数据2中而不存在与数据1中的数据
方法:先将两个文件中的数据读入两个list:data1和data2,然后通过:set(data2).difference(set(data1)),获取data2与data1的差集
下面为一个小的demo,可以看到近百万级的数据,比较出差集也就需要1秒左右,效率不是一般的高
import time t1 = time.time() data1 = [] for i in open("inDB.txt","r",encoding="utf-8"): i = i.strip("\n") i = i.lower() data1.append(i) data2 = [] for i in open("data/18年.filename","r",encoding="utf-8"): i = i.strip("\n") i = i.lower() data2.append(i) newdata = set(data2).difference(set(data1)) t2 = time.time() print(f"data1 length:\t{len(data1)}") print(f"data2 length:\t{len(data2)}") print(f"newdata length:\t{len(newdata)}") print(f"time use:\t{round(t2 - t1,3)}s")
成都网站建设公司地址:成都市青羊区太升南路288号锦天国际A座10层 建设咨询028-86922220
成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.
专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网! | 成都网站建设哪家好? | 网站建设地图