从品牌网站建设到网络营销策划,从策略到执行的一站式服务
本文主要给大家简单讲讲使用pandas模块解决MySQL中的重复数据问题,相关专业术语大家可以上网查查或者找一些相关书籍补充一下,这里就不涉猎了,我们就直奔主题吧,希望使用pandas模块解决mysql中的重复数据问题这篇文章可以给大家带来一些实际帮助。
创新互联公司服务项目包括融水网站建设、融水网站制作、融水网页制作以及融水网络营销策划等。多年来,我们专注于互联网行业,利用自身积累的技术优势、行业经验、深度合作伙伴关系等,向广大中小型企业、政府机构等提供互联网行业的解决方案,融水网站推广取得了明显的社会效益与经济效益。目前,我们服务的客户以成都为中心已经辐射到融水省份的部分城市,未来相信会继续扩大服务区域并继续获得客户的支持与信任!
直接上代码
import pymysql import pandas as pda conn=pymysql.connect(host="127.0.0.1",user="root",passwd="pw",db="test001",charset="utf8") sql="select * from table001" data1 = pda.read_sql(sql,conn) print(data1.count()) data2 = data1.drop_duplicates(subset="big",keep="last") data2.to_sql("table002",con=conn,flavor="mysql",if_exists="append",index=False) print(data2.count())
table001表为原始表,big为表里不能重复的字段,keep="last"代表留重复数据的最后一条,table002表为清洗完数据保存数据的表。
运行该脚本,十来分钟左右,800W条数据已经全部清洗完毕,还剩余200W条不重复数据,并且还和朋友正确的数据一条不差。
随后将数据表上传至朋友的线上云服务器,朋友验证数据都没问题。
使用pandas模块解决mysql中的重复数据问题就先给大家讲到这里,对于其它相关问题大家想要了解的可以持续关注我们的行业资讯。我们的板块内容每天都会捕捉一些行业新闻及专业知识分享给大家的。
成都网站建设公司地址:成都市青羊区太升南路288号锦天国际A座10层 建设咨询028-86922220
成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.
专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网! | 成都网站建设哪家好? | 网站建设地图