pandas的基础用法-快上网网站建设公司

pandas的基础用法

本篇内容介绍了“pandas的基础用法”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

创新互联专业为企业提供新晃网站建设、新晃做网站、新晃网站设计、新晃网站制作等企业网站建设、网页设计与制作、新晃企业网站模板建站服务，10多年新晃做网站经验，不只是建网站，更提供有价值的思路和整体网络服务。

创建pandas

1. 使用pd.Series()函数创建DataFrame

import pandas as pd

country1 = pd.Series({'Name': '中国',
                      'Language': 'Chinese',
                      'Area': '9.597M km2',
                      'Happiness Rank': 79})

country2 = pd.Series({'Name': '美国',
                      'Language': 'English (US)',
                      'Area': '9.834M km2',
                      'Happiness Rank': 14})

country3 = pd.Series({'Name': '澳大利亚',
                      'Language': 'English (AU)',
                      'Area': '7.692M km2',
                      'Happiness Rank': 9})


df = pd.DataFrame([country1, country2, country3], index=['CH', 'US', 'AU'])

pandas的基础用法

2. 使用DataFrame()和字典创建

df = pd.DataFrame(columns=["epoch", "train_loss", "train_auc", "test_loss", "test_auc"])

log_dic = {"epoch": 1,
           "train_loss": 0.2, 
           "train_auc": 1.,
           "test_loss": 0, 
           "test_auc": 0 
          }

df = df.append([log_dic])

log_dic = {"epoch": 2,
           "train_loss": 0.2, 
           "train_auc": 1.,
           "test_loss": 0, 
           "test_auc": 0 
          }

df = df.append([log_dic])

# 对index进行重新编号
# inplace=True表示在原数据上修改
# drop=True表示丢弃之前的index
df.reset_index(inplace=True, drop=True)

pandas的基础用法

3. 使用pd.concat对多个DataFrame()组合

df1 = pd.DataFrame(columns=["epoch", "train_loss", "train_auc", "test_loss", "test_auc"])

log_dic = {"epoch": 1,
           "train_loss": 0.2, 
           "train_auc": 1.,
           "test_loss": 0, 
           "test_auc": 0 
          }
df1 = df1.append([log_dic])


df2 = pd.DataFrame(columns=["epoch", "train_loss", "train_auc", "test_loss", "test_auc"])

log_dic = {"epoch": 2,
           "train_loss": 0.1, 
           "train_auc": 1.,
           "test_loss": 0, 
           "test_auc": 1 
          }
df2 = df2.append([log_dic])

# ignore_index=True表示重新对index进行编号
df_new = pd.concat([df1, df2], axis=0, ignore_index=True)

pandas的基础用法

文件操作

1. 生成含有columns的文件

columns = ["epoch", "train_loss", "train_auc", "test_loss", "test_auc"]
df_new[header].to_csv('text.txt', index=False, header=columns, sep='\t')

pandas的基础用法

2. 生成不含有columns的文件

df_new[header].to_csv('text.txt', index=False, header=None, sep='\t')

pandas的基础用法

3. 读取不含有columns的文件

df = pd.read_csv('text.txt', sep='\t', header=None, nrows=100)
df.columns = ["epoch", "train_loss", "train_auc", "test_loss", "test_auc"]

pandas的基础用法

4. 读取含有columns的文件

# 需要使用header参数指定columns在第几行,通常是第0行
df = pd.read_csv('text.txt', sep='\t', header=[0])

#指定特定columns读取
reprot_2016_df = pd.read_csv('2016.csv',
                             index_col='Country',
                             usecols=['Country', 'Happiness Rank', 'Happiness Score', 'Region'])

pandas的基础用法

5. 生成二进制的pickle文件

df = pd.DataFrame(columns=["epoch", "train_loss", "train_auc", "test_loss", "test_auc"])

log_dic = {"epoch": 2,
           "train_loss": 0.1, 
           "train_auc": 1.,
           "test_loss": 23, 
           "test_auc": 1 
          }

df = df.append([log_dic])
df.to_pickle('df_log.pickle')

6. 加载pickle文件

df = pd.read_pickle('df_log.pickle')

索引

使用下图的数据为例子

pandas的基础用法

1. 行索引

df.loc['CH']  # Series类型

pandas的基础用法

df.loc['CH'].index   # Index(['Name', 'Language', 'Area', 'Happiness Rank'], dtype='object')
df.loc['CH']['Name']  # '中国'

df.loc['CH'].to_numpy()  # array(['中国', 'Chinese', '9.597M km2', 79], dtype=object)

df.iloc[1]  # 索引第二行

pandas的基础用法

df.loc[['CH', 'US']]
df.iloc[[0, 1]]

pandas的基础用法

2.列索引

df['Area']  # type: Series
df[['Name', 'Area']]  # type: DataFrame

pandas的基础用法

3. 混合索引

print('先取出列，再取行：')
print(df['Area']['CH'])
print(df['Area'].loc['CH'])
print(df['Area'].iloc[0])

print('先取出行，再取列：')
print(df.loc['CH']['Area'])
print(df.iloc[0]['Area'])
print(df.at['CH', 'Area'])

pandas的基础用法

删除数据

df.drop(['CH'], inplace=True)  # 删除行 inplace=True表示在原数据上修改
df.drop(['Area'], axis=1, inplace=True)  # 删除列，需要指定axis=1

Nan数据的操作

1. 删除操作

使用下面的数据

import numpy as np
df = pd.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'],
                   "toy": [np.nan, 'Batmobile', 'Bullwhip'],
                   "born": [pd.NaT, pd.Timestamp("1940-04-25"),pd.NaT]
                  })

pandas的基础用法

"""

axis：
    0: 行操作（默认）
    1: 列操作
how：
    any: 只要有空值就删除（默认）
    all:全部为空值才删除
inplace：
    False: 返回新的数据集（默认）
    True: 在愿数据集上操作 

"""

df.dropna(axis=0, how='any', inplace=True)

pandas的基础用法

df.dropna(axis=0, how='any', subset=['toy'], inplace=False)  # subset指定操作特定列的nan

2. 填充操作

使用下面的数据

pandas的基础用法

df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, 5],
                   [np.nan, 3, np.nan, 4]],
                  columns=list('ABCD'))

df.fillna(0, inplace=True)

pandas的基础用法

# "横向用缺失值前面的值替换缺失值"
df.fillna(axis=1, method='ffill', inplace=False)

pandas的基础用法

# "纵向用缺失值上面的值替换缺失值"
df.fillna(axis=0, method='bfill', inplace=False)

pandas的基础用法

df['A'].fillna(0, inplace=True) # 指定特定列填充

pandas的基础用法

3. 判断操作

df.isnull()
df['A'].isna()

pandas的基础用法

合并操作

import pandas as pd

staff_df = pd.DataFrame([{'姓名': '张三', '部门': '研发部'},
                        {'姓名': '李四', '部门': '财务部'},
                        {'姓名': '赵六', '部门': '市场部'}])


student_df = pd.DataFrame([{'姓名': '张三', '专业': '计算机'},
                        {'姓名': '李四', '专业': '会计'},
                        {'姓名': '王五', '专业': '市场营销'}])

1. 按照列为基准合并

inner（交集） outer（并集） left right

pd.merge(staff_df, student_df, how='inner', on='姓名')
pd.merge(staff_df, student_df, how='outer', on='姓名')

pandas的基础用法

2. 按照索引为基准合并

# 设置姓名为索引
staff_df.set_index('姓名', inplace=True)
student_df.set_index('姓名', inplace=True)

pd.merge(staff_df, student_df, how='left', left_index=True, right_index=True)

pandas的基础用法

3. 指定不同列为基准

# 重置index为range()
staff_df.reset_index(inplace=True)
student_df.reset_index(inplace=True)

staff_df.rename(columns={'姓名': '员工姓名'}, inplace=True)
student_df.rename(columns={'姓名': '学生姓名'}, inplace=True)

pd.merge(staff_df, student_df, how='left', left_on='员工姓名', right_on='学生姓名')

pd.merge(staff_df, student_df, how='inner', left_on=['员工姓名', '地址'], right_on=['学生姓名', '地址'])

其它操作

report_data = pd.read_csv('./2015.csv')
report_data.head()

基本属性操作

data.head()
data.info()
data.describe()
data.columns
data.index

重命名columns

df.rename(columns={'Region': '地区', 'Happiness Rank': '排名', 'Happiness Score': '幸福指数'}, inplace=True)

数据清洗操作

# null替换成0
df.fillna(0, inplace=False)

# 丢弃null
df.dropna()
# 前向填充
df.ffill()
# 后向填充
df.bfill(inplace=True)

apply操作

# apply使用
# 获取姓
staff_df['员工姓名'].apply(lambda x: x[0])


# 获取名
staff_df['员工姓名'].apply(lambda x: x[1:])


# 结果合并
staff_df.loc[:, '姓'] = staff_df['员工姓名'].apply(lambda x: x[0])
staff_df.loc[:, '名'] = staff_df['员工姓名'].apply(lambda x: x[1:])

分组

依据columns分组

grouped = report_data.groupby('Region')

grouped['Happiness Score'].mean()
grouped.size()

# 迭代groupby对象
for group, frame in grouped:
    mean_score = frame['Happiness Score'].mean()
    max_score = frame['Happiness Score'].max()
    min_score = frame['Happiness Score'].min()
    print('{}地区的平均幸福指数：{}，最高幸福指数：{}，最低幸福指数{}'.format(group, mean_score, max_score, min_score))

定义函数分组

report_data2 = report_data.set_index('Happiness Rank')

def get_rank_group(rank):
    rank_group = ''
    if rank <= 10:
        rank_group = '0 -- 10'
    elif rank <= 20:
        rank_group = '10 -- 20'
    else:
        rank_group = '> 20'
    return rank_group

grouped = report_data2.groupby(get_rank_group)
for group, frame in grouped:
    print('{}分组的数据个数：{}'.format(group, len(frame)))

# 实际项目中，通常可以先人为构造出一个分组列，然后再进行groupby

# 按照score的整数部分进行分组
# 按照幸福指数排名进行划分，1-10, 10-20, >20
# 如果自定义函数，操作针对的是index
report_data['score group'] = report_data['Happiness Score'].apply(lambda score: int(score))

grouped = report_data.groupby('score group')
for group, frame in grouped:
    print('幸福指数整数部分为{}的分组数据个数：{}'.format(group, len(frame)))

使用bar类型的柱状图统计每个label的个数。

train_df.label.value_counts().plot(kind='bar')

“pandas的基础用法”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站，小编将为大家输出更多高质量的实用文章！

文章标题：pandas的基础用法
标题网址：http://cdkjz.cn/article/ggisio.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

pandas的基础用法

创建pandas

1. 使用pd.Series()函数创建DataFrame

2. 使用DataFrame()和字典创建

3. 使用pd.concat对多个DataFrame()组合

文件操作

1. 生成含有columns的文件

2. 生成不含有columns的文件

3. 读取不含有columns的文件

4. 读取含有columns的文件

5. 生成二进制的pickle文件

索引

1. 行索引

2.列索引

3. 混合索引

删除数据

Nan数据的操作

1. 删除操作

2. 填充操作

3. 判断操作

合并操作

1. 按照列为基准合并

2. 按照索引为基准合并

3. 指定不同列为基准

其它操作

基本属性操作

重命名columns

数据清洗操作

apply操作

分组

相关资讯

cad比例怎么设置，cad如何设置绘图比例

win10以太网设置，系统之家win10网络里没有以太网设置怎么办

查网站二级域名,这些域名是怎么一回事?

深圳外贸论坛怎么添加,外贸论坛怎么找客户

未将对象引用设置到对象的实例怎么解决，未将对象引用设置到对象的实例怎么处理呀

域名所有者厦门易名,如何投资域名?!

湖南网站推广多少钱,百度首页网站推广多少钱一年

开发一套电商网站多少钱,开发电商网站特效

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接