网站建设 >

查看其它板块

cut函数python cut函数用于分词

python制作分布图

制作分布图类似密度图，在python中利用pandas来提取分布数据是比较方便的。主要用到pandas的cut和groupby等函数。

创新互联是一家专注于成都做网站、网站设计与策划设计,溧水网站建设哪家好?创新互联做网站,专注于网站建设十多年,网设计领域的专业建站公司;建站业务涵盖:溧水等地区。溧水做网站价格咨询:028-86922220

官方文档链接

主要参数为x和bins。

x为数据源，数组格式的都支持，list，numpy.narray, pandas.Series。

bins可以为int，也可以为序列。

我们定义bins为一个序列，默认为左开右闭的区间：

对言值列按cats做groupby，然后调用get_stats统计函数，再用unstack函数将层次化的行索引“展开”为列。

G2在之前的文章中有介绍，文章《python结合G2绘制精美图形》。

一句话绘制出来，但具体的区间段难以区分出来。

bokeh是python的一个优秀的绘图工具包，与pandas结合的比较好。 bokeh文档

作者原文链接： python制作分布图

如何用 Python 从海量文本抽取主题

代码

我们在Jupyter Notebook中新建一个Python 2笔记本，起名为topic-model。

为了处理表格数据，我们依然使用数据框工具Pandas。先调用它。

import pandas as pd

然后读入我们的数据文件datascience.csv，注意它的编码是中文GB18030，不是Pandas默认设置的编码，所以此处需要显式指定编码类型，以免出现乱码错误。

df = pd.read_csv("datascience.csv", encoding='gb18030')

我们来看看数据框的头几行，以确认读取是否正确。

df.head()

显示结果如下：

没问题，头几行内容所有列都正确读入，文字显式正常。我们看看数据框的长度，以确认数据是否读取完整。

df.shape

执行的结果为：

(1024, 3)

行列数都与我们爬取到的数量一致，通过。

下面我们需要做一件重要工作——分词。这是因为我们需要提取每篇文章的关键词。而中文本身并不使用空格在单词间划分。

我们首先调用jieba分词包。

import jieba

我们此次需要处理的，不是单一文本数据，而是1000多条文本数据，因此我们需要把这项工作并行化。这就需要首先编写一个函数，处理单一文本的分词。

def chinese_word_cut(mytext):

return " ".join(jieba.cut(mytext))

有了这个函数之后，我们就可以不断调用它来批量处理数据框里面的全部文本（正文）信息了。你当然可以自己写个循环来做这项工作。

下面这一段代码执行起来，可能需要一小段时间。请耐心等候。

df["content_cutted"] = df.content.apply(chinese_word_cut)

执行过程中可能会出现如下提示。没关系，忽略就好。

Building prefix dict from the default dictionary ...

Loading model from cache /var/folders/8s/k8yr4zy52q1dh107gjx280mw0000gn/T/jieba.cache

Loading model cost 0.406 seconds.

Prefix dict has been built succesfully.

执行完毕之后，我们需要查看一下，文本是否已经被正确分词。

df.content_cutted.head()

Python其实很简单第二十一章 DataFrame数据处理

将Excel中的的数据读入数据框架DataFrame后，可以非常方便的进行各种数据处理。

21.1 列间求和

求总分（总分=语文+数学+英语）

对于上一章所提到的学生成绩表，仅用一个语句即可完成总分计算，并填充。

df['总分']=df['语文']+df['数学']+df['英语']

完整代码如下：

from pandas import read_excel

file='d:/student.xlsx' #见第18章表18-1

df=read_excel(file,sheet_name=0,converters={'学号':str})

df['总分']=df['语文']+df['数学']+df['英语']

print(df.head()) #df.head()的作用是仅显示5行记录。

运行结果如下：

序号学号姓名年级班级语文数学英语总分名次

0 1 070101 王博宇 NaN NaN 84 71 93 248 NaN

1 2 070102 陈冠涛 NaN NaN 89 89 89 267 NaN

2 3 070103 李文博 NaN NaN 89 72 76 237 NaN

3 4 070204 姜海燕 NaN NaN 89 89 89 267 NaN

4 5 070205 林若溪 NaN NaN 91 95 83 269 NaN

21.2替换

既可以将对满足条件的行和列的数据替换，也可以对整个集合的数据按照条件进行替换。

df['总分'].replace(310,'x',inplace=True)

将总分列的数值“310”替换为“x”。inplace=True表示改变原数据。

df.replace(76,0,inplace=True)

将整个DataFrame中的数值“76”替换为“0”。

df.replace([98,76,99],0,inplace=True)

将整个DataFrame中的数值“98,76,99”一次替换为“0”。

21.2排序

既可以将某一列作为关键字段排序，也可以将几个列分别作为主、次关键字段进行排序。排序既可以按升序排序，也可以按降序排序。

函数sort_values()的语法格式如下：

df.sort_values(by=[“col1”,”col2”,......,”coln”],ascending=False)

其中，coln表示列名，也可以是列名的列表；ascending表示排序方式，值为True表示升序，可以省缺，值为False表示降序。

如：

df=df.sort_values(by=['总分'],ascending=False)

表示按照“总分”从高到低排序。

df=df.sort_values(by=['总分','语文'],ascending=False)

表示按照“总分”从高到低排序，若“总分”相同，再按照“语文”成绩从高到低排序。

21.3 字段截取

函数slice()可以从某列中截取字符串。格式如下：

slice(start,stop)

其中，start表示开始位置；stop表示结束位置

例：

df['年级']=df['学号'].str.slice(0,2)

通过此语句可以截取学号字段的第1、2个字符，并赋值给年级字段。

21.4 记录抽取

可以抽取满足条件的记录。

例：抽取总分300的记录。

df[df.总分300]

抽取总分在300到310之间（包括300和310）的记录。

df[df.总分.between(306,310)]

抽取学号中包含“0803”的记录。这样可以非常方便的抽取某个班的信息。

df[df.学号.str.contains('0803',na=False)]

此处的na=False，含义是如遇到NaN这样的数据，直接做不匹配处理。

21.5修改记录

1、整列替换

我们在前面已经给整列填充过数据，填充时原来的数据就被覆盖了。

即如下语句：

df['总分']=df['语文']+df['数学']+df['英语']

2、个别修改

如将值‘99’替换为值‘100’，可用如下语句：

df.replace('99','100')

将指定列的值替，如将语文列和英语列的值‘99’替换为值‘100’，可用如下语句：

df.replace({'语文':99,'英语':99},100)

可用如下程序去验证：

from pandas import read_excel

file='d:/student.xlsx'

df=read_excel(file,sheet_name=0,converters={'学号':str})

print(df[(df.语文==99) |(df.英语==99)])

df=df.replace({'语文':99,'英语':99},100)

print(df[(df.语文==99) |(df.英语==99)])

运行结果为：

序号学号姓名年级班级语文数学英语总分名次

28 29 090802 丁能通 09 NaN 119 120 99 338 NaN

29 30 090203 沈丹妮 09 NaN 109 108 99 316 NaN

Empty DataFrame

Columns: [序号, 学号, 姓名, 年级, 班级, 语文, 数学, 英语, 总分, 名次]

Index: []

可以看出，第一个print()语句输出的结果中满足条件“语文或英语为99分”的有两条记录，替换语句执行以后，df中再没有满足条件“语文或英语为99分”的记录了。

21.6记录合并

函数concat()()的格式如下：

concat([dataFrame1,dataFrame2,......]，ignore_index=True)

其中，dataFrame1等表示要合并的DataFrame数据集合；ignore_index=True表示合并之后的重新建立索引。其返回值也是DataFrame类型。

concat()函数和append()函数的功能非常相似。

例：

import pandas #导入pandas模块

from pandas import read_excel #导入read_execel

file='d:/student.xlsx' #变量file表示文件路径，注意'/'的用法数据见第18章表18-1

df=read_excel(file,sheet_name=0,converters={'学号':str})

# 将Excel文件导入到DataFrame变量中

df=df[:5] #截取df的前5个记录

print(df) #输出df

df1=df[:3] #截取df的前3个记录存入df1中

df2=df[3:5] #截取df的最后2个记录存入df2中

df3=pandas.concat([df2,df1]) #将df2与df1合并存入df3中

print(df3) #输出df3

运行结果如下：

序号学号姓名年级班级语文数学英语总分名次

0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN

1 2 070102 陈冠涛 NaN NaN 89 89 89 NaN NaN

2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN

3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN

4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN

序号学号姓名年级班级语文数学英语总分名次

3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN

4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN

0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN

1 2 070102 陈冠涛 NaN NaN 89 89 89 NaN NaN

2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN

由于合并时是将df1合并到df2中，可以看出，索引仍然保持原来的状态。

21.7统计次数

可以用如下方法统计出某个值在某行或者某个范围出现的次数。

from pandas import read_excel

file='d:/student.xlsx'

df=read_excel(file,sheet_name=0,converters={'学号':str})

df=df[:5]

print(df)

print(df['语文'].value_counts())

输出结果如下：

序号学号姓名年级班级语文数学英语总分名次

0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN

1 2 070102 陈冠涛 NaN NaN 89 89 89 NaN NaN

2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN

3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN

4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN

89 3

84 1

91 1

Name: 语文, dtype: int64

可以看出，通过value_counts()函数可以统计出列中各值出现的次数。

value_counts()函数的参数还有：

ascending，当ascending=True时升序排列，当ascending=False时升序排列（此时该参数可省缺）；

normalize，当normalize=True时，显示的不再是各值出现的次数，而是占比。

将上例中的语句print(df['语文'].value_counts())改为：

print(df['语文'].value_counts(ascending=True,normalize=True))

则输出结果变成了：

91 0.2

84 0.2

89 0.6

Name: 语文, dtype: float64

21.8按值查找

print(df['语文'].isin([84,91]))

它的作用是查找‘语文’列中值和isin所指的列表中元素一致的记录，如果找到结果为True，否则为False。

输出结果：

0 True

1 False

2 False

3 False

4 True

Name: 语文, dtype: bool

21.9数据分区

根据某个分区标准，将数据按照所属区域进行划分，并用相应的标签表示，可以用cut()方法来实现。

语法格式如下：

cut(series, bins, right=True, labels=NULL)

其中：

series表示需要分组的数据；

bins表示分组的依据，是一个列表，其元素为划分分区的边界值，如[0,72,96,120]，就是划分3个分区，即0~72、72~96、96~120，默认的是“左包右不包”；

right表示分组时右边是否闭合；

labels表示分组的自定义标签，也可以不重新定义。

下面对上述学生成绩表中的语文成绩进行分组，并增加一个新的列“语文等级”。

import pandas as pd

from pandas import read_excel #导入read_execel

file='d:/student.xlsx'

df=read_excel(file,sheet_name=0,converters={'学号':str})

df['年级']=df['学号'].str.slice(0,2)

df['班级']=df['学号'].str.slice(0,4)

df.总分=df.语文+df.数学+df.英语

bins=[0,72,96,max(df.语文)+1] #

lab=['不及格','及格','优秀']

grade=pd.cut(df.语文,bins,right=False,labels=lab)

df['语文等级']=grade

print(df.head())

print("语文成绩分等级统计结果:")

print(df['语文等级'].value_counts())

运行结果如下：

序号学号姓名年级班级语文数学英语总分语文等级

0 1 070101 王博宇 07 0701 84 71 93 248 及格

1 2 070102 陈冠涛 07 0701 89 89 89 267 及格

2 3 070103 李文博 07 0701 89 72 76 237 及格

3 4 070204 姜海燕 07 0702 89 89 89 267 及格

4 5 070205 林若溪 07 0702 91 95 83 269 及格

语文成绩分等级统计结果:

及格 17

优秀 10

不及格 4

Name: 语文等级, dtype: int64

Python pandas用法

在Python中，pandas是基于NumPy数组构建的，使数据预处理、清洗、分析工作变得更快更简单。pandas是专门为处理表格和混杂数据设计的，而NumPy更适合处理统一的数值数组数据。

使用下面格式约定，引入pandas包：

pandas有两个主要数据结构：Series和DataFrame。

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成，即index和values两部分，可以通过索引的方式选取Series中的单个或一组值。

pd.Series(list,index=[ ]) ，第二个参数是Series中数据的索引，可以省略。

Series类型索引、切片、运算的操作类似于ndarray，同样的类似Python字典类型的操作，包括保留字in操作、使用.get()方法。

Series和ndarray之间的主要区别在于Series之间的操作会根据索引自动对齐数据。

DataFrame是一个表格型的数据类型，每列值类型可以不同，是最常用的pandas对象。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。DataFrame中的数据是以一个或多个二维块存放的（而不是列表、字典或别的一维数据结构）。

pd.DataFrame(data,columns = [ ],index = [ ]) ：columns和index为指定的列、行索引，并按照顺序排列。

如果创建时指定了columns和index索引，则按照索引顺序排列，并且如果传入的列在数据中找不到，就会在结果中产生缺失值：

数据索引：Series和DataFrame的索引是Index类型，Index对象是不可修改，可通过索引值或索引标签获取目标数据，也可通过索引使序列或数据框的计算、操作实现自动化对齐。索引类型index的常用方法：

重新索引：能够改变、重排Series和DataFrame索引，会创建一个新对象，如果某个索引值当前不存在，就引入缺失值。

df.reindex(index, columns ,fill_value, method, limit, copy ) ：index/columns为新的行列自定义索引；fill_value为用于填充缺失位置的值；method为填充方法，ffill当前值向前填充，bfill向后填充；limit为最大填充量；copy 默认True，生成新的对象，False时，新旧相等不复制。

删除指定索引：默认返回的是一个新对象。

.drop() ：能够删除Series和DataFrame指定行或列索引。

删除一行或者一列时，用单引号指定索引，删除多行时用列表指定索引。

如果删除的是列索引，需要增加axis=1或axis='columns'作为参数。

增加inplace=True作为参数，可以就地修改对象，不会返回新的对象。

在pandas中，有多个方法可以选取和重新组合数据。对于DataFrame，表5-4进行了总结

适用于Series和DataFrame的基本统计分析函数：传入axis='columns'或axis=1将会按行进行运算。

.describe() ：针对各列的多个统计汇总，用统计学指标快速描述数据的概要。

.sum() ：计算各列数据的和

.count() ：非NaN值的数量

.mean( )/.median() ：计算数据的算术平均值、算术中位数

.var()/.std() ：计算数据的方差、标准差

.corr()/.cov() ：计算相关系数矩阵、协方差矩阵，是通过参数对计算出来的。Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数。DataFrame的corr和cov方法将以DataFrame的形式分别返回完整的相关系数或协方差矩阵。

.corrwith() ：利用DataFrame的corrwith方法，可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回一个相关系数值Series（针对各列进行计算），传入一个DataFrame则会计算按列名配对的相关系数。

.min()/.max() ：计算数据的最小值、最大值

.diff() ：计算一阶差分，对时间序列很有效

.mode() ：计算众数，返回频数最高的那（几）个

.mean() ：计算均值

.quantile() ：计算分位数（0到1）

.isin() ：用于判断矢量化集合的成员资格，可用于过滤Series中或DataFrame列中数据的子集

适用于Series的基本统计分析函数，DataFrame[列名]返回的是一个Series类型。

.unique() ：返回一个Series中的唯一值组成的数组。

.value_counts() ：计算一个Series中各值出现的频率。

.argmin()/.argmax() ：计算数据最大值、最小值所在位置的索引位置（自动索引）

.idxmin()/.idxmax() ：计算数据最大值、最小值所在位置的索引（自定义索引）

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。下表对它们进行了总结，其中read_csv()、read_table()、to_csv()是用得最多的。

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。

在许多数据分析工作中，缺失数据是经常发生的。对于数值数据，pandas使用浮点值NaN（np.nan）表示缺失数据，也可将缺失值表示为NA（Python内置的None值）。

替换值

.replace(old, new) ：用新的数据替换老的数据，如果希望一次性替换多个值，old和new可以是列表。默认会返回一个新的对象，传入inplace=True可以对现有对象进行就地修改。

删除重复数据

利用函数或字典进行数据转换

df.head()：查询数据的前五行

df.tail()：查询数据的末尾5行

pandas.cut()

pandas.qcut() 基于分位数的离散化函数。基于秩或基于样本分位数将变量离散化为等大小桶。

pandas.date_range() 返回一个时间索引

df.apply() 沿相应轴应用函数

Series.value_counts() 返回不同数据的计数值

df.aggregate()

df.reset_index() 重新设置index，参数drop = True时会丢弃原来的索引，设置新的从0开始的索引。常与groupby()一起用

numpy.zeros()

网站名称：cut函数python cut函数用于分词
文章网址：http://cdkjz.cn/article/doigpdp.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

郫都区消防器材营山月子护理商城网站添翼二手车鉴定成都响应式网站建设公司免备案虚拟主机空间成都网站建设做网站的公司重庆机房托管成都展柜制作

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图