Python统计文本文件中词频的方法-快上网网站建设公司

Python统计文本文件中词频的方法

小编给大家分享一下Python统计文本文件中词频的方法，相信大部分人都还不怎么了解，因此分享这篇文章给大家学习，希望大家阅读完这篇文章后大所收获，下面让我们一起去学习方法吧！

目前成都创新互联已为近1000家的企业提供了网站建设、域名、虚拟主机、绵阳服务器托管、企业网站设计、嘉陵网站维护等服务，公司将坚持客户导向、应用为本的策略，正道将秉承"和谐、参与、激情"的文化，与客户和合作伙伴齐心协力一起成长，共同发展。

写篇适合Python入门练习的文章，比较简单。

如何用python统计一个纯文本文件中的词频？这是我每次面试的时候都会问的一个问题。对于有些经验的程序员来说，这是一个很简单

的问题。但实际情况是，很多面试者都不能很好甚至不能解决这个问题。

对文本做词频统计在爬虫抓取了数据后对数据做分类、去重等都有应用，算是一个数据处理的基本功能。

这里我们以英文内容为例来解决这个问题，而中文还涉及到文本的编码和分词。

读取文本文件

python读取文本很简单：

#读取整个文件的内容：
text = open('file.txt').read()
#按行读取文本，并返回一个list，每一行是list的一个item
lines = open('file.txt').readlines()

切分单词

英文行文以空格和标点符合来分隔单词，我们切分单词也以空格和标点符号来且分。但大多之考虑到空格而忽略了标点符号。英文中标点

符合是直接挨着单词的，只以空格分割，会把表达符号也分到单词里面去。如下文本：

Google introduced its TPU at Google I/O 2016. Distinguished hardware engineer – and top MIPS CPU architect – Norm Jouppi in a blog post said Google had been running TPUs in its data centers since 2015 and that the specialized silicon delivered “an order of magnitude better-optimized performance per watt for machine learning.”

# 仅仅以空格切分：
words = text.split(' ')
#切分更准确的话就要使用正则表达式模块re
import re
# 下面的正则表达式的含义是，
# 切分符包括空白符号(空格、换行符\n, Tab符\t等看不见的符号）、
# 英文逗号、英文句号.、英文问号？、感叹号！、英文冒号:
# 中括号[]扩起来表示任意匹配这些符号其一即可
# 最后的加号+表示如果这些符号是连续挨着的则当成一个分割符切分
pattern = r'[\s,\.?!:"]+'
words = re.split(pattern, text)

统计词频

上面切分得到的words是一个list，里面有重复和不重复的单词。
使用dict这个key-value数据结构来进行统计和保存统计结果。
key就是单词，value就是单词的个数。

result = {}
for w in words:
    if w in result:
        result[w] += 1
    else:
        result[2] = 1
#或者用defaultdict
from collections import defaultdict
result = defaultdict(int)
for w in words:
    result[w] += 1

defaultdict比dict少了一个if w in result的判断，这正是defaultdict的特点：当key不存在时默认其value为零。

把以上程序片段写出一个.py文件就是一个比较完整的统计词频的程序。可以当作是Python入门小练习。

以上是Python统计文本文件中词频的方法的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注创新互联行业资讯频道！

新闻标题：Python统计文本文件中词频的方法
本文来源：http://cdkjz.cn/article/piihej.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python统计文本文件中词频的方法

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python统计文本文件中词频的方法

相关资讯

C语言函数处理数组 c 语言 数组

c语言trim()函数 c语言trim函数怎么用

java静态代码检测 java静态代码块作用

java基础代码 java基础代码题

java分析代码耗时 java代码性能分析

c语言acm函数 c语言a functiondefinition

写代码初学教程java 写java代码用什么软件好

java自动寄存柜代码 java的自动内存管理

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

C语言函数处理数组 c 语言数组

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接