Python对聊天记录进行拆分，找出用户最关心的咨询问题！-快上网网站建设公司

Python对聊天记录进行拆分，找出用户最关心的咨询问题！

背景：

创新互联2013年开创至今，先为通州等服务建站，通州等地企业，进行企业商务咨询服务。为通州企业网站制作PC+手机+微官网三网同步一站式服务解决您的所有建站问题。

最近部门领导交给笔者一个任务，想要从记录用户聊天记录的数据表中，找出用户对哪些问题比较关心（即：用户咨询过程中问到的哪些词语出现的频率最高），以便后期适当的做些业务的调整，改变推广策略等等

聊天记录如下：

你好

想了解想美国的博士申请

今年就毕业。准备申请2020年的。打算申金融或者工商

正在准备中

有几篇中文的。比较水。

还没有。博士竞争激烈。打算多申一些学校。

那qq吧。1111111

谢谢

2222222

本科GPA一般。3.4的样子

211

孟

学生

都行的

嗯好的

麻烦问下会先qq联系吧

电话不一定能接到

嗯对

嗯

谢谢

思路：

使用jieba模块的自定义词库对每条聊天记录进行拆分（即：中文分词），然后将每条分词的结果存到中间表，最后对这张中间表进行结果的汇总。虽然jieba具备了新词语的识别能力，但是词库中的词语可能对于某个特定领域的词语分词的识别的不是特别令人满意，使用自定义的关键词库，可以使分词时保证更高的准确性。

源代码：

cat userdict.txt

留学

出国

研究生

英国

美国

cat fenci_dictionary.py

import jieba.analyse

import pyMySQL

db = pymysql.connect(host='xx.xx.xx.xx',user='xxx',passwd='xxx',db='dbname',charset='utf8',connect_timeout=30)

cursor = db.cursor()

sql= 'SELECT msg from tablename where msg_type="g" limit 50'

cursor.execute(sql)

results = cursor.fetchall()

for row in results:

row = row[0]

# UserDictionary Model

jieba.load_userdict('userdict.txt')

for i in jieba.cut(row):

sql1 = 'insert into test.tmp_fenci_statistic(keywords) values("%s")' % i

try:

cursor.execute(sql1)

db.commit()

except:

db.rollback()

db.close()

jieba介绍：

jieba分词器安装（就是一个Python模块）

pip3 install jieba

jieba分词添加自定义词典：

如果词库中没有特定领域的词语，或者对于某个特定领域的关键词不是识别的特别令人满意，虽然jieba具备了新词语的识别能力，但是我们可以自定义属于自己的关键词库，以便在分词时保证更高的准确性

语法：

jieba.load_userdict(filename) #filename为自定义的词典路径

词典格式：

一个词占一行，可以包含三个部分，1：词语，2：词频；3：词性 2、3 都可以省略，之间用空格隔开

例：

cat userdict.txt

留学

出国

研究生

英国

美国

题外：

jieba还支持全精确模式、全模式、搜索引擎模式的分词功能，这些分词功能，无绝对的优劣之分，主要看适不适用于业务分析。关于这部分的内容，如果读者有兴趣，请自行百度查阅吧。

网页题目：Python对聊天记录进行拆分，找出用户最关心的咨询问题！
路径分享：http://cdkjz.cn/article/pigdho.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python对聊天记录进行拆分，找出用户最关心的咨询问题！

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python对聊天记录进行拆分，找出用户最关心的咨询问题！

相关资讯

go语言获取cpu信息 golang获取cpu温度

新人腾讯云服务器 腾讯云服务器使用方法

帝国cms搜索模板修改 帝国cms搜索模板修改不了

阿里云与服务器 阿里云服务器ecs入门考试答案

校园二手交易Java代码 校园二手交易平台系统用例图

服务器安全防护需要哪些 服务器安全措施有哪些

淘宝怎么设置后台域名 怎么设置自己的淘宝网址

c语言怎么输出子函数 c语言怎么写子函数

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

新人腾讯云服务器腾讯云服务器使用方法

帝国cms搜索模板修改帝国cms搜索模板修改不了

阿里云与服务器阿里云服务器ecs入门考试答案

校园二手交易Java代码校园二手交易平台系统用例图

服务器安全防护需要哪些服务器安全措施有哪些

淘宝怎么设置后台域名怎么设置自己的淘宝网址

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接