从品牌网站建设到网络营销策划,从策略到执行的一站式服务
这期内容当中小编将会给大家带来有关TF-IDF如何提取文本特征词,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
我们一直强调网站设计制作、做网站对于企业的重要性,如果您也觉得重要,那么就需要我们慎重对待,选择一个安全靠谱的网站建设公司,企业网站我们建议是要么不做,要么就做好,让网站能真正成为企业发展过程中的有力推手。专业网络公司不一定是大公司,成都创新互联公司作为专业的网络公司选择我们就是放心。
01
—
TF-IDF主要做什么?
文本分类中大都用到TF-IDF技术,比如扔给我们1篇新浪网推送的消息,让机器判断下属于新闻类,还是财经类,还是体育类,还是娱乐类;再比如,今日头条推送的1篇消息,如何提取出里面的关键词汇,以此推荐给符合我们胃口的文章。
02
—
TF-IDF主要思想
TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率 TF 高,并且在其他文章中很少出现(IDF值大),则认为此词或者短语具有很好的类别区分能力,适合用来分类。
03
—
TF-IDF全称叫什么?
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆向文件频率(Inverse Document Frequency)。
04
—
为什么叫逆向文件频率?
TF-IDF中词频的描述TF,我们好理解,不就是一篇文章中一个词在我们的语料库中出现的次数吗,但是逆向文件频率,该怎么理解?
拿我们的母语来说,比如,“的”,“我们”,类似的这种词语,大家觉得会对我们判断这篇文章是体育类,还是娱乐类的文章作用大吗?尽管它们的TF很大,但是实质对我们的分类没有帮助,所以,此时自然要想到对TF加一个权重影响因子:IDF,逆向文件频率,比如,一篇文章中如果出现了 “贝叶斯”这个词语,那么,我们去语料库,发现现有的1亿个网页中,有500个网页,出现了这个贝叶斯分类,而“的”这个词,有1亿个都出现了,这个时候,我们希望“贝叶斯”比“的”IDF要大,即权重要大,IDF的计算公式最终的确实现了这个效果,这个在下文中我们可以看出来。
05
—
TF,IDF的数学公式
一篇网页中的总词语数是100个,而词语“贝叶斯”出现了3次,那么“贝叶斯”一词在该文件中的词频就是 3/100=0.03,
对应的数学公式:
以上公式的字符含义,i是语料库中第i个单词,j是当前的这篇网页的编号。
分析语料库的1亿个网页时,发现有500个网页含有“贝叶斯”,所以贝叶斯这个词的IDF计算公式:
i依然是语料库中的第i个词(贝叶斯),D是语料库中所有的网页个数,分母的集合表示,贝叶斯出现在1亿个网页中的个数,如上所述为500个网页。最后,再取对数,可以得出贝叶斯的IDF比“的”的IDF大。
06
—
Get together
这个公式实现的效果:
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。
过滤掉常见的词语,比如“的”,“我们”,“吃”。
最终:提取了一篇文章中重要的词语。
上述就是小编为大家分享的TF-IDF如何提取文本特征词了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注创新互联行业资讯频道。
成都网站建设公司地址:成都市青羊区太升南路288号锦天国际A座10层 建设咨询028-86922220
成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.
专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网! | 成都网站建设哪家好? | 网站建设地图