利用IKAnalyzer与Lucene怎么实现一个中文分词功能-快上网网站建设公司

利用IKAnalyzer与Lucene怎么实现一个中文分词功能

利用IKAnalyzer与Lucene怎么实现一个中文分词功能？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

创新互联主要从事成都网站建设、网站建设、网页设计、企业做网站、公司建网站等业务。立足成都服务洪泽,10年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:13518219792

步骤如下：

step1：准备相关的Jar依赖，lucene-core-5.1.0.jar、ik.jar，然后新建项目，引入相关依赖项目结构如下：

IkDemo-src
　　　-con.funnyboy.ik
-IKAnalyzer.cfg.xml
　　　-stopword.dic
-ext.dic
-Reference Libraries
　　　-lucene-core-5.1.0.jar
　　　-ik.jar

IKAnalyzer.cfg.xml：配置扩展词典以及停止词典内容如下：

<?xml version="1.0" encoding="UTF-8"?>
 
 IK Analyzer 扩展配置
 　　ext.dic;
 　　stopword.dic;

其中的ext.dic配置自己的扩展字典，stopword.dic配置自己的扩展停止词字典

step2：通过java代码验证测试

public class MyIkTest {
　　public static String str = "中国人民银行我是中国人";
　　public static void main(String[] args) { 
　　　　 MyIkTest test = new MyIkTest(); 
　　　　 test.wordCount("", str);
　　 }
 　　private void wordCount(String arg,String content) {
 　　　 Analyzer analyzer = new IKAnalyzer(true); // IK实现分词 true:用最大词长分词 false:最细粒度切分 
　　　　StringReader reader = null; 
　　　　TokenStream ts = null; try { 
　　　　　　reader = new StringReader(content); 
　　　　　　ts = analyzer.tokenStream(arg,reader); 
　　　　　　CharTermAttribute term = ts.addAttribute(CharTermAttribute.class); 
　　　　　　ts.reset(); 
　　　　　　Map map = new HashMap(); //统计 
　　　　　　while (ts.incrementToken()) { 
　　　　　　　　String str = term.toString(); 
　　　　　　　　Object o = map.get(str); 
　　　　　　　　if (o == null) { 
　　　　　　　　　　map.put(str, new Integer(1)); 
　　　　　　　　 } else { 
　　　　　　　　　　Integer i = new Integer(((Integer) o).intValue() + 1); 
　　　　　　　　　　 map.put(str, i); 
　　　　　　　　} 
　　　　　　 } 
　　　　　　List> list = new ArrayList>(map.entrySet()); 
　　　　　　Collections.sort(list,new Comparator>() { 
　　　　　　　　public int compare(Map.Entry o1,Map.Entry o2) { 
　　　　　　　　　　return (o2.getValue() - o1.getValue()); 
　　　　　　　　} });  
　　　　　　 for (int k=0;k it=list.get(k); 
　　　　　　　　String word = it.getKey().toString(); 
　　　　　　　　System.err.println(word+"["+it.getValue()+"]"); 
　　　　　　　}  
　　　　} catch (Exception e) {
 　　　 } finally { 
　　　　　　if(reader != null){ 
　　　　　　　　 reader.close(); 
　　　　　　} 
　　　　　　if (analyzer != null) { 
　　　　　　　　analyzer.close(); 
　　　　　　} 
　　　　 } 
　　　}
　　}

执行程序测试结果如下：

中国人民银行[1]

中国人[1]

我[1]

3、配置说明

a、如何自定义配置扩展词典和停止词典 IKAnalyzer.cfg.xml中定义了扩展词典和停止词典，如果有多好个可以通过;配置多个。扩展词典是指用户可以根据自己定义的词义实现分词，比如人名在默认的词典中并未实现，需要自定义实现分词，卡可以通过在ext.dic中新增自定义的词语。停止词是指对于分词没有实际意义但出现频率很高的词，比如吗、乎等语气词，用户也可以通过在stopword.dic中自定义相关的停止词。

b、关于最大词长分词和最小粒度分词的区分在IKAnalyzer构造方法中可以通过提供一个标示来实现最大词长分词和最小粒度分词，true为最大词长分词，默认是最小粒度分词。对"中国人民银行我是中国人"分别测试结果如下：

最大词长分词结果如下：

中国人民银行[1]

中国人[1]

我[1]

最小粒度分词结果如下：

国人[2]
中国人[2]
中国[2]
人民[1]
中国人民银行[1]
我[1]
人民银行[1]
中国人民[1]
银行[1]

关于利用IKAnalyzer与Lucene怎么实现一个中文分词功能问题的解答就分享到这里了，希望以上内容可以对大家有一定的帮助，如果你还有很多疑惑没有解开，可以关注创新互联行业资讯频道了解更多相关知识。

新闻名称：利用IKAnalyzer与Lucene怎么实现一个中文分词功能
URL分享：http://cdkjz.cn/article/pjihcp.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

利用IKAnalyzer与Lucene怎么实现一个中文分词功能

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

利用IKAnalyzer与Lucene怎么实现一个中文分词功能

相关资讯

vue.js中怎么获得当前元素的文字信息-创新互联

C#开发微信门户及应用中怎样关注用户列表和详细信息管理-创新互联

【Objective-C】OC中的Dealloc方法详解-创新互联

如何实现管理mybatis过程-创新互联

android提取视频多张图片和视频信息实例-创新互联

二、flink--集群环境搭建-创新互联

ios14通话录音功能ios13通话录音功能？-创新互联

在PHP中使用Post无法获取非表单数据如何解决-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接