网站建设 >

查看其它板块

java分词源代码 java 分词

java编个中文分词的程序

import java.io.Reader;

成都创新互联公司主要为客户提供服务项目涵盖了网页视觉设计、VI标志设计、全网整合营销推广、网站程序开发、HTML5响应式成都网站建设、移动网站建设、微商城、网站托管及网页维护、WEB系统开发、域名注册、国内外服务器租用、视频、平面设计、SEO优化排名。设计、前端、后端三个建站步骤的完善服务体系。一人跟踪测试的建站服务标准。已经为成都护栏打桩机行业客户提供了网站推广服务。

import java.io.StringReader;

import org.apache.lucene.analysis.*;

import org.apache.lucene.analysis.cjk.CJKAnalyzer;

import org.apache.lucene.analysis.cn.ChineseAnalyzer;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.mira.lucene.analysis.MIK_CAnalyzer;

public class JeAnalyzer {

public static void testStandard(String testString) {

try {

Analyzer analyzer = new StandardAnalyzer();

Reader r = new StringReader(testString);

StopFilter sf = (StopFilter) analyzer.tokenStream("", r);

System.err.println("=====standard analyzer====");

Token t;

while ((t = sf.next()) != null) {

System.out.println(t.termText());

}

} catch (Exception e) {

e.printStackTrace();

}

}

public static void testCJK(String testString) {

try {

Analyzer analyzer = new CJKAnalyzer();

Reader r = new StringReader(testString);

StopFilter sf = (StopFilter) analyzer.tokenStream("", r);

System.err.println("=====cjk analyzer====");

Token t;

while ((t = sf.next()) != null) {

System.out.println(t.termText());

}

} catch (Exception e) {

e.printStackTrace();

}

}

public static void testChiniese(String testString) {

try {

Analyzer analyzer = new ChineseAnalyzer();

Reader r = new StringReader(testString);

TokenFilter tf = (TokenFilter) analyzer.tokenStream("", r);

System.err.println("=====chinese analyzer====");

Token t;

while ((t = tf.next()) != null) {

System.out.println(t.termText());

}

} catch (Exception e) {

e.printStackTrace();

}

}

public static String transJe(String testString, String c1, String c2) {

String result = "";

try {

Analyzer analyzer = new MIK_CAnalyzer();

Reader r = new StringReader(testString);

TokenStream ts = (TokenStream) analyzer.tokenStream("", r);

Token t;

while ((t = ts.next()) != null) {

result += t.termText() + ",";

}

} catch (Exception e) {

e.printStackTrace();

}

return result;

}

public static void main(String[] args) {

try {

String testString = "中文分词的方法其实不局限于中文应用，也被应用到英文处理，如手写识别，单词之间的空格就很清楚，中文分词方法可以帮助判别英文单词的边界";

System.out.println("测试的语句 "+testString);

String sResult[] = transJe(testString, "gb2312", "utf-8").split(",");

for (int i = 0; i sResult.length; i++) {

System.out.println(sResult[i]);

}

} catch (Exception e) {

e.printStackTrace();

}

}

}

jar包

lucene-analyzers-2.4.1.jar

lucene-core-2.4.1.jar

IKAnalyzer2.0.2OBF.jar

java编写的分词系统的问题？

你的dic.dat应该是要存在于eclipse中这个工程的debug的目录下，虽然你放在了代码的当前目录下，但是编译的时候并没有把这个文件复制过去

java如何分词？？

如果你的分词规则是在一个字符串的开头和结尾加上"_"，然后两个字符一分的话，代码可以这样写：

import java.util.ArrayList;

import java.util.List;

public class Participle

{

private static final String HEAD_END_STR = "_";

private static final int PARTICIPLE_LENGTH = 2;

public static void main(String[] args)

{

String exampleWord = "计算机";

exampleWord = "_" + exampleWord + "_";

int length = exampleWord.length();

ListString result = new ArrayListString();

for (int i = 0; i length - 1; i++)

{

String str = exampleWord.substring(i, i + PARTICIPLE_LENGTH);

result.add(str);

}

System.out.println(result);

}

}

输出结果：_计, 计算, 算机, 机_

当前文章：java分词源代码 java 分词
文章路径：http://cdkjz.cn/article/doedpid.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都小程序开发网站推广广安搬家公司绵阳主机托管成都网站运营维护成都添翼二手车短视频拍摄成都网站建设绵阳托管服务器成都棕数机房

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图