网站建设 >

查看其它板块

java代码实现分词 java分词框架

java编个中文分词的程序

import java.io.Reader;

在奉节等地区，都构建了全面的区域性战略布局，加强发展的系统性、市场前瞻性、产品创新能力，以专注、极致的服务理念，为客户提供网站制作、成都网站建设网站设计制作定制网站开发,公司网站建设,企业网站建设,成都品牌网站建设,成都全网营销推广,外贸网站建设,奉节网站建设费用合理。

import java.io.StringReader;

import org.apache.lucene.analysis.*;

import org.apache.lucene.analysis.cjk.CJKAnalyzer;

import org.apache.lucene.analysis.cn.ChineseAnalyzer;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.mira.lucene.analysis.MIK_CAnalyzer;

public class JeAnalyzer {

public static void testStandard(String testString) {

try {

Analyzer analyzer = new StandardAnalyzer();

Reader r = new StringReader(testString);

StopFilter sf = (StopFilter) analyzer.tokenStream("", r);

System.err.println("=====standard analyzer====");

Token t;

while ((t = sf.next()) != null) {

System.out.println(t.termText());

}

} catch (Exception e) {

e.printStackTrace();

}

}

public static void testCJK(String testString) {

try {

Analyzer analyzer = new CJKAnalyzer();

Reader r = new StringReader(testString);

StopFilter sf = (StopFilter) analyzer.tokenStream("", r);

System.err.println("=====cjk analyzer====");

Token t;

while ((t = sf.next()) != null) {

System.out.println(t.termText());

}

} catch (Exception e) {

e.printStackTrace();

}

}

public static void testChiniese(String testString) {

try {

Analyzer analyzer = new ChineseAnalyzer();

Reader r = new StringReader(testString);

TokenFilter tf = (TokenFilter) analyzer.tokenStream("", r);

System.err.println("=====chinese analyzer====");

Token t;

while ((t = tf.next()) != null) {

System.out.println(t.termText());

}

} catch (Exception e) {

e.printStackTrace();

}

}

public static String transJe(String testString, String c1, String c2) {

String result = "";

try {

Analyzer analyzer = new MIK_CAnalyzer();

Reader r = new StringReader(testString);

TokenStream ts = (TokenStream) analyzer.tokenStream("", r);

Token t;

while ((t = ts.next()) != null) {

result += t.termText() + ",";

}

} catch (Exception e) {

e.printStackTrace();

}

return result;

}

public static void main(String[] args) {

try {

String testString = "中文分词的方法其实不局限于中文应用，也被应用到英文处理，如手写识别，单词之间的空格就很清楚，中文分词方法可以帮助判别英文单词的边界";

System.out.println("测试的语句 "+testString);

String sResult[] = transJe(testString, "gb2312", "utf-8").split(",");

for (int i = 0; i sResult.length; i++) {

System.out.println(sResult[i]);

}

} catch (Exception e) {

e.printStackTrace();

}

}

}

jar包

lucene-analyzers-2.4.1.jar

lucene-core-2.4.1.jar

IKAnalyzer2.0.2OBF.jar

java语言中文分词程序怎么编写分词程序正

现可以提供两种思路:

1.String或是StringBuffer(建议用) 中的indexOf("中华")方法，查找给定的的字符串中是否有给定词表中的词。

2.借鉴编译原理中的状态装换的思想。

先编写一个状态机，用于测试给定字符串中的词是否满足词表中的内容。

写在最后：1)建议使用第一种方法，因为在java 内部实现的查找操作其实和你想得思路是相同的，不过他的效率会高些。

2)如果个人的编程能力比较强或是不考虑效率只是想实现专有的分词算法。可以使用第二种方法。

3)以上的两种方法都可以使用多线程来提高程序的效率。

编写程序将字符串 hello java world 进行分词,并逐个显示在屏幕上;

用Java的StringTokenizer可以直接将字符串按照空格进行分词。

import java.util.StringTokenizer;

public class Test2 {

public static void main(String [] args) {

String str = "hello java world";

StringTokenizer st = new StringTokenizer(str);

while (st.hasMoreTokens()) {

System.out.println(st.nextToken());

}

}

}

用java读取文档并分词。

需要commons-io包, 或者自己写读文件的部分

import java.io.File;

import java.io.IOException;

import java.util.ArrayList;

import java.util.Collections;

import java.util.Comparator;

import java.util.List;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import org.apache.commons.io.FileUtils;

public class Test20 {

/**

* @param args

*/

public static void main(String[] args) {

// TODO Auto-generated method stub

String str = null;

try {

str = FileUtils.readFileToString(new File("e.txt"));

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

Pattern p = Pattern.compile("\\b[\\w-']+\\b");

Matcher m = p.matcher(str);

ListWord words = new ArrayListWord();

while(m.find()){

add(words, m.group().trim());

}

Collections.sort(words, new ComparatorWord(){

@Override

public int compare(Word o1, Word o2) {

// TODO Auto-generated method stub

return o1.getWord().compareTo(o2.getWord());

}});

System.out.println(words);

}

private static void add(ListWord words, String word) {

// TODO Auto-generated method stub

for(Word temp : words){

if(temp.getWord().equals(word)){

temp.setCount(temp.getCount() + 1);

return;

}

}

Word w = new Word();

w.setWord(word);

words.add(w);

}

}

class Word{

private String word;

private int count = 1;

public String getWord() {

return word;

}

public void setWord(String word) {

this.word = word;

}

public int getCount() {

return count;

}

public void setCount(int count) {

this.count = count;

}

@Override

public String toString() {

return "Word [word=" + word + ", count=" + count + "]";

}

}

java如何分词？？

如果你的分词规则是在一个字符串的开头和结尾加上"_"，然后两个字符一分的话，代码可以这样写：

import java.util.ArrayList;

import java.util.List;

public class Participle

{

private static final String HEAD_END_STR = "_";

private static final int PARTICIPLE_LENGTH = 2;

public static void main(String[] args)

{

String exampleWord = "计算机";

exampleWord = "_" + exampleWord + "_";

int length = exampleWord.length();

ListString result = new ArrayListString();

for (int i = 0; i length - 1; i++)

{

String str = exampleWord.substring(i, i + PARTICIPLE_LENGTH);

result.add(str);

}

System.out.println(result);

}

}

输出结果：_计, 计算, 算机, 机_

本文标题：java代码实现分词 java分词框架
URL标题：http://cdkjz.cn/article/hidgge.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

香港虚拟主机空间达州网站制作彩乐斯贸易网络推广公司乐山托管服务器遂宁网站建设成都雨棚定制 jyfdjwx.com 成都模板网站电信成都枢纽中心

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图