网站建设 >

查看其它板块

用java写一个搜索代码用java写一个搜索代码

怎么用java 开发一个搜索引擎呀？

一．创建索引

网站建设哪家好，找创新互联公司！专注于网页设计、网站建设、微信开发、小程序开发、集团企业网站建设等服务项目。为回馈新老客户创新互联还提供了信丰免费建站欢迎大家使用！

1．一般创建索引的核心步骤

（1）. 创建索引写入对象IndexWriter：

IndexWriter indexWriter = new IndexWriter(INDEX_STORE_PATH,new StandardAnalyzer(),create);

参数说明：INDEX_STORE_PATH：索引文件存放路径

new StandardAnalyzer()：分词工具

create：此参数为Boolean型，true表示重新创建整个索引， false 表示增量式创建索引。

（2）．创建文档模型,并用IndexWriter对象写入

Document doc = new Document();

Field field1 = new Field(fieldName1, fieldValue , Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field1);

Field field2 = new Field(fieldName2, fieldValue , Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field2)；

……

indexWriter.addDocument(doc);

indexWriter.close();

参数说明：

Document ：负责搜集数据源,它可以从不同的物理文件提取数据并放入同一个Document 中或从一个物理文件中提取出不同的数据并放入同一个Document中。

如下图所示

Field ：用来表示不同的数据源

fieldName1: 表示field名称

fieldValue: 表示field 的值

Field.Store.YES,：表示是否在索引文件中完整的存储该值。

在创建索引时，有些内容需要以摘要的形式完整地或以片段的方式显示在页面上，来便于用户查找想要的记录，那么就应该选择存储,如果不需要完整或片段的显示就不需要存储。

Field.Index.TOKENIZED ：表示是否索引和分词。

只要是需要当作关键字让用户查找的字段就需要建立索引。

在建立索引的过程中，如果像文章标题、文章内容这样的Field, 一般是靠用户输入几个关键字来查询的，就应该选择分词。

如果需要用户输入完整字符也就是精确查找才能查询到的，例如：beanName，就可以不分词。

Document最直观的理解方式：

Document就相当于我们平台中的一个普通javaBean,，而Field 就是javaBean中的一个属性。lucene搜索的机制就是靠搜索指定的Field的值，来得到含有要搜索内容的Document 集合，所以问题的关键在于如何组织Document .

2．结合平台创建索引的思路

(1) 经分析搜索元素应该由如下内容组成（Document的属性）

(2) 数据库数据转化为Document 的构造过程：

JavaBean / Attachment → (Temp Object) BaseData → (Finally Object) Document

分析：

要建立索引的源数据分为两大部分：一个是数据库数据 BeanData ,另一个是附件数据 FileData , 这样可以建立一个抽象类 BaseData , 来存放它们共有的属性。同时为了管理这些相应的数据，在相同的等级结构上，建立了相应的管理类（xxxDataManager），对这些数据类的操作（建立或删除索引）进行管理，并用一个工厂类(DataManagerFactory)来创建所需要的管理类，IndexHelper用来充当整个索引模块对外的接口，为了实现一些与平台特定的业务，特用SupportManager来提供一些额外的业务支持，索引模块代码结构如下图所示。

二．搜索索引

1. lucene 搜索的核心步骤：

String[] fields = {“title”, “summary”,……}; //要查找的field范围

BooleanClause.Occur[] flags = {BooleanClause.Occur.SHOULD, BooleanClause.Occur. MUST ,……};

Query query = MultiFieldQueryParser.parse(queryStr, fields,flags,new StandardAnalyzer());

Hits hits = new IndexSearcher(INDEX_STORE_PATH).search(query);

for (int i = 0;i hitsLength ; i++)

{

Document doc = hits.doc(i);

String title = doc.get(“title”);

String summary = doc.get(“summary”);

// 搜索出来的结果高亮显示在页面上

if (title != null) {

TokenStream tokenStream = analyzer.tokenStream(“title”,new StringReader(title));

String highlighterValue = highlighter.getBestFragment(tokenStream, title) ;

if(highlighterValue != null){

title = highlighterValue ;

}

//log.info("SearchHelper.search.title="+title);

}

if(summary!= null){

TokenStream tokenStream = analyzer.tokenStream(“summary”,new StringReader(summary));

String highlighterValue = highlighter.getBestFragment(tokenStream, creator) ;

if(highlighterValue != null){

summary = highlighterValue ;

}

//log.info("SearchHelper.search. summary ="+ summary);

}

2．结合平台构造搜索模块

PageData 类用来存放检索结果集数据。

PageInfo 类用来存放页面相关信息例如，PageData对象集合、总记录个数、每一页的记录数、总页面数量等等。

SearchHelper用来充当整个搜索模块的对外接口。

三．为平台组件添加索引的步骤（以知识中心为例）

1．在com.cscec.oa.searchengine.extend.module 目录下添加一个新的package

例如：com.cscec.oa.searchengine.extend.module.resourcestore

2．在新的目录下建立data package 并建立相应的数据类，并使这个数据类继承BeanData。

例如：

package com.cscec.oa.searchengine.extend.module.resourcestore.data

public class ResourceStoreBeanData extends BeanData{

}

3. 与data package 同一级目录建立manager package 并建立相应管理类，并使这个管理类继承BeanDataManager

例如：

com.cscec.oa.searchengine.extend.module.resourcestore.manager

public class ResourceStoreBeanDataManagerImpl extends BeanDataManager{

}

4．以管理员的身份登陆OA后，在菜单中找到“索引模块管理”链接，将相应信息添加完成后，便可以在List 页面点击“创建索引”对该模块的数据进行索引的建立，建立完成后便可以进行查询。

用java写一个程序，从一个很长的字符串中搜索出某一段字符，列出所有符合的字符

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class RecE {

Pattern pattern;

Matcher matcher;

/* ps:

字符类

[abc] a、b 或 c（简单类）

[^abc] 任何字符，除了 a、b 或 c（否定）

[a-zA-Z] a 到 z 或 A 到 Z，两头的字母包括在内（范围）

[a-d[m-p]] a 到 d 或 m 到 p：[a-dm-p]（并集）

[a-z[def]] d、e 或 f（交集）

[a-z[^bc]] a 到 z，除了 b 和 c：[ad-z]（减去）

[a-z[^m-p]] a 到 z，而非 m 到 p：[a-lq-z]（减去）

预定义字符类

. 任何字符（与行结束符可能匹配也可能不匹配）

\d 数字：[0-9]

\D 非数字： [^0-9]

\s 空白字符：[ \t\n\x0B\f\r]

\S 非空白字符：[^\s]

\w 单词字符：[a-zA-Z_0-9]

\W 非单词字符：[^\w]

public void getMatchedPattern(String regx,String source){

pattern = Pattern点抗 pile(regx);

matcher = pattern.matcher(source);

int index = 1;

while(!matcher.hitEnd()){

if(matcher.find()){

System.out.println("找到第"+index +"个"+matcher.group());

index++;

}

System.out.println("一共找到"+(index-1)+"组匹配项");

}

public static void main(String[] args) {

new RecE().getMatchedPattern("love","ilove12what i love23e tolove dolove a efe");

}

结果：

找到第2个love

找到第3个love

找到第4个love

一共找到4组匹配项

求用java 正则表达式搜索字符串源代码

类中用到了 jakarta-oro-2.0.jar包，请自己在 apache网站下下载

这个Java正则表达式工具类目前主要有25种正规表达式，有些不常用，这里只列出15种常用Java正则表达式功能:

1.匹配图象;

2 匹配email地址;

3 匹配匹配并提取url ;

4 匹配并提取http ;

5.匹配日期

6 匹配电话;

7 匹配身份证

8 匹配邮编代码

9. 不包括特殊字符的匹配

10 匹配非负整数（正整数 + 0)

11 匹配不包括零的非负整数（正整数 0)

12 匹配正整数

13 匹配非正整数（负整数 + 0）

14 匹配负整数;

15.匹配整数

package com.ygj.util; import java.util.*; import org.apache.oro.text.regex.*; /** * 类简介: 使用正则表达式验证数据或提取数据,类中的方法全为静态的 * 主要方法:1. isHardRegexpValidate(String source, String regexp) 区分大小写敏感的正规表达式批配 * 2. isSoftRegexpValidate(String source, String regexp) * 不区分大小写的正规表达式批配 * 3. getHardRegexpMatchResult(String source, String regexp) * 返回许要的批配结果集(大小写敏感的正规表达式批配) * 4. getSoftRegexpMatchResult(String source, String regexp) * 返回许要的批配结果集(不区分大小写的正规表达式批配) * 5 getHardRegexpArray(String source, String regexp) * 返回许要的批配结果集(大小写敏感的正规表达式批配) * 6. getSoftRegexpMatchResult(String source, String regexp) * 返回许要的批配结果集(不区分大小写的正规表达式批配) * 7. getBetweenSeparatorStr(final String originStr,final char leftSeparator,final char rightSeparator) * 得到指定分隔符中间的字符串的集合 * * @mail wuzhi2000@hotmail点抗 * @author ygj * */ public final class Regexp { /** 保放有四组对应分隔符 */ static final Set SEPARATOR_SET=new TreeSet(); { SEPARATOR_SET.add("("); SEPARATOR_SET.add(")"); SEPARATOR_SET.add("["); SEPARATOR_SET.add("]"); SEPARATOR_SET.add("{"); SEPARATOR_SET.add("}"); SEPARATOR_SET.add(""); SEPARATOR_SET.add(""); } /** 存放各种正规表达式(以key-value的形式) */ public static HashMap regexpHash = new HashMap(); /** 存放各种正规表达式(以key-value的形式) */ public static List matchingResultList = new ArrayList(); private Regexp() { } /** * 返回 Regexp 实例 * @return */ public static Regexp getInstance() { return new Regexp(); } /** * 匹配图象 * * 格式: /相对路径/文件名.后缀 (后缀为gif,dmp,png) * * 匹配 : /forum/head_icon/admini2005111_ff.gif 或 admini2005111.dmp * * 不匹配: c:/admins4512.gif * */ public static final String icon_regexp = "^(/{0,1}\\w){1,}\\.(gif|dmp|png|jpg)$|^\\w{1,}\\.(gif|dmp|png|jpg)$"; /** * 匹配email地址 * * 格式: XXX@XXX.XXX.XX * * 匹配 : foo@bar点抗或 foobar@foobar点抗 .au * * 不匹配: foo@bar 或 $$$@bar点抗 * */ public static final String email_regexp = "(?:\\w[-._\\w]*\\w@\\w[-._\\w]*\\w\\.\\w{2,3}$)"; /** * 匹配匹配并提取url * * 格式: XXXX://XXX.XXX.XXX.XX/XXX.XXX?XXX=XXX * * 匹配 : 或news://www * * 提取(MatchResult matchResult=matcher.getMatch()): * matchResult.group(0)= * matchResult.group(1) = http * matchResult.group(2) = * matchResult.group(3) = :8080 * matchResult.group(4) = /index.html?login=true * * 不匹配: c:\window * */ public static final String url_regexp = "(\\w+)://([^/:]+)(:\\d*)?([^#\\s]*)"; /** * 匹配并提取http * * 格式: 或或 * * 匹配 : * * 提取(MatchResult matchResult=matcher.getMatch()): * matchResult.group(0)= * matchResult.group(1) = http * matchResult.group(2) = * matchResult.group(3) = :8080 * matchResult.group(4) = /index.html?login=true * * 不匹配: news://www * */ public static final String http_regexp = "(http|https|ftp)://([^/:]+)(:\\d*)?([^#\\s]*)"; /** * 匹配日期 * * 格式(首位不为0): XXXX-XX-XX 或 XXXX XX XX 或 XXXX-X-X * * 范围:1900--2099 * * 匹配 : 2005-04-04 * * 不匹配: 01-01-01 * */ public static final String date_regexp = "^((((19){1}|(20){1})d{2})|d{2})[-\\s]{1}[01]{1}d{1}[-\\s]{1}[0-3]{1}d{1}$";// 匹配日期 /** * 匹配电话 * * 格式为: 0XXX-XXXXXX(10-13位首位必须为0) 或0XXX XXXXXXX(10-13位首位必须为0) 或 * (0XXX)XXXXXXXX(11-14位首位必须为0) 或 XXXXXXXX(6-8位首位不为0) 或 * XXXXXXXXXXX(11位首位不为0) * * 匹配 : 0371-123456 或 (0371)1234567 或 (0371)12345678 或 010-123456 或 * 010-12345678 或 12345678912 * * 不匹配: 1111-134355 或 0123456789 * */ public static final String phone_regexp = "^(?:0[0-9]{2,3}[-\\s]{1}|\$0[0-9]{2,4}\$)[0-9]{6,8}$|^[1-9]{1}[0-9]{5,7}$|^[1-9]{1}[0-9]{10}$"; /** * 匹配身份证 * * 格式为: XXXXXXXXXX(10位) 或 XXXXXXXXXXXXX(13位) 或 XXXXXXXXXXXXXXX(15位) 或 * XXXXXXXXXXXXXXXXXX(18位) * * 匹配 : 0123456789123 * * 不匹配: 0123456 * */ public static final String ID_card_regexp = "^\\d{10}|\\d{13}|\\d{15}|\\d{18}$"; /** * 匹配邮编代码 * * 格式为: XXXXXX(6位) * * 匹配 : 012345 * * 不匹配: 0123456 * */ public static final String ZIP_regexp = "^[0-9]{6}$";// 匹配邮编代码 /** * 不包括特殊字符的匹配 (字符串中不包括符号数学次方号^ 单引号' 双引号" 分号; 逗号, 帽号: 数学减号- 右尖括号左尖括号反斜杠\ 即空格,制表符,回车符等 ) * * 格式为: x 或一个一上的字符 * * 匹配 : 012345 * * 不匹配: 0123456 * */ public static final String non_special_char_regexp = "^[^'\"\\;,:-\\s].+$";// 匹配邮编代码 /** * 匹配非负整数（正整数 + 0) */ public static final String non_negative_integers_regexp = "^\\d+$"; /** * 匹配不包括零的非负整数（正整数 0) */ public static final String non_zero_negative_integers_regexp = "^[1-9]+\\d*$"; /** * * 匹配正整数 * */ public static final String positive_integer_regexp = "^[0-9]*[1-9][0-9]*$"; /** * * 匹配非正整数（负整数 + 0） * */ public static final String non_positive_integers_regexp = "^((-\\d+)|(0+))$"; /** * * 匹配负整数 * */ public static final String negative_integers_regexp = "^-[0-9]*[1-9][0-9]*$"; /** * * 匹配整数 * */ public static final String integer_regexp = "^-?\\d+$"; /** * * 匹配非负浮点数（正浮点数 + 0） * */ public static final String non_negative_rational_numbers_regexp = "^\\d+(\\.\\d+)?$"; /** * * 匹配正浮点数 * */ public static final String positive_rational_numbers_regexp = "^(([0-9]+\\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\\.[0-9]+)|([0-9]*[1-9][0-9]*))$"; /** * * 匹配非正浮点数（负浮点数 + 0） * */ public static final String non_positive_rational_numbers_regexp = "^((-\\d+(\\.\\d+)?)|(0+(\\.0+)?))$"; /** * * 匹配负浮点数 * */ public static final String negative_rational_numbers_regexp = "^(-(([0-9]+\\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"; /** * * 匹配浮点数 * */ public static final String rational_numbers_regexp = "^(-?\\d+)(\\.\\d+)?$"; /** * * 匹配由26个英文字母组成的字符串 * */ public static final String letter_regexp = "^[A-Za-z]+$"; /** * * 匹配由26个英文字母的大写组成的字符串 * */ public static final String upward_letter_regexp = "^[A-Z]+$"; /** * * 匹配由26个英文字母的小写组成的字符串 * */ public static final String lower_letter_regexp = "^[a-z]+$"; /** * * 匹配由数字和26个英文字母组成的字符串 * */ public static final String letter_number_regexp = "^[A-Za-z0-9]+$"; /** * * 匹配由数字、26个英文字母或者下划线组成的字符串 * */ public static final String letter_number_underline_regexp = "^\\w+$"; /** * 添加正规表达式 (以key-value的形式存储) * * @param regexpName * 该正规表达式名称 ` * @param regexp * 该正规表达式内容 */ public void putRegexpHash(String regexpName, String regexp) { regexpHash.put(regexpName, regexp); } /** * 得到正规表达式内容 (通过key名提取出value[正规表达式内容]) * * @param regexpName * 正规表达式名称 * * @return 正规表达式内容 */ public String getRegexpHash(String regexpName) { if (regexpHash.get(regexpName) != null) { return ((String) regexpHash.get(regexpName)); } else { System.out.println("在regexpHash中没有此正规表达式"); return ""; } } /** * 清除正规表达式存放单元 */ public void clearRegexpHash() { regexpHash.clear(); return; } /** * 大小写敏感的正规表达式批配 * * @param source * 批配的源字符串 * * @param regexp * 批配的正规表达式 * * @return 如果源字符串符合要求返回真,否则返回假如: Regexp.isHardRegexpValidate("ygj@suncer点抗点吸烟 ",email_regexp) 返回真 */ public static boolean isHardRegexpValidate(String source, String regexp) { try { // 用于定义正规表达式对象模板类型 PatternCompiler compiler = new Perl5Compiler(); // 正规表达式比较批配对象 PatternMatcher matcher = new Perl5Matcher(); // 实例大小大小写敏感的正规表达式模板 Pattern hardPattern = compiler点抗 pile(regexp); // 返回批配结果 return matcher.contains(source, hardPattern); } catch (MalformedPatternException e) { e.printStackTrace(); } return false; }

文章名称：用java写一个搜索代码用java写一个搜索代码
浏览路径：http://cdkjz.cn/article/ddjdsgi.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

娄底尾呼妄服装成都网站优化成都木托盘乐山网站建设关键词优化排名德阳服务器托管 tpbzx.cn 免备案空间腾讯云成都富士康招工雕琢时光

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

用java写一个搜索代码用java写一个搜索代码

怎么用java 开发一个搜索引擎呀？

用java写一个程序，从一个很长的字符串中搜索出某一段字符，列出所有符合的字符

求用java 正则表达式搜索字符串源代码

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

用java写一个搜索代码 用java写一个搜索代码

怎么用java 开发一个搜索引擎呀？

用java写一个程序，从一个很长的字符串中搜索出某一段字符，列出所有符合的字符

求用java 正则表达式搜索字符串源代码

相关资讯

怎么解决yumcleanallErrorrpmdbopenfailed的问题

怎样设置Java线程池的大小

AutoJs4.1.0实战教程---凹音短视频

浅析CentOS7的LVM逻辑卷与磁盘配额

使用SpringMVC如何实现整合mybatis

Unity如何实现绕任意轴任意角度旋转向量

公司域名可以转让吗

如何给用faas实现issueops

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

用java写一个搜索代码用java写一个搜索代码

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接