开源大数据索引项目hive-solr的示例分析-快上网网站建设公司

开源大数据索引项目hive-solr的示例分析

这篇文章主要介绍开源大数据索引项目hive-solr的示例分析，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

成都创新互联服务项目包括黟县网站建设、黟县网站制作、黟县网页制作以及黟县网络营销策划等。多年来，我们专注于互联网行业，利用自身积累的技术优势、行业经验、深度合作伙伴关系等，向广大中小型企业、政府机构等提供互联网行业的解决方案，黟县网站推广取得了明显的社会效益与经济效益。目前，我们服务的客户以成都为中心已经辐射到黟县省份的部分城市，未来相信会继续扩大服务区域并继续获得客户的支持与信任！

最新更新：
（1）添加了对solrcloud集群的支持
（2）修复了在反序列时对于hive中null列和空值的处理bug
（3）优化了在构建索引时对于null值和空值的忽略

一些测试：

数据量：约一千二百万，8个字段，其中一个是大文本，2个是分词字段，索引前数据体积约20G

索引总耗时：约15分钟

索引后体积：每个shard约6G，共约18G

Hive：限制最大并发map数为30个，怕影响Hbase服务，注意使用Hive建完索引后，需要手动commit一次，使内存索引flush到磁盘上

批处理：每个map里面10万数据，批量处理提交一次，不commit，这个值根据情况设定，太大了容易solrcloud容易丢数据，太小了会影响速度

solrcloud集群版本为5.1使用3台机器，每台一个shard，无副本，jetty的内存给了10G

CPU：24核，注意大文本分词字段非常耗cpu

solr的jvm参数调整：
（1）调大 SurvivorRatio 区占比，降低survivor区的内存空间
（2）调小NewRatio区占比，增大新生代的内存空间
（3）调大永久代MaxPermSize内存至256M
（4）调整MaxTenuringThreshold=0 ，使大对象加速进入老年代，避免在survivor和eden区来回拷贝，使用YGC次数变多
其他参数还是默认配置

solr服务端配置：
（1）关闭自动commit
（2）设置ramBufferSizeMB为1000 ，约等1G
（3）设置maxBufferedDocs等-1，禁用maxBufferDocs
（4）设置mergeFactor为100

以上是“开源大数据索引项目hive-solr的示例分析”这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注创新互联行业资讯频道！

名称栏目：开源大数据索引项目hive-solr的示例分析
分享网址：http://cdkjz.cn/article/gijjcd.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

开源大数据索引项目hive-solr的示例分析

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

开源大数据索引项目hive-solr的示例分析

相关资讯

linux批量传文件命令 linux批量传输文件

mysql在怎么创建表 mysql怎么创建表结构

android抬起 安卓抬头唤醒在哪里设置

前端jquery定位 jquery获取位置

jquery清除属性 jquery移除属性checked

郑州html5 郑州html5招聘信息

html5视频实时的简单介绍

mysql里怎么查询日期 查询mysql时间

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

android抬起安卓抬头唤醒在哪里设置

mysql里怎么查询日期查询mysql时间

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接