Hive中Orderby,Sortby,Dristributeby,ClusterBy有什么用-快上网网站建设公司

Hive中Orderby,Sortby,Dristributeby,ClusterBy有什么用

这篇文章主要介绍了Hive中Order by, Sort by ,Dristribute by,Cluster By有什么用，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。

在留坝等地区，都构建了全面的区域性战略布局，加强发展的系统性、市场前瞻性、产品创新能力，以专注、极致的服务理念，为客户提供做网站、成都网站设计网站设计制作按需网站制作,公司网站建设,企业网站建设,品牌网站设计,营销型网站,外贸营销网站建设,留坝网站建设费用合理。

Hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

1. order by

set hive.mapred.mode=nonstrict; (default value / 默认值)

set hive.mapred.mode=strict;

order by 和数据库中的Order by 功能一致，按照某一项 & 几项排序输出。

与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下必须指定 limit 否则执行会报错。

hive> select * from test order by id;

FAILED: Error in semantic analysis: 1:28 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error encountered near token 'id'

原因：在order by 状态下所有数据会到一台服务器进行reduce操作也即只有一个reduce，如果在数据量大的情况下会出现无法输出结果的情况，如果进行 limit n ，那只有 n * map number 条记录而已。只有一个reduce也可以处理过来。

2. sort by

sort by 不受 hive.mapred.mode 是否为strict ,nostrict 的影响

sort by 的数据只能保证在同一reduce中的数据可以按指定字段排序。

使用sort by 你可以指定执行的reduce 个数（set mapred.reduce.tasks=）这样可以输出更多的数据。

对输出的数据再执行归并排序，即可以得到全部结果。

注意：可以用limit子句大大减少数据量。使用limit n后，传输到reduce端（单机）的数据记录数就减少到n* （map个数）。否则由于数据过大可能出不了结果。

http://www.alidata.org/archives/622

3. distribute by

按照指定的字段对数据进行划分到不同的输出reduce / 文件中。

insert overwrite local directory '/home/hadoop/out' select * from test order by name distribute by length(name);

此方法会根据name的长度划分到不同的reduce中，最终输出到不同的文件中。

length 是内建函数，也可以指定其他的函数或这使用自定义函数。

4. DISTRIBUTE BY with SORT BY
DISTRIBUTE BY能够控制map的输出在reduce中如何划分。其可以按照指定的字段对数据进行划分到不同的输出reduce/文件中。
DISTRIBUTE BY和GROUP BY有点类似，DISTRIBUTE BY控制reduce如何处理数据，而SORT BY控制reduce中的数据如何排序。
注意：hive要求DISTRIBUTE BY语句出现在SORT BY语句之前。

5. Cluster By

cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。

默认倒序排序，但DISTRIBUTE BY的字段和SORT BY的字段必须相同，且不能指定排序规则。 asc 或者 desc。

总结：

ORDER BY是全局排序，但在数据量大的情况下，花费时间会很长
SORT BY是将reduce的单个输出进行排序，不能保证全局有序
DISTRIBUTE BY可以按指定字段将数据划分到不同的reduce中
当DISTRIBUTE BY的字段和SORT BY的字段相同时，可以用CLUSTER BY来代替 DISTRIBUTE BY with SORT BY。

感谢你能够认真阅读完这篇文章，希望小编分享的“Hive中Order by, Sort by ,Dristribute by,Cluster By有什么用”这篇文章对大家有帮助，同时也希望大家多多支持创新互联，关注创新互联行业资讯频道，更多相关知识等着你来学习!

当前名称：Hive中Orderby,Sortby,Dristributeby,ClusterBy有什么用
文章位置：http://cdkjz.cn/article/jgisce.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Hive中Orderby,Sortby,Dristributeby,ClusterBy有什么用

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Hive中Orderby,Sortby,Dristributeby,ClusterBy有什么用

相关资讯

外教都是国外混不下去的

云服务器发现安全漏洞怎么办？云服务器安全防护措施

如何栽种南瓜

申请服务器空间以及租用域名流程

鲁闵公：鲁国第是气人国君，在位仅两年就被杀

梨和苹果可以一起煮水吗

服务器和PC机的区别是什么

历史上霍成君为何会失去皇后之位？她做了什么事情？

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接