[Hive排序]--4种排序⽅式介绍
⼀、官⽅⽂档
⼆、译⽂
由创建,最后由于年
order bycluster by
order by ,sort by,cluster by 和 distribute by
这描述了SELECT⼦句ORDER BY,SORT BY,CLUSTER BY和DISTRIBUTE BY的语法。有关常规信息,请参阅。
命令的语法
该ORDER BY在Hive SQL语法类似的语法ORDER BY在SQL语⾔。
colOrder: ( ASC | DESC )
colNullOrder: (NULLS FIRST | NULLS LAST)          -- (Note: Available in Hive 2.1.0and later)
orderBy: ORDER BY colName colOrder? colNullOrder? (','colName colOrder? colNullOrder?)*
query: SELECT expression (','expression)* FROM src orderBy
“order by”⼦句有⼀些限制。在严格模式(即 = strict)中,order by⼦句必须后跟⼀个“limit”⼦句。如果将de设置为⾮限制,则不需要限制⼦句。原因是为了强加所有结果的总顺序,必须有⼀个减速器对最终输出进⾏排序。如果输出中的⾏数太⼤,则单个还原器可能需要很长时间才能完成。
请注意,列以名称⽽不是位置号指定。但是在及更⾼版本中,可以通过位置指定列 ,配置如下:
对于Hive 0.11.0到2.1.x,将设置  为true(默认值为false)。
对于Hive 2.2.0及更⾼版本, 默认情况下,  为true。
默认排序顺序为升序(ASC)。
在及更⾼版本中,⽀持为“order by”⼦句中的每个列指定空排序顺序。ASC顺序的默认空排序顺序为NULLS FIRST,⽽DESC顺序的默认空排序顺序为NULLS LAST。
在及更⾼版本中,优化器将删除和⽆限制排序。要禁⽤它,请将设置  为false。
排序⽅式的语法
该排序语法类似于语法ORDER BY在SQL语⾔。
colOrder: ( ASC | DESC )
sortBy: SORT BY colName colOrder? (','colName colOrder?)*
query: SELECT expression (','expression)* FROM src sortBy
Hive使⽤SORT BY中的列对⾏进⾏排序,然后将⾏提供给reducer。排序顺序将依赖于列类型。如果列是数字类型,则排序顺序也以数字顺序排列。如果列是字符串类型,则排序顺序将是字典顺序。
在及更⾼版本中, 优化器将删除  和  ⽆限制排序  。要禁⽤它,请将设置  为false。
排序与排序之间的差异
Hive⽀持SORT BY,每个reducer对数据进⾏排序。“order by”和“sort by”之间的区别是前者保证输出中的总顺序,⽽后者仅保证在reducer中的⾏的排序。如果有多个减速器,“排序”可能会部分订购最终结果。
注意:单独列出的单独列与单独的列之间的区别可能令⼈困惑。区别在于CLUSTER BY按字段分区,如果有多个reducer分区,则可以随机分配SORT BY,以便在reducer上均匀分布数据(并加载)。
基本上,每个reducer中的数据将按照⽤户指定的顺序进⾏排序。以下⽰例显⽰
SELECT key, value FROM src SORT BY key ASC, value DESC
查询有2个reducer,每个的输出是:
05
03
36
91
04
03
11
25
排序⽅式的设置类型
变换后,变量类型通常被认为是字符串,这意味着数字数据将按字典顺序分类。为了克服这⼀点,在使⽤SORT BY之前,可以使⽤带有转换的第⼆个SELECT语句。
FROM (FROM (FROM src
SELECT TRANSFORM(value)
USING 'mapper'
AS value, count) mapped
SELECT cast(value as double) AS value, cast(count as int) AS count
SORT BY value, count) sorted
SELECT TRANSFORM(value, count)
USING 'reducer'
AS whatever
cluster by 和 distribute by 的语法
Cluster By和Distribute By主要⽤于。但是,如果需要对后续查询的查询输出进⾏分区和排序,那么在SELECT语句中有时是有⽤的。Cluster By是分发和排序的快捷⽅式。
Hive使⽤Distribute By中的列在reducer之间分配⾏。具有相同分布列的所有⾏将转到同⼀个reducer。但是,Distribute By不能保证分布式密钥上的集或排序属性。
例如,我们将以下5⾏的“ 分布式x ” 分配给2个reducer:
x1
x2
x4
x3
x1
减速器1得到
x1
x2
x1
减速器2得到
x4
x3
请注意,具有相同键x1的所有⾏都保证分发到同⼀个reducer(在这种情况下为reducer 1),但是它们不能保证在相邻位置中聚类。
相⽐之下,如果我们使⽤Cluster By x,则两个reducers将进⼀步排序x上的⾏:
减速器1得到
x1
x1
x2
减速器2得到
x3
x4
⽤户可以指定“ 分发和排序”,⽽不是指定“ 集”,因此分区列和排序列可以不同。通常的情况是分区列是排序列的前缀,但不是必需的。
SELECT col1, col2 FROM t1 CLUSTER BY col1
SELECT col1, col2 FROM t1 DISTRIBUTE BY col1
SELECT col1, col2 FROM t1 DISTRIBUTE BY col1 SORT BY col1 ASC, col2 DESC
FROM (
FROM pv_users
MAP ( pv_users.userid, pv_users.date )
USING 'map_script'
AS c1, c2, c3
DISTRIBUTE BY c2
SORT BY c2, c1) map_output
INSERT OVERWRITE TABLE pv_users_reduced
REDUCE ( map_output.c1, map_output.c2, map_output.c3 )
USING 'reduce_script'
AS date, count;
三、有⽹友已经总结如下
order by
  order by 会对输⼊做全局排序,因此只有⼀个reducer(多个reducer⽆法保证全局有序)只有⼀个reducer,会导致当输⼊规
模较⼤时,需要较长的计算时间。
  set de=nonstrict; (default value / 默认值)
  set de=strict;
  order by 和数据库中的Order by 功能⼀致,按照某⼀项&⼏项排序输出。
  与数据库中 order by 的区别在于在de = strict 模式下 必须指定 limit 否则执⾏会报错。
  hive> select * from test order by id;
  FAILED: Error in semantic analysis: 1:28 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error encountered near token 'id'
  原因: 在order by 状态下所有数据会到⼀台服务器进⾏reduce操作也即只有⼀个reduce,如果在数
sort命令排序据量⼤的情况下会出现⽆法输出结果的情况,如果进⾏ limit n ,那只有  n * map number 条记录⽽已。只有⼀个reduce也可以处理过来。
sort by
  sort by不是全局排序,其在数据进⼊reducer前完成排序.
  因此,如果⽤sort by进⾏排序,并且设置duce.tasks>1, 则sort by只保证每个reducer的输出有序,不保证全局有序。
  sort by 不受 de 是否为strict ,nostrict 的影响
  sort by 的数据只能保证在同⼀reduce中的数据可以按指定字段排序。
  使⽤sort by 你可以指定执⾏的reduce 个数 (duce.tasks=<number>),对输出的数据再执⾏归并排序,即可以得到全部结果。
  注意:可以⽤limit⼦句⼤⼤减少数据量。使⽤limit n后,传输到reduce端(单机)的数据记录数就减少到n* (map个数)。否则由于数据过⼤可能出不了结果。
distribute by
  按照指定的字段对数据进⾏划分到不同的输出reduce  / ⽂件中。
insert overwrite local directory '/home/hadoop/out' select * from test order by name distribute by length(name);
  此⽅法会根据name的长度划分到不同的reduce中,最终输出到不同的⽂件中。
  length 是内建函数,也可以指定其他的函数或这使⽤⾃定义函数。
cluster by
  cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。
  但是排序只能是倒序排序,不能指定排序规则为asc 或者desc。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。