hiveinstrt_Hive常用系统函数-字符串函数--688IT编程网

hiveinstrt_Hive常⽤系统函数-字符串函数

ascii

ascii(string str)

返回传⼊字符串的第⼀个字符的ASCII编码

base64

base64(binary bin)

将传⼊的⼆进制参数转换为base 64 字符串

character_length

character_length(string str)

返回字符串长度(字符串需为UTF8编码)

chr

chr(bigint|double A)

将传⼊数字当做ASCII编码，并转换为对应字符，若传⼊参数超过256，则转换为chr(A % 256)

concat

concat(string|binary A, string|binary B…)

将传⼊的字符串A,B合并为新的字符串，concat(‘foo’, ‘bar’)结果为’foobar’

context_ngrams

context_ngrams(array, array, int K, int pf)

从⼀组标记化的句⼦中返回前k个⽂本。例如select context_ngrams(sentences(‘hello word!hello hive,hi hive,hello hive’),array(‘hello’,null),4) from A，会返回[{“ngram”:[“hive”],“estfrequency”:7141046.0},{“ngram”: [“word”],“estfrequency”:3570523.0}]，即最经常在"hello"后出现的单词，并统计其频次，有统计聚合作⽤

concat_ws

concat_ws(string SEP, string A, string B…)或concat_ws(string SEP, array)

与concat作⽤类似，但是⽀持⾃定义的分隔符SEP

decode

hive trim函数

decode(binary bin, string charset)

使⽤charset⽅式，将⼆进制bin解码为字符串。⽀持的字符集有：‘US-ASCII’, ‘ISO-8859-1’, ‘UTF-8’, ‘UTF-16BE’,‘UTF-16LE’, ‘UTF-16’

elt

elt(N int,str1 string,str2 string,str3 string,…)

返回给定字符串集中的第N个，若不存在则返回null。例如elt(2,‘hello’,‘world’) 返回’world’

encode

encode(string src, string charset)

field

field(val T,val1 T,val2 T,val3 T,…)

返回val在val1,val2…的位置。若不存在则返回0。例如field(‘world’,‘say’,‘hello’,‘world’)，返回值为3

find_in_set

find_in_set(string str, string strList)

返回str在strList中的位置。若不存在或str中存在","，则返回0

find_in_set

find_in_set(string str, string strList)

返回str在strList中的位置。若不存在或str中存在","，则返回0。若str为null，则返回null

format_number

format_number(number x, int d)

将数字精确到d位⼩数，例如format_number(5.123456, 4)，返回值为5.1235

get_json_object

get_json_object(string json_string, string path)

根据指定的path路径从json字符串中提取json对象，并返回提取的json对象的json字符串。如果输⼊的json字符串⽆效，则返回null。注意：json路径只能包含字符[0-9a-z_u]，即没有⼤写或特殊字符。此外，键*不能以数字开头

in_file

in_file(string str, string filename)

如果str以整⾏的⽅式出现在filename中，则返回True。必须存在filename⽂件，否则会报错

instr

instr(string str, string substr)

返回str中第⼀个substr的位置。如果其中str为null，则返回null；如果在str中不到substr，则返回0

length

length(string A)

返回字符串A的长度

locate

locate(string substr, string str, int pos)

返回substr在str的pos位置后，第⼀次出现的位置，pos⾮必传。例如locate(‘a’, ‘abcabc’)，返回1；locate(‘a’,

‘abcabc’,1)，返回1；locate(‘a’, ‘abcabc’,2)，返回4

lower

lower(string A)

返回字符串A的⼩写形式

lpad

将str截取长度len位，若str长度不⾜len则，左侧⽤pad补充。例如lpad(‘abcdef’, 5, ‘a’)返回’abcde’；lpad(‘abc’, 5, ‘a’)返回’aaabc’

ltrim

ltrim(string A)

删除字符串A左边的空格

ngrams

ngrams(array, int N, int K, int pf)

返回出现次数排在前K的⼦序列,N表⽰⼦序列的长度，例如ngrams(sentences(lower(tweet)), 2, 100 [, 1000]) FROM twitter

octet_length

octet_length(string str)

返回以UTF-8编码保存字符串str所需的⼋位字节数

parse_url

parse_url(string urlString, string partToExtract [, string keyToExtract])

printf

printf(String format, Obj… args)

按照指定的format进⾏输出。例如printf(“Hello World %d %s”, 100, “days”)，返回值为"Hello World 100 days”

regexp_extract

regexp_extract(string subject, string pattern, int index)

返回字符串subject与正则表达式pattern匹配后的index部分。例如regexp_extract(‘100-300’, ‘(d+)-(d+)’, 2) 的返回值为300

regexp_replace

regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)

将字符串subject与正则表达式pattern匹配上部分⽤REPLACEMENT进⾏替换并返回。例如regexp_replace(‘100-200’, ‘(d+)’,‘num’)返回值为‘num-num’

repeat

repeat(string str, int n)

将字符串str重复n次

replace

replace(string A, string OLD, string NEW)

将字符串str中的OLD⼦串替换为NEW

reverse

reverse(string A)

对字符串A进⾏翻转

rpad

与lpad对应，将str截取长度len位，若str长度不⾜len则，右⽤pad补充。例如rpad(‘abcdef’, 5, ‘a’)返回’abcde’；

rpad(‘abc’, 5, ‘a’)返回’abcaa’

rtrim

rtrim(string A)

与ltrim对应，删除字符串A右边的空格

sentences

sentences(string str, string lang, string locale)

将字符串str按照句⼦划分成单词。其中每个句⼦为⼀个数组，句⼦中单词为数组中元素。lang和locale为可选参数。其中lang为语⾔选项(如：'en’代表英⽂)，locale代表地区。例⼦：sentences(‘Hello there! How are you?’) 返回 ( (“Hello”, “there”), (“How”,“are”, “you”) )

space

space(int n)

返回n个空格的字符串

split

split(string str, string pat)

按照正则表达式pat拆分字符串str。例如：split(‘a,b,c,d’,’,’)返回[“a”,“b”,“c”,“d”]

str_to_map

str_to_map(text, delimiter1, delimiter2)

将text分割为数个键值对。其中delimiter1和delimiter2为可选参数。delimiter1(默认为’:’)代表键k与值v的分隔符。delimiter2(默认为’,’)代表键值对k-v之间的分隔符。例如str_to_map({“column1:1,column2:2”)返回值为

{“column1”:“1”,“column2”:“2”}

substr

substr(string

binary A, int start, int len)

substr

substr(string

binary A, int start, int len)

substring_index

substring_index(string A, string delim, int count)

已delim为分隔符，返回delim将A分割后的前count部分。若count为负，则返回分割的最后⼀部分。例如：

substring_index(‘’, ‘.’, 2) 返回 ‘www.apache’

translate

将input字符串中出现在from中的每个字符替换为to中的相应字符以后的字符串。若from⽐to字符串长，那么在from中⽐to中多出的字符将会被删除。与PostgreSQL中对应函数等价。例如translate(‘abcdefga’,‘abc’,‘wo’)返回’wodefgw’

返回出现在字符串A两端的空格。例如trim(’ foo bar ‘)返回’foo bar’

unbase64

unbase64(string str)

将64位的字符串转换⼆进制值

upper

upper(string A)

与lower对应，返回字符串A的⼤写形式

initcap

initcap(string A)

返回字符串，每个单词的第⼀个字母为⼤写，所有其他字母为⼩写。单词由空格分隔

levenshtein

levenshtein(string A, string B)

返回两个字符串之间的Levenshtein距离。例如 levenshtein(‘kitten’, ‘sitting’)返回值为3。(Levenshtein 距离，⼜称编辑距离，指的是两个字符串之间，由⼀个转换成另⼀个所需的最少编辑操作次数。编辑操作包括将⼀个字符替换成另⼀个字符，插⼊⼀个字符，删除⼀个字符)

soundex

soundex(string A)

返回字符串的soundex代码。例如：soundex(‘Miller’)返回M460

688IT编程网

hiveinstrt_Hive常用系统函数-字符串函数

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

hiveinstrt_Hive常用系统函数-字符串函数

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式