HIVE踩坑——NULL和空字符串处理--688IT编程网

HIVE踩坑——NULL和空字符串处理

这⾥我们针对在HIVE中遇到的NULL和空字符串问题进⾏简单探讨，避免踩坑

简单探索

⾸先新建⼀张测试表test_01，⽤作后续测试

CREATE TABLE IF NOT EXISTS `test_01`(

`id` INT, `name` STRING,`age` INT, `score` FLOAT)

ROW FORMAT DELIMITED FIELDS TERMINATED BY',' STORED AS TEXTFILE；

新增简单的⼏条测试数据，具体如下

insert overwrite table test_01

select NULL,NULL,10,95

union all select2 ,'',10,95

union all select3 ,'Lucy',15,NULL

union all select4,'Jack',15,100;

查看新增数据

hive (tmp)>select*from test_01;

NULL NULL1095.0

21095.0

3 Lucy 15NULL

4 Jack 15100.0

底层HDFS⽂件默认存储格式

[root@nd2 wh]# hadoop fs -cat /user/hive/warehouse/tmp.db/test_01/000000_0

\N,\N,10,95.0

2,,10,95.0

3,Lucy,15,\N

4,Jack,15,100.0

得出结论：

默认情况下，STRING类型的数据如果为" “，底层HDFS⽂件默认存储则是” "；

INT与STRING等类型的数据如果为NULL，底层HDFS默认默认存储为 \N；

这⾥我们根据name条件查询

--条件为 name is null

hive (tmp)>select*from test_01 where name is null;

NULL NULL1095.0

-条件为name = ''

hive (tmp)>select*from test_01 where name ='';

21095.0

--条件为id is null

hive (tmp)>select*from test_01 where id is null;

NULL NULL1095.0

可以得出结论：

默认情况下，对于INT可以使⽤is null来判断空；

⽽对于STRING类型，条件is null 查出来的是\N的数据；⽽条件 =" “，查询出来的是” "的数据。

实际情况

在HIVE使⽤中，很多时候我们可能需要使⽤底层HDFS⽂件⽤作数据存储或其它数据迁移，备份。这个时候底层HDFS⽂件中\N和" "处理就显得很重要了（不同的应⽤可能对底层⽂件处理不⼀样）。

在HIVE中，⼀般我们会在新建表之后执⾏

--⾃定义底层⽤什么字符来表⽰NULL。这⾥⽤''来表⽰。换句话说就是让null和''等价，底层HDFS让null不显⽰。

ALTER TABLE test_01 SET SERDEPROPERTIES ('serialization.null.format'='');

我们重新插⼊数据，查询结果

hive (tmp)>select*from test_01;

NULL NULL1095.0

2NULL1095.0

3 Lucy 15NULL

4 Jack 15100.0

底层HDFS⽂件存储的数据格式为

[root@nd2 wh]# hadoop fs -cat /user/hive/warehouse/tmp.db/test_01/000000_0

,,10,95.0

2,,10,95.0

3,Lucy,15,

4,Jack,15,100.0

我们发现底层数据保存的是" "，通过查询显⽰的结果时NULL。

注意：

我们使⽤is null或者 = " “都是根据查询显⽰的结果进⾏过滤。⽽不是根据底层⽂件格式。查询空值⽤is null，如果⽤=” "，查询不到数据。

--条件为 name is null

默认字符串是什么hive (tmp)>select*from test_01 where name is null;

NULL NULL1095.0

2NULL1095.0

--条件为 name =''

hive (tmp)>select*from test_01 where name ='';

Time taken: 4.058 seconds

688IT编程网

HIVE踩坑——NULL和空字符串处理

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

688IT编程网

HIVE踩坑——NULL和空字符串处理

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林 的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

随机森林的算法