Hadoop集小文件合并--688IT编程网

Hadoop集⼩⽂件合并

Hadoop集运⾏⼀段时间后⼩⽂件越来越多，namenode不堪重负，不仅GC越来越频繁，还会偶尔挂掉

Hadoop集⼤部分⽂件都来源于数仓，由于数仓未对相关配置进⾏优化，所以才会产⽣很多⼩⽂件

为了解决⼩⽂件问题：

优化hive参数

开发⼯具合并集现有⼩⽂件

扫描-d指定库中的表，查看表每个分区的⼩⽂件情况，如果⽂件多于-fs指定的⽂件个数则进⾏合并（不指定fs参数则fs值是

Math.max(1，分区⽬录totalFile Size/hdfsBlockSize）；

合并引擎使⽤spark thrfit server。虽然实现⽐较简单，但是能真正解决⼩⽂件问题，如果觉得对你有帮助，⿇烦给个星

说明：

Usage: htool -d <database> [options]

-d,--database specify database to merge

-dp,--dataPath <arg> store the metadata of merged data.the dpath

is required, when the -i option are specified

-fs,--files <arg> how many files will merged into

-i,--incremental incremental merge data （是否增量合并，如果开启增量合并则会在-dp指定的⽬录中记录已合并库：表：分区，下次运⾏任务是会⾃动跳过已合-m,--parallel <n> use 'n' tasks to merge in parallel

-p,--password <arg> jdbc connection password

-r,--part <arg> set partition to merge

-sts,--thriftserver <arg> specify JDBC connect string of spark thrift

server

-t,--table <arg> specify table to merge.if it is not set,htool

will use all table in the database

-u,--user <arg> jdbc connection user

-x,--min-profit <n> min-profit,default 1（收益值，只合并当前分区⽂件个数-fs⼤于此值的分区）

thrift

附上合并前后对⽐：

合并前：

合并2天后:

发表评论

688IT编程网

Hadoop集小文件合并

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

Hadoop集小文件合并

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行