mppdb查看建表语句_MPP架构数据库优化总结——华为LibrA与GreenPlum

mppdb查看建表语句_MPP架构数据库优化总结——华为LibrA

与GreenPlum

⽂章⽬录

MPP架构数据库优化总结——华为LibrA与GreenPlum

1. 简介

2. 优化点

2.1 建表时选择合适的数据类型，可以提⾼效率、减⼩空间占⽤

2.2 选择合理的存储模型(⾏存和列存)

2.3 选择表的分布⽅式

2.4 选择合适的分区键可以有效改善数据库的查询性能，增强可⽤性，⽅便维护，以及均衡I/O等

2.5 创建索引，提⾼数据的访问速度

2.6 ⼤批量的数据导⼊、导出

2.7 压缩，减少空间占⽤

2.8 使⽤VACUUM和ANALYZE命令定期对每个表进⾏维护

2.9 减少数据库存储过程的使⽤

2.10 结束长时间运⾏的SQL

2.10 分析SQL执⾏计划

2.11 SQL编写优化

2.12 根据业务优化表设计

MPP架构数据库优化总结——华为LibrA与GreenPlum

1. 简介

⼤数据在关系型数据处理这块，为了能够快速的查询、写⼊海量数据数据，通常会采⽤MPP (Massivel

y Parallel Processing)架构的数据库。华为LibrA与GreenPlum正是这样⼀款产品。通常实际⽣产环境中，每张表会存⼊海量的数据(例如我这⾥会有4TB、8TB、14TB等⼤⼩的表)，为了解决这些存有海量数据的表的性能问题，需要给出很多优化⽅案，在这⾥我总结出⼯作中常⽤的⼀些优化⼿段。

2. 优化点

2.1 建表时选择合适的数据类型，可以提⾼效率、减⼩空间占⽤

例如，⼈的年龄没必要使⽤int，可以采⽤TINYINT(占⽤1字节

，范围为0~255)

例如，优先使⽤TEXT和VARCHAR类型，尽量不要使⽤CHAR，以降低存储空间的使⽤

2.2 选择合理的存储模型(⾏存和列存)

⾏存表：适⽤于对数据需要经常更新的场景。

列存表：适合数据批量插⼊、更新较少和以查询为主统计分析类的场景。列存表不适合点查询，插⼊单条记录性能差。

如何选择？

sql语句优化方式如果更新频繁，选择⾏存

如果经常点查询，选择⾏存

如果经常进⾏聚合查询，选择列存

经常⼀次插⼊⼤批量数据，选择列存

表字段较多，可以尝试列存

存储空间有限，希望更好的压缩数据，选择列存

2.3 选择表的分布⽅式

⼩表选择Replication⽅式(例如表⼤⼩为5MB)，会在每⼀个DataNode上存储⼀份全量表数据

⼤表选择Hash⽅式，会根据hash值把数据映射到对应的DataNode上

使⽤Hash分表策略时，需要选择合理的分布列(即字段)，选择的列要具有随机性，以保证数据均匀的

分布到各个DataNode上。检查数据是否分布均匀的SQL如下:-- 如果每个node_name对应的count相差不⼤，即代表分布基本均匀

de_name

FROM (SELECT COUNT(*) AS count,xc_node_id FROM tablename GROUP BY xc_node_id) a, pgxc_node b WHERE

<_node_id=

ORDER unt DESC;

2.4 选择合适的分区键可以有效改善数据库的查询性能，增强可⽤性，⽅便维护，以及均衡I/O等

通常根据业务，我们可以按照⽇期对表进⾏分区(例如天、⽉)

查询时，选择对应的分区查询即可，可以提⾼效率

2.5 创建索引，提⾼数据的访问速度

根据业务需求选择合理的索引字段，例如经常被⽤作查询条件的字段、被要求排序的字段

如何选择索引字段？

经常使⽤WHERE⼦句的字段

经常出现在ORDER BY、GROUP BY、DISTINCT后的字段

经常进⾏多表连接的字段

如果需要创建联合索引，应注意后续SQL中的where条件的字段

2.6 ⼤批量的数据导⼊、导出

当业务中需要⼤批量的数据导⼊时，请不要再使⽤JDBC/ODBC等⽅式插⼊数据，可以使⽤数据库⾃带的批量导⼊⼯具。华为LibrA可以参考LibrA批量数据导⼊。

如果要快速插⼊⼤量数据，尽量不要使⽤约束

2.7 压缩，减少空间占⽤

如果系统空间不⾜，⼜⽆法添加新的集器，可以考虑对表数据进⾏压缩(会导致性能降低)。

⽰例，定义⼀个带压缩的列存表CREATE TABLE tb_name(

code char(5),

title varchar(40),

did integer,

) WITH (ORIENTATION = COLUMN, COMPRESSION=HIGH);

列存表的有效值为YES/NO/LOW/MIDDLE/HIGH，默认值为LOW

⾏存表的有效值为YES/NO，默认值为NO

2.8 使⽤VACUUM和ANALYZE命令定期对每个表进⾏维护

VACUUM可以回收表或B-Tree索引中已经删除的⾏所占据的存储空间(DELETE实际不会真正删除数据)

ANALYZE会收集与数据库相关的统计信息，以便最有效的查询执⾏计划

可以尝试每⽇⾃动对表进⾏维护，SQL⽰例如下：VACUUM ANALYZE tb_name;

另外可以尝试VACUUM FULL，可以恢复更多的空间(耗时更长)

2.9 减少数据库存储过程的使⽤

该类型数据库，使⽤存储过程的性能并不好

2.10 结束长时间运⾏的SQL

有的长时间运⾏的SQL，很可能是数据库BUG、表数据存在问题、SQL⾃⾝问题导致的，应该定期进⾏分析，结束掉这部分SQL

查询长时间运⾏的SQL:SELECT current_timestamp - query_start AS runtime, datname, usename, query

FROM pg_stat_activity

WHERE state != 'idle'

ORDER BY 1 DESC;

查看语句执⾏的线程状态:SELECT * FROM PG_THREAD_WAIT_STATUS WHERE db_name='db_n

ame';

杀掉对应的tid的SQL语句:SELECT pg_terminate_backend(140532470773504);

2.10 分析SQL执⾏计划

查看执⾏计划的逻辑，检查是否存在不合理的执⾏，再进⾏SQL优化

执⾏计划分析内容较多，请⾃⾏百度其他数据库的执⾏计划分析，都是类似的

2.11 SQL编写优化

执⾏较复杂的SQL，建议分多步执⾏，创建unlogged table或temp table缓存中间临时数据(⾮⽇志表的性能⽐普通表有⼤幅度提升)

在实际业务中，如果2个表做union，能够提前确定2个表没有交集，那么建议使⽤union all替代union

2个表做left Join时，⼩表在前、⼤表在后(⼩表驱动⼤表)

2个表Join时，尽量使⽤inner join，少使⽤left join

做聚合分析时，可以提前做好where过滤，以减少聚合的数据量

查询时不要使⽤SELECT * …，请直接指明所有字段名

2个表做Join时，如果不需要Null，请尽量加上is not null条件，对Join之前的数据进⾏过滤

针对同⼀个字段的多个or等于条件(name=‘xm’ or name=‘ls’ or name=‘xh’ …)，请修改为in或者exist

针对连续的数值条件查询，不要使⽤in，尽量使⽤between(例如 WHERE id BETWEEN 2 AND 3)

对经常要查询的SQL，创建视图View，以⽅便下次直接查询

where中，能明确条件的，⼀定不要使⽤like模糊查询(必须使⽤like时，尽量不要使⽤’%content%’，应尽量使⽤’content%’)。如果like的是分区字段，则可以不⽤在意。

2.12 根据业务优化表设计

没有必要为了节省空间去设计多个关联表(效率不⾼，⼤数据应该提倡以空间换时间)

针对经常要做统计的表，可以提前另作⼀个统计结果表，直接查询该结果表既可

⼀个⼤表中，某个字段需要经常单独⽤来去重或者判断exist，⽽⼜不要求实时性，同时⼜只是⼀个单⼀的业务需要，没有必要为其创建索引，可以每天做⼀次去重，单独存⼀个表

根据实际业务需求，可以对⽇期进⾏分区。如果前台每次默认查询需要做⼀个聚合请求，在能满⾜业务需求下，不要直接查全表⽇期的聚合，可以尝试查近期的聚合(例如近1~2⽉)。因为业务⽅⾯通常也是想看近期的数据。

如果业务中要使⽤分页类似的查询⽅式，表中需要设计id。如果只使⽤offset，随着表数据量的增⼤，会越来越慢。添加id后，可以⽤该语句代替：-- SELECT id,name FROM product LIMIT 20 OFFSET 100000;

SELECT id,name FROM product WHERE id> 100000 LIMIT 20

多数业务情况下，表中应设计update_time字段，以表⽰该条数据的插⼊、更新时间，⽅便后续操作

如果⼀个表的业务通常是进⾏聚合操作，应该尝试将该表设计为列存模式

利⽤业务需求，可以为表的字段设计⼆维索引(例如geohash)，以做到某些特殊查询需求

688IT编程网

mppdb查看建表语句_MPP架构数据库优化总结——华为LibrA与GreenPlum_百...

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

mppdb查看建表语句_MPP架构数据库优化总结——华为LibrA与GreenPlum_百...

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行