如何优化MySQL千万级大表,5个方案--688IT编程网

如何优化MySQL千万级⼤表，5个⽅案

千万级⼤表如何优化，这是⼀个很有技术含量的问题，通常我们的直觉思维都会跳转到拆分或者数据分区，在此做了⼀些补充和梳理，想和⼤家做⼀些这⽅⾯的经验总结，整理了下⾯的⼤纲内容。

既然要吃透这个问题，我们势必要回到本源，我把这个问题分为三部分:

“千万级”，“⼤表”，“优化”，

也分别对应我们在图中标识的

“数据量”，“对象”和“⽬标”。

我来逐步展开说明⼀下，从⽽给出⼀系列的解决⽅案。

1.数据量：千万级

千万级其实只是⼀个感官的数字，就是我们印象中的数据量⼤。这⾥我们需要把这个概念细化，因为随着业务和时间的变化，数据量也会有变化，我们应该是带着⼀种动态思维来审视这个指标，从⽽对于不同的场景我们应该有不同的处理策略。

1) 数据量为千万级，可能达到亿级或者更⾼

通常是⼀些数据流⽔，⽇志记录的业务，⾥⾯的数据随着时间的增长会逐步增多，超过千万门槛是很容易的⼀件事情。

2) 数据量为千万级，是⼀个相对稳定的数据量

如果数据量相对稳定，通常是在⼀些偏向于状态的数据，⽐如有1000万⽤户，那么这些⽤户的信息在表中都有相应的⼀⾏数据记录，随着业务的增长，这个量级相对是⽐较稳定的。

3) 数据量为千万级，不应该有这么多的数据

这种情况是我们被动发现的居多，通常发现的时候已经晚了，⽐如你看到⼀个配置表，数据量上千万；或者说⼀些表⾥的数据已经存储了很久，99%的数据都属于过期数据或者垃圾数据。

数据量是⼀个整体的认识，我们需要对数据做更近⼀层的理解，这就可以引出第⼆个部分的内容。

2.对象：数据表

数据操作的过程就好⽐数据库中存在着多条管道，这些管道中都流淌着要处理的数据，这些数据的⽤处和归属是不⼀样的。

⼀般根据业务类型把数据分为三种：

（1）流⽔型数据redis支持的五种数据类型

流⽔型数据是⽆状态的，多笔业务之间没有关联，每次业务过来的时候都会产⽣新的单据，⽐如交易流⽔、⽀付流⽔，只要能插⼊新单据就能完成业务，特点是后⾯的数据不依赖前⾯的数据，所有的数据按时间流⽔进⼊数据库。

（2）状态型数据

状态型数据是有状态的，多笔业务之间依赖于有状态的数据，⽽且要保证该数据的准确性，⽐如充值时必须要拿到原来的余额，才能⽀付成功。

（3）配置型数据

此类型数据数据量较⼩，⽽且结构简单，⼀般为静态数据，变化频率很低。

⾄此，我们可以对整体的背景有⼀个认识了，如果要做优化，其实要⾯对的是这样的3*3的矩阵，如果要考虑表的读写⽐例（读多写少，读少写多...），那么就会是3*3*4=24种，显然做穷举是不显⽰的，⽽且也完全没有必要，可以针对不同的数据存储特性和业务特点来指定不同的业务策略。

对此我们采取抓住重点的⽅式，把常见的⼀些优化思路梳理出来，尤其是⾥⾯的核⼼思想，也是我们整个优化设计的⼀把尺⼦，⽽难度决定了我们做这件事情的动⼒和风险。

⽽对于优化⽅案，我想采⽤⾯向业务的维度来进⾏阐述。

3.⽬标：优化

在这个阶段，我们要说优化的⽅案了，总结的有点多，相对来说是⽐较全了。

整体分为五个部分：

其实我们通常所说的分库分表等⽅案只是其中的⼀⼩部分，如果展开之后就⽐较丰富了。

其实不难理解，我们要⽀撑的表数据量是千万级别，相对来说是⽐较⼤了，DBA要维护的表肯定不⽌⼀张，如何能够更好的管理，同时在业务发展中能够⽀撑扩展，同时保证性能，这是摆在我们⾯前的⼏座⼤⼭。

我们分别来说⼀下这五类改进⽅案：

优化设计⽅案1.规范设计

在此我们先提到的是规范设计，⽽不是其他⾼⼤上的设计⽅案。

⿊格尔说：秩序是⾃由的第⼀条件。在分⼯协作的⼯作场景中尤其重要，否则团队之间互相牵制太多，问题多多。

规范设计我想提到如下的⼏个规范，其实只是属于开发规范的⼀部分内容，可以作为参考。

规范的本质不是解决问题，⽽是有效杜绝⼀些潜在问题，对于千万级⼤表要遵守的规范，我梳理了如下的⼀些细则，基本可以涵盖我们常见的⼀些设计和使⽤问题，⽐如表的字段设计不管三七⼆⼗⼀，都是varchar(500)，其实是很不规范的⼀种实现⽅式，我们来展开说⼀下这⼏个规范。

1）配置规范

（1）MySQL数据库默认使⽤InnoDB存储引擎。

（2）保证字符集设置统⼀，MySQL数据库相关系统、数据库、表的字符集使都⽤UTF8，应⽤程序连接、展⽰等可以设置字符集的地⽅也都统⼀设置为UTF8字符集。

注：UTF8格式是存储不了表情类数据，需要使⽤UTF8MB4，可在MySQL字符集⾥⾯设置。在8.0中已经默认为

UTF8MB4，可以根据公司的业务情况进⾏统⼀或者定制化设置。

（3）MySQL数据库的事务隔离级别默认为RR（Repeatable-Read），建议初始化时统⼀设置为RC（Read-Committed），对于OLTP业务更适合。

Committed），对于OLTP业务更适合。

（4）数据库中的表要合理规划，控制单表数据量，对于MySQL数据库来说，建议单表记录数控制在2000W以内。

（5）MySQL实例下，数据库、表数量尽可能少；数据库⼀般不超过50个，每个数据库下，数据表数量⼀般不超过500个（包括分区表）。

2）建表规范

（1）InnoDB禁⽌使⽤外键约束，可以通过程序层⾯保证。

（2）存储精确浮点数必须使⽤DECIMAL替代FLOAT和DOUBLE。

（3）整型定义中⽆需定义显⽰宽度，⽐如：使⽤INT，⽽不是INT(4)。

（4）不建议使⽤ENUM类型，可使⽤TINYINT来代替。

（5）尽可能不使⽤TEXT、BLOB类型，如果必须使⽤，建议将过⼤字段或是不常⽤的描述型较⼤字段拆分到其他表中；另外，禁⽌⽤数据库存储图⽚或⽂件。

（6）存储年时使⽤YEAR(4)，不使⽤YEAR(2)。

（7）建议字段定义为NOT NULL。

（8）建议DBA提供SQL审核⼯具，建表规范性需要通过审核⼯具审核后

3）命名规范

（1）库、表、字段全部采⽤⼩写。

（2）库名、表名、字段名、索引名称均使⽤⼩写字母，并以“_”分割。

（3）库名、表名、字段名建议不超过12个字符。（库名、表名、字段名⽀持最多64个字符，但为了统⼀规范、易于辨识以及减少传输量，统⼀不超过12字符）

（4）库名、表名、字段名见名知意，不需要添加注释。

对于对象命名规范的⼀个简要总结如下表4-1所⽰，供参考。

4）索引规范

（1）索引建议命名规则：idx_col1_col2[_colN]、uniq_col1_col2[_colN]（如果字段过长建议采⽤缩写）。

（2）索引中的字段数建议不超过5个。

（3）单张表的索引个数控制在5个以内。

（4）InnoDB表⼀般都建议有主键列，尤其在⾼可⽤集⽅案中是作为必须项的。

（5）建⽴复合索引时，优先将选择性⾼的字段放在前⾯。

（6）UPDATE、DELETE语句需要根据WHERE条件添加索引。

（7）不建议使⽤%前缀模糊查询，例如LIKE “%weibo”，⽆法⽤到索引，会导致全表扫描。

（8）合理利⽤覆盖索引，例如：

（9）SELECT email,uid FROM user_email WHERE uid=xx，如果uid不是主键，可以创建覆盖索引

idx_uid_email(uid,email)来提⾼查询效率。

（10）避免在索引字段上使⽤函数，否则会导致查询时索引失效。

（11）确认索引是否需要变更时要联系DBA。

5）应⽤规范

（1）避免使⽤存储过程、触发器、⾃定义函数等，容易将业务逻辑和DB耦合在⼀起，后期做分布式⽅案时会成为瓶颈。

（2）考虑使⽤UNION ALL，减少使⽤UNION，因为UNION ALL不去重，⽽少了排序操作，速度相对⽐UNION要快，如果没有去重的需求，优先使⽤UNION ALL。

（3）考虑使⽤limit N，少⽤limit M，N，特别是⼤表或M⽐较⼤的时候。

（4）减少或避免排序，如：group by语句中如果不需要排序，可以增加order by null。

（5）统计表中记录数时使⽤COUNT(*)，⽽不是COUNT(primary_key)和COUNT(1)；InnoDB表避免

使⽤COUNT(*)操作，计数统计实时要求较强可以使⽤Memcache或者Redis，⾮实时统计可以使⽤单独统计表，定时更新。

（6）做字段变更操作（modify column/change column）的时候必须加上原有的注释属性，否则修改后，注释会丢失。

（7）使⽤prepared statement可以提⾼性能并且避免SQL注⼊。

（8）SQL语句中IN包含的值不应过多。

（9）UPDATE、DELETE语句⼀定要有明确的WHERE条件。

（10）WHERE条件中的字段值需要符合该字段的数据类型，避免MySQL进⾏隐式类型转化。

（11）SELECT、INSERT语句必须显式的指明字段名称，禁⽌使⽤SELECT * 或是INSERT INTO table_name values()。

（12）INSERT语句使⽤batch提交（INSERT INTO table_name VALUES(),(),()……），values的个数不应过多。

优化设计⽅案2：业务层优化

业务层优化应该是收益最⾼的优化⽅式了，⽽且对于业务层完全可见，主要有业务拆分，数据拆分和两类常见的优化场景（读多写少，读少写多）

1）业务拆分

ü 将混合业务拆分为独⽴业务

ü 将状态和历史数据分离

业务拆分其实是把⼀个混合的业务剥离成为更加清晰的独⽴业务，这样业务1，业务2。。。独⽴的业务使得业务总量依旧很⼤，但是每个部分都是相对独⽴的，可靠性依然有保证。

旧很⼤，但是每个部分都是相对独⽴的，可靠性依然有保证。

对于状态和历史数据分离，我可以举⼀个例⼦来说明。

例如：我们有⼀张表Account，假设⽤户余额为100。

我们需要在发⽣数据变更后，能够追溯数据变更的历史信息，如果对账户更新状态数据，增加100的余额，这样余额为200。

这个过程可能对应⼀条update语句，⼀条insert语句。

对此我们可以改造为两个不同的数据源，account和account_hist

在account_hist中就会是两条insert记录，如下:

⽽在account中则是⼀条update语句，如下：

这也是⼀种很基础的冷热分离，可以⼤⼤减少维护的复杂度，提⾼业务响应效率。

2）数据拆分

2.1 按照⽇期拆分，这种使⽤⽅式⽐较普遍，尤其是按照⽇期维度的拆分，其实在程序层⾯的改动很⼩，但是扩展性⽅⾯的收益很⼤。

数据按照⽇期维度拆分，如test_20191021

数据按照周⽉为维度拆分，如test_201910

数据按照季度，年维度拆分，如test_2019

2.2 采⽤分区模式，分区模式也是常见的使⽤⽅式，采⽤hash,range等⽅式会多⼀些，在MySQL中我是不⼤建议使⽤分区表的使⽤⽅式，因为随着存储容量的增长，数据虽然做了垂直拆分，但是归根结底，数据其实难以实现⽔平扩展，在MySQL中是有更好的扩展⽅式。

2.3 读多写少优化场景

采⽤缓存，采⽤Redis技术，将读请求打在缓存层⾯，这样可以⼤⼤降低MySQL层⾯的热点数据查询压⼒。

2.4 读少写多优化场景，可以采⽤三步⾛：

1) 采⽤异步提交模式，异步对于应⽤层来说最直观的就是性能的提升，产⽣最少的同步等待。

2) 使⽤队列技术，⼤量的写请求可以通过队列的⽅式来进⾏扩展，实现批量的数据写⼊。

3) 降低写⼊频率，这个⽐较难理解，我举个例⼦

对于业务数据，⽐如积分类，相⽐于⾦额来说业务优先级略低的场景，如果数据的更新过于频繁，可以适度调整数据更新的范围（⽐如从原来的每分钟调整为10分钟）来减少更新的频率。

例如：更新状态数据，积分为200，如下图所⽰

688IT编程网

如何优化MySQL千万级大表,5个方案

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

如何优化MySQL千万级大表,5个方案

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

非零金额正则表达式

半小时正则表达式