mysql新增列并同时增加数据_数据库分区、分表、分库、分⽚数据库分区、分表、分库、分⽚
⼀、分区的概念
数据分区是⼀种物理数据库的设计技术,它的⽬的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间。scrolls英语怎么读
分区并不是⽣成新的数据表,⽽是将表的数据均衡分摊到不同的硬盘,系统或是不同服务器存储介质中,实际上还是⼀张表。另外,分区可以做到将表的数据均衡到不同的地⽅,提⾼数据检索的效率,降低数据库的频繁IO压⼒值,分区的优点如下:
1、相对于单个⽂件系统或是硬盘,分区可以存储更多的数据;
2、数据管理⽐较⽅便,⽐如要清理或废弃某年的数据,就可以直接删除该⽇期的分区数据即可;
3、精准定位分区查询数据,不需要全表扫描查询,⼤⼤提⾼数据检索效率;
4、可跨多个分区磁盘查询,来提⾼查询的吞吐量;
5、在涉及聚合函数查询时,可以很容易进⾏数据的合并;
⼆、分类 (row ⾏,column 列)
1、⽔平分区
这种形式分区是对表的⾏进⾏分区,通过这样的⽅式不同分组⾥⾯的物理列分割的数据集得以组合,从⽽进⾏个体分割(单分区)或集体分割(1个或多个分区)。所有在表中定义的列在每个数据集中都能到,所以表的特性依然得以保持。
举个简单例⼦:⼀个包含⼗年发票记录的表可以被分区为⼗个不同的分区,每个分区包含的是其中⼀年的记录。(朋奕注:这⾥具体使⽤的分区⽅式我们后⾯再说,可以先说⼀点,⼀定要通过某个属性列来分割,譬如这⾥使⽤的列就是年份)
2、垂直分区
这种分区⽅式⼀般来说是通过对表的垂直划分来减少⽬标表的宽度,使某些特定的列被划分到特定的分区,每个分区都包含了其中的列所对应的⾏。
举个简单例⼦:⼀个包含了⼤text 和B L OB 列的表,这些text和BLOB列⼜不经常被访问,这时候就要把这些不经常使⽤的text和BLOB 了划分到另⼀个分区,在保证它们数据相关性的同时还能提⾼访问速度。
在数据库供应商开始在他们的数据库引擎中建⽴分区(主要是⽔平分区)时,DBA和建模者必须设计好表的物理分区结构,不要保存冗余的数据(不同表中同时都包含⽗表中的数据)或相互联结成⼀个逻辑⽗对象(通常是视图)。这种做法会使⽔平分区的⼤部分功能失效,有时候也会对垂直分区产⽣影响。
三、分区、分表、分库的详细理解
⼀、什么是分区、分表、分库
分区
就是把⼀张表的数据分成N个区块,在逻辑上看最终只是⼀张表,但底层是由N个物理区块组成的
分表
就是把⼀张表按⼀定的规则分解成N个具有独⽴存储空间的实体表。系统读写时需要根据定义好的规则得到对应的⼦表名,然后操作它。
分库
⼀旦分表,⼀个库中的表会越来越多
mysql是什么系统
将整个数据库⽐作图书馆,⼀张表就是⼀本书。当要在⼀本书中查某项内容时,如果不分章节,查的效率将会下降。⽽同理,在数据库中就是分区。
⼆、常⽤的单机数据库的瓶颈
问题描述
单个表数据量越⼤,读写锁,插⼊操作重新建⽴索引效率越低。
单个库数据量太⼤(⼀个数据库数据量到1T-2T就是极限)
单个数据库服务器压⼒过⼤
读写速度遇到瓶颈(并发量⼏百)
三、分区
什么时候考虑使⽤分区?
⼀张表的查询速度已经慢到影响使⽤的时候。
sql经过优化
数据量⼤
表中的数据是分段的
对数据的操作往往只涉及⼀部分数据,⽽不是所有的数据
分区解决的问题
主要可以提升查询效率
分区的实现⽅式(简单)
mysql5 开始⽀持分区功能
CREATE TABLE sales (    id INT AUTO_INCREMENT,    amount DOUBLE NOT NULL,    order_day DATETIME NOT NULL,    PRIMARY KEY(id, order_da
四、分表
什么时候考虑分表?
⼀张表的查询速度已经慢到影响使⽤的时候。
sql经过优化
数据量⼤
当频繁插⼊或者联合查询时,速度变慢
分表解决的问题标准24卡图片
分表后,单表的并发能⼒提⾼了,磁盘I/O性能也提⾼了,写操作效率提⾼了
数据库安全技术有哪些
查询⼀次的时间短了
数据分布在不同的⽂件,磁盘I/O性能提⾼
读写锁影响的数据量变⼩
插⼊数据库需要重新建⽴索引的数据减少
分表的实现⽅式(复杂)siki视频unity
需要业务系统配合迁移升级,⼯作量较⼤
垂直分库-->⽔平分库-->读写分离
六、拆分之后⾯临新的问题
问题
事务的⽀持,分库分表,就变成了分布式事务
join时跨库,跨表的问题
分库分表,读写分离使⽤了分布式,分布式为了保证强⼀致性,必然带来延迟,导致性能降低,系统的复杂度变⾼。
常⽤的解决⽅案:
对于不同的⽅式之间没有严格的界限,特点不同,侧重点不同。需要根据实际情况,结合每种⽅式的特点来进⾏处理。
选⽤第三⽅的数据库中间件(Atlas,Mycat,TDDL,DRDS),同时业务系统需要配合数据存储的升级。
七、数据存储的演进
单库单表
单库单表是最常见的数据库设计,例如,有⼀张⽤户(user)表放在数据库db中,所有的⽤户都可以在db库中的user表中查到。
单库多表
随着⽤户数量的增加,user表的数据量会越来越⼤,当数据量达到⼀定程度的时候对user表的查询会渐渐的变慢,从⽽影响整个DB的性能。如果使⽤mysql, 还有⼀个更严重的问题是,当需要添加⼀列的时候,mysql会锁表,期间所有的读写操作只能等待。
可以通过某种⽅式将user进⾏⽔平的切分,产⽣两个表结构完全⼀样的user_0000,user_0001等表,user_0000 + user_0001 + …的数据刚好是⼀份完整的数据。
多库多表
随着数据量增加也许单台DB的存储空间不够,随着查询量的增加单台数据库服务器已经没办法⽀撑。这个时候可以再对数据库进⾏⽔平拆分。
⼋、总结
总的来说,优先考虑分区。当分区不能满⾜需求时,开始考虑分表,合理的分表对效率的提升会优于分区。
九、案例分析
京东的商品评价存储设计,原⽂地址
现状
商品的评论数量:数⼗亿条
每天的服务调⽤:数⼗亿次
abtest每年成倍增长
整体的数据存储:基础数据存储,⽂本存储
基础数据存储
Mysql:只存储⾮⽂本的基础信息。包括:评论状态,⽤户,时间等基础数据。以及图⽚,标签,点赞等附加信息。数据组织形式(不同的数据⼜可选择不同的库表拆分⽅案):
评论基础数据按⽤户ID进⾏拆库并拆表

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。