MySQL主备、主从、读写分离详解
⼀、MySQL主备的基本原理
在状态1中,客户端的读写都直接访问节点A,⽽节点B是A的备库,只是将A的更新都同步过来,到本地执⾏。这样可以保持节点B和A的数据是相同的。当需要切换的时候,就切成状态2。这时候客户端读写访问的都是节点B,⽽节点A是B的备库
在状态1中,虽然节点B没有被直接访问,但是建议把备库节点B,设置成只读模式。有以下⼏个原因:
1.有时候⼀些运营类的查询语句会被放到备库上去查,设置为只读可以防⽌误操作
2.防⽌切换逻辑有bug
3.可以⽤readonly状态,来判断节点的⾓⾊
把备库设置成只读,还怎么跟主库保持同步更新?
readonly设置对超级权限⽤户是⽆效的,⽽⽤于同步更新的线程,就拥有超级权限
下图是⼀个update语句在节点A执⾏,然后同步到节点B的完整流程图:
备库B和主库A之间维持了⼀个长连接。主库A内部有⼀个线程,专门⽤于服务备库B的这个长连接。⼀个事务⽇志同步的完整过程如下:
1.在备库B上通过change master命令,设置主库A的IP、端⼝、⽤户名、密码,以及要从哪个位置开始请求binlog,这个位置包含⽂件名和⽇志偏移量
2.在备库B上执⾏start slave命令,这时备库会启动两个线程,就是图中的io_thread和sql_thread。其中io_thread负责与主库建⽴连接
3.主库A校验完⽤户名、密码后,开始按照备库B传过来的位置,从本地读取binlog,发给B
4.备库B拿到binlog后,写到本地⽂件,称为中转⽇志
5.sql_thread读取中转⽇志,解析出⽇志⾥的命令,并执⾏
由于多线程复制⽅案的引⼊,sql_thread演化成了多个线程
⼆、循环复制问题
双M结构:
节点A和节点B互为主备关系。这样在切换的时候就不⽤再修改主备关系
双M结构有⼀个问题要解决,业务逻辑在节点A上更新了⼀条语句,然后再把⽣成的binlog发给节点B,节点B执⾏完这条更新语句后也会⽣成binlog。那么,如果节点A同时是节点B的备库,相当于⼜把节点B新⽣成的binlog拿过来执⾏了⼀次,然后节点A和B间,会不断地循环执⾏这个更新语句,也就是循环复制
MySQL在binlog中记录了这个命令第⼀次执⾏时所在实例的server id。因此,可以⽤下⾯的逻辑,来解决两个节点间的循环复制问题:
1.规定两个库的server id必须不同,如果相同,则它们之间不能设定为主备关系
2.⼀个备库接到binlog并在重放的过程中,⽣成与原binlog的server id相同的新的binlog
3.每个库在收到从⾃⼰的主库发过来的⽇志后,先判断server id,如果跟⾃⼰的相同,表⽰这个⽇志是⾃⼰⽣成的,就直接丢弃这个⽇志
双M结构⽇志的执⾏流如下:
1.从节点A更新的事务,binlog⾥⾯记的都是A的server id
2.传到节点B执⾏⼀次以后,节点B⽣成的binlog的server id也是A的server id
3.再传回给节点A,A判断这个server id与⾃⼰的相同,就不会再处理这个⽇志。所以,死循环在这⾥就断掉了
三、主备延迟
1、什么是主备延迟?
与数据同步有关的时间点主要包括以下三个:
1.主库A执⾏完成⼀个事务,写⼊binlog,这个时刻记为T1
2.之后传给备库B,备库B接收完这个binlog的时刻记为T2
3.备库B执⾏完这个事务,把这个时刻记为T3
所谓主备延迟,就是同⼀个事务,在备库执⾏完成的时间和主库执⾏完成的时间之间的差值,也就是T3-T1
可以在备库上执⾏show slave status命令,它的返回结果⾥⾯会显⽰seconds_behind_master,⽤于表⽰当前备库延迟了多少秒
seconds_behind_master的计算⽅法是这样的:
之前下过mysql现在重新下载mysql1.每个事务的binlog⾥⾯都有⼀个时间字段,⽤于记录主库上写⼊的时间
2.备库取出当前正在执⾏的事务的时间字段的值,计算它与当前系统时间的差值,得到seconds_behind_master
如果主备库机器的系统时间设置不⼀致,不会导致主备延迟的值不准。备库连接到主库的时候,会通过SELECTUNIX_TIMESTAMP()函数来获得当前主库的系统时间。如果这时候发现主库的系统时间与⾃⼰不⼀致,备库在执⾏seconds_behind_master计算的时候会⾃动扣掉这个差值
⽹络正常情况下,主备延迟的主要来源是备库接收完binlog和执⾏完这个事务之间的时间差
主备延迟最直接的表现是,备库消费中转⽇志的速度,⽐主库⽣产binlog的速度要慢
2、主备延迟的原来
1.有些部署条件下,备库所在机器的性能要⽐主库所在的机器性能差
2.备库的压⼒⼤。主库提供写能⼒,备库提供⼀些读能⼒。忽略了备库的压⼒控制,导致备库上的查询耗费了⼤量的CPU资源,影响了同步速度,造成主备延迟
可以做以下处理:
⼀主多从。除了备库外,可以多接⼏个从库,让这些从库来分担读的压⼒
通过binlog输出到外部系统,⽐如Hadoop这类系统,让外部系统提供统计类查询的能⼒
3.⼤事务。因为主库上必须等事务执⾏完才会写⼊binlog,再传给备库。所以,如果⼀个主库上的语句执⾏10分钟,那这个事务很可能会导致从库延迟10分钟
典型的⼤事务场景:⼀次性地⽤delete语句删除太多数据和⼤表的DDL
四、主备切换策略
1、可靠性优先策略
双M结构下,从状态1到状态2切换的详细过程如下:
1.判断备库B现在的seconds_behind_master,如果⼩于某个值继续下⼀步,否则持续重试这⼀步
2.把主库A改成只读状态,即把readonly设置为true
3.判断备库B的seconds_behind_master的值,直到这个值变成0为⽌
4.把备库B改成可读写状态,也就是把readonly设置为false
5.把业务请求切到备库B
这个切换流程中是有不可⽤的时间的。在步骤2之后,主库A和备库B都处于readonly状态,也就是说这时系统处于不可写状态,直到步骤5完成后才能恢复。在这个不可⽤状态中,⽐较耗时的是步骤3,可能需要耗费好⼏秒的时间。也是为什么需要在步骤1先做判断,确保seconds_behind_master的值⾜够⼩
系统的不可⽤时间是由这个数据可靠性优先的策略决定的
2、可⽤性优先策略
可⽤性优先策略:如果强⾏把可靠性优先策略的步骤4、5调整到最开始执⾏,也就是说不等主备数据同步,直接把连接切到备库B,并且让备库B可以读写,那么系统⼏乎没有不可⽤时间。这个切换流程的代价,就是可能出现数据不⼀致的情况
mysql>CREATE TABLE`t`(
`id`int(11)unsigned NOT NULL AUTO_INCREMENT,
`c`int(11)unsigned DEFAULT NULL,
PRIMARY KEY(`id`)
)ENGINE=InnoDB;
insert into t(c)values(1),(2),(3);
表t定义了⼀个⾃增主键id,初始化数据后,主库和备库上都是3⾏数据。继续在表t上执⾏两条插⼊语
句的命令,依次是:
insert into t(c)values(4);
insert into t(c)values(5);
假设,现在主库上其他的数据表有⼤量的更新,导致主备延迟达到5秒。在插⼊⼀条c=4的语句后,发起了主备切换
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论