Insertintoselect语句的错误原因和解决办法
前⾔
Insert into select请慎⽤。这天xxx接到⼀个需求,需要将表A的数据迁移到表B中去做⼀个备份。本想通过程序先查询查出来然后批量插⼊。但xxx觉得这样有点慢,需要耗费⼤量的⽹络I/O,决定采取别的⽅法进⾏实现。通过在Baidu的海洋⾥遨游,他发现了可以使⽤insert into select实现,这样就可以避免使⽤⽹络I/O,直接使⽤SQL依靠数据库I/O完成,这样简直不要太棒了。然后他就被开除了。
事故发⽣的经过。
由于数据数据库中order_today数据量过⼤,当时好像有700W了并且每天在以30W的速度增加。所以上司命令xxx将order_today内的部分数据迁移到order_record中,并将order_today中的数据删除。这样来降低order_today表中的数据量。
  由于考虑到会占⽤数据库I/O,为了不影响业务,计划是9:00以后开始迁移,但是xxx在8:00的时候,尝试迁移了少部分数据(1000条),觉得没啥问题,就开始考虑⼤批量迁移。
在迁移的过程中,应急是先反应有⼩部分⽤户出现⽀付失败,随后反应⼤批⽤户出现⽀付失败的情况,以及初始化订单失败的情况,同时腾讯也开始报警。
然后xxx就慌了,⽴即停⽌了迁移。
简单的mysql语句本以为停⽌迁移就就可以恢复了,但是并没有。后⾯发⽣的你们可以脑补⼀下。
事故还原
  在本地建⽴⼀个精简版的数据库,并⽣成了100w的数据。模拟线上发⽣的情况。
建⽴表结构
订单表
CREATE TABLE `order_today` (  `id` varchar(32) NOT NULL COMMENT '主键',  `merchant_id` varchar(32) CHARACTER SET utf8 COLLATE utf8_general _ci NOT NULL COMMENT '商户编号',  `amount` decimal(15,2) NOT NULL COMMENT '订单⾦额',  `pay_success_time` datetime NOT NULL COMMENT '⽀付成功时间',  `order_status` varchar(10) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL COMMENT '⽀付状态  S:⽀付成功、F:订单⽀付失败',  `remark` varchar(100) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL COMMENT '备注',  `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURR ENT_
TIMESTAMP COMMENT '修改时间 -- 修改时⾃动更新',  PRIMARY KEY (`id`) USING BTREE,  KEY `idx_merchant_id` (`merchant_id`) USING BTREE COMMENT '商户编号') ENGINE=InnoDB DEFAULT CHARSET=utf8;
订单记录表
CREATE TABLE order_record like order_today;
今⽇订单表数据
模拟迁移
把8号之前的数据都迁移到order_record表中去。
INSERT INTO order_record SELECT * FROM order_today WHERE pay_success_time < '2020-03-08 00:00:00';
在navicat中运⾏迁移的sql,同时开另个⼀个窗⼝插⼊数据,模拟下单。
从上⾯可以发现⼀开始能正常插⼊,但是后⾯突然就卡住了,并且耗费了23s才成功,然后才能继续插⼊。这个时候已经迁移成功了,所以能正常插⼊了。
出现的原因
在默认的事务隔离级别下:insert into order_record select * from order_today 加锁规则是:order_record表锁,order_today逐步锁(扫描⼀个锁⼀个)。
好吧,详细说说insert into … select 由于SELECT表引起的死锁情况
前提
说法⼀:在RR隔离级别下 INSERT SELECT 会对 SELECT 表中符合条件的数据加上 LOCK_S 锁。
说法⼆:(主键⾃增锁模式应该为0或1)
情景⼀:insert into tableA …select * from tableB:tableA锁表,tableB逐步锁(扫描⼀个锁⼀个)
情景⼆:insert into tableA …select * from tableB order by 主键:tableA 锁表,tableB逐步锁(扫描⼀个锁⼀个)
情景三:insert into tableA …select * from tableB order by ⾮主键:tableA 锁表,tableB⼀开始就锁全表
insert into … select容易造成死锁的原因,后⾯的select语句对后表会逐步加s锁,前⾯的insert数量不⼀定,导致锁住另⼀个表整表
auto-inc锁。 锁越多越容易出现死锁问题
模拟下⾯两个并发事务:
TX1TX2
begin;
update b set name2=‘test’ where id=2999;
–insert into a select * from b where id in(996,997,998,999,2995,2996,2997,2998,2999);
update b set name2=‘test’ where id=999;
场景⼀
TX1:执⾏update将表b主键id=2999的记录加上LOCK_X
TX2:执⾏insert…select语句b表上的记录(996,997,998,999,2995,2996,2997,2998,2999)会申请加上LOCK_S, 但是id=2999已经加上LOCK_X,显然不能获得只能等待.
TX1:执⾏update需要获得表b主键id=999的LOCK_X显然这个记录已经被TX2加锁LOCK_S,只能等待,触发死锁检测
如下图红⾊记录为不能获得锁的记录:
场景⼆
这种情况⽐较极端只能在⾼并发上出现
TX1:执⾏update将表b主键id=2999的记录加上LOCK_X
TX2:执⾏insert…select语句b表上的记录(996,997,998,999,2995,2996,2997,2998,2999)会申请加上LOCK_S,因为上锁是有⼀个逐步加锁的过程,假设此时加锁到2997前那么TX2并不会等待
TX1:执⾏update需要获得表b主键id=999的LOCK_X显然这个记录已经被TX2加锁LOCK_S,只能等待
TX2:继续加锁LOCK_S 2997、2998、2999 发现2999已经被TX1加锁LOCK_X,只能等待,触发死锁检测
如下图红⾊记录为不能获得锁的记录:
分析执⾏过程。
  通过观察迁移sql的执⾏情况你会发现order_today是全表扫描,也就意味着在执⾏insert into select from 语句时,mysql会从上到下扫描order_today内的记录并且加锁,这样⼀来不就和直接锁表是⼀样了。
  这也就可以解释,为什么⼀开始只有少量⽤户出现⽀付失败,后续⼤量⽤户出现⽀付失败,初始化订单失败等情况,因为⼀开始只锁定了少部分数据,没有被锁定的数据还是可以正常被修改为正常状态。由于锁定的数据越来越多,就导致出现了⼤量⽀付失败。最后全部锁住,导致⽆法插⼊订单,⽽出现初始化订单失败。
解决⽅案
由于查询条件会导致order_today全表扫描,什么能避免全表扫描呢,很简单嘛,给pay_success_time字段添加⼀个idx_pay_suc_time 索引就可以了,由于⾛索引查询,就不会出现扫描全表的情况⽽锁表了,只会锁定符合条件的记录。
最终的sql
INSERT INTO order_record SELECT * FROM order_today FORCE INDEX (idx_pay_suc_time)WHERE pay_success_time <= '2020-03-08 00:00:00';
总结
  使⽤insert into tablA select * from tableB语句时,⼀定要确保tableB后⾯的where,order或者其他条件,都需要有对应的索引,来避免出现tableB全部记录被锁定的情况。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。