mysql定期清理表数据_MySQL冗余数据清理的一些总结--688IT编程网

mysql定期清理表数据_MySQL冗余数据清理的⼀些总结

这是学习笔记的第 2278篇⽂章

今天提前下班了，突然有个开发同学急冲冲过来说有个业务需求需要紧急⽀持下。

⼤体的背景是有⼀张表中的数据⽬前存在⼀些冗余的记录，从业务层⾯来看这些看起来冗余的数据是某些虚拟福利会被重复领取，所以需要马上做下限制，根据⽤户的基本属性(⽐如userid,usercode)进⾏唯⼀性标识。

因为这个服务的使⽤率不是很⾼，重复领取的情况确实存在，但是频率相对不⾼，如果活动⼤量推送后期会有很⼤的业务损失，所以修复这个潜在问题迫在眉睫。

所以直接的操作就是alter table xxxx add unique key(xxx)

但是显然会失败，因为表中存在冗余数据，需要先完成数据清理的⼯作才可⾏。

和开发同学沟通后，发现实际的数据清理需求⽐想象的要略复杂⼀些，⼀⽅⾯要按照业务特点删除⼀些

已有的数据，然后才按照冗余数据的写⼊情况清理，数据表为rc_user_info，数据量不是很⼤，⼤概是30万左右，转换为数据操作⼤体如下：

1)按照业务属性删除部分数据，删除ustatus=2的数据

2)按照字段uuser，ucode组合清理冗余数据，只保留最新的数据记录(字段use_info_id是流⽔号)即可。

这个操作时间紧，数据质量要求⾼，⽽且需要保证整个过程可以追溯和回退，于是我快速设计了如下的操作⽅式。

在test数据库中复制数据，模拟整个数据清理和创建唯⼀性索引的完整过程，待验证确认后，在线上环境进⾏数据清理和变更。

⽐如样例数据如下:

经过⼀通清理之后，需要保留的数据仅为1条，即use_info_id=61543的数据记录，其中红⾊框住的数据是ustatus=2的数据，需要清理，然后按照use_info_id进⾏排序，取最新的值即可。

我和开发同学讨论后，整理的⼤体的步骤如下：

第⼀步：备份 rc_use_info

create _use_info _use_info;

insert _use_info select * _use_info;

第⼆步：删除 ustatus=2 的记录

delete _use_info where ustatus=2;

第三步：删除 ustatus=1 的 (uuser ucode) 存在多条记录的数据，保留⼀条

1)在此创建了3张临时表，tmp_dup_user是冗余的数据，直接提取max(use_info_id)

create table tmp_dup_user(use_info_id bigint,uuser varchar(100),ucode varchar(100));

insert p_dup_user select max(use_info_id),uuser,ucode _use_info group by uuser,ucode having count(*)>=2;

3978 rows in set (0.34 sec)

2)tmp_dup_user_uniq1是当前数据中没有重复记录的⽤户信息

create table tmp_dup_user_uniq1(use_info_id bigint,uuser varchar(100),ucode varchar(100));

insert p_dup_user_uniq1 select max(use_info_id),uuser,ucode _use_info group by uuser,ucode having count(*)=1;

mysql删除重复的数据保留一条3)delete_id仅存储需要删除的冗余数据id

create table delete_id (use_info_id bigint primary key);

insert into delete_id select use_info_id _use_info where use_info_id not in (select use_info_id from

tmp_dup_user_uniq1)

and use_info_id not in (select use_info_id from tmp_dup_user)

4)按照id清理冗余数据

delete _use_info where use_info_id in (select use_info_id from delete_id);

5)快速验证，按照预期，输出结果应该是0条

select use_info_id _use_info where use_info_id not in (select use_info_id from tmp_dup_user_uniq1)

and use_info_id not in (select use_info_id from tmp_dup_user)

第四步：建⽴唯⼀索引 (uuser ucode)

alter _use_info add unique key idx_uuser_ucode(uuser,ucode);

第五步：清理线上数据，建⽴唯⼀索引 (uuser ucode)

1)正式备份线上数据

create _use_info_bak _use_info;

insert _use_info_bak select * _use_info;

2)清理线上的业务数据

delete _use_info where ustatus=2;

3)按照delete_id清理冗余数据

delete _use_info where use_info_id in (select use_info_id from test.delete_id);

4)提前唯⼀性索引

alter _use_info add unique key idx_uuser_ucode(uuser,ucode);

整个过程有很多改进之处，相对来说，每⼀步都可以衡量，⽽且可以根据整个推演的过程计算出应该变更的数据量，整个过程就像是做⼀道计算题。

⼀旦某个业务的数据按照现有逻辑清理存在问题，也可以及时进⾏追溯和调整。

688IT编程网

mysql定期清理表数据_MySQL冗余数据清理的一些总结

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

mysql定期清理表数据_MySQL冗余数据清理的一些总结

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行