优化SQL语句:in和notin的替代⽅案
最近做⼀个⽹站,要求A库中的AA表导⼊到另⼀个B库中的AA表中。并且不能重复导⼊。因为A.AA中70多万条记录,⽽且以后可以会有添加新记录。所不可能⼀次性导完。所以⼜在B库中建⽴⼀个表⽤于记录导⼊过的记录。刚开始⽤ not in 来实现。在但发现在实现过程中经常超时。在⽹上了半天。发现下⾯的⽂章。
原⽂如下:
⽤IN写出来的SQL的优点是⽐较容易写及清晰易懂,这⽐较适合现代软件开发的风格。
  但是⽤IN的SQL性能总是⽐较低的,从SQL执⾏的步骤来分析⽤IN的SQL与不⽤IN的SQL有以下区别:
  SQL试图将其转换成多个表的连接,如果转换不成功则先执⾏IN⾥⾯的⼦查询,再查询外层的表记录,如果转换成功则直接采⽤多个表的连接⽅式查询。由此可见⽤IN的SQL⾄少多了⼀个转换的过程。⼀般的SQL都可以转换成功,但对于含有分组统计等⽅⾯的SQL就不能转换了。推荐在业务密集的SQL当中尽量不采⽤IN操作符
  NOT IN 此操作是强列推荐不使⽤的,因为它不能应⽤表的索引。推荐⽤NOT EXISTS 或(外连接+判断为空)⽅案代替
  在数据库中有两个表,⼀个是当前表Info(id,PName,remark,impdate,upstate),⼀个是备份数据表
bakInfo(id,PName,remark,impdate,upstate),将当前表数据备份到备份表去,就涉及到not in 和in 操作了:
  ⾸先,添加10万条测试数据
  使⽤not in 和in操作:
SET STATISTICS TIME ON
  GO
  --备份数据
  insert into bakInfo(id,PName,remark,impdate,upstate)
  select id,PName,remark,impdate,upstate from dbo.Info
  where id not in(select id from dbo.bakInfo)
  GO
  SET STATISTICS TIME OFF
  此操作执⾏时间:
  SQL Server 分析和编译时间:
  CPU 时间 = 0 毫秒,占⽤时间 = 3 毫秒。
  SQL Server 执⾏时间:
  CPU 时间 = 453 毫秒,占⽤时间 = 43045 毫秒。
  (100000 ⾏受影响)
  SQL Server 分析和编译时间:
  CPU 时间 = 0 毫秒,占⽤时间 = 1 毫秒。
  --更改当前表状态
  update Info set upstate=1 where id in(select id from dbo.bakInfo)
  此操作执⾏时间:
  SQL Server 分析和编译时间:
  CPU 时间 = 62 毫秒,占⽤时间 = 79 毫秒。
  SQL Server 执⾏时间:
  CPU 时间 = 188 毫秒,占⽤时间 = 318 毫秒。
  (100000 ⾏受影响)
  SQL Server 分析和编译时间:
  CPU 时间 = 0 毫秒,占⽤时间 = 1 毫秒。
  --删除当前表数据
  delete from Info where upstate=1 and id in(select id from dbo.bakInfo)
  此操作执⾏时间:
  SQL Server 分析和编译时间:
  CPU 时间 = 183 毫秒,占⽤时间 = 183 毫秒。
  SQL Server 执⾏时间:
  CPU 时间 = 187 毫秒,占⽤时间 = 1506 毫秒。
  (100000 ⾏受影响)
  SQL Server 分析和编译时间:
  CPU 时间 = 0 毫秒,占⽤时间 = 1 毫秒。
  使⽤join连接替代⽅案:
  SET STATISTICS TIME ON
  GO
  --备份数据
  insert into bakInfo(id,PName,remark,impdate,upstate)
  select id,PName,remark,impdate,upstate from
sql语句优化方式
  (SELECT Info.id,Info.PName, ark, Info.impdate,Info.upstate, bakInfo.id AS bakID
  FROM Info left JOIN
  bakInfo ON Info.id = bakInfo.id ) as t
  where t.bakID is null and t.upstate=0
  GO
  SET STATISTICS TIME OFF;
  此操作执⾏时间:
  SQL Server 分析和编译时间:
  CPU 时间 = 247 毫秒,占⽤时间 = 247 毫秒。
  SQL Server 执⾏时间:
  CPU 时间 = 406 毫秒,占⽤时间 = 475 毫秒。
  (100000 ⾏受影响)
  SQL Server 分析和编译时间:
  CPU 时间 = 0 毫秒,占⽤时间 = 1 毫秒。
  --更改当前表状态
  update Info set upstate=1
  FROM Info INNER JOIN
  bakInfo ON Info.id = bakInfo.id   此操作执⾏时间:
  SQL Server 分析和编译时间:
  CPU 时间 = 4 毫秒,占⽤时间 = 4 毫秒。
  SQL Server 执⾏时间:
  CPU 时间 = 219 毫秒,占⽤时间 = 259 毫秒。
  (100000 ⾏受影响)
  SQL Server 分析和编译时间:
  CPU 时间 = 0 毫秒,占⽤时间 = 1 毫秒。
  --删除当前表数据
  delete from Info
  FROM Info INNER JOIN
  bakInfo ON Info.id = bakInfo.id
  where Info.upstate=1
  此操作执⾏时间:
  SQL Server 分析和编译时间:
  CPU 时间 = 177 毫秒,占⽤时间 = 177 毫秒。
  SQL Server 执⾏时间:
  CPU 时间 = 219 毫秒,占⽤时间 = 550 毫秒。
  (100000 ⾏受影响)
  SQL Server 分析和编译时间:
  CPU 时间 = 0 毫秒,占⽤时间 = 1 毫秒。
  可以看出使⽤join⽅案⽐使⽤not in 和in执⾏时间要短很多了

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。