使⽤ThinkPHP开发中MySQL性能优化的最佳21条经验
使⽤ThinkPHP开发中MySQL性能优化的最佳21条经验讲解,⽬前,数据库的操作越来越成为整个应⽤的性能瓶颈了,这点对于Web应⽤尤其明显。关于数据库的性能,这并不只是DBA才需要担⼼的事,⽽这更是我 们程序员需要去关注的事情。当我们去设计数据库表结构,对操作数据库时(尤其是查表时的SQL语句),我们都需要注意数据操作的性能。这⾥,我们不会讲过 多的SQL语句的优化,⽽只是针对MySQL这⼀Web应⽤最多的数据库。希望下⾯的这些优化技巧对你有⽤。
1. 为查询缓存优化你的查询
⼤多数的MySQL都开启了查询缓存。这是提⾼性最有效的⽅法之⼀,⽽且这是被MySQL的数据库引擎处理的。当有很多相同的查询被执⾏了多次的时候,这些查询结果会被放到⼀个缓存中,这样,后续的相同的查询就不⽤操作表⽽直接访问缓存结果了。
这⾥最主要的问题是,对于程序员来说,这个事情是很容易被忽略的。因为,我们某些查询语句会让MySQL不使⽤缓存。请看下⾯的⽰例:
// 查询缓存不开启
$r = mysql_query("SELECT username FROM user WHERE signup_date >= CURDATE()");
// 开启查询缓存
$today = date("Y-m-d");
$r = mysql_query("SELECT username FROM user WHERE signup_date >= '$today'");
上⾯两条SQL语句的差别就是 CURDATE() ,MySQL的查询缓存对这个函数不起作⽤。所以,像 NOW() 和 RAND() 或是其它的诸如此类的SQL函数都不会开启查询缓存,因为这些函数的返回是会不定的易变的。所以,你所需要的就是⽤⼀个变量来代替MySQL的函数,从⽽开启缓存。
2. EXPLAIN 你的 SELECT 查询
使⽤ EXPLAIN 关键字可以让你知道MySQL是如何处理你的SQL语句的。这可以帮你分析你的查询语句或是表结构的性能瓶颈。
EXPLAIN 的查询结果还会告诉你你的索引主键被如何利⽤的,你的数据表是如何被搜索和排序的……等等,等等。
挑⼀个你的SELECT语句(推荐挑选那个最复杂的,有多表联接的),把关键字EXPLAIN加到前⾯。你可以使⽤phpmyadmin来做这个事。然后,你会看到⼀张表格。下⾯的这个⽰例中,我们忘记加上了group_id索引,并且有表联接:enum怎么用
当我们为 group_id 字段加上索引后:
我们可以看到,前⼀个结果显⽰搜索了 7883 ⾏,⽽后⼀个只是搜索了两个表的 9 和 16 ⾏。查看rows列可以让我们到潜在的性能问题。
3. 当只要⼀⾏数据时使⽤ LIMIT 1
当你查询表的有些时候,你已经知道结果只会有⼀条结果,但因为你可能需要去fetch游标,或是你也许会去检查返回的记录数。
在这种情况下,加上 LIMIT 1 可以增加性能。这样⼀样,MySQL数据库引擎会在到⼀条数据后停⽌搜索,⽽不是继续往后查少下⼀条符合记录的数据。
下⾯的⽰例,只是为了⼀下是否有“中国”的⽤户,很明显,后⾯的会⽐前⾯的更有效率。(请注意,第⼀条中是Select *,第⼆条是Select 1)
// 没有效率的:
$r = mysql_query("SELECT * FROM user WHERE country = 'China'");
if (mysql_num_rows($r) > 0) {
// ...
}
// 有效率的:
$r = mysql_query("SELECT 1 FROM user WHERE country = 'China' LIMIT 1");
if (mysql_num_rows($r) > 0) {
// ...
}
4. 为搜索字段建索引
索引并不⼀定就是给主键或是唯⼀的字段。如果在你的表中,有某个字段你总要会经常⽤来做搜索,那么,请为其建⽴索引吧。
从上图你可以看到那个搜索字串 “last_name LIKE ‘a%’”,⼀个是建了索引,⼀个是没有索引,性能差了4倍左右。
另外,你应该也需要知道什么样的搜索是不能使⽤正常的索引的。例如,当你需要在⼀篇⼤的⽂章中搜索⼀个词时,如: “WHERE post_content LIKE ‘%apple%’”,索引可能是没有意义的。你可能需要使⽤MySQL全⽂索引或是⾃⼰做⼀个索引(⽐如说:搜索关键词或是Tag什么的)
5. 在Join表的时候使⽤相当类型的例,并将其索引
如果你的应⽤程序有很多 JOIN 查询,你应该确认两个表中Join的字段是被建过索引的。这样,MySQL内部会启动为你优化Join的SQL语句的机制。
⽽且,这些被⽤来Join的字段,应该是相同的类型的。例如:如果你要把 DECIMAL 字段和⼀个 INT 字段Join在⼀起,MySQL就⽆法使⽤它们的索引。对于那些STRING类型,还需要有相同的字符集才⾏。(两个表的字符集有可能不⼀样)
// 在state中查company
$r = mysql_query("SELECT company_name FROM users
LEFT JOIN companies ON (users.state = companies.state)
WHERE users.id = $user_id");
// 两个 state 字段应该是被建过索引的,⽽且应该是相当的类型,相同的字符集。
6. 千万不要 ORDER BY RAND()
想打乱返回的数据⾏?随机挑⼀个数据?真不知道谁发明了这种⽤法,但很多新⼿很喜欢这样⽤。但你确不了解这样做有多么可怕的性能问题。
如果你真的想把返回的数据⾏打乱了,你有N种⽅法可以达到这个⽬的。这样使⽤只让你的数据库的性能呈指数级的下降。这⾥的问题是:MySQL会不得不去执⾏RAND()函数(很耗CPU时间),⽽且这是为了每⼀⾏记录去记⾏,然后再对其排序。就算是你⽤了Limit 1也⽆济于事(因为要排序)
下⾯的⽰例是随机挑⼀条记录
// 千万不要这样做:
$r = mysql_query("SELECT username FROM user ORDER BY RAND() LIMIT 1");
// 这要会更好:
$r = mysql_query("SELECT count(*) FROM user");
$d = mysql_fetch_row($r);
$rand = mt_rand(0,$d[0] - 1);
$r = mysql_query("SELECT username FROM user LIMIT $rand, 1");
7. 避免 SELECT *
从数据库⾥读出越多的数据,那么查询就会变得越慢。并且,如果你的数据库和WEB服务器是两台独⽴的服务器的话,这还会增加传输的负载。
所以,你应该养成⼀个需要什么就取什么的好的习惯。
// 不推荐
$r = mysql_query("SELECT * FROM user WHERE user_id = 1");
$d = mysql_fetch_assoc($r);
echo "Welcome {$d['username']}";
// 推荐
$r = mysql_query("SELECT username FROM user WHERE user_id = 1");
$d = mysql_fetch_assoc($r);
echo "Welcome {$d['username']}";
8. 永远为每张表设置⼀个ID
我们应该为数据库⾥的每张表都设置⼀个ID做为其主键,⽽且最好的是⼀个INT型的(推荐使⽤UNSIGNED),并设置上⾃动增加的AUTO_INCREMENT标志。
就算是你 users 表有⼀个主键叫 “email”的字段,你也别让它成为主键。使⽤ VARCHAR 类型来当主键会使⽤得性能下降。另外,在你的程序中,你应该使⽤表的ID来构造你的数据结构。
⽽且,在MySQL数据引擎下,还有⼀些操作需要使⽤主键,在这些情况下,主键的性能和设置变得⾮常重要,⽐如,集,分区……
在这⾥,只有⼀个情况是例外,那就是“关联表”的“外键”,也就是说,这个表的主键,通过若⼲个别的表的主键构成。我们把这个情况叫做“外键”。⽐如:有⼀个“学⽣表”有学⽣的ID,有⼀个“课程表”有课程ID,那么,“成绩表”就是“关联表”了,其关联了学⽣表和课程表,在成绩表中,学⽣ID和课程ID叫“外键”其共同组成主键。
9. 使⽤ ENUM ⽽不是 VARCHAR
ENUM 类型是⾮常快和紧凑的。在实际上,其保存的是 TINYINT,但其外表上显⽰为字符串。这样⼀来,⽤这个字段来做⼀些选项列表变得相当的完美。
如果你有⼀个字段,⽐如“性别”,“国家”,“民族”,“状态”或“部门”,你知道这些字段的取值是有限⽽且固定的,那么,你应该使⽤ ENUM ⽽不是 VARCHAR。
MySQL也有⼀个“建议”(见第⼗条)告诉你怎么去重新组织你的表结构。当你有⼀个 VARCHAR 字段时,这个建议会告诉你把其改成 ENUM 类型。使⽤ PROCEDURE ANALYSE() 你可以得到相关的建议。
10. 从 PROCEDURE ANALYSE() 取得建议
PROCEDURE ANALYSE() 会让 MySQL 帮你去分析你的字段和其实际的数据,并会给你⼀些有⽤的建议。只有表中有实际的数据,这些建议才会变得有⽤,因为要做⼀些⼤的决定是需要有数据作为基础的。
例如,如果你创建了⼀个 INT 字段作为你的主键,然⽽并没有太多的数据,那么,PROCEDURE ANALYSE()会建议你把这个字段的类型改成 MEDIUMINT 。或是你使⽤了⼀个VARCHAR 字段,因为
数据不多,你可能会得到⼀个让你把它改成 ENUM 的建议。这些建议,都是可能因为数据不够多,所以决策做得就不够准。
在phpmyadmin⾥,你可以在查看表时,点击 “Propose table structure” 来查看这些建议
⼀定要注意,这些只是建议,只有当你的表⾥的数据越来越多时,这些建议才会变得准确。⼀定要记住,你才是最终做决定的⼈。
6. 千万不要 ORDER BY RAND()
想打乱返回的数据⾏?随机挑⼀个数据?真不知道谁发明了这种⽤法,但很多新⼿很喜欢这样⽤。但你确不了解这样做有多么可怕的性能问题。
如果你真的想把返回的数据⾏打乱了,你有N种⽅法可以达到这个⽬的。这样使⽤只让你的数据库的性能呈指数级的下降。这⾥的问题是:MySQL会不得不去执⾏RAND()函数(很耗CPU时间),⽽且这是为了每⼀⾏记录去记⾏,然后再对其排序。就算是你⽤了Limit 1也⽆济于事(因为要排序)
下⾯的⽰例是随机挑⼀条记录
// 千万不要这样做:
$r = mysql_query("SELECT username FROM user ORDER BY RAND() LIMIT 1");
// 这要会更好:
$r = mysql_query("SELECT count(*) FROM user");
$d = mysql_fetch_row($r);
$rand = mt_rand(0,$d[0] - 1);
$r = mysql_query("SELECT username FROM user LIMIT $rand, 1");
7. 避免 SELECT *
从数据库⾥读出越多的数据,那么查询就会变得越慢。并且,如果你的数据库和WEB服务器是两台独⽴的服务器的话,这还会增加传输的负载。
所以,你应该养成⼀个需要什么就取什么的好的习惯。
// 不推荐
$r = mysql_query("SELECT * FROM user WHERE user_id = 1");
$d = mysql_fetch_assoc($r);
echo "Welcome {$d['username']}";
// 推荐
$r = mysql_query("SELECT username FROM user WHERE user_id = 1");
$d = mysql_fetch_assoc($r);
echo "Welcome {$d['username']}";
8. 永远为每张表设置⼀个ID
我们应该为数据库⾥的每张表都设置⼀个ID做为其主键,⽽且最好的是⼀个INT型的(推荐使⽤UNSIGNED),并设置上⾃动增加的AUTO_INCREMENT标志。
就算是你 users 表有⼀个主键叫 “email”的字段,你也别让它成为主键。使⽤ VARCHAR 类型来当主键会使⽤得性能下降。另外,在你的程序中,你应该使⽤表的ID来构造你的数据结构。
⽽且,在MySQL数据引擎下,还有⼀些操作需要使⽤主键,在这些情况下,主键的性能和设置变得⾮常
重要,⽐如,集,分区……
在这⾥,只有⼀个情况是例外,那就是“关联表”的“外键”,也就是说,这个表的主键,通过若⼲个别的表的主键构成。我们把这个情况叫做“外键”。⽐如:有⼀个“学⽣表”有学⽣的ID,有⼀个“课程表”有课程ID,那么,“成绩表”就是“关联表”了,其关联了学⽣表和课程表,在成绩表中,学⽣ID和课程ID叫“外键”其共同组成主键。
9. 使⽤ ENUM ⽽不是 VARCHAR
ENUM 类型是⾮常快和紧凑的。在实际上,其保存的是 TINYINT,但其外表上显⽰为字符串。这样⼀来,⽤这个字段来做⼀些选项列表变得相当的完美。
如果你有⼀个字段,⽐如“性别”,“国家”,“民族”,“状态”或“部门”,你知道这些字段的取值是有限⽽且固定的,那么,你应该使⽤ ENUM ⽽不是 VARCHAR。
MySQL也有⼀个“建议”(见第⼗条)告诉你怎么去重新组织你的表结构。当你有⼀个 VARCHAR 字段时,这个建议会告诉你把其改成 ENUM 类型。使⽤ PROCEDURE ANALYSE() 你可以得到相关的建议。
10. 从 PROCEDURE ANALYSE() 取得建议
PROCEDURE ANALYSE() 会让 MySQL 帮你去分析你的字段和其实际的数据,并会给你⼀些有⽤的建议。只有表中有实际的数据,这些建议才会变得有⽤,因为要做⼀些⼤的决定是需要有数据作为基础的。
例如,如果你创建了⼀个 INT 字段作为你的主键,然⽽并没有太多的数据,那么,PROCEDURE ANALYSE()会建议你把这个字段的类型改成 MEDIUMINT 。或是你使⽤了⼀个VARCHAR 字段,因为数据不多,你可能会得到⼀个让你把它改成 ENUM 的建议。这些建议,都是可能因为数据不够多,所以决策做得就不够准。
在phpmyadmin⾥,你可以在查看表时,点击 “Propose table structure” 来查看这些建议
⼀定要注意,这些只是建议,只有当你的表⾥的数据越来越多时,这些建议才会变得准确。⼀定要记住,你才是最终做决定的⼈。
16. 垂直分割
“垂直分割”是⼀种把数据库中的表按列变成⼏张表的⽅法,这样可以降低表的复杂度和字段的数⽬,从⽽达到优化的⽬的。(以前,在银⾏做过项⽬,见过⼀张表有100多个字段,很恐怖)
⽰例⼀:在Users表中有⼀个字段是家庭地址,这个字段是可选字段,相⽐起,⽽且你在数据库操作的
时候除了个⼈信息外,你并不需要经常读取或是改写这个字段。那么,为什么不把他放到另外⼀张表中呢?这样会让你的表有更好的性能,⼤家想想是不是,⼤量的时候,我对于⽤户表来说,只有⽤户ID,⽤户名,⼝令,⽤户⾓⾊等会被经常使⽤。⼩⼀点的表总是会有好的性能。
⽰例⼆:你有⼀个叫 “last_login” 的字段,它会在每次⽤户登录时被更新。但是,每次更新时会导致该表的查询缓存被清空。所以,你可以把这个字段放到另⼀个表中,这样就不会影响你对⽤户ID,⽤户名,⽤户⾓⾊的不停地读取了,因为查询缓存会帮你增加很多性能。
另外,你需要注意的是,这些被分出去的字段所形成的表,你不会经常性地去Join他们,不然的话,这样的性能会⽐不分割时还要差,⽽且,会是极数级的下降。
17. 拆分⼤的 DELETE 或 INSERT 语句
如果你需要在⼀个在线的⽹站上去执⾏⼀个⼤的 DELETE 或 INSERT 查询,你需要⾮常⼩⼼,要避免你的操作让你的整个⽹站停⽌相应。因为这两个操作是会锁表的,表⼀锁住了,别的操作都进不来了。
会有很多的⼦进程或线程。所以,其⼯作起来相当有效率,⽽我们的也不希望有太多的⼦进程,线程和数据库链接,这是极⼤的占服务器资源的事情,尤其是内存。
如果你把你的表锁上⼀段时间,⽐如30秒钟,那么对于⼀个有很⾼访问量的站点来说,这30秒所积累的
访问进程/线程,数据库链接,打开的⽂件数,可能不仅仅会让你泊WEB服务Crash,还可能会让你的整台服务器马上掛了。
所以,如果你有⼀个⼤的处理,你定你⼀定把其拆分,使⽤ LIMIT 条件是⼀个好的⽅法。下⾯是⼀个⽰例:
while (1) {
//每次只做1000条
mysql_query("DELETE FROM logs WHERE log_date <= '2009-11-01' LIMIT 1000");
if (mysql_affected_rows() == 0) {
// 没得可删了,退出!
break;
}
// 每次都要休息⼀会⼉
usleep(50000);
}
18. 越⼩的列会越快
对于⼤多数的数据库引擎来说,硬盘操作可能是最重⼤的瓶颈。所以,把你的数据变得紧凑会对这种情况⾮常有帮助,因为这减少了对硬盘的访问。
参看 MySQL 的⽂档 Storage Requirements 查看所有的数据类型。
如果⼀个表只会有⼏列罢了(⽐如说字典表,配置表),那么,我们就没有理由使⽤ INT 来做主键,使⽤ MEDIUMINT, SMALLINT 或是更⼩的 TINYINT 会更经济⼀些。如果你不需要记录时间,使⽤ DATE 要⽐ DATETIME 好得多。
当然,你也需要留够⾜够的扩展空间,不然,你⽇后来⼲这个事,你会死的很难看,参看Slashdot的例⼦(2009年11⽉06⽇),⼀个简单的ALTER TABLE语句花了3个多⼩时,因为⾥⾯有⼀千六百万条数据。
19. 选择正确的存储引擎
在 MySQL 中有两个存储引擎 MyISAM 和 InnoDB,每个引擎都有利有弊。酷壳以前⽂章《MySQL: InnoDB 还是 MyISAM?》讨论和这个事情。
MyISAM 适合于⼀些需要⼤量查询的应⽤,但其对于有⼤量写操作并不是很好。甚⾄你只是需要update⼀个字段,整个表都会被锁起来,⽽别的进程,就算是读进程都⽆法操作直到读操作完成。另外,MyISAM 对于 SELECT COUNT(*) 这类的计算是超快⽆⽐的。
InnoDB 的趋势会是⼀个⾮常复杂的存储引擎,对于⼀些⼩的应⽤,它会⽐ MyISAM 还慢。他是它⽀持“⾏锁” ,于是在写操作⽐较多的时候,会更优秀。并且,他还⽀持更多的⾼级应⽤,⽐如:事务。
下⾯是MySQL的⼿册
target=”_blank”MyISAM Storage Engine
InnoDB Storage Engine
20. 使⽤⼀个对象关系映射器(Object Relational Mapper)
使⽤ ORM (Object Relational Mapper),你能够获得可靠的性能增涨。⼀个ORM可以做的所有事情,也能被⼿动的编写出来。但是,这需要⼀个⾼级专家。
ORM 的最重要的是“Lazy Loading”,也就是说,只有在需要的去取值的时候才会去真正的去做。但你也需要⼩⼼这种机制的副作⽤,因为这很有可能会因为要去创建很多很多⼩的查询反⽽会降低性能。
ORM 还可以把你的SQL语句打包成⼀个事务,这会⽐单独执⾏他们快得多得多。
⽬前,个⼈最喜欢的PHP的ORM是:Doctrine。
21. ⼩⼼“永久链接”
“永久链接”的⽬的是⽤来减少重新创建MySQL链接的次数。当⼀个链接被创建了,它会永远处在连接的状态,就算是数据库操作已经结束了。⽽且,⾃从我们的Apache开始重⽤它的⼦进程后——也就是说,下⼀次的HTTP请求会重⽤Apache的⼦进程,并重⽤相同的 MySQL 链接。
PHP⼿册:mysql_pconnect()
在理论上来说,这听起来⾮常的不错。但是从个⼈经验(也是⼤多数⼈的)上来说,这个功能制造出来的⿇烦事更多。因为,你只有有限的链接数,内存问题,⽂件句柄数,等等。
⽽且,Apache 运⾏在极端并⾏的环境中,会创建很多很多的了进程。这就是为什么这种“永久链接”的机制⼯作地不好的原因。在你决定要使⽤“永久链接”之前,你需要好好地考虑⼀下你的整个系统的架构。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论