mysql语法解析源码_Mysql源码学习——词法分析MYSQLlex--688IT编程网

mysql语法解析源码_Mysql源码学习——词法分析MYSQLlex 客户端向服务器发送过来SQL语句后，服务器⾸先要进⾏词法分析，⽽后进⾏语法分析，语义分析，构造执⾏树，⽣成执⾏计划。词法分析是第⼀阶段，虽然在理解Mysql实现上意义不是很⼤，但作为基础还是学习下⽐较好。

词法分析即将输⼊的语句进⾏分词(token)，解析出每个token的意义。分词的本质便是正则表达式的匹配过程，⽐较流⾏的分词⼯具应该是lex，通过简单的规则制定，来实现分词。Lex⼀般和yacc结合使⽤。关于lex和yacc的基础知识请参考Yacc 与Lex 快速⼊门 - IBM。如果想深⼊学习的话，可以看下《LEX与YACC》。

然⽽Mysql并没有使⽤lex来实现词法分析，但是语法分析却⽤了yacc，⽽yacc需要词法分析函数yylex，故在⽂件最前⾯我们可以看到如下的宏定义:

/* Substitute the variable and function names. */

#define yyparse MYSQLparse

#define yylex MYSQLlex

这⾥的MYSQLlex也就是本⽂的重点，即MYSQL⾃⼰的词法分析程序。源码版本5.1.48。源码太长，贴不上来，算啦..在⾥⾯。

我们第⼀次进⼊词法分析，state默认值为MY_LEX_START，就是开始状态了，其实state的宏的意义可以从名称上猜个差不多，再⽐如MY_LEX_IDEN便是标识符。对START状态的处理伪代码如下：

case MY_LEX_START:

{

Skip空格

获取第⼀个有效字符c

state = state_map[c];

Break;

}

我困惑了，这肿么出来个state_map？到了在函数开始出有个赋值的地⽅：

uchar *state_map= cs->state_map;

cs？！不会是反恐精英吧!!快速监视下cs为my_charset_latin1，哥了然了，原来cs是latin字符集，character set的缩写吧。那么为神马state_map可以直接决定状态？到其赋值的地⽅，在init_state_maps函数中，代码如下所⽰：

/* Fill state_map with states to get a faster parser */

for (i=0; i < 256 ; i++)

{

if (my_isalpha(cs,i))

state_map[i]=(uchar) MY_LEX_IDENT;

else if (my_isdigit(cs,i))

state_map[i]=(uchar) MY_LEX_NUMBER_IDENT;

#if defined(USE_MB) && defined(USE_MB_IDENT)

else if (my_mbcharlen(cs, i)>1)

state_map[i]=(uchar) MY_LEX_IDENT;

#endif

else if (my_isspace(cs,i))

state_map[i]=(uchar) MY_LEX_SKIP;

else

state_map[i]=(uchar) MY_LEX_CHAR;

}

state_map[(uchar)'_']=state_map[(uchar)'$']=(uchar) MY_LEX_IDENT;

state_map[(uchar)'\'']=(uchar) MY_LEX_STRING;

mid函数第二个参数代表state_map[(uchar)'.']=(uchar) MY_LEX_REAL_OR_POINT;

state_map[(uchar)'>']=state_map[(uchar)'=']=state_map[(uchar)'!']= (uchar) MY_LEX_CMP_OP;

state_map[(uchar)'

state_map[(uchar)'&']=state_map[(uchar)'|']=(uchar) MY_LEX_BOOL;

state_map[(uchar)'#']=(uchar) MY_LEX_COMMENT;

state_map[(uchar)';']=(uchar) MY_LEX_SEMICOLON;

state_map[(uchar)':']=(uchar) MY_LEX_SET_VAR;

state_map[0]=(uchar) MY_LEX_EOL;

state_map[(uchar)'\\']= (uchar) MY_LEX_ESCAPE;

state_map[(uchar)'/']= (uchar) MY_LEX_LONG_COMMENT;

state_map[(uchar)'*']= (uchar) MY_LEX_END_LONG_COMMENT;

state_map[(uchar)'@']= (uchar) MY_LEX_USER_END;

state_map[(uchar) '`']= (uchar) MY_LEX_USER_VARIABLE_DELIMITER;

state_map[(uchar)'"']= (uchar) MY_LEX_STRING_OR_DELIMITER;

mysql面试题及讲解

先来看这个for循环，256应该是256个字符了，每个字符的处理应该如下规则：如果是字母，则state = MY_LEX_IDENT；如果是数字，则state = MY_LEX_NUMBER_IDENT，如果是空格，则state = MY_LEX_SKIP，剩下的全为MY_LEX_CHAR。

for循环之后，⼜对⼀些特殊字符进⾏了处理，由于我们的语句“select @@version_comment limit 1”中有个特殊字符@，这个字符的state进⾏了特殊处理，为MY_LEX_USER_END。

对于my_isalpha等这⼏个函数是如何进⾏判断⼀个字符属于什么范畴的呢？跟进去看下，发现是宏定义：

phpstudy的mysql无法启动#define my_isalpha(s, c) (((s)->ctype+1)[(uchar) (c)] & (_MY_U | _MY_L))

Wtf，肿么⼜来了个ctype，c作为ctype的下标，_MY_U | _MY_L如下所⽰，

#define _MY_U 01 /* Upper case */

#define _MY_L 02 /* Lower case */

ctype⾥⾯到底存放了什么？在ctype-latin1.c源⽂件⾥⾯，我们到了my_charset_latin1字符集的初始值：

CHARSET_INFO my_charset_latin1=

{

8,0,0, /* number */

java虚拟机32位

MY_CS_COMPILED | MY_CS_PRIMARY, /* state */

"latin1", /* cs name */

"latin1_swedish_ci", /* name */

"", /* comment */短视频特效制作一般哪家好

NULL, /* tailoring */

ctype_latin1,

to_lower_latin1,

to_upper_latin1,

sort_order_latin1,

NULL, /* contractions */

NULL, /* sort_order_big*/

cs_to_uni, /* tab_to_uni */

NULL, /* tab_from_uni */

my_unicase_default, /* caseinfo */

NULL, /* state_map */

NULL, /* ident_map */

1, /* strxfrm_multiply */

1, /* caseup_multiply */

1, /* casedn_multiply */

1, /* mbminlen */

1, /* mbmaxlen */

0, /* min_sort_char */

255, /* max_sort_char */

' ', /* pad char */

0, /* escape_with_backslash_is_dangerous */

&my_charset_handler,

&my_collation_8bit_simple_ci_handler

};

可以看出ctype = ctype_latin1；⽽ctype_latin1值为：

static uchar ctype_latin1[] = {

32, 32, 32, 32, 32, 32, 32, 32, 32, 40, 40, 40, 40, 40, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 72, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16,

132,132,132,132,132,132,132,132,132,132, 16, 16, 16, 16, 16, 16,

16,129,129,129,129,129,129, 1, 1, 1, 1, 1, 1, 1, 1, 1,

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 16, 16, 16, 16, 16,

16,130,130,130,130,130,130, 2, 2, 2, 2, 2, 2, 2, 2, 2,

2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 16, 16, 16, 16, 32,

16, 0, 16, 2, 16, 16, 16, 16, 16, 16, 1, 16, 1, 0, 1, 0,

0, 16, 16, 16, 16, 16, 16, 16, 16, 16, 2, 16, 2, 0, 2, 1,

72, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16,

16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16,

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

1, 1, 1, 1, 1, 1, 1, 16, 1, 1, 1, 1, 1, 1, 1, 2,

2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,

2, 2, 2, 2, 2, 2, 2, 16, 2, 2, 2, 2, 2, 2, 2, 2

};

看到这⾥哥再⼀次了然了，这些值都是经过预计算的，第⼀个0是⽆效的，这也是为什么my_isalpha(s, c)定义⾥⾯ctype要先+1的原因。通过_MY_U和_MY_L的定义，可以知道，这些值肯定是按照相应的ASCII码的具体意义进⾏置位的。⽐如字符'A'，其ASCII码为65，其实⼤写字母，故必然具有_MY_U，即第0位必然为1，到ctype⾥⾯第66个(略过第⼀个⽆意义的0)元素，为129 = 10000001，显然第0位为1(右边起)，说明为⼤写字母。写代码的⼈确实⽐较⽜X，如此运⽤位，哥估计这辈⼦也想不到了，⼩⼩佩服下。State的问题点到为⽌了。

继续进⾏词法分析，第⼀个字母为s，其state = MY_LEX_IDENT(IDENTIFIER：标识符的意思),break出来，继续循环，case进⼊

MY_LEX_IDENT分⽀：

Case MY_LEX_IDENT：

{

由s开始读，直到空格为⽌

If(读⼊的单词为关键字)

{

nextstate = MY_LEX_START；

Return tokval; //关键字的唯⼀标识

}

Else

{

return IDENT_QUOTED 或者 IDENT；表⽰为⼀般标识符

}

这⾥SELECT肯定为关键字，⾄于为什么呢？下节的语法分析会讲。

解析完SELECT后，需要解析@@version_comment，第⼀个字符为@，进⼊START分⽀，state = MY_LEX_USER_END；

进⼊MY_LEX_USER_END分⽀，如下：

case MY_LEX_USER_END: // end '@' of user@hostname

switch (state_map[lip->yyPeek()]) {

case MY_LEX_STRING:

case MY_LEX_USER_VARIABLE_DELIMITER:

case MY_LEX_STRING_OR_DELIMITER:

break;

case MY_LEX_USER_END:

lip->next_state=MY_LEX_SYSTEM_VAR;

break;

default:

lip->next_state=MY_LEX_HOSTNAME;

break;

哥会⼼的笑了，两个@符号就是系统变量吧～～，下⾯进⼊MY_LEX_SYSTEM_VAR分⽀

case MY_LEX_SYSTEM_VAR:

yylval->lex_str.str=(char*) lip->get_ptr();

yylval->lex_str.length=1;

linux查文件命令grep

lip->yySkip(); // Skip '@'

lip->next_state= (state_map[lip->yyPeek()] ==

MY_LEX_USER_VARIABLE_DELIMITER ?

MY_LEX_OPERATOR_OR_IDENT :

MY_LEX_IDENT_OR_KEYWORD);

return((int) '@');

所作的操作是略过@，next_state设置为MY_LEX_IDENT_OR_KEYWORD，再之后便是解析MY_LEX_IDENT_OR_KEYWORD了，也就是version_comment了，此解析应该和SELECT解析路径⼀致，但不是KEYWORD。剩下的留给有⼼的读者了(想起了歌⼿经常说的⼀句话：⼤家⼀起来，哈哈)。

Mysql的词法解析的状态还是⽐较多的，如果细究还是需要点时间的，但这不是Mysql的重点，我就浅尝辄⽌了。下节会针对上⾯的SQL语句讲解下语法分析。

PS: ⼀直想好好学习下Mysql，总是被这样或那样的事耽误，当然都是⾃⼰的原因，希望这次能⾛的远点.....

PS again：本⽂只代表本⼈的学习感悟，如有异议，欢迎指正。

688IT编程网

mysql语法解析源码_Mysql源码学习——词法分析MYSQLlex

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

mysql语法解析源码_Mysql源码学习——词法分析MYSQLlex

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式