编译原理实验一(C-语言词法分析器的编写C语言版本)--688IT编程网

编译原理实验⼀（C-语⾔词法分析器的编写C语⾔版本）

编译原理实验⼀（C-语⾔词法分析器的编写C语⾔版本)

⼀、tiny词法分析程序源代码阅读笔记：

重要变量和函数：

①变量和函数：

A.要计算的唯⼀特性是词法或是被识别的记号的串

值

变量t o k e n S t r i n g

B.扫描程序使⽤3个全程变量⽂件变量s o u r c e和l i s t i n

g，整型变量l i n e n o

C.存储当前⾏ char lineBuf[BUFLEN];

C.当前单词类型 c u r r e n t T o k e n

D.所要计算的唯⼀特性——词法或是被识别的记号

的串值。

t o k e n S t r i n g

E.标志变量被⽤作指⽰是否将⼀个字符增加到t o k

e n S t r i n g之上

s a v e

F.完成位于由g e t T o k e n的主要循环识别的标识符之后的保留字的查TokenType reservedLookup (char* s)

G.进⾏词法分析，返回下⼀个合法单词的类型TokenType getToken(void)

D.按格式打印⼀个单词void printToken( TokenType

token, const char*

tokenString )

E.从⾏缓冲中输⼊下⼀个⾮空格字符，当⾏缓冲为

空则输⼊下⼀⾏字符串。

static int getNextChar(void)

F.不读取下⼀个字符，在⾏缓冲中回退⼀个字符。static void

ungetNextChar(void)

write的返回值

②数据结构

A.状态类型（枚举）typedef enum

{ START,INASSIGN,INCOMMENT,INNUM,INID,DONE } StateType;

B.单词类typedef enum{

ENDFILE,ERROR,

IF,THEN,ELSE,END,REPEAT,UNTIL,READ,WRITE, ID,NUM, ASSIGN,EQ,LT,PLUS,MINUS,TIMES,OVER,LPAREN,RPAREN,SEMI

型

（枚

举）

} TokenType;

C.保留字的查表（结构体类型）static struct

{ char* str;

TokenType tok;

} reservedWords[MAXRESERVED]

= {{"if",IF},{"then",THEN},{"else",ELSE},{"end",END}, {"repeat",REPEAT},{"until",UNTIL},{"read",READ}, {"write",WRITE}};

有START,INASSIGN,INCOMMENT,INNUM,INID,DONE六个状态

其状态转换图：

总结：

cifa词法分析程序的主要思路是：

①从主函数环境变量中获取输⼊⽂件的名称，并判断其是否存在

②循环调⽤getToken函数进⾏词法分析，直到函数返回值位ENDFILE即到达⽂件末尾

③getToken函数中的分析思路：

1. 初始状态位START, tokenStringIndex 为0表⽰从输⼊字符串的第⼀个字符开始分析

2. 调⽤getNextChar()来获取下⼀个位置的字符

3. 在对应的状态下，根据字符的类型和DFA中的转换关系，得到当前词法单元的类型，并更新状态。

4. 在分析过程中将每个字符保存到tokenString中。

5. 直到状态STATE为DONE则该词法单元分析结束。tokenString中加⼊⼀个空字符表⽰词法单元的尾部。并且如果该词法单元为标识

符则查相应的保留字。

⼆、C-词法分析器实验报告：1.C-词法规则①语⾔的关键字：

else if int return void while

所有的关键字都是保留字，并且必须是⼩写。

②专⽤符号：

+ - * / < <= > >= == != = ; , ( ) [ ] { } /* */

③其他标记是I D和N U M，通过下列正则表达式定义：ID = letter letter*NUM = digit digit*letter = a|..|z|A|..|Z digit = 0|..|9

⼩写和⼤写字母是有区别的。

④空格由空⽩、换⾏符和制表符组成。空格通常被忽略，除了它必须分开 I D、N U M关键字。

⑤注释⽤通常的C语⾔符号/ * . . . * /围起来。注释可以放在任何空⽩出现的位置 (即注释不能放在标记内)上，且可以超过⼀⾏。注释不能嵌套。整理：保留字特殊符号其他else +

ID(letter letter* )letter = a|..|z|A|..|Z

if -int *return /void <while

<=>

>===!==;

NUM(digit digit*)digit = 0|..|9

,()[]{}/*/*

1. DFA:

①注释状态转换图：

②专⽤符号、ID、NUM状态转换图：

注意：

①关键字：

除了数量减少以及关键词内容有所改变以外，关键字都是由字母⼩写构成，其中不添加其他符号，所以我们在关键字处理⽅式可以使

⽤Tiny编译器的处理⽅式。

②专⽤符号：

1. 在tiny编译器的基础上，增添了有两个符号构成的符号，例如<=、>=、==、！=等，这需要在构建C-词法分析状态转换图时需要注

意；

2. <=是被当做⼩于等于⽽不是⼩于和等于两个词素的原因是我们默认遵循最长⼦串原则，其中具体构建⽅法见下⼀步。

③其他标记ID/NUM：

NUM只包括数字、ID只包括⼤⼩写字母，且字母区分⼤⼩写。

④注释：

C-语⾔的注释前置符号和后置符号都⼜两个符号构成 ’/’’*’；处理该符号时需要注意。

688IT编程网

编译原理实验一(C-语言词法分析器的编写C语言版本)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

编译原理实验一(C-语言词法分析器的编写C语言版本)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式