简单的C语言编译器--词法分析器--688IT编程网

简单的C语⾔编译器--词法分析器

1. 定义词法单元Tag

⾸先要将可能出现的词进⾏分类，可以有不同的分类⽅式。如多符⼀类：将所有逗号、分号、括号等都归为⼀类，或者⼀符⼀类，将⼀个符号归为⼀类。我这⾥采⽤的是⼀符⼀类的⽅式。C代码如下：

#ifndef TAG_H

#define TAG_H

namespace Tag {

//保留字

const int

INT = 1, BOOL = 2, MAIN = 3, IF = 4,

ELSE = 5, FOR = 6, WHILE = 7, FALSE = 8,

BREAK = 9, RETURN = 10, TRUE = 11 ;

//运算符

const int

NOT = 20, NE = 21, AUTOMINUS =22, MINUS = 23,

AUTOADD = 24, ADD = 25, OR = 26,

AND = 27, MUTIPLY = 28, DIVIDE = 29, MOD = 30,

EQ = 31, ASSIN = 32, GE = 33, GT = 34,

LE = 35, LS = 36;

c语言编译器怎么用?//分界符

const int

COMMA = 40, SEMICOLON = 41, LLBRACKET = 42,

RLBRACKET = 43, LMBRACKET = 44, RMBRACKET = 45,

LGBRACKET = 46, RGBRACKET = 47;

//整数常数

const int NUM = 50;

//标识符

const int ID = 60;

//错误

const int ERROR = 404;

//空

const int EMPTY = 70;

}

#endif

2. 具体步骤

⼀个⼀个字符地扫描测试代码，忽略空⽩字符，遇到回车时，记录⾏数加1

要进⾏区分标识符(即普通变量名字)和保留字

因为将标识符和常数都guiwe各⾃归为⼀类，所以要有算法能够识别出⼀整个常数和完整的标识符

加⼊适当的⾮法词检测

3. 设计词法分析类

设计⼀个词法分析器，当然要包括如何存储⼀个词法单元，如何扫描(scan)测试代码等，直接上代码：

myLexer.h

#ifndef MYLEXER_H

#define MYLEXER_H

#include <fstream>

#include <string>

#include <unordered_map>

#include "tag.h"

* 主要是定义基本的词法单元类，

* 声明了词法分析类

//存储词法单元

class Word {

public:

Word() = default;

Word(std::string s, int t) : lexeme(s), tag(t) {};

std::string getLexeme() { return lexeme; };

int getTag() { return tag; }

void setTag(int t) { tag = t; }

void setLexeme(std::string s) { lexeme = s; }

private:

std::string lexeme;

int tag;

};

//词法分析器类

class Lexer {

public:

Lexer();

void reserve(Word w);

bool readnext(char c, std::ifstream &in);

Word scan(std::ifstream &in);

int getLine() { return line; }

private:

char peek;

std::unordered_map<std::string, Word> words;

int line;

};

#endif

myLexer.cpp

#include <iostream>

#include <cctype>

#include <sstream>

#include "myLexer.h"

void Lexer::reserve(Word w) {

words.insert({w.getLexeme(), w});

}

Lexer::Lexer() {

//存⼊保留字，为了区分标识符

reserve( Word("int", Tag::INT) );

reserve( Word("bool", Tag::BOOL) );

reserve( Word("main", Tag::MAIN) );

reserve( Word("if", Tag::IF) );

reserve( Word("else", Tag::ELSE) );

reserve( Word("for", Tag::FOR) );

reserve( Word("while", Tag::WHILE) );

reserve( Word("break", Tag::BREAK) );

reserve( Word("return", Tag::RETURN) );

reserve( Word("true", Tag::TRUE) );

reserve( Word("false", Tag::FALSE) );

peek = ' ';

line = 1;

}

//⽅便处理像>=,++等这些两个字符连在⼀起的运算符 bool Lexer::readnext(char c, std::ifstream &in) {

in >> peek;

if( peek != c)

return false;

peek = ' ';

return true;

}

Word Lexer::scan(std::ifstream &in) {

/跳过空⽩符

while(!in.eof()) {

if(peek == ' ' || peek == '\t') {

in >> peek;

continue;

}

else if(peek == '\n')

++line;

else

break;

in >> peek;

}

//处理分界符、运算符等

switch(peek) {

case '!':

if(readnext('=', in))

return Word("!=", Tag::NE);

else

return Word("!", Tag::NOT);

case '-':

if(readnext('-', in))

return Word("--", Tag::AUTOMINUS);

else

return Word("-", Tag::MINUS);

case '+':

if(readnext('+', in))

return Word("++", Tag::AUTOADD);

else

return Word("+", Tag::ADD);

case '|':

if(readnext('|', in))

return Word("||", Tag::OR);

else

return Word("error", Tag::ERROR);

case '&':

if(readnext('&', in))

return Word("&&", Tag::AND);

else

return Word("error", Tag::ERROR);

case '*':

in >> peek;

return Word("*", Tag::MUTIPLY);

case '/':

in >> peek;

return Word("/", Tag::DIVIDE);

case '%':

in >> peek;

return Word("%", Tag::MOD);

case '=':

if(readnext('=', in))

return Word("==", Tag::EQ);

else

return Word("=", Tag::ASSIN);

case '>':

if(readnext('=', in))

return Word(">=", Tag::GE);

else

return Word(">", Tag::GT);

case '<':

if(readnext('=', in))

return Word("<=", Tag::LE);

else

return Word("<", Tag::LS);

case ',':

in >> peek;

return Word(",", Tag::COMMA);

case ';':

in >> peek;

return Word(";", Tag::SEMICOLON);

case '(':

in >> peek;

return Word("(", Tag::LLBRACKET);

case ')':

in >> peek;

return Word(")", Tag::RLBRACKET);

case '[':

in >> peek;

return Word("[", Tag::LMBRACKET);

case ']':

in >> peek;

return Word("]", Tag::RMBRACKET);

case '{':

in >> peek;

return Word("{", Tag::LGBRACKET);

case '}':

in >> peek;

return Word("}", Tag::RGBRACKET);

}

/处理常数

if(isdigit(peek)) {

int v = 0;

do {

v = 10*v + peek - 48;

in >> peek;

} while(isdigit(peek));

if(peek != '.')

return Word(std::to_string(v), Tag::NUM);

}

//处理标识符

if(isalpha(peek)) {

std::ostringstream b;

do {

b << peek;

in >> peek;

} while(isalnum(peek) || peek == '_');

std::string tmp = b.str();

//判断是否为保留字

if(words.find(tmp) != d())

return words[tmp];

else

return Word(tmp, Tag::ID);

}

if(peek != ' ' && peek != '\t' && peek != '\n')

return Word("error", Tag::ERROR);

return Word("empty", Tag::EMPTY);

}

设计完成后，⾃⼰写⼀个Main函数，在while循环中调⽤scan函数，每次打印出Word内容，就能够得到

688IT编程网

简单的C语言编译器--词法分析器

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

简单的C语言编译器--词法分析器

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式