实验目的;
完整地指出TINYC的词法结构,也就是:定义记号和它们的特性 实验内容;
TINYC的记号分为3个典型类型:保留字、特殊符号和“其他”记号。保留字一共有8个,它们的含义类似。特殊符号有10种:分别是4种基本的整数运算符号、2种比较符号,以及括号、分号和赋值符号。除了赋值符号是两个字符的长度之外,其余均为一个字符。
表1 TINYC语言的记号
保留字 if then else end repeat until read write 特殊符号 + - * / = < ( ) ; := 其他 数(1个或更多的数字) 标识符(1个或更多的字母) 其他记号就是数了,它们是一个或多个数字以及标识符的序列,而标识符又是(为了简便)一个或多个字母的序列。
除了记号之外,TINYC还要遵循以下的词法惯例:注释应放在花括号{...}中,且不可嵌套;代码应是自由格式;空白格由空格、制表位和新行组成;最长子串原则后须接识别记号。
在为该语言设计扫描程序时,可以从正则表达式开始并根据前一节中的算法来开发NFA和DFA。实际上,前面已经给出了数、标识符和注释的正则表达式。其他记号的正则表达式都是固定串,因而均不重要。由于扫描程序的DFA记号十分简单,所以无需按照这个例程就
可直接开发这个DFA了。我们按一下步骤进行。
首先要注意到除了赋值符号之外,其他所有的特殊符号都只有一个字符,这些符号的DFA如下:
在该图中,不同的接受状态是由扫描程序返回的记号区分开来。如果在这个将要返回的记号(代码中的一个变量)中使用其他指示器,则所有接受状态都可集中为一个状态,称之为DONE。若将这个二状态的DFA与接受数和标识符的DFA合并在一起,就可得到下面的DFA:
请注意,利用方括号指出了不可被消耗的先行字符。
现在需要在这个DFA中添加注释、空白格和赋值。一个简单的从初始状态到其本身的循环要消耗空白格。注释要求一个额外的状态,它由花括号左边达到并在花括号右边返回到它。赋值也需要中间状态,它由分号上的初始状态达到。如果后面紧跟有一个等号,那么就会生成一个赋值记号。反之就不消耗下一个字符,且生成一个错误记号。实际上,未列在特殊符号中的所有单个字符既不是空白格或注释,也不是数字或字母,它们应被作为错误而接受,我们将它们与单个字符符号混合在一起。如下图是为扫描程序给出的最后一个DFA。
在上面的讨论或上图中的DFA都未包括保留字。这是因为根据DFA的观点,而认为保留字与标识符相同,以后再在接受后的保留字表格中寻找标识符是最简单的。当然,最长子串原则保证了扫描程序唯一需要改变的动作是被返回的记号。因为,仅在识别了标识符之后才考虑保留字。
现在再来讨论实现这个DFA的代码,它已被放在了scan.h文件和scan.c文件之中。其中最主要的过程是getToken,它消耗输入字符并根据上图中的DFA返回下一个被识别的记号。这个实现利用了双重嵌套情况分析,以及一个有关状态的大型情况列表,在大列表中的是基于当前输入字符的单独列表。记号本身被定义成globals.h中的枚举类型,它包括在表1中列出的所有记号以及内务记号ENDFILE(当达到文件的末尾时)和ERROR(当遇到错误字符时)。扫描程序的状态也被定义为一个枚举类型,但它是位于扫描程序之中。