用java實現一個簡易編譯器1-詞法解析入門

阿新 • • 發佈：2017-09-30

new 概念自加我們 sta 數字獲得 () 操作系統

本文對應代碼下載地址為：

http://download.csdn.net/detail/tyler_download/9435103

視頻地址：

http://v.youku.com/v_show/id_XMTQ3NTQwMDkxMg==.html?from=s1.8-1-1.2

技術的發展可謂是日新月異，層出不窮，但無論是炙手可熱的大數據，還是火燒鳥了的人工智能，所有這些高大上的尖端科技無不建立在基礎技術的根基之上。編譯原理，計算機網絡，操作系統，便是所有軟件技術的基石。在這三根支柱中，維編譯原理最為難懂，特別是大學課本那種晦澀難通，不講人話的言語，更是讓人覺得這門基礎技術就像九十多歲的老嫗，皮膚幹巴，老態龍鐘，讓人提不起一點欲望。除了國內教材，就算是被廣為稱贊的一千多頁的”龍書“，也是滿篇理論，讓人望而生畏。

味道怎樣，咬一口就知道，手感如何，摸一把就曉得。編譯原理缺的不是理論概念，而是能夠動手實踐的流程，代碼，很多原理用話語怎麽講都難以明了，但跑一遍代碼，基本就水落石出。本文本著動手實操(念第一聲)的原則，用java實現一個簡單的編譯器，讓讀者朋友能一感編譯原理的實質，我秉持一個原則，沒有代碼可實踐的計算機理論，都是耍流氓。

編譯器作用就是將一種計算機無法理解的文本，轉譯成計算機能執行的語句，我們要做的編譯器如下，將帶有加法和乘法的算術式子，轉譯成機器能執行的匯編語句，例如語句：

1+2*3+4, 經過編譯後轉換成：

t0 = 1

t1 = 2

t2 = 3

t1 *= t2

t0 += t1

t1 = 4

t0 += t1

t0, t1 是對寄存器的模擬，上述語句基本上就類似計算機能執行的匯編語句了。

本章首先專註於詞法解析的探討。

編譯原理由兩部分組成，一是詞法分析，一是語義分析。先說詞法分析，詞法分析就是將一個語句分割成若幹個有意義的字符串的組合，然後給分割的字符串打標簽。例如語句：

1+2*3+4; 可以分割成 1+, 2*, 3+, 4; 但這些子字符串沒有實質意義，有意義的分割是1, +, 2, * , 3, +, 4, ;. 接著就是給這些分割後的字符串打標簽，例如給1, 2, 3, 4 打上的標簽是NUM_OR_ID, + 打的標簽是PLUS, ＊的標簽是TIMES, ;的標簽是SEMI, 好了，看看詞法分析的代碼，大家可能更容易理解：

Lexer.java:

[java] view plain copy

import java.util.Scanner;
public class Lexer {
public static final int EOI = 0;
public static final int SEMI = 1;
public static final int PLUS = 2;
public static final int TIMES = 3;
public static final int LP = 4;
public static final int RP = 5;
public static final int NUM_OR_ID = 6;
private int lookAhead = -1;
public String yytext = "";
public int yyleng = 0;
public int yylineno = 0;
private String input_buffer = "";
private String current = "";
private boolean isAlnum(char c) {
if (Character.isAlphabetic(c) == true ||
Character.isDigit(c) == true) {
return true;
}
return false;
}
private int lex() {
while (true) {
while (current == "") {
Scanner s = new Scanner(System.in);
while (true) {
String line = s.nextLine();
if (line.equals("end")) {
break;
}
input_buffer += line;
}
s.close();
if (input_buffer.length() == 0) {
current = "";
return EOI;
}
current = input_buffer;
++yylineno;
current.trim();
}//while (current != "")
for (int i = 0; i < current.length(); i++) {
yyleng = 0;
yytext = current.substring(0, 1);
switch (current.charAt(i)) {
case ‘;‘: current = current.substring(1); return SEMI;
case ‘+‘: current = current.substring(1); return PLUS;
case ‘*‘: current = current.substring(1);return TIMES;
case ‘(‘: current = current.substring(1);return LP;
case ‘)‘: current = current.substring(1);return RP;
case ‘\n‘:
case ‘\t‘:
case ‘ ‘: current = current.substring(1); break;
default:
if (isAlnum(current.charAt(i)) == false) {
System.out.println("Ignoring illegal input: " + current.charAt(i));
}
else {
while (isAlnum(current.charAt(i))) {
i++;
yyleng++;
} // while (isAlnum(current.charAt(i)))
yytext = current.substring(0, yyleng);
current = current.substring(yyleng);
return NUM_OR_ID;
}
break;
} //switch (current.charAt(i))
}// for (int i = 0; i < current.length(); i++)
}//while (true)
}//lex()
public boolean match(int token) {
if (lookAhead == -1) {
lookAhead = lex();
}
return token == lookAhead;
}
public void advance() {
lookAhead = lex();
}
public void runLexer() {
while (!match(EOI)) {
System.out.println("Token: " + token() + " ,Symbol: " + yytext );
advance();
}
}
private String token() {
String token = "";
switch (lookAhead) {
case EOI:
token = "EOI";
break;
case PLUS:
token = "PLUS";
break;
case TIMES:
token = "TIMES";
break;
case NUM_OR_ID:
token = "NUM_OR_ID";
break;
case SEMI:
token = "SEMI";
break;
case LP:
token = "LP";
break;
case RP:
token = "RP";
break;
}
return token;
}
}

代碼中2到6行是對標簽的定義，其中LP 代表左括號(, RP代表右括號)， EOI 表示語句末尾, 第10行的lookAhead 變量用於表明當前分割的字符串指向的標簽值，yytext用於存儲當前正在分析的字符串，yyleng是當前分析的字符串的長度，yylineno是當前分析的字符串所在的行號。input_buffer 用於存儲要分析的語句例如: 1+2*3+4; isAlNum 用於判斷輸入的字符是否是數字或字母。lex() 函數開始了詞法分析的流程，31到40行從控制臺讀入語句，語句以"end"表明結束，例如在控制臺輸入：

1+2*3+4;

end

回車後，從52行開始執行詞法解析流程。以上面的輸入為例，input_buffer 存儲語句 1+2*3+4, 由於第一個字符是 1, 在for 循環中，落入switch 的default 部分，isAlNum 返回為真，yyleng 自加後值為1， yytext 存儲的字符串就是 "1", current前進一個字符變為+2*3+4, 再次執行lex(), 則解析的字符是+, 在for 循環中，落入switch的case ‘+‘ 分支，於是yytext為"+", 返回的標簽就是PLUS依次類推， advance 調用一次， lex()就執行一次詞法分析，當lex執行若幹次後，語句1+2*3+4;會被分解成1, +, 2, *, 3, +, 4, ; 。字符串1, 2, 3, 4具有的標簽是NUM_OR_ID, + 具有的標簽是PLUS, ＊的標簽是TIMES, ;的標簽是SEMI.

runLexer() 將驅動詞法解析器，執行解析流程，如果解析到的當前字符串，其標簽不是EOI(end of input), 也就是沒有達到輸入末尾，那麽就打印出當前分割的字符串和它所屬的標簽，接著調用advance() 進行下一次解析。

match, advance 會被稍後我們將看到的語法解析器調用。

接下來我們在main函數中，跑起Lexer, 看看詞法解析過程：

Compiler.java

[java] view plain copy

public class Compiler {
public static void main(String[] args) {
Lexer lexer = new Lexer();
//Parser parser = new Parser(lexer);
//parser.statements();
lexer.runLexer();
}
}

在eclipse 中運行給定代碼，然後在控制臺中輸入如下：

1+2*3+4;

end

程序運行後輸出：

Token: NUM_OR_ID ,Symbol: 1

Token: PLUS ,Symbol: +

Token: NUM_OR_ID ,Symbol: 2

Token: TIMES ,Symbol: *

Token: NUM_OR_ID ,Symbol: 3

Token: PLUS ,Symbol: +

Token: NUM_OR_ID ,Symbol: 4

Token: SEMI ,Symbol: ;

後記：

該篇敘述的只是一個簡單的詞法解析入門，希望通過可運行的代碼，讓大家能體會一下詞法分析的流程，從感性上獲得直接的認識，為後續理解完整專業的詞法解析打下基礎。

完整的代碼我會上傳到csdn, 大家可以獲得代碼後，自己運行嘗試一下。我將在後續的文章中，繼續與大家一起探討一個完整編譯器的開發。

另外，我希望將此教程制作成視頻模式，大家通過觀看視頻，可以更直觀的看到代碼調試，解析，運行等流程，更容易學習和加深理解，如果哪位朋友有興趣，留個郵箱，我把

制作好的視頻發給你們，並虛心的向諸位朋友求教。

用java實現一個簡易編譯器1-詞法解析入門

new 概念自加我們 sta 數字獲得 () 操作系統本文對應代碼下載地址為： http://download.csdn.net/detail/tyler_download/9435103 視頻地址： http://v.youku.com/v_show/id_XMT

用java實現一個簡易編譯器1-詞法解析入門

用java實現一個簡易編譯器1-詞法解析入門

(2) 用java實現一個簡易編譯器1-詞法解析入門

用java實現一個簡單的單用戶登陸功能的思路

java算法面試題：排序都有哪幾種方法？請列舉。用JAVA實現一個快速排序。選擇冒泡快速集合至少4種方法排序

用java實現一個行鎖(RowLock)

用JAVA製作一個簡易的計算器

用JAVA實現一個爬蟲，爬取知乎的上的內容（程式碼已無法使用）

用java實現一個簡單的ArrayList

用java實現一個簡單的學生管理系統

用canvas實現一個簡易的塗鴉畫板

用Python實現一個簡易的“聽歌識曲”demo（一）

用JAVA實現一個簡單地Http伺服器

用Java實現一個二叉樹

用shell寫一個簡易計算器，可以實現加、減、乘、除運算，假如腳本名字為1.sh，執行示例：./1.

用java寫以下小程式碼1. 使用for迴圈列印乘法口訣表 2. 遞迴實現20! 3. 使用陣列靜態初始化方式初始化一個大小為10的整型陣列並輸出。

JAVA實現一個簡單的代數運算語言編譯器（二）--詞法分析準備

用java寫一個函式，實現Fibonacci數列演算法(1,1,2,3,5,8,13......)

利用socket技術實現用java實現客戶端向服務端傳送檔案，伺服器端接收檔案並給出一個響應。

用java實現簡易加密和解密

晚上，有四個人過河，分別需要1、2、5、10分鐘。只有一把手電筒，過河的必要條件是有手電筒。最多可以兩個人同時過河，但必須以兩人中較慢的那個人的速度過去。問：所有人都過河，至少需幾分鐘。用java實現

用java實現一個簡易編譯器1-詞法解析入門

相關推薦