Créer son propre langage de programmation de A à Z
<< Analyse sémantique | Arbre syntaxique abstrait et Génération de code | Évolution 1 : Opérateurs de comparaison >>
Si vous êtes en train de penser de ne pas voir le bout de ce cours et que vous en avez marre de ne toujours pas voir le langage Simple en action, j'ai alors le plaisir de vous annoncer que nous sommes à la dernière étape du développement de notre compilateur. Courage car vous avez franchi les parties les plus dures selon moi et que maintenant ce n'est plus que de l'amusement ! Donc ce serait très dommage d'abandonner maintenant et de louper le meilleur. Nous allons générer du simple code C. Le code C produit par notre compilateur sera ensuite lui même compilé par le compilateur C pour obtenir un exécutable. Il s'agit d'être très ordonné dans son code. On va utiliser un arbre n-aire (rassurez-vous on ne va pas la coder, on l'a déjà fait pour nous) toujours avec GLib. Ce sera notre arbre syntaxique abstrait (abrégé aussi AST pour Abstract Syntax Tree en anglais) et contiendra les séquences de code entrées par l'utilisateur. L'intérêt d'utiliser un arbre n-aire comme structure de données est multiple. On peut facilement faire de la récursivité, ce qui va être utile pour la génération. Et pour des questions d'optimisation de mémoire, on va stocker des entiers comme identifiants de ces séquences de code. Ce qui est beaucoup mieux que de stocker du texte (zone mémoire de char).
Nous allons faire propre. On va écrire un autre programme C chargé de faire la génération de code. On va toucher un peu au fichier de déclaration simple.h :
⚠ (:source lang=c header="simple.h" linenum:)
#include <stdlib.h>
#include <stdio.h>
#include <stdbool.h>
#include <string.h>
#include <glib.h>
#include "syntaxe_simple.tab.h"
int yylex(void);
void yyerror(char*);
extern unsigned int lineno;
extern bool error_lexical;
<:vspace>
/* Le flux de notre fichier de sortie final */
FILE* fichier;
<:vspace>
/* Definition des methodes de generation de code C */
extern void debut_code(void);
extern void genere_code(GNode*);
extern void fin_code(void);
<:vspace>
/* Definition des sequences de code possibles pour l'AST (Arbre Syntaxique). Chaque sequence de code est associe a un numerique. */
#define CODE_VIDE 0
#define SEQUENCE 1
#define VARIABLE 2
#define AFFECTATION 3
#define AFFECTATIONE 4
#define AFFECTATIONB 5
#define AFFICHAGEE 6
#define AFFICHAGEB 7
#define ENTIER 8
#define ADDITION 9
#define SOUSTRACTION 10
#define MULTIPLICATION 11
#define DIVISION 12
#define ET 13
#define OU 14
#define NON 15
#define VRAI 16
#define FAUX 17
#define EXPR_PAR 18
(:sourcend:)
Nous allons modifier principalement le code l'analyseur syntaxique pour lui demander de traduire les instructions du langage Simple en C et de les écrire dans un fichier :
⚠ (:source lang=c header="syntaxe_simple.y" linenum:)
%{
<:vspace>
#include "simple.h"
bool error_syntaxical=false;
bool error_semantical=false;
/* Notre table de hachage */
GHashTable* table_variable;
<:vspace>
/* Notre structure Variable qui a comme membre le type et un pointeur generique vers la valeur */
typedef struct Variable Variable;
<:vspace>
struct Variable{
char* type;
GNode* value;
};
<:vspace>
%}
<:vspace>
/* L'union dans Bison est utilisee pour typer nos tokens ainsi que nos non terminaux. Ici nous avons declare une union avec trois types : nombre de type int, texte de type pointeur de char (char*) et noeud d'arbre syntaxique (AST) de type (GNode*) */
<:vspace>
%union {
long nombre;
char* texte;
GNode* noeud;
}
<:vspace>
/* Nous avons ici les operateurs, ils sont definis par leur ordre de priorite. Si je definis par exemple la multiplication en premier et l'addition apres, le + l'emportera alors sur le * dans le langage. Les parenthese sont prioritaires avec %right */
<:vspace>
%left TOK_PLUS TOK_MOINS /* +- */
%left TOK_MUL TOK_DIV /* /* */
%left TOK_ET TOK_OU TOK_NON /* et ou non */
%right TOK_PARG TOK_PARD /* () */
<:vspace>
/* Nous avons la liste de nos expressions (les non terminaux). Nous les typons tous en noeud de l'arbre syntaxique (GNode*) */
<:vspace>
%type<noeud> code
%type<noeud> instruction
%type<noeud> variable_arithmetique
%type<noeud> variable_booleenne
%type<noeud> affectation
%type<noeud> affichage
%type<noeud> expression_arithmetique
%type<noeud> expression_booleenne
%type<noeud> addition
%type<noeud> soustraction
%type<noeud> multiplication
%type<noeud> division
<:vspace>
/* Nous avons la liste de nos tokens (les terminaux de notre grammaire) */
<:vspace>
%token<nombre> TOK_NOMBRE
%token TOK_VRAI /* true */
%token TOK_FAUX /* false */
%token TOK_AFFECT /* = */
%token TOK_FINSTR /* ; */
%token TOK_AFFICHER /* afficher */
%token<texte> TOK_VARB /* variable booleenne */
%token<texte> TOK_VARE /* variable arithmetique */
<:vspace>
%%
<:vspace>
/* Nous definissons toutes les regles grammaticales de chaque non terminal de notre langage. Par defaut on commence a definir l'axiome, c'est a dire ici le non terminal code. Si nous le definissons pas en premier nous devons le specifier en option dans Bison avec %start */
<:vspace>
entree: code{
genere_code($1);
g_node_destroy($1);
};
<:vspace>
code: %empty{$$=g_node_new((gpointer)CODE_VIDE);}
|
code instruction{
printf("Resultat : C'est une instruction valide !\n\n");
$$=g_node_new((gpointer)SEQUENCE);
g_node_append($$,$1);
g_node_append($$,$2);
}
|
code error{
fprintf(stderr,"\tERREUR : Erreur de syntaxe a la ligne %d.\n",lineno);
error_syntaxical=true;
};
<:vspace>
instruction: affectation{
printf("\tInstruction type Affectation\n");
$$=$1;
}
|
affichage{
printf("\tInstruction type Affichage\n");
$$=$1;
};
<:vspace>
variable_arithmetique: TOK_VARE{
printf("\t\t\tVariable entiere %s\n",$1);
$$=g_node_new((gpointer)VARIABLE);
g_node_append_data($$,strdup($1));
};
<:vspace>
variable_booleenne: TOK_VARB{
printf("\t\t\tVariable booleenne %s\n",$1);
$$=g_node_new((gpointer)VARIABLE);
g_node_append_data($$,strdup($1));
};
<:vspace>
affectation: variable_arithmetique TOK_AFFECT expression_arithmetique TOK_FINSTR{
/* $1 est la valeur du premier non terminal. Ici c'est la valeur du non terminal variable. $3 est la valeur du 2nd non terminal. */
printf("\t\tAffectation sur la variable\n");
Variable* var=g_hash_table_lookup(table_variable,(char*)g_node_nth_child($1,0)->data);
if(var==NULL){
/* On cree une Variable et on lui affecte le type que nous connaissons et la valeur */
var=malloc(sizeof(Variable));
if(var!=NULL){
var->type=strdup("entier");
var->value=$3;
/* On l'insere dans la table de hachage (cle: <nom_variable> / valeur: <(type,valeur)>) */
if(g_hash_table_insert(table_variable,g_node_nth_child($1,0)->data,var)){
$$=g_node_new((gpointer)AFFECTATIONE);
g_node_append($$,$1);
g_node_append($$,$3);
}else{
fprintf(stderr,"ERREUR - PROBLEME CREATION VARIABLE !\n");
exit(-1);
}
}else{
fprintf(stderr,"ERREUR - PROBLEME ALLOCATION MEMOIRE VARIABLE !\n");
exit(-1);
}
}else{
$$=g_node_new((gpointer)AFFECTATION);
g_node_append_data($$,$1);
g_node_append($$,$3);
}
}
|
variable_booleenne TOK_AFFECT expression_booleenne TOK_FINSTR{
/* $1 est la valeur du premier non terminal. Ici c'est la valeur du non terminal variable. $3 est la valeur du 2nd non terminal. */
printf("\t\tAffectation sur la variable\n");
Variable* var=g_hash_table_lookup(table_variable,(char*)g_node_nth_child($1,0)->data);
if(var==NULL){
/* On cree une Variable et on lui affecte le type que nous connaissons et la valeur */
var=malloc(sizeof(Variable));
if(var!=NULL){
var->type=strdup("booleen");
var->value=$3;
/* On l'insere dans la table de hachage (cle: <nom_variable> / valeur: <(type,valeur)>) */
if(g_hash_table_insert(table_variable,g_node_nth_child($1,0)->data,var)){
$$=g_node_new((gpointer)AFFECTATIONE);
g_node_append($$,$1);
g_node_append($$,$3);
}else{
fprintf(stderr,"ERREUR - PROBLEME CREATION VARIABLE !\n");
exit(-1);
}
}else{
fprintf(stderr,"ERREUR - PROBLEME ALLOCATION MEMOIRE VARIABLE !\n");
exit(-1);
}
}else{
$$=g_node_new((gpointer)AFFECTATION);
g_node_append($$,$1);
g_node_append($$,$3);
}
};
<:vspace>
affichage: TOK_AFFICHER expression_arithmetique TOK_FINSTR{
printf("\t\tAffichage de la valeur de l'expression arithmetique\n");
$$=g_node_new((gpointer)AFFICHAGEE);
g_node_append($$,$2);
}
|
TOK_AFFICHER expression_booleenne TOK_FINSTR{
printf("\t\tAffichage de la valeur de l'expression booleenne\n");
$$=g_node_new((gpointer)AFFICHAGEB);
g_node_append($$,$2);
};
<:vspace>
<:vspace>
expression_arithmetique: TOK_NOMBRE{
printf("\t\t\tNombre : %ld\n",$1);
/* Comme le token TOK_NOMBRE est de type entier et que on a type expression_arithmetique comme du texte, il nous faut convertir la valeur en texte. */
int length=snprintf(NULL,0,"%ld",$1);
char* str=malloc(length+1);
snprintf(str,length+1,"%ld",$1);
$$=g_node_new((gpointer)ENTIER);
g_node_append_data($$,strdup(str));
free(str);
}
|
variable_arithmetique{
/* On recupere un pointeur vers la structure Variable */
Variable* var=g_hash_table_lookup(table_variable,(char*)g_node_nth_child($1,0)->data);
/* Si on a trouve un pointeur valable */
if(var!=NULL){
/* On verifie que le type est bien un entier - Inutile car impose a l'analyse syntaxique */
if(strcmp(var->type,"entier")==0){
$$=$1;
}else{
fprintf(stderr,"\tERREUR : Erreur de semantique a la ligne %d. Type incompatible (entier attendu - valeur : %s) !\n",lineno,(char*)g_node_nth_child($1,0)->data);
error_semantical=true;
}
/* Sinon on conclue que la variable n'a jamais ete declaree car absente de la table */
}else{
fprintf(stderr,"\tERREUR : Erreur de semantique a la ligne %d. Variable %s jamais declaree !\n",lineno,(char*)g_node_nth_child($1,0)->data);
error_semantical=true;
}
}
|
addition{
$$=$1;
}
|
soustraction{
$$=$1;
}
|
multiplication{
$$=$1;
}
|
division{
$$=$1;
}
|
TOK_PARG expression_arithmetique TOK_PARD{
printf("\t\t\tC'est une expression artihmetique entre parentheses\n");
$$=g_node_new((gpointer)EXPR_PAR);
g_node_append($$,$2);
};
<:vspace>
expression_booleenne: TOK_VRAI{
printf("\t\t\tBooleen Vrai\n");
$$=g_node_new((gpointer)VRAI);
}
|
TOK_FAUX{
printf("\t\t\tBooleen Faux\n");
$$=g_node_new((gpointer)FAUX);
}
|
variable_booleenne{
/* On recupere un pointeur vers la structure Variable */
Variable* var=g_hash_table_lookup(table_variable,(char*)g_node_nth_child($1,0)->data);
/* Si on a trouve un pointeur valable */
if(var!=NULL){
/* On verifie que le type est bien un entier - Inutile car impose a l'analyse syntaxique */
if(strcmp(var->type,"booleen")==0){
$$=$1;
}else{
fprintf(stderr,"\tERREUR : Erreur de semantique a la ligne %d. Type incompatible (booleen attendu - valeur : %s) !\n",lineno,(char*)g_node_nth_child($1,0)->data);
error_semantical=true;
}
/* Sinon on conclue que la variable n'a jamais ete declaree car absente de la table */
}else{
fprintf(stderr,"\tERREUR : Erreur de semantique a la ligne %d. Variable %s jamais declaree !\n",lineno,(char*)g_node_nth_child($1,0)->data);
error_semantical=true;
}
}
|
TOK_NON expression_booleenne{
printf("\t\t\tOperation booleenne Non\n");
$$=g_node_new((gpointer)NON);
g_node_append($$,$2);
}
|
expression_booleenne TOK_ET expression_booleenne{
printf("\t\t\tOperation booleenne Et\n");
$$=g_node_new((gpointer)ET);
g_node_append($$,$1);
g_node_append($$,$3);
}
|
expression_booleenne TOK_OU expression_booleenne{
printf("\t\t\tOperation booleenne Ou\n");
$$=g_node_new((gpointer)OU);
g_node_append($$,$1);
g_node_append($$,$3);
}
|
TOK_PARG expression_booleenne TOK_PARD{
printf("\t\t\tC'est une expression booleenne entre parentheses\n");
$$=g_node_new((gpointer)EXPR_PAR);
g_node_append($$,$2);
};
<:vspace>
addition: expression_arithmetique TOK_PLUS expression_arithmetique{
printf("\t\t\tAddition\n");
$$=g_node_new((gpointer)ADDITION);
g_node_append($$,$1);
g_node_append($$,$3);
};
<:vspace>
soustraction: expression_arithmetique TOK_MOINS expression_arithmetique{
printf("\t\t\tSoustraction\n");
$$=g_node_new((gpointer)SOUSTRACTION);
g_node_append($$,$1);
g_node_append($$,$3);
};
<:vspace>
multiplication: expression_arithmetique TOK_MUL expression_arithmetique{
printf("\t\t\tMultiplication\n");
$$=g_node_new((gpointer)MULTIPLICATION);
g_node_append($$,$1);
g_node_append($$,$3);
};
<:vspace>
division: expression_arithmetique TOK_DIV expression_arithmetique{
printf("\t\t\tDivision\n");
$$=g_node_new((gpointer)DIVISION);
g_node_append($$,$1);
g_node_append($$,$3);
};
<:vspace>
%%
<:vspace>
/* Dans la fonction main on appelle bien la routine yyparse() qui sera genere par Bison. Cette routine appellera yylex() de notre analyseur lexical. */
<:vspace>
int main(int argc, char** argv){
/* recuperation du nom de fichier d'entree (langage Simple) donne en parametre */
char* fichier_entree=strdup(argv[1]);
/* ouverture du fichier en lecture dans le flux d'entree stdin */
stdin=fopen(fichier_entree,"r");
/* creation fichier de sortie (langage C) */
char* fichier_sortie=strdup(argv[1]);
/* remplace l'extension par .c */
strcpy(rindex(fichier_sortie, '.'), ".c");
/* ouvre le fichier cree en ecriture */
fichier=fopen(fichier_sortie, "w");
/* Creation de la table de hachage */
table_variable=g_hash_table_new_full(g_str_hash,g_str_equal,free,free);
printf("Debut de l'analyse syntaxique :\n");
debut_code();
yyparse();
fin_code();
printf("Fin de l'analyse !\n");
printf("Resultat :\n");
if(error_lexical){
printf("\t-- Echec : Certains lexemes ne font pas partie du lexique du langage ! --\n");
printf("\t-- Echec a l'analyse lexicale --\n");
}
else{
printf("\t-- Succes a l'analyse lexicale ! --\n");
}
if(error_syntaxical){
printf("\t-- Echec : Certaines phrases sont syntaxiquement incorrectes ! --\n");
printf("\t-- Echec a l'analyse syntaxique --\n");
}
else{
printf("\t-- Succes a l'analyse syntaxique ! --\n");
if(error_semantical){
printf("\t-- Echec : Certaines phrases sont semantiquement incorrectes ! --\n");
printf("\t-- Echec a l'analyse semantique --\n");
}
else{
printf("\t-- Succes a l'analyse semantique ! --\n");
}
}
/* Suppression du fichier genere si erreurs analyse */
if(error_lexical||error_syntaxical||error_semantical){
remove(fichier_sortie);
printf("ECHEC GENERATION CODE !\n");
}
else{
printf("Le fichier \"%s\" a ete genere !\n",fichier_sortie);
}
/* Fermeture des flux */
fclose(fichier);
fclose(stdin);
/* Liberation memoire */
free(fichier_entree);
free(fichier_sortie);
g_hash_table_destroy(table_variable);
return EXIT_SUCCESS;
}
<:vspace>
void yyerror(char *s) {
fprintf(stderr, "Erreur de syntaxe a la ligne %d: %s\n", lineno, s);
}
(:sourcend:)
Le programme de génération de code C :
⚠ (:source lang=c header="generation_code.c" linenum:)
#include "simple.h"
<:vspace>
void debut_code(){
fprintf(fichier, "/* FICHIER GENERE PAR LE COMPILATEUR SIMPLE */\n\n");
fprintf(fichier, "#include<stdlib.h>\n#include<stdbool.h>\n#include<stdio.h>\n\n");
fprintf(fichier, "int main(void){\n");
}
<:vspace>
void fin_code(){
fprintf(fichier, "\treturn EXIT_SUCCESS;\n");
fprintf(fichier, "}\n");
}
<:vspace>
void genere_code(GNode* ast){
if(ast){
switch((long)ast->data){
case SEQUENCE:
genere_code(g_node_nth_child(ast,0));
genere_code(g_node_nth_child(ast,1));
break;
case VARIABLE:
fprintf(fichier,"%s",(char*)g_node_nth_child(ast,0)->data);
break;
case AFFECTATIONE:
fprintf(fichier,"\tlong ");
genere_code(g_node_nth_child(ast,0));
fprintf(fichier,"=");
genere_code(g_node_nth_child(ast,1));
fprintf(fichier,";\n");
break;
case AFFECTATIONB:
fprintf(fichier,"\tbool ");
genere_code(g_node_nth_child(ast,0));
fprintf(fichier,"=");
genere_code(g_node_nth_child(ast,1));
fprintf(fichier,";\n");
break;
case AFFECTATION:
fprintf(fichier,"\t");
genere_code(g_node_nth_child(ast,0));
fprintf(fichier,"=");
genere_code(g_node_nth_child(ast,1));
fprintf(fichier,";\n");
break;
case AFFICHAGEE:
fprintf(fichier,"\tprintf(\"%%ld\\n\",");
genere_code(g_node_nth_child(ast,0));
fprintf(fichier,");\n");
break;
case AFFICHAGEB:
fprintf(fichier,"\tprintf(\"%%s\\n\",");
genere_code(g_node_nth_child(ast,0));
fprintf(fichier,"?\"vrai\":\"faux\");\n");
break;
case ENTIER:
fprintf(fichier,"%s",(char*)g_node_nth_child(ast,0)->data);
break;
case ADDITION:
genere_code(g_node_nth_child(ast,0));
fprintf(fichier,"+");
genere_code(g_node_nth_child(ast,1));
break;
case SOUSTRACTION:
genere_code(g_node_nth_child(ast,0));
fprintf(fichier,"-");
genere_code(g_node_nth_child(ast,1));
break;
case MULTIPLICATION:
genere_code(g_node_nth_child(ast,0));
fprintf(fichier,"*");
genere_code(g_node_nth_child(ast,1));
break;
case DIVISION:
genere_code(g_node_nth_child(ast,0));
fprintf(fichier,"/");
genere_code(g_node_nth_child(ast,1));
break;
case VRAI:
fprintf(fichier,"true");
break;
case FAUX:
fprintf(fichier,"false");
break;
case ET:
genere_code(g_node_nth_child(ast,0));
fprintf(fichier,"&&");
genere_code(g_node_nth_child(ast,1));
break;
case OU:
genere_code(g_node_nth_child(ast,0));
fprintf(fichier,"||");
genere_code(g_node_nth_child(ast,1));
break;
case NON:
fprintf(fichier,"!");
genere_code(g_node_nth_child(ast,0));
break;
case EXPR_PAR:
fprintf(fichier,"(");
genere_code(g_node_nth_child(ast,0));
fprintf(fichier,")");
break;
}
}
}
(:sourcend:)
On compile :
⚠ (:source lang=bash:)
flex -o lexique_simple.c lexique_simple.lex
bison -d syntaxe_simple.y
gcc lexique_simple.c syntaxe_simple.tab.c generation_code.c `pkg-config --cflags --libs glib-2.0` -o simple
(:sourcend:)
Après compilation, on teste avec ce programme :
⚠ (:source lang=text header="programme.simple" linenum:)
entier = 2;
afficher (3 * entier)+4;
booleen = vrai et non faux;
booleen = booleen et vrai;
afficher booleen;
booleen = non booleen;
afficher booleen;
(:sourcend:)
⚠ (:source lang=bash:)
./simple programme.simple
(:sourcend:)
Si vous avez regardé le code Bison, dans la fonction main, le programme prend le fichier en argument, donc faîtes attention de ne pas ajouter le '<' dans la commande shell, tel que c'est écrit au-dessus. Cela semble stupide de le dire mais je me suis quand même fait avoir dans mon propre piège. Je ne voudrais pas que vous ayez l'air aussi stupide que moi. On voit à l'emplacement du programme un fichier "programme.c" qui a été généré :
⚠ (:source lang=c header="programme.c": linenum:)
/* FICHIER GENERE PAR LE COMPILATEUR SIMPLE */
<:vspace>
#include<stdlib.h>
#include<stdbool.h>
#include<stdio.h>
<:vspace>
int main(void){
int entier=2;
printf("%i\n",(3*entier)+4);
bool booleen=true&&!false;
booleen=booleen&&true;
printf("%s\n",booleen?"vrai":"faux");
booleen=!booleen;
printf("%s\n",booleen?"vrai":"faux");
return EXIT_SUCCESS;
}
(:sourcend:)
On le compile avec gcc et on l'exécute :
⚠ (:source lang=bash:)
gcc -o programme programme.c
./programme
(:sourcend:)
La sortie du programme donne bien :
⚠ (:source lang=text:)
10
vrai
faux
(:sourcend:)
Et voilà ! Elle est pas belle la vie ? Nous avons désormais fini le compilateur. Je vous propose à partir de maintenant que des évolutions sur ce langage Simple. La prochaine évolution est l'ajout des opérateurs de comparaison. A bientôt pour l'évolution 1.
<< Analyse sémantique | Arbre syntaxique abstrait et Génération de code | Évolution 1 : Opérateurs de comparaison >>
Thomas - (CC BY-NC-SA 3.0 FR)