Créer son propre langage de programmation de A à Z
<< Analyseur syntaxique | Analyse sémantique | Arbre syntaxique et Génération de code >>
Nous allons utiliser une structure de données pour vérifier que les variables ont bien été déclarées et qu'elles possèdent une valeur pour qu'elles soient utilisées dans des expressions. On vérifiera aussi le typage des variables. Bien que l'analyse syntaxique le fait, j'ai quand même trouvé utile de faire la vérification à l'analyse sémantique. Mon code vous permettra facilement de faire évoluer le langage Simple si un jour vous ne voulez plus être imposé par le renommage des variables. La structure de données adoptée, car idéale me semble-t-il, est la table de hachage. Nous allons utiliser pour cela la librairie GLib. Cela nous assure une certaine fiabilité et surtout nous évite de coder une table de hachage. La table aura pour clés les noms des variables créées et comme valeur associée une structure que j'ai créée. La structure a comme membre le nom du type de la variable (char*) et un pointeur générique vers la valeur de la variable (void*). Il n'existe pas de générateur d'analyseur sémantique et nous ne touchons pas à l'analyseur lexical. Les tests de sémantique se feront dans le même temps que l'analyse syntaxique. Nous allons donc modifier notre code Bison.
Voici le joli code :
⚠ (:source lang=c header="syntaxe_simple.y" linenum:)
%{
<:vspace>
#include "simple.h"
#include <string.h>
#include <glib.h>
bool error_syntaxical=false;
bool error_semantical=false;
extern unsigned int lineno;
extern bool error_lexical;
/* Notre table de hachage */
GHashTable* table_variable;
<:vspace>
/* Notre structure Variable qui a comme membre le type et un pointeur generique vers la valeur */
typedef struct Variable Variable;
<:vspace>
struct Variable{
char* type;
void* value;
};
<:vspace>
%}
<:vspace>
/* L'union dans Bison est utilisee pour typer nos tokens ainsi que nos non terminaux. Ici nous avons declare une union avec deux types : nombre de type int et texte de type pointeur de char (char*) */
<:vspace>
%union {
long nombre;
char* texte;
}
<:vspace>
/* Nous avons ici les operateurs, ils sont definis par leur ordre de priorite. Si je definis par exemple la multiplication en premier et l'addition apres, le + l'emportera alors sur le * dans le langage. Les parenthese sont prioritaires avec %right */
<:vspace>
%left TOK_PLUS TOK_MOINS /* +- */
%left TOK_MUL TOK_DIV /* /* */
%left TOK_ET TOK_OU TOK_NON /* et ou non */
%right TOK_PARG TOK_PARD /* () */
<:vspace>
/* Nous avons la liste de nos expressions (les non terminaux). Nous les typons tous en texte (pointeur vers une zone de char). */
<:vspace>
%type<texte> code
%type<texte> instruction
%type<texte> variable_arithmetique
%type<texte> variable_booleenne
%type<texte> affectation
%type<texte> affichage
%type<texte> expression_arithmetique
%type<texte> expression_booleenne
%type<texte> addition
%type<texte> soustraction
%type<texte> multiplication
%type<texte> division
<:vspace>
/* Nous avons la liste de nos tokens (les terminaux de notre grammaire) */
<:vspace>
%token<nombre> TOK_NOMBRE
%token TOK_VRAI /* true */
%token TOK_FAUX /* false */
%token TOK_AFFECT /* = */
%token TOK_FINSTR /* ; */
%token TOK_AFFICHER /* afficher */
%token<texte> TOK_VARB /* variable booleenne */
%token<texte> TOK_VARE /* variable arithmetique */
<:vspace>
%%
<:vspace>
/* Nous definissons toutes les regles grammaticales de chaque non terminal de notre langage. Par defaut on commence a definir l'axiome, c'est a dire ici le non terminal code. Si nous le definissons pas en premier nous devons le specifier en option dans Bison avec %start */
<:vspace>
code: %empty{}
|
code instruction{
printf("Resultat : C'est une instruction valide !\n\n");
}
|
code error{
fprintf(stderr,"\tERREUR : Erreur de syntaxe a la ligne %d.\n",lineno);
error_syntaxical=true;
};
<:vspace>
instruction: affectation{
printf("\tInstruction type Affectation\n");
}
|
affichage{
printf("\tInstruction type Affichage\n");
};
<:vspace>
variable_arithmetique: TOK_VARE{
printf("\t\t\tVariable entiere %s\n",$1);
$$=strdup($1);
};
<:vspace>
variable_booleenne: TOK_VARB{
printf("\t\t\tVariable booleenne %s\n",$1);
$$=strdup($1);
};
<:vspace>
affectation: variable_arithmetique TOK_AFFECT expression_arithmetique TOK_FINSTR{
/* $1 est la valeur du premier non terminal. Ici c'est la valeur du non terminal variable. $3 est la valeur du 2nd non terminal. */
printf("\t\tAffectation sur la variable %s\n",$1);
/* On cree une Variable et on lui affecte le type que nous connaissons et la valeur */
Variable* var=malloc(sizeof(Variable));
if(var!=NULL){
var->type=strdup("entier");
var->value=strdup($3);
/* On l'insere dans la table de hachage (cle: <nom_variable> / valeur: <(type,valeur)>) */
if(!g_hash_table_insert(table_variable,strdup($1),var)){
fprintf(stderr,"ERREUR - PROBLEME CREATION VARIABLE !\n");
exit(-1);
}
}else{
fprintf(stderr,"ERREUR - PROBLEME ALLOCATION MEMOIRE VARIABLE !\n");
exit(-1);
}
}
|
variable_booleenne TOK_AFFECT expression_booleenne TOK_FINSTR{
printf("\t\tAffectation sur la variable %s\n",$1);
Variable* var=malloc(sizeof(Variable));
if(var!=NULL){
var->type=strdup("booleen");
var->value=strdup($3);
if(!g_hash_table_insert(table_variable,strdup($1),var)){
fprintf(stderr,"ERREUR - PROBLEME CREATION VARIABLE !\n");
exit(-1);
}
}else{
fprintf(stderr,"ERREUR - PROBLEME ALLOCATION MEMOIRE VARIABLE !\n");
exit(-1);
}
};
<:vspace>
affichage: TOK_AFFICHER expression_arithmetique TOK_FINSTR{
printf("\t\tAffichage de la valeur de l'expression arithmetique %s\n",$2);
}
|
TOK_AFFICHER expression_booleenne TOK_FINSTR{
printf("\t\tAffichage de la valeur de l'expression booleenne %s\n",$2);
};
<:vspace>
expression_arithmetique: TOK_NOMBRE{
printf("\t\t\tNombre : %ld\n",$1);
/* Comme le token TOK_NOMBRE est de type entier et que on a type expression_arithmetique comme du texte, il nous faut convertir la valeur en texte. */
int length=snprintf(NULL,0,"%ld",$1);
char* str=malloc(length+1);
snprintf(str,length+1,"%ld",$1);
$$=strdup(str);
free(str);
}
|
variable_arithmetique{
/* On recupere un pointeur vers la structure Variable */
Variable* var=g_hash_table_lookup(table_variable,$1);
/* Si on a trouve un pointeur valable */
if(var!=NULL){
/* On verifie que le type est bien un entier - Inutile car impose a l'analyse syntaxique */
if(strcmp(var->type,"entier")==0){
$$=strdup($1);
}else{
fprintf(stderr,"\tERREUR : Erreur de semantique a la ligne %d. Type incompatible (entier attendu - valeur : %s) !\n",lineno,$1,(char*)var->value);
error_semantical=true;
}
/* Sinon on conclue que la variable n'a jamais ete declaree car absente de la table */
}else{
fprintf(stderr,"\tERREUR : Erreur de semantique a la ligne %d. Variable %s jamais declaree !\n",lineno,$1);
error_semantical=true;
}
}
|
addition{
}
|
soustraction{
}
|
multiplication{
}
|
division{
}
|
TOK_PARG expression_arithmetique TOK_PARD{
printf("\t\t\tC'est une expression artihmetique entre parentheses\n");
$$=strcat(strcat(strdup("("),strdup($2)),strdup(")"));
};
<:vspace>
expression_booleenne: TOK_VRAI{
printf("\t\t\tBooleen Vrai\n");
$$=strdup("vrai");
}
|
TOK_FAUX{
printf("\t\t\tBooleen Faux\n");
$$=strdup("faux");
}
|
variable_booleenne{
/* On recupere un pointeur vers la structure Variable */
Variable* var=g_hash_table_lookup(table_variable,$1);
/* Si on a trouve un pointeur valable */
if(var!=NULL){
/* On verifie que le type est bien un entier - Inutile car impose a l'analyse syntaxique */
if(strcmp(var->type,"booleen")==0){
$$=strdup($1);
}else{
fprintf(stderr,"\tERREUR : Erreur de semantique a la ligne %d. Type incompatible (booleen attendu - valeur : %s) !\n",lineno,$1,(char*)var->value);
error_semantical=true;
}
/* Sinon on conclue que la variable n'a jamais ete declaree car absente de la table */
}else{
fprintf(stderr,"\tERREUR : Erreur de semantique a la ligne %d. Variable %s jamais declaree !\n",lineno,$1);
error_semantical=true;
}
}
|
TOK_NON expression_booleenne{
printf("\t\t\tOperation booleenne Non\n");
$$=strcat(strdup("non "), strndup($2,sizeof(char)*strlen($2)));
}
|
expression_booleenne TOK_ET expression_booleenne{
printf("\t\t\tOperation booleenne Et\n");
$$=strcat(strcat(strdup($1),strdup(" et ")),strdup($3));
}
|
expression_booleenne TOK_OU expression_booleenne{
printf("\t\t\tOperation booleenne Ou\n");
$$=strcat(strcat(strdup($1),strdup(" ou ")),strdup($3));
}
|
TOK_PARG expression_booleenne TOK_PARD{
printf("\t\t\tC'est une expression booleenne entre parentheses\n");
$$=strcat(strcat(strdup("("),strdup($2)),strdup(")"));
};
<:vspace>
addition: expression_arithmetique TOK_PLUS expression_arithmetique{printf("\t\t\tAddition\n");$$=strcat(strcat(strdup($1),strdup("+")),strdup($3));};
soustraction: expression_arithmetique TOK_MOINS expression_arithmetique{printf("\t\t\tSoustraction\n");$$=strcat(strcat(strdup($1),strdup("-")),strdup($3));};
multiplication: expression_arithmetique TOK_MUL expression_arithmetique{printf("\t\t\tMultiplication\n");$$=strcat(strcat(strdup($1),strdup("*")),strdup($3));};
division: expression_arithmetique TOK_DIV expression_arithmetique{printf("\t\t\tDivision\n");$$=strcat(strcat(strdup($1),strdup("/")),strdup($3));};
<:vspace>
%%
<:vspace>
/* Dans la fonction main on appelle bien la routine yyparse() qui sera genere par Bison. Cette routine appellera yylex() de notre analyseur lexical. */
<:vspace>
int main(void){
/* Creation de la table de hachage */
table_variable=g_hash_table_new_free(g_str_hash,g_str_equal,free,free);
printf("Debut de l'analyse syntaxique :\n");
yyparse();
printf("Fin de l'analyse !\n");
printf("Resultat :\n");
if(error_lexical){
printf("\t-- Echec : Certains lexemes ne font pas partie du lexique du langage ! --\n");
printf("\t-- Echec a l'analyse lexicale --\n");
}
else{
printf("\t-- Succes a l'analyse lexicale ! --\n");
}
if(error_syntaxical){
printf("\t-- Echec : Certaines phrases sont syntaxiquement incorrectes ! --\n");
printf("\t-- Echec a l'analyse syntaxique --\n");
}
else{
printf("\t-- Succes a l'analyse syntaxique ! --\n");
if(error_semantical){
printf("\t-- Echec : Certaines phrases sont semantiquement incorrectes ! --\n");
printf("\t-- Echec a l'analyse semantique --\n");
}
else{
printf("\t-- Succes a l'analyse semantique ! --\n");
}
}
/* Liberation memoire : suppression de la table */
g_hash_table_destroy(table_variable);
return EXIT_SUCCESS;
}
void yyerror(char *s) {
fprintf(stderr, "Erreur de syntaxe a la ligne %d: %s\n", lineno, s);
}
(:sourcend:)
Compilons tout les fichiers :
⚠ (:source lang=bash:)
flex -o lexique_simple.c lexique_simple.lex
bison -d syntaxe_simple.y
gcc lexique_simple.c syntaxe_simple.tab.c `pkg-config --cflags --libs glib-2.0` -o simple
(:sourcend:)
Testons avec un programme semantiquement incorrect avec des variables non declarées :
⚠ (:source lang=text header="programme_faux.simple" linenum:)
afficher (3 * entier)+4;
entier = 2;
booleen = booleen et vrai;
booleen = vrai et non faux;
afficher booleen;
booleen = non booleen;
afficher booleen;
(:sourcend:)
Résultat :
⚠ (:source lang=text:)
Debut de l'analyse syntaxique :
Nombre : 3
Variable entiere entier
ERREUR : Erreur de semantique a la ligne 1. Variable entier jamais declaree !
Multiplication
C'est une expression artihmetique entre parentheses
Nombre : 4
Addition
Affichage de la valeur de l'expression (3*entier)+4
Instruction type Affichage
Resultat : C'est une instruction valide !
<:vspace>
Variable entiere entier
Nombre : 2
Affectation sur la variable entier
Instruction type Affectation
Resultat : C'est une instruction valide !
<:vspace>
Variable booleenne booleen
Variable booleenne booleen
ERREUR : Erreur de semantique a la ligne 3. Variable booleen jamais declaree !
Booleen Vrai
Operation booleenne Et
Affectation sur la variable booleen
Instruction type Affectation
Resultat : C'est une instruction valide !
<:vspace>
Variable booleenne booleen
Booleen Vrai
Booleen Faux
Operation booleenne Non
Operation booleenne Et
Affectation sur la variable booleen
Instruction type Affectation
Resultat : C'est une instruction valide !
<:vspace>
Variable booleenne booleen
Affichage de la valeur de l'expression booleen
Instruction type Affichage
Resultat : C'est une instruction valide !
<:vspace>
Variable booleenne booleen
Variable booleenne booleen
Operation booleenne Non
Affectation sur la variable booleen
Instruction type Affectation
Resultat : C'est une instruction valide !
<:vspace>
Variable booleenne booleen
Affichage de la valeur de l'expression booleen
Instruction type Affichage
Resultat : C'est une instruction valide !
<:vspace>
Fin de l'analyse !
Resultat :
-- Succes a l'analyse lexicale ! --
-- Succes a l'analyse syntaxique ! --
-- Echec : Certaines phrases sont semantiquement incorrectes ! --
-- Echec a l'analyse semantique --
(:sourcend:)
L'analyse sémantique a bien été mise en échec. Reprenons le programme testé et remettons les instructions dans le bon ordre pour avoir un sens logique :
⚠ (:source lang=text header="programme.simple" linenum:)
entier = 2;
afficher (3 * entier)+4;
booleen = vrai et non faux;
booleen = booleen et vrai;
afficher booleen;
booleen = non booleen;
afficher booleen;
(:sourcend:)
Résultat :
⚠ (:source lang=text:)
Debut de l'analyse syntaxique :
Variable entiere entier
Nombre : 2
Affectation sur la variable entier
Instruction type Affectation
Resultat : C'est une instruction valide !
<:vspace>
Nombre : 3
Variable entiere entier
Multiplication
C'est une expression artihmetique entre parentheses
Nombre : 4
Addition
Affichage de la valeur de l'expression (3*entier)+4
Instruction type Affichage
Resultat : C'est une instruction valide !
<:vspace>
Variable booleenne booleen
Booleen Vrai
Booleen Faux
Operation booleenne Non
Operation booleenne Et
Affectation sur la variable booleen
Instruction type Affectation
Resultat : C'est une instruction valide !
<:vspace>
Variable booleenne booleen
Variable booleenne booleen
Booleen Vrai
Operation booleenne Et
Affectation sur la variable booleen
Instruction type Affectation
Resultat : C'est une instruction valide !
<:vspace>
Variable booleenne booleen
Affichage de la valeur de l'expression booleen
Instruction type Affichage
Resultat : C'est une instruction valide !
<:vspace>
Variable booleenne booleen
Variable booleenne booleen
Operation booleenne Non
Affectation sur la variable booleen
Instruction type Affectation
Resultat : C'est une instruction valide !
<:vspace>
Variable booleenne booleen
Affichage de la valeur de l'expression booleen
Instruction type Affichage
Resultat : C'est une instruction valide !
<:vspace>
Fin de l'analyse !
Resultat :
-- Succes a l'analyse lexicale ! --
-- Succes a l'analyse syntaxique ! --
-- Succes a l'analyse semantique ! --
(:sourcend:)
Maintenant que nous avons fait les 3 analyses, nous allons pouvoir passer à la dernière étape de la compilation : la génération du code. Je vous dis donc à tout de suite au prochain chapitre.
<< Analyseur syntaxique | Analyse sémantique | Arbre syntaxique et Génération de code >>
Thomas - (CC BY-NC-SA 3.0 FR)