El análisis semántico utiliza como entrada el árbol sintáctico detectado por el análisis sintáctico para comprobar restricciones de tipo y otras limitaciones semánticas y preparar la generación de código.
En compiladores de un solo paso, las llamadas a las rutinas semánticas se realizan directamente desde el analizador sintáctico y son dichas rutinas las que llaman al generador de código. El instrumento más utilizado para conseguirlo es la gramática de atributos.
En compiladores de dos o más pasos, el análisis semántico se realiza independientemente de la generación de código, pasándose información a través de un archivo intermedio, que normalmente contiene información sobre el árbol sintáctico en forma linealizada (para facilitar su manejo y hacer posible su almacenamiento en memoria auxiliar).
En cualquier caso, las rutinas semánticas suelen hacer uso de una pila (la pila semántica) que contiene la información semántica asociada a los operandos (y a veces a los operadores) en forma de registros semánticos.
Propagación de atributos
Sea la expresión int a,b,c;
a/(b+c^2)
El árbol sintáctico es: /
---------
| |
a +
---------
| |
b ^
---------
| |
c 2
De la instrucción declarativa, la tabla de símbolos y el analizador morfológico obtenemos los atributos de los operandos: /
---------
| |
a +
int ---------
| |
b ^
int ---------
| |
c 2
int int
Propagando los atributos obtenemos: / int
---------
| |
a + int
int ---------
| |
b ^ int
int ---------
| |
c 2
int int
Si la expresión hubiera sidoa/(b+c^-2)El árbol sintáctico sería el mismo, sustituyendo 2 por -2. Sin embargo, la propagación de atributos sería diferente:
/ real
---------
| |
a + real
int ---------
| |
b ^ real
int ---------
| |
c -2
int int
En algún caso podría llegar a producirse error (p.e. si / representara sólo la división entera).Si la expresión hubiera sido
int a,b,c,d;
a/(b+c^d)
El árbol sintáctico sería el mismo, sustituyendo 2 por d. Sin embargo, la propagación de atributos sería incompleta: / {int,real}
---------
| |
a + {int,real}
int ---------
| |
b ^ {int,real}
int ---------
| |
c d
int int
El analizador semántico podría reducir los tipos inseguros al tipo máximo (real) o utilizar un tipo interno nuevo (ej. arit={int,real}, una unión).Lo anterior es un ejemplo de propagación bottom-up. La propagación top-down también es posible: lo que se transmite son las restricciones y los tipos de las hojas sirven de comprobación. Por ejemplo, si la división sólo puede ser entera, transmitimos hacia abajo la restricción de que sus operandos sólo pueden ser enteros. Al llegar a d, esa restricción se convierte en que d debe ser positiva. Si no lo es, error.
La implantación de todos los casos posibles de operación con tipos mixtos podría ser excesivamente cara. En su lugar, se parte de operaciones relativamente simples (ej. int+int, real+real) y no se implementan las restantes (ej. int+real, real+int), añadiendo en su lugar operaciones monádicas de cambio de tipo (ej. int->real).
Esta decisión puede introducir ambigüedades. Por ejemplo, sea el programa
real a;
int b,c;
a:=b+c
El árbol sintáctico es: :=
---------
| |
a +
real ---------
| |
b c
int int
Existen dos conversiones posibles: := real := real
--------- ---------
| | | |
a + real a + int
real --------- real ---------
| | | |
b c b c
int int int int
El problema es que no tenemos garantía de que los dos procedimientos sean equivalentes. El segundo puede dar overflow, el primero pérdida de precisión. La definición del lenguaje debe especificar estos casos.Las transformaciones posibles se pueden representar mediante un grafo cuyos nodos son los tipos de datos y cada arco indica una transformación. Dado un operando de tipo A que se desea convertir al tipo B, se trata de encontrar una cadena de arcos que pase de A a B en el grafo anterior. Podría haber varios grafos, cada uno de los cuales se aplicará en diferentes condiciones, por ejemplo, uno para las asignaciones, otro para las expresiones, etc.
Gramática de atributos
Es una extensión de la notación de Backus que consiste en introducir en las reglas sintácticas ciertos símbolos adicionales no sintácticos (símbolos de acción) que, en definitiva, se reducen a llamadas implícitas o explícitas a rutinas semánticas.Por ejemplo: sea la gramática simplificada que analiza las instrucciones de asignación:
<AsSt> ::= id #PId := <Exp> #RAs <Exp> ::= <Exp> + <T> #RS | <T> <T> ::= id #PId | Ct #PCtSe observará que hemos hecho uso de cuatro símbolos de acción:
- #PId: PUSH a la pila semántica el registro asociado al identificador.
- #PCt: PUSH a la pila semántica el registro asociado a la constante.
- #RS: Realizar suma: POP los dos registros superiores de la pila; comprobar que es posible sumarlos; realizar la suma (mediante una llamada al generador de código) o generar representación intermedia (si es una compilación en dos o más pasos); PUSH registro semántico del resultado en la pila semántica.
- #RAs: Realizar asignación: POP los dos registros superiores de la pila; comprobar que es posible realizar la asignación; realizarla (mediante una llamada al generador de código) o generar representación intermedia (si es una compilación en dos o más pasos).
<AsSt> ::= <ASPI> := <Exp> #RAs <ASPI> ::= id #PId <Exp> ::= <Exp> + <T> #RS | <T> <T> ::= id #PId | Ct #PCtPoner un ejemplo del análisis sintáctico-semántico bottom-up de la instrucción A := B + 1.
Otro ejemplo: instrucciones condicionales con las reglas
<Instr> ::= If <Expr> #S2 then <Instr> #S1 |
If <Expr> #S2 then <Instr> else #S3 <Instr> #S1
Más adelante se verá cuáles son las tres acciones semánticas. Para que todas queden al final de una regla, basta cambiar estas reglas por: <Instr> ::= If <Expr1> then <Instr> #S1 |
If <Expr1> then <Instr> <Else> <Instr> #S1
<Expr1> ::= <Expr> #S2
<Else> ::= else #S3
Generación de representaciones intermedias
Existen dos representaciones intermedias principales:- Notación sufija
- Cuádruplas
- Prefija: el operador diádico es analizado antes que sus operandos.
- Infija: el operador diádico es analizado entre sus operandos.
- Sufija: el operador diádico es analizado después que sus operandos.
Los operadores monádicos sólo pueden presentarse en notación prefija o sufija.
Además, un árbol sintáctico puede representarse en forma de tuplas de n elementos, de la forma (operador, operando-1, ..., operando-k, nombre). Las tuplas pueden tener longitud variable o fija (con operandos nulos). Las más típicas son las cuádruplas, aunque éstas pueden representarse también en forma de tripletes.
Notación sufija
Llamada también postfija o polaca inversa, se usa para representar expresiones sin necesidad de paréntesis.Ejemplos:
a*b ab* a*(b+c/d) abcd/+* a*b+c*d ab*cd*+Los identificadores aparecen en el mismo orden. Los operadores en el de evaluación (de izquierda a derecha).
Problema: operadores monádicos (unarios). O bien se transforman en diádicos (binarios) o se cambia el símbolo.
Ejemplo: -a se convierte en 0-a o en @a
a*(-b+c/d) ab@cd/+*Existen dos problemas principales:
- Construir la notación sufija a partir de la infija.
- Analizar la notación sufija en el segundo paso de la compilación.
Rutina semántica para transformar de infijo a sufijo
Si el analizador sintáctico es bottom-up, hacemos la siguiente suposición: "Cuando aparece un no terminal V en el asidero, la cadena polaca correspondiente a la subcadena que se redujo a V ya ha sido generada".Se utiliza una pila donde se genera la salida, inicialmente vacía. Las acciones semánticas asociadas a las reglas son:
E ::= E + T Push + E ::= E - T Push - E ::= T T ::= T * F Push * T ::= T / F Push / T ::= F F ::= i Push i F ::= (E) F ::= - F Push @
Análisis de la notación sufija
La gramática completa que permite analizar la notación sufija es: <Operando> ::= id |
cte |
<Operando> <Operando> <Operador diádico> |
<Operando> <Operador monádico>
<Operador diádico> ::= + | - | * | / | ...
<Operador monádico> ::= @ | ...
Algoritmo de evaluación de una expresión en notación sufija que utiliza una pila:- Si el próximo símbolo es un identificador, se pasa a la pila. Corresponde a la aplicación de la regla
<Operando> ::= id
- Si el próximo símbolo es una constante, se pasa a la pila. Corresponde a la aplicación de la regla
<Operando> ::= cte
- Si el próximo símbolo es un operador diádico, se aplica el operador a los dos operandos situados en lo alto de la pila y se sustituyen éstos por el resultado de la operación. Corresponde a la aplicación de la regla
<Operando> ::= <Operando> <Operando> <Operador diádico>
- Si el próximo símbolo es un operador monádico, se aplica el operador al operando situado en lo alto de la pila y se sustituye éste por el resultado de la operación. Corresponde a la aplicación de la regla
<Operando> ::= <Operando> <Operador monádico>
Extensión de la notación sufija a otros operadores
- La asignación, teniendo en cuenta que podemos no querer valor resultante. Además, no interesa tener en la pila el valor del identificador izquierdo, sino su dirección.
a:=b*c+d abc*d+:=
- La transferencia (GOTO).
GOTO L L TR
- La instrucción condicional
if p then inst1 else inst2
se convierte enp L1 TRZ inst1 L2 TR inst2 L1: L2: - Subíndices:
a[exp1; exp2; ...; expn]
se convierte ena exp1 exp2 ... expn SUBIN-n
Cuádruplas
Una operación diádica se puede representar mediante la cuádrupla(<Operador>, <Operando1>, <Operando2>, <Resultado>)Ejemplo:
(*,A,B,T)Una expresión se puede representar mediante un conjunto de cuádruplas. Ejemplo: la expresión a*b+c*d equivale a:
(*,a,b,t1) (*,c,d,t2) (+,t1,t2,t3)Ejemplo: la expresión c:=a[i;b[j]] equivale a:
(*,i,d1,t1) (+,t1,b[j],t2) (:=,a[t2],,c)
Tripletes
No se pone el resultado, se sustituye por referencias a tripletes. Por ejemplo: la expresión a*b+c*d equivale a:(1) (*,a,b) (2) (*,c,d) (3) (+,(1),(2))mientras que a*b+1 equivale a:
(1) (*,a,b) (2) (*,(1),1)Tripletes indirectos: se numeran arbitrariamente los tripletes y se da el orden de ejecución. Ejemplo, sean las instrucciones:
a := b*c b := b*cEquivalen a los tripletes
(1) (*,b,c) (2) (:=,(1),a) (3) (:=,(1),b)y el orden de ejecución es (1),(2),(1),(3). Esta forma es útil para preparar la optimización de código. Si hay que alterar el orden de las operaciones o eliminar alguna, es más fácil hacerlo ahí.
Generación automática de cuádruplas
En un análisis bottom-up, asociamos a cada símbolo no terminal una información semántica, y a cada regla de producción una acción semántica. Ejemplo, sea la gramáticaE ::= E + T E ::= E - T E ::= T T ::= T * F T ::= T / F T ::= F F ::= i F ::= (E) F ::= -FLa regla F::=i asocia a F como información semántica el identificador concreto.
La regla F::=(E) asocia a F como información semántica la información semántica asociada a E.
La regla U::=V asocia a U como información semántica la información semántica asociada a V.
La regla U::=VoW analiza la compatibilidad de los operandos, crea la cuádrupla (o,Sem(V),Sem(W),Ti) y asocia a U la información semántica Ti.
La regla U::=oV crea la cuádrupla (o,Sem(V),,Ti) y asocia a U la información semántica Ti.
La información semántica se suele almacenar en otra pila paralela.
Ejemplo: análisis de a*(b+c)
Pila Entrada Regla Cuádrupla ----------- ------------- ------------ --------- | a*(b+c)| |a *(b+c)| F::=i |F(a) *(b+c)| T::=F |T(a) *(b+c)| |T(a)* (b+c)| |T(a)*( b+c)| |T(a)*(b +c)| F::=i |T(a)*(F(b) +c)| T::=F |T(a)*(T(b) +c)| E::=T |T(a)*(E(b) +c)| |T(a)*(E(b)+ c)| |T(a)*(E(b)+c )| F::=i |T(a)*(E(b)+F(c) )| T::=F |T(a)*(E(b)+T(c) )| E::=E+T |T(a)*(E(b)+T(c) )| E::=E+T (+,b,c,T1) |T(a)*(E(T1) )| |T(a)*(E(T1)) | F::=(E) |T(a)*F(T1) | T::=T*F (*,a,T1,T2) |T(T2) | E::=T |E(T2) |
Ejemplo de generación de cuádruplas en análisis top-down
unsigned int E (char *cadena, unsigned int i)
{
if (i<0) return i;
switch (cadena[i]) {
case 'i':
push (id);
i++;
i = V (cadena, i);
break;
case '(':
i++;
i = E (cadena, i);
i = C (cadena, i);
i = V (cadena, i);
break;
default: return -1;
}
return i;
}
unsigned int V (char *cadena, unsigned int i)
{
unsigned int j;
if (i<0) return i;
switch (cadena[i]) {
case '*':
case '/':
j = i;
i++;
i = T (cadena, i);
cuad (cadena[j], pop(), pop(), gen(Ti));
push (Ti);
i = X (cadena, i);
break;
case '+':
case '-':
j = i;
i++;
i = E (cadena, i);
cuad (cadena[j], pop(), pop(), gen(Ti));
push (Ti);
break;
}
return i;
}
unsigned int X (char *cadena, unsigned int i)
{
unsigned int j;
if (i<0) return i;
switch (cadena[i]) {
case '+':
case '-':
j = i;
i++;
i = E (cadena, i);
cuad (cadena[j], pop(), pop(), gen(Ti));
push (Ti);
break;
}
return i;
}
unsigned int T (char *cadena, unsigned int i)
{
if (i<0) return i;
switch (cadena[i]) {
case 'i':
push (id);
i++;
i = U (cadena, i);
break;
case '(':
i++;
i = E (cadena, i);
i = C (cadena, i);
i = U (cadena, i);
break;
default: return -2;
}
return i;
}
unsigned int U (char *cadena, unsigned int i)
{
if (i<0) return i;
unsigned int j;
switch (cadena[i]) {
case '*':
case '/':
j = i;
i++;
i = T (cadena, i);
cuad (cadena[j], pop(), pop(), gen(Ti));
push (Ti);
break;
}
return i;
}
unsigned int F (char *cadena, unsigned int i)
{
if (i<0) return i;
switch (cadena[i]) {
case 'i':
push (id);
i++;
break;
case '(':
i++;
i = E (cadena, i);
i = C (cadena, i);
break;
default: return -3;
}
return i;
}
unsigned int C (char *cadena, unsigned int i)
{
if (i<0) return i;
switch (cadena[i]) {
case ')':
i++;
break;
default: return -4;
}
return i;
}
Semántica de instrucciones condicionales
Sean las reglas <Instr> ::= If <Expr> S2 then <Instr> S1 |
If <Expr> S2 then <Instr> else S3 <Instr> S1
Una secuencia de cuádruplas equivalente a "If E1 then I1 else I2" (p-1) (?,?,?,t1) Análisis de E1
(p) (TRZ,(q+1),t1,) S2: Crear cuádrupla (p) | Push p
... Análisis de I1
(q) (TR,(r),,) S3: Crear cuádrupla (q)
Poner (cl.sig.) en top | Pop
Push (q)
(q+1) ... Análisis de I2
(r) S1: Poner (cl.sig.) en top | Pop
Una secuencia de cuádruplas equivalente a "If E1 then I1" (p-1) (?,?,?,t1) Análisis de E1
(p) (TRZ,(r),t1,) S2: Crear cuádrupla (p) | Push p
... Análisis de I1
(r) S1: Poner (cl.sig.) en top | Pop
Al generar la cuádrupla (p) no conocemos el valor de (q). Guardamos en una pila el número de la cuádrupla asociada y lo rellenamos más tarde, como indican los ejemplos.Semántica de etiquetas y GOTO
Suponemos que las etiquetas aparecen en la tabla de símbolos con tres valores asociados: (tipo=etiqueta, bit=declarada/no declarada, número de cuádrupla).Sea la regla
<Instr> ::= id : <Instr>Semántica asociada:
{
Buscar id en la tabla de símbolos;
if (no está)
Insertar id,valor=(etiqueta, declarada, cuádrupla siguiente);
else {
if (tipo==etiqueta && bit==no declarada) {
i=número de cuádrupla;
while (i) {
j=cuádrupla[i][2];
cuádrupla[i][2]=cuádrupla siguiente;
i=j;
}
Cambiar valor a (etiqueta, declarada, cuádrupla siguiente);
}
else error();
}
}
Sea la regla<Instr> ::= GOTO idSemántica asociada:
{
Buscar id en la tabla de símbolos;
if (no está) {
Insertar id,valor=(etiqueta, no declarada, cuádr.siguiente);
Generar cuádrupla (TR,,,);
}
else {
if (tipo==etiqueta) {
if (bit==declarada)
Generar cuádrupla (TR,número de cuádrupla,,);
else if (bit==no declarada) {
i=número de cuádrupla;
Cambiar valor a (etiqueta, no declarada, cuádr.siguiente);
Generar cuádrupla (TR,i,,);
}
}
else error();
}
}
Si se permiten etiquetas locales a bloques, podemos encontrar el siguiente caso: L: ...
{
...
GOTO L;
...
Tenemos ambigüedad: GOTO L puede ir a la etiqueta externa (ya definida o no) o a una etiqueta local al bloque posterior a la instrucción. Tenemos tres posibilidades:- Un compilador en dos pasos.
- Forzar declaraciones de etiquetas.
- Tratar L en el bloque como si fuera local. Si al final del bloque descubrimos que no ha sido declarada, tratarla como si fuera global. La lista de referencias debería fundirse con la de L global (si L global no ha sido definida aún) o rellenarse con el valor de L (si ya ha sido definida). Si L global no existe, debe crearse, y pasarle la lista de referencias de L local.
Semántica de bloques
Sean las reglas <Instr> ::= do <id> := <Expr> S1
, <Expr> S2
<CD1> <LInstr> end S5
<CD1> ::= , <Expr> S3 | ^ S4
Semántica asociada al análisis de "do x:=n1,n2,n3; I1; I2; end":- S1:
Generar cuádruplas asociadas a instrucción de asignación x:=n1. Guardar i=número de cuádrupla siguiente. - S2:
Guardar j=número de cuádrupla siguiente. Generar cuádrupla (TRG,,x,(n2)). Generar cuádrupla (TR,,,). - S3:
Generar cuádrupla (+,x,(n3),x). Generar cuádrupla (TR,(i),,). Hacer cuádrupla[j+1][2]=cuádrupla siguiente. - S5:
Generar cuádrupla (TR,(j+2),,). Hacer cuádrupla[j][2]=cuádrupla siguiente.
Generar cuádrupla (:=,x,1,x).
Generar cuádrupla (TR,(i),,).
Hacer cuádrupla[j+1][2]=cuádrupla siguiente.
Evaluación óptima de las expresiones booleanas
Las operaciones booleanas usualmente se definen así:O | T F Y | T F NO| T F --|----- --|----- --|----- T | T T T | T F | F T F | T F F | F Fy la sintaxis adecuada para que la precedencia sea: NO, Y, O. Sin embargo, es posible simplificarlas considerablemente. Basta fijarse en la expresión
a Y (b O NO c)Si a es falso, no hace falta calcular el paréntesis, sabemos que el resultado es falso. Por tanto, redefiniremos la sintaxis y la semántica así:
<ZB> ::= <EB> <EB> ::= <TB> O <EB> | <TB> <TB> ::= <FB> Y <TB> | <FB> <FB> ::= i | ( <EB> ) | NO <FB> a O b <=> if (a) TRUE else b; a Y b <=> if (a) b else FALSE; NO a <=> if (a) FALSE else TRUE;
Análisis top-down
El programa queda: void ZB (char *cadena)
{
int FL=0, TL=0, i;
cuad (":=", "T", NULL, x);
i = EB (cadena, 0, &FL, &TL);
FILL (FL);
cuad (":=", "F", 0, x);
FILL (TL);
}
unsigned int EB (char *cadena, unsigned int i, int *FL, int *TL)
{
int tl=0;
i = TB (cadena, i, FL, &tl);
MERGE (TL, tl);
if (i<strlen(cadena)) switch (cadena[i]) {
case 'O':
i++;
FILL (*FL);
*FL = 0;
i = EB (cadena, i, FL, TL);
break;
default:
break;
}
return i;
}
unsigned int TB (char *cadena, unsigned int i, int *FL, int *TL)
{
int fl=0;
i = FB (cadena, i, &fl, TL);
MERGE (FL, fl);
if (i<strlen(cadena)) switch (cadena[i]) {
case 'Y':
i++;
FILL (*TL);
*TL = 0;
i = TB (cadena, i, FL, TL);
break;
default:
break;
}
return i;
}
unsigned int FB (char *cadena, unsigned int i, int *FL, int *TL)
{
if (i<strlen(cadena)) switch (cadena[i]) {
case 'i':
i++;
*TL = cuádrupla siguiente;
*FL = - cuádrupla siguiente;
cuad (TRB, id, 0, 0);
break;
case '(':
i++;
i = EB (cadena, i, FL, TL);
i = C (cadena, i);
break;
case 'NO':
i++;
i = FB (cadena, i, FL, TL);
*FL <-> *TL
break;
default: error (cadena, i);
}
else error (cadena, i);
return i;
}
unsigned int C (char *cadena, unsigned int i)
{
if (i<strlen(cadena)) switch (cadena[i]) {
case ')':
i++;
break;
default: error (cadena, i);
}
else error (cadena, i);
return i;
}
void FILL (int lista)
{
int i,j,n;
n = lista;
while (n) {
if (n>0) i=2; else i=3;
j = abs (n);
n = cuad[j][i];
cuad[j][i] = cuádrupla siguiente;
}
}
void MERGE (int *uno, int dos)
{
int i,k;
if (*uno==0) *uno = dos;
else {
k = *uno;
for (;;) {
if (k>0) i=2; else i=3;
k = abs (k);
if (cuad[k][i]==0) break;
k = quad[k][i];
}
cuad[k][i] = dos;
}
}
Analicemos "a O b O NO c" ZB ("a O b O NO c")
cuad (":=", "T", NULL, "X");
i = EB ("a O b O NO c", 0, &FL, &TL);
i = TB ("a O b O NO c", 0, FL, &tl);
i = FB ("a O b O NO c", 0, &fl, TL);
case id:
i=1;
*TL = 1;
fl = -1;
cuad (TRB, a, 0, 0);
MERGE (FL, fl);
FL = -1;
MERGE (TL, tl);
TL = 1;
case 'O':
i=2;
FILL (FL);
n = -1;
while (n) {
i = 3;
j = 1; (abs(FL))
n = 0; (cuad[1][3])
cuad[1][3] = 2;
}
FL = 0;
i = EB ("a O b O NO c", 2, FL, TL);
i = TB ("a O b O NO c", 2, FL, &tl);
i = FB ("a O b O NO c", 2, &fl, TL);
case 'i':
i=3;
*TL = 2;
*fl = -2;
cuad (TRB, b, 0, 0);
MERGE (FL, fl);
FL = -2;
MERGE (TL, tl);
k = 1;
for (;;) {
i = 2;
k = 1;
}
cuad[1][2] = 2;
case 'O':
i=4;
FILL (FL);
n = -2;
while (n) {
i = 3;
j = 2; (abs (n))
n = 0; (cuad[2][3])
cuad[2][3] = 3;
}
FL = 0;
i = EB ("a O b O NO c", 4, FL, TL);
i = TB ("a O b O NO c", 4, FL, &tl);
i = FB ("a O b O NO c", 4, &fl, TL);
case 'NO':
i=5;
i = FB ("a O b O NO c", 5, FL, TL);
case 'i':
i=6;
*TL = 3;
*FL = -3;
cuad (TRB, c, 0, 0);
FL <-> TL
MERGE (FL, fl);
FL = 3;
MERGE (TL, tl);
k = 1;
for (;;) {
i = 2;
k = 1; (abs (k))
k = 2; (cuad[1][2])
}
cuad[2][2] = -3;
FILL (FL);
cuad[3][2] = 4;
cuad (":=", "F", 0, "X");
FILL (TL);
cuad[1][2] = 5;
cuad[2][2] = 5;
cuad[3][3] = 5;
Cuádruplas obtenidas: 0: (":=", "T",, x);
1: ("TRB", a, 5, 2);
2: ("TRB", b, 5, 3);
3: ("TRB", c, 4, 5);
4: (":=", "F",, x);
5: