up
next previous
Nodo Raíz: 3.12 Regresión
Siguiente: 3.14 Problemas
Previo: 3.12.2 Bondad de un ajuste

Subsecciones

   
3.12.4 Regresión lineal

La forma de la función f en principio podría ser arbitraria, y tal vez se tenga que la relación más exacta entre las variables peso y altura definidas anteriormente sea algo de la forma3.1


\begin{displaymath}\hat{Y}=f(X) = \frac{1}{\log{8'325 \,X^{\pi}}}\sqrt{e+\sin X} ,
\qquad Y-\hat{Y} = \mbox{ \tiny\bf error}
\end{displaymath}

Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos vamos a limitar al caso de la regresión lineal. Con este tipo de regresiones nos conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir

 \begin{displaymath}\hat{Y}=a + b\cdot X
\end{displaymath}

con el menor error posible entre $\hat{Y}$e Y, o bien


\begin{displaymath}\hat{X}=a + b\cdot Y
\end{displaymath}

de forma que $X-\hat{X}$ sea una variable que toma valores próximos a cero.

3.12.4.1 Observación

Obsérvese que la relación 3.12 explica cosas como que si X varía en 1 unidad, $\hat{Y}$ varía la cantidad b. Por tanto:

Por tanto, en el caso de las variables peso y altura lo lógico será encontrar que b>0.

El problema que se plantea es entonces el de cómo calcular las cantidades a y b a partir de un conjunto de n observaciones


\begin{displaymath}\left\{
\begin{array}{c}
(x_1,y_1)
\\
(x_2,y_2)
\\
\dots
\\
(x_n,y_n)
\end{array}\right.
\end{displaymath}

de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar son de forma esquemática, las que siguen:

1.
Dadas dos variables X, Y, sobre las que definimos


\begin{displaymath}\hat{Y} = a + b\,X
\end{displaymath}

medimos el error que se comete al aproximar Y mediante $\hat{Y}$ calculando la suma de las diferencias entre los valores reales y los aproximados al cuadrado (para que sean positivas y no se compensen los errores):


\begin{displaymath}\sum_{i=1}^n (y_i - \hat{y}(x_i))^2 =
\sum_{i=1}^n (y_i - \hat{y}_i)^2 = \sum_{i=1}^n e_i^2
\end{displaymath}

2.
Una aproximación $\hat{Y}=a+b\,X$ de Y, se define a partir de dos cantidades a y b. Vamos a calcular aquellas que minimizan la función

 \begin{displaymath}{{E}_{rror}}(a,b) = \sum_{i=1}^n (y_i - \hat{y}_i)^2 =
\sum_{i=1}^n (y_i- a - b\,x_i)^2
\end{displaymath}

3.
Posteriormente encontraremos fórmulas para el cálculo directo de a y b que sirvan para cualquier problema.

3.12.4.2 Regresión de Y sobre X

Para calcular la recta de regresión de Y sobre X nos basamos en la figura 3.9.


  
Figura: Los errores a minimizar son las cantidades $e_i^2=(y_i-\hat{y}_i)^2$
\includegraphics[angle=-90, width=0.8\textwidth]{fig03-09.epsi}

Una vez que tenemos definido el error de aproximación mediante la relación (3.13) las cantidades que lo minimizan se calculan derivando con respecto a ambas e igualando a cero (procedimiento de los mínimos cuadrados):

  \begin{eqnarray}\html{eqn22}\nonumber
(a,b) \mbox { minimizan }{{E}_{rror}}(a,b)...
...l b}(a,b) =
-2\,b\,\sum_{i=1}^n e_i \,x_i = 0
\end{array}\right.
\end{eqnarray}


La relación (3.15), no es más que otra manera de escribir la relación (3.14), que se denomina ecuaciones normales. La primera de (3.14) se escribe como


\begin{displaymath}\sum_{i=1}^n y_i \, -a\, n - b\,\sum_{i=1}^n x_i = 0
\Longleftrightarrow a = \overline{y}- b\,\overline{x}
\end{displaymath}

Sustituyendo se tiene que

\begin{eqnarray}\html{eqn30}\nonumber
\sum_{i=1}^n y_i x_i \, -a\,\sum_{i=1}^n x...
...ftrightarrow&
{{\cal S}_{XY}}-b\,{{\cal S}_{X}^{2}}= 0
\nonumber
\end{eqnarray}


Lo que nos da las relaciones buscadas:


\begin{displaymath}\mbox{\fbox{ $\displaystyle a = \overline{y}- b\, \overline{x}$ } }
\end{displaymath}


\begin{displaymath}\mbox{\fbox{ $\displaystyle b = \frac{{{\cal S}_{XY}}}{{{\cal S}_{X}^{2}}}$ } }
\end{displaymath}

La cantidad b se denomina coeficiente de regresión de Ysobre X.

3.12.4.3 Regresión de X sobre Y

Las mismas conclusiones se sacan cuando intentamos hacer la regresión de X sobre Y, pero ¡atención!: Para calcular la recta de regresión de X sobre Y es totalmente incorrecto despejar de


\begin{displaymath}\hat{Y} = a + b\, X \Longrightarrow X=\frac{1}{b}(\hat{Y}-a)
\end{displaymath}

Pues esto nos da la regresión de X sobre $\hat{Y}$, que no es lo que buscamos. La regresión de X sobre Y se hace aproximando X por $\hat{X}$, del modo


\begin{displaymath}\hat{X} = a + b\,Y
\end{displaymath}

donde

\begin{displaymath}\mbox{\fbox{ $\displaystyle a = \overline{x}- b\, \overline{y}$ } }
\end{displaymath}


\begin{displaymath}\mbox{\fbox{ $\displaystyle b = \frac{{{\cal S}_{XY}}}{{{\cal S}_{Y}^{2}}}$ } }
\end{displaymath}

pues de este modo se minimiza, en el sentido de los mínimos cuadrados, los errores entre las cantidades xi y las $\hat{x}_i=a+b\,y_i$ (figura 3.10.)


  
Figura: Los errores a minimizar son las cantidades $e_i^2=(x_i-\hat{x}_i)^2$
\includegraphics[angle=-90, width=0.8\textwidth]{fig03-10.epsi}

3.12.4.4 Ejemplo

En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropométricas X e Y. Los resultados se muestran resumidos en los siguientes estadísticos:


\begin{eqnarray*}\overline{x}=14 & {\cal S}_X=2 &
\\
& & {\cal S}_{XY}=45
\\
\overline{y}= 100& {\cal S}_Y=25 &
\end{eqnarray*}


Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.

Solución:

Lo que se busca es la recta, $\hat{Y}=a+b\cdot X$, que mejor aproxima los valores de Y (según el criterio de los mínimos cuadrados) en la nube de puntos que resulta de representar en un plano (X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:


\begin{displaymath}b=\frac{{\cal S}_{XY}}{{\cal S}_X^2} = \frac{45}{4}=11,25
\end{displaymath}


\begin{displaymath}a = \overline{y}- b\cdot\overline{x}= 100 -11,25 \times 14 = -57,5
\end{displaymath}

Así, el modelo lineal consiste en:

\begin{displaymath}\hat{Y}=-57,5 + 11,25\cdot X
\end{displaymath}

Por tanto, si x=15, el modelo lineal predice un valor de Y de:

\begin{displaymath}\hat{y}=-57,5 + 11,25\cdot x = -57,5 +11,25\times 15 = 111,25
\end{displaymath}

En este punto hay que preguntarse si realmente esta predicción puede considerarse fiable. Para dar una respuesta, es necesario estudiar propiedades de la regresión lineal que están a continuación.

3.12.4.5 Propiedades de la regresión lineal

Una vez que ya tenemos perfectamente definida $\hat{Y}$, (o bien $\hat{X}$) nos preguntamos las relaciones que hay entre la media y la varianza de esta y la de Y (o la de X). La respuesta nos la ofrece la siguiente proposición:

3.12.4.6 Proposición

En los ajustes lineales se conservan las medias, es decir

\begin{eqnarray}\html{eqn30}\overline{\hat{y}} &=& \overline{y}
\\
\overline{\hat{x}} &=& \overline{x}
\end{eqnarray}


En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las variables X e Y y sus aproximaciones $\hat{X}$ y $\hat{Y}$, pues sólo se mantienen en un factor de r2, es decir,

\begin{eqnarray}\html{eqn32}{{\cal S}^{2}}_{\hat{Y}} &=& r^2\,{{\cal S}_{Y}^{2}}
\\
{{\cal S}^{2}}_{\hat{X}} &=& r^2\,{{\cal S}_{X}^{2}}
\end{eqnarray}


Demostración
Basta probar nuestra afirmación para la variable Y, ya que para X es totalmente análogo:


\begin{displaymath}\overline{\hat{y}} = a + b \, \overline{x}= (\overline{y}- b\, \overline{x}+
b \, \overline{x}) = \overline{y}
\end{displaymath}

\begin{eqnarray}\html{eqn34}{{\cal S}^{2}}_{\hat{Y}} &=& b^2 {{\cal S}_{X}^{2}}=...
... S}_{Y}^{2}}
\nonumber \\
&=& r^2\,{{\cal S}_{Y}^{2}}
\nonumber
\end{eqnarray}


donde se ha utilizado la magnitud que denominamos coeficiente de correlación, r, y que ya definimos anteriormente como


\begin{displaymath}r= \frac{{{\cal S}_{XY}}}{{{\cal S}_X}\cdot {{\cal S}_Y}}
\end{displaymath}

3.12.4.7 Observación

Como consecuencia de este resultado, podemos decir que la proporción de varianza explicada por la regresión lineal es del $r^2\cdot 100\%$.

Nos gustaría tener que r=1, pues en ese caso ambas variables tendrían la misma varianza, pero esto no es cierto en general. Todo lo que se puede afirmar, como sabemos, es que


\begin{displaymath}-1 \leq r \leq 1
\end{displaymath}

y por tanto


\begin{displaymath}0\leq{\cal S}_{\hat{Y}}^2\leq {{\cal S}_{Y}^{2}}
\end{displaymath}

La cantidad que le falta a la varianza de regresión, ${{\cal S}^{2}}_{\hat{Y}}$, para llegar hasta la varianza total de Y, ${{\cal S}_{Y}^{2}}$, es lo que se denomina varianza residual, que no es más que la varianza de $E=Y-\hat{Y}$, ya que

\begin{eqnarray}\html{eqn34}{{\cal S}_{Y}^{2}}&=&
\frac{1}{n} \,\sum_{i=1}^n (y_...
...
\left(\hat{y}_i-\overline{\hat{y}}\right)\, e_i}_{0}
\nonumber
\end{eqnarray}


El tercer sumando se anula según las ecuaciones normales expresadas en la relación (3.15):

\begin{eqnarray}\html{eqn35}\sum_{i=1}^n
\left(\hat{y}_i-\overline{\hat{y}}\rig...
... x_i -
{b\,\overline{x}} \,\sum_{i=1}^n e_i
\nonumber \\
&=& 0
\end{eqnarray}


Por ello

\begin{displaymath}{\cal S}_{E}^2={{\cal S}_{Y}^{2}}-{\cal S}_{\hat{Y}}^2
\end{displaymath}

Obsérvese que entonces la bondad del ajuste es


\begin{displaymath}R_{Y_{\mid X}}^2=1-\frac{{\cal S}_E^2}{{\cal S}_Y^2}=1-(1-r^2)=r^2
\end{displaymath}

Para el ajuste contrario se define el error como $E=Y-\hat{Y}$, y su varianza residual es también proporcional a 1-r2:


\begin{displaymath}{\cal S}_E^2 = {{\cal S}_{X}^{2}}-{{\cal S}^{2}}_{\hat{X}} = {{\cal S}_{X}^{2}}(1 - r^2)
\end{displaymath}

y el coeficiente de determinación (que sirve para determinar la bondad del ajuste de X en función de Y) vale:


\begin{displaymath}R_{X_{\mid Y}}^2=1-\frac{{\cal S}_E^2}{{\cal S}_X^2}=1-(1-r^2)=r^2
\end{displaymath}

lo que resumimos en la siguiente proposición:

3.12.4.8 Proposición

Para los ajustes de tipo lineal se tiene que los dos coeficientes de determinación son iguales a r2, y por tanto representan además la proporción de varianza explicada por la regresión lineal:


\begin{displaymath}{
\mbox{\fbox{$\displaystyle
R_{X_{\mid Y}}^2=r^2=R_{Y_{\mid X}}^2
$ } }
}
\end{displaymath}

Por ello:

3.12.4.9 Ejemplo

De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y, se obtiene la siguiente información:


\begin{displaymath}\sum x_i =24; \quad\sum x_iy_i=64; \quad \sum y_i=40;
\end{displaymath}


\begin{displaymath}{\cal S}_Y^2 = 12 ; \quad {\cal S}_X^2 = 6.
\end{displaymath}

Calcule:

1.
La recta de regresión de Y sobre X. Explique el significado de los parámetros.

2.
El coeficiente de determinación. Comente el resultado e indique el tanto por ciento de la variación de Y que no está explicada por el modelo lineal de regresión.
3.
Si el modelo es adecuado, ¿cuál es la predicción $\hat{y}$ para x=4.

Solución:

1.
En primer lugar calculamos las medias y las covarianza entre ambas variables:

\begin{eqnarray}\html{eqn36}\overline{x}&=& \sum x_i/n=24/8=3
\nonumber \\
\ove...
...&=& (\sum x_iy_i)/n-\overline{x}\overline{y}= 64/8-3\times 5 = -7
\end{eqnarray}


Con estas cantidades podemos determinar los parámetros a y b de la recta. La pendiente de la misma es b, y mide la variación de Ycuando X aumenta en una unidad:


\begin{displaymath}b=\frac{{\cal S}_{XY}}{{\cal S}_X^2}=\frac{-7}{6} = -1,667
\end{displaymath}

Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a medida que X aumenta, la tendencia es a la disminución de Y. En cuanto al valor de la ordenada en el origen, a, tenemos:


\begin{displaymath}a = \overline{y}- b\cdot \overline{x}= 5 - (\frac{-7}{6})\times 3 = 8,5
\end{displaymath}

Así, la recta de regresión de Y como función de X es:

\begin{displaymath}\hat{Y}=8,5 -1,1667\cdot X
\end{displaymath}

2.
El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinación:


\begin{displaymath}R_{Y/X}^2=r^2 = \left( \frac{{\cal S}_{XY}}{{\cal S}_X\cdot {\cal S}_Y}\right)^2
=
\frac{(-7)^2}{6\times 12}=0,6805=68,05\%
\end{displaymath}

Es decir, el modelo de regresión lineal explica el $68\%$de la variabilidad de Y en función de la de X. Por tanto queda un $32\%$ de variabilidad no explicada.

3.
La predicción que realiza el modelo lineal de regresión para x=4 es:


\begin{displaymath}\hat{y}=8,5 -1,1667\cdot x = 8,5-1,6667\times 4=3,833
\end{displaymath}

la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado anterior,hay una razonable cantidad de variabilidad que no es explicada por el modelo.

3.12.4.10 Ejemplo

En un grupo de 8 pacientes se miden las cantidades antropométricas peso y edad, obteniéndose los siguientes resultados:

  Resultado de las mediciones
$X\equiv$ edad 12 8 10 11 7 7 10 14
$Y\equiv$ peso 58 42 51 54 40 39 49 56

¿Existe una relación lineal importante entre ambas variables? Calcular la recta de regresión de la edad en función del peso y la del peso en función de la edad. Calcular la bondad del ajuste ¿En qué medida, por término medio, varía el peso cada año? ¿En cuánto aumenta la edad por cada kilo de peso?

Solución:

Para saber si existe una relación lineal entre ambas variables se calcula el coeficiente de correlación lineal, que vale:

\begin{displaymath}r=\frac{{{\cal S}_{XY}}}{{\cal S}_X\,{\cal S}_Y}=\frac{15,2031}{2,3150\times 6,9631}=0,9431
\end{displaymath}

ya que

\begin{eqnarray}\html{eqn37}\sum_{i=1}^8 x_i=79 &\Longrightarrow& \overline{x}=\...
...875 \times 48,625 = 15,2031 \mbox{ Kg}\cdot\mbox{año}
\nonumber
\end{eqnarray}


Por tanto el ajuste lineal es muy bueno. Se puede decir que el ángulo entre el vector formado por las desviaciones del peso con respecto a su valor medio y el de la edad con respecto a su valor medio, $\theta $, es:


\begin{displaymath}r=\cos \theta \qquad \Longrightarrow
\qquad \theta = \arccos r \approx 19^{\circ}
\end{displaymath}

es decir, entre esos vectores hay un buen grado de paralelismo (sólo unos 19 grados de desviación).

La recta de regresión del peso en función de la edad es

\begin{eqnarray}\html{eqn37}\hat{Y}&=&a_1+b_1 X = 20,6126+2,8367\cdot X
\nonumbe...
...& \frac{{{\cal S}_{XY}}}{{{\cal S}_{X}^{2}}}=2,8367\mbox{ Kg/año}
\end{eqnarray}


La recta de regresión de la edad como función del peso es

\begin{eqnarray}\html{eqn38}\hat{X}&=&a_2+b_2 Y = -5,3738+0,3136\cdot Y
\nonumbe...
...l S}_{XY}}}{{{\cal S}_{Y}^{2}}}=0,3136 \mbox{ años/Kg}
\nonumber
\end{eqnarray}


que como se puede comprobar, no resulta de despejar en la recta de regresión de Y sobre X.

La bondad del ajuste es

\begin{displaymath}R_{X_{\mid Y}}^2=R_{Y_{\mid X}}^2= r^2=0,8894
\end{displaymath}

por tanto podemos decir que el $88,94\%$ de la variabilidad del peso en función de la edad es explicada mediante la recta de regresión correspondiente. Lo mismo podemos decir en cuanto a la variabilidad de la edad en función del peso. Del mismo modo puede decirse que hay un $100-88,94\%=11,06\%$de varianza que no es explicada por las rectas de regresión. Por tanto la varianza residual de la regresión del peso en función de la edad es


\begin{displaymath}{\cal S}_E^2=(1-r^2)\cdot {{\cal S}_{Y}^{2}}=0,1106\times48,4844=5,33 \mbox{ Kg}^2
\end{displaymath}

y la de la edad en función del peso:


\begin{displaymath}{\cal S}_E^2=(1-r^2)\cdot {{\cal S}_{X}^{2}}=0,1106\times5,3594 =0,59 \mbox{ años}^2
\end{displaymath}

Por último la cantidad en que varía el peso de un paciente cada año es, según la recta de regresión del peso en función de la edad, la pendiente de esta recta, es decir, b1=2,8367 Kg/año. Cuando dos personas difieren en peso, en promedio la diferencia de edad entre ambas se rige por la cantidad b2=0,3136 años/Kg de diferencia.


next up previous
Nodo Raíz: 3.12 Regresión
Siguiente: 3.14 Problemas
Previo: 3.12.2 Bondad de un ajuste

Éste texto es la versión electrónica del manual de la Universidad de Málaga:
Bioéstadística: Métodos y Aplicaciones
U.D. Bioestadística. Facultad de Medicina. Universidad de Málaga.
ISBN: 847496-653-1
Bioestadística: Apuntes en vídeo