La forma de la función f en principio podría ser arbitraria, y tal vez se tenga que la relación más exacta entre las variables peso y altura definidas anteriormente sea algo de la forma3.1
Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos vamos a limitar al caso de la regresión lineal. Con este tipo de regresiones nos conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir
con el menor error posible entre
e Y, o bien
Por tanto, en el caso de las variables peso y altura lo lógico será encontrar que b>0.
El problema que se plantea es entonces el de cómo calcular las cantidades a y b a partir de un conjunto de n observaciones
de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar son de forma esquemática, las que siguen:
medimos el error que se comete al aproximar Y mediante
calculando la suma de las diferencias entre los valores
reales y los aproximados al cuadrado (para que sean positivas y no
se compensen los errores):
Para calcular la recta de regresión de Y sobre X nos basamos en la figura 3.9.
Una vez que tenemos definido el error de aproximación mediante la relación (3.13) las cantidades que lo minimizan se calculan derivando con respecto a ambas e igualando a cero (procedimiento de los mínimos cuadrados):
La relación (3.15), no es más que otra manera de escribir la relación (3.14), que se denomina ecuaciones normales. La primera de (3.14) se escribe como
Sustituyendo se tiene que

Lo que nos da las relaciones buscadas:
La cantidad b se denomina coeficiente de regresión de Ysobre X.
Las mismas conclusiones se sacan cuando intentamos hacer la regresión de X sobre Y, pero ¡atención!: Para calcular la recta de regresión de X sobre Y es totalmente incorrecto despejar de
Pues esto nos da la regresión de X sobre
,
que
no es lo que buscamos.
La regresión de X sobre Y se hace aproximando X por
,
del modo
Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.
Solución:
Lo que se busca es la recta,
,
que mejor
aproxima los valores de Y (según el criterio de los
mínimos cuadrados)
en la nube de puntos que resulta de representar en
un plano (X,Y) las 1.500 observaciones.
Los coeficientes de esta recta son:
Así, el modelo lineal consiste en:
Por tanto, si x=15,
el modelo lineal predice un valor de Y de:
En este punto hay que preguntarse si realmente esta predicción puede considerarse fiable. Para dar una respuesta, es necesario estudiar propiedades de la regresión lineal que están a continuación.
![]()
En cuanto a la varianza, no necesariamente son las mismas
para los verdaderos valores de las variables X e Y y sus
aproximaciones
y
,
pues sólo se mantienen
en un factor de r2, es decir,


donde se ha utilizado la magnitud que denominamos coeficiente de correlación, r, y que ya definimos anteriormente como
Nos gustaría tener que r=1, pues en ese caso ambas variables tendrían la misma varianza, pero esto no es cierto en general. Todo lo que se puede afirmar, como sabemos, es que
y por tanto
La cantidad que le falta a la varianza de regresión,
,
para llegar hasta la varianza total
de Y,
,
es lo que se denomina varianza residual,
que no es más que la varianza de
,
ya que

El tercer sumando se anula según las ecuaciones normales expresadas en la relación (3.15):

Por ello
Obsérvese que entonces la bondad del ajuste es
Para el ajuste contrario se define el error como
,
y su varianza residual es también proporcional a 1-r2:
y el coeficiente de determinación (que sirve para determinar la bondad del ajuste de X en función de Y) vale:
lo que resumimos en la siguiente proposición:
Por ello:
Calcule:
Solución:

Con estas cantidades podemos determinar los parámetros a y b de la recta. La pendiente de la misma es b, y mide la variación de Ycuando X aumenta en una unidad:
Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a medida que X aumenta, la tendencia es a la disminución de Y. En cuanto al valor de la ordenada en el origen, a, tenemos:
Así, la recta de regresión de Y como función de
X es:
Es decir,
el modelo de regresión lineal explica el
de la variabilidad de Y en función de la de X. Por tanto
queda un
de variabilidad no explicada.
la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado anterior,hay una razonable cantidad de variabilidad que no es explicada por el modelo.
| Resultado de las mediciones | ||||||||
| 12 | 8 | 10 | 11 | 7 | 7 | 10 | 14 | |
| 58 | 42 | 51 | 54 | 40 | 39 | 49 | 56 | |
¿Existe una relación lineal importante entre ambas variables? Calcular la recta de regresión de la edad en función del peso y la del peso en función de la edad. Calcular la bondad del ajuste ¿En qué medida, por término medio, varía el peso cada año? ¿En cuánto aumenta la edad por cada kilo de peso?
Solución:
Para saber si existe una relación lineal entre ambas variables se
calcula el coeficiente de correlación lineal, que vale:
ya que

Por tanto el ajuste lineal es muy bueno. Se puede decir que el
ángulo entre el vector formado por las desviaciones
del peso con respecto a su valor medio y el de
la edad con respecto a su valor medio,
,
es:
es decir, entre esos vectores hay un buen grado de paralelismo (sólo unos 19 grados de desviación).
La recta de regresión del peso en función de la edad es

La recta de regresión de la edad como función del peso es

que como se puede comprobar, no resulta de despejar en la recta de regresión de Y sobre X.
La bondad del ajuste es
por tanto podemos decir que el
de la variabilidad del
peso en función de la edad es explicada mediante la
recta de regresión correspondiente. Lo mismo podemos
decir en cuanto a la variabilidad de la edad en función del peso.
Del mismo modo puede decirse que hay un
de varianza que no es explicada por las rectas de regresión.
Por tanto la varianza residual de la regresión del peso
en función de la edad es
y la de la edad en función del peso:
Por último la cantidad en que varía el peso de un paciente cada año es, según la recta de regresión del peso en función de la edad, la pendiente de esta recta, es decir, b1=2,8367 Kg/año. Cuando dos personas difieren en peso, en promedio la diferencia de edad entre ambas se rige por la cantidad b2=0,3136 años/Kg de diferencia.