up
next previous
Nodo Raíz: 6.8 Distribuciones continuas
Siguiente: 6.8.8 Distribución
Previo: 6.8.4 Distribución exponencial

Subsecciones

6.8.6 Distribución normal o gaussiana

La distribución gaussiana, recibe también el nombre de distribución normal, ya que una gran mayoría de las v.a continuas6.3 de la naturaleza siguen esta distribución. Se dice que una v.a. X sigue una distribución normal de parámetros $\mu $ y $\sigma ^2$, lo que representamos del modo $X{\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} }$6.4 si su función de densidad es:

\begin{displaymath}{
\mbox{\fbox{$\displaystyle
f(x) = {\scriptstyle \frac{1}{\...
...-\mu}{\sigma}\right)^2},\qquad
\forall \, x\in I\!\!R
$ } }
}
\end{displaymath}

6.8.6.1 Observación

Estos dos parámetros $\mu $ y $\sigma ^2$ coinciden además con la media (esperanza) y la varianza respectivamente de la distribución como se demostrará más adelante6.5:

\begin{eqnarray}\html{eqn64}{ {{\bf E} \left[ X \right]} }&=&\mu
\\
{ {{\bf Var } \left[ X \right]} }&=&\sigma^2
\end{eqnarray}


La forma de la función de densidad es la llamada campana de Gauss.


  
Figura: Campana de Gauss o función de densidad de una v.a. de distribución normal. El área contenida entre la gráfica y el eje de abcisas vale 1.
\includegraphics[angle=-90, width=0.8\textwidth]{fig06-07.epsi}

Para el lector es un ejercicio interesante comprobar que ésta alcanza un único máximo (moda) en $\mu $, que es simétrica con respecto al mismo, y por tanto ${{\cal P}}[X\leq \mu]={{\cal P}}[X\geq \mu]=1/2$, con lo cual en $\mu $ coinciden la media, la mediana y la moda, y por último,calcular sus puntos de inflexión.

El soporte de la distribución es todo $I\!\!R$, de modo que la mayor parte de la masa de probabilidad (área comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media, y las ramas de la curva se extienden asintóticamente a los ejes, de modo que cualquier valor ``muy alejado" de la media es posible (aunque poco probable).

La forma de la campana de Gauss depende de los parámetros $\mu $ y $\sigma $:

La función característica de la distribución normal, se comprueba más adelante que es


\begin{displaymath}\phi_X(t)= e^{it\mu-\frac{1}{2}t^2\sigma^2}
\end{displaymath}

Como consecuencia, la distribución normal es reproductiva con respecto a los parámetros $\mu $, y $\sigma ^2$, ya que

\begin{eqnarray}\html{eqn66}\left\{
\begin{array}{l}
X{\leadsto}{ {{\bf N} \left...
...N} \left( \mu_1+\mu_2,\sigma_1^2+\sigma_2^2 \right)} }
\nonumber
\end{eqnarray}


6.8.6.2 Observación

Como se ha mencionado anteriormente, la ley de probabilidad gaussiana la encontramos en la mayoría de los fenómenos que observamos en la naturaleza, por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella. Sin embargo, a pesar de su utilidad, hay que apuntar un hecho negativo para esta ley de probabilidad:

La función $\displaystyle e^{-x^2} $ no posee primitiva6.6 conocida6.7.

Las consecuencias desde el punto de vista práctico son importantes, ya que eso impide el que podamos escribir de modo sencillo la función de distribución de la normal, y nos tenemos que limitar a decir que:


\begin{displaymath}F(x) = P[X\leq x] = \int_{-\infty}^{x} f(t)\,dt =
{\scriptsty...
...x}
e^{-\frac{1}{2}\,\left(\frac{t-\mu}{\sigma}\right)^2}\, dt
\end{displaymath}

sin poder hacer uso de ninguna expresión que la simplifique. Afortunadamente esto no impide que para un valor de xfijo, F(x) pueda ser calculado. De hecho puede ser calculado con tanta precisión (decimales) como se quiera, pero para esto se necesita usar técnicas de cálculo numérico y ordenadores. Para la utilización en problemas prácticos de la función de distribución F, existen ciertas tablas donde se ofrecen (con varios decimales de precisión) los valores F(x) para una serie limitada de valores xi dados. Normalmente F se encuentra tabulada para una distribución Z, normal de media 0 y varianza 1 que se denomina distribución normal tipificada:

\begin{displaymath}{
\mbox{\fbox{$\displaystyle
Z{\leadsto}{ {{\bf N} \left( 0,...
...{2\pi}}}
e^{-\frac{z^2}{2}}\:\: \forall\, z\in I\!\!R
$ } }
}
\end{displaymath}
En el caso de que tengamos una distribución diferente $X{\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} }$, se obtiene Z haciendo el siguiente cambio:

\begin{displaymath}{
\mbox{\fbox{$\displaystyle
X{\leadsto}{ {{\bf N} \left( \m...
...mu}{\sigma} {\leadsto}{ {{\bf N} \left( 0,1 \right)} }
$ } }
}
\end{displaymath}

De manera general se tiene6.8:

6.8.6.3 Proposición (Cambio de origen y escala)

Sean $a,b\in I\!\!R$. Entonces


\begin{displaymath}X{\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} } \Longrig...
...ot X
{\leadsto}{ {{\bf N} \left( a+b\mu,(b\sigma)^2 \right)} }
\end{displaymath}

Este resultado puede ser utilizado del siguiente modo: Si $X{\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} }$, y nos interesa calcular $F_X(x)={{\cal P}}[X\leq x]$,

1.
Hacemos el cambio $Z=\displaystyle\frac{X-\mu}{\sigma} {\leadsto}{ {{\bf N} \left( 0,1 \right)} }$y calculamos $z=\displaystyle\frac{x-\mu}{\sigma}$;

2.
Usamos la tabla 3, relativa a la distribución ${ {{\bf N} \left ( 0,1 \right )} }$ para obtener (de modo aproximado) $F_Z(z)={{\cal P}}[Z\leq z]$;

3.
Como


\begin{displaymath}{{\cal P}}[Z\leq z] = {{\cal P}}[\frac{X-\mu{\!\!\!\setminus}...
...inus}}{\sigma{\!\!\!\setminus}}]=
{{\cal P}}[X\leq x] = F_X(x)
\end{displaymath}

tenemos que el valor obtenido en la tabla, FZ(z) es la probabilidad buscada.

6.8.6.4 Ejemplo

Supongamos que cierto fenómeno pueda ser representado mediante una v.a. $X{\leadsto}{ {{\bf N} \left( 45,81 \right)} }$, y queremos calcular la probabilidad de que Xtome un valor entre 39 y 48, es decir,


\begin{displaymath}{{\cal P}}[39\leq X\leq 48] = ??
\end{displaymath}

Comenzamos haciendo el cambio de variable


\begin{displaymath}Z=\frac{X-\mu}{\sigma}=\frac{X-45}{\sqrt{81}} = \frac{X-45}{9}
\end{displaymath}

de modo que

\begin{eqnarray}\html{eqn78}{{\cal P}}[39\leq X\leq 48] &=&
{{\cal P}}[\frac{39...
... una tabla}
\nonumber \\
& \approx & 0,6293 -1 + 0,7486 =0,378
\end{eqnarray}


Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente.

6.8.6.5 Proposición

Sea $X{\leadsto}{ {{\bf N} \left( \mu,\sigma \right)} }$. Entonces

\begin{eqnarray}\html{eqn79}{ {{\bf E} \left[ X \right]} } &=& \mu
\\
& & \non...
...
& & \nonumber
\\
\phi_X(t)&=& e^{it\mu-\frac{1}{2}t^2\sigma^2}
\end{eqnarray}


Demostración

Por ser la normal una ley de probabilidad se tiene que

\begin{displaymath}\int_{-\infty}^{+\infty}
{\scriptstyle \frac{1}{\sigma \sqrt{...
... e^{-\frac{1}{2}\,\left(\frac{x-\mu}{\sigma}\right)^2} \,dx =1
\end{displaymath}

es decir, esa integral es constante. Con lo cual, derivando la expresión anterior con respecto a $\mu $ se obtiene el valor 0:

\begin{eqnarray}\html{eqn82}0 &=&
\int_{-\infty}^{+\infty}
{\scriptstyle \frac{1...
...c{1}{2}\,\left(\frac{x-\mu}{\sigma}\right)^2} \,dx
}_{=1}
\right]
\end{eqnarray}


luego ${ {{\bf E} \left[ X \right]} }-\mu=0$.

Para demostrar la igualdad entre la ${ {{\bf Var } \left[ X \right]} }$ y $\sigma ^2$, basta con aplicar la misma técnica, pero esta vez derivando con respecto a $\sigma ^2$:


\begin{displaymath}0=-\frac{1}{2}
\left[
\frac{1}{\sigma^2}
\underbrace{
\int_{-...
...\mu)^2 \right]} } = { {{\bf Var } \left[ X \right]} }}
\right]
\end{displaymath}

Luego

\begin{displaymath}\frac{1}{\sigma^2} - \frac{1}{\sigma^4}{ {{\bf Var } \left[ X...
... =0 \Longrightarrow
{ {{\bf Var } \left[ X \right]} }=\sigma^2
\end{displaymath}

Para demostrar el resultado relativo a la función característica, consideramos en primer lugar la v.a. tipificada de X,


\begin{displaymath}Z=\frac{X-\mu}{\sigma}{\leadsto}{ {{\bf N} \left( 0,1 \right)} }
\end{displaymath}

y calculamos


\begin{displaymath}\phi_Z(t) = \int_{-\infty}^{+\infty} e^{itz} \frac{1}{\sqrt{2...
...\frac{1}{2}(z-it)^2} \,dz
}_{\sqrt{2\pi}} = e^{-\frac{t^2}{2}}
\end{displaymath}

Como $X=\mu+ \sigma U$, por la proposición 5 deducimos que


\begin{displaymath}\phi_X(t) =
e^{it\mu}\phi_Z(\sigma t) =e^{it\mu-\frac{1}{2}t^2\sigma^2}
\end{displaymath}

6.8.6.6 Aproximación a la normal de la ley binomial

Se puede demostrar (teorema central del límite) que una v.a. discreta con distribución binomial, $X {\leadsto}{ {{\bf B} \left( n,p \right)} }$se puede aproximar mediante una distribución normal si n es suficientemente grande y p no está ni muy próximo a 0 ni a 1. Como el valor esperado y la varianza de X son respectivamente $n\,p$ y $n\,p\,q$, la aproximación consiste en decir que $X{\: \stackrel{\approx}{\leadsto}\:}{ {{\bf N} \left( n\,p,n\,p\,q \right)} }$. El convenio que se suele utilizar para poder realizar esta aproximación es:


\begin{displaymath}X{\leadsto}{ {{\bf B} \left( n,p \right)} }\;\;\mbox{ donde }...
...\approx}{\leadsto}\:}{ {{\bf N} \left( n\,p,n\,p\,q \right)} }
\end{displaymath}

aunque en realidad esta no da resultados muy precisos a menos que realmente nsea un valor muy grande o $p\approx q\approx 1/2$. Como ilustración obsérvense las figuras 6.10 y 6.11.


  
Figura: Comparación entre la función de densidad de una v.a. continua con distribución ${ {{\bf N} \left ( n\,p,n\,p\,q \right )} }$y el diagrama de barras de una v.a. discreta de distribución ${ {{\bf B} \left ( n,p \right )} }$ para casos en que la aproximación normal de la binomial es válida. Es peor esta aproximación cuando p está próximo a los bordes del intervalo [0,1].
\includegraphics[angle=0, width=0.8\textwidth]{fig06-10.eps}


  
Figura: La misma comparación que en la figura anterior, pero realizada con parámetros con los que damos la aproximación normal de la binomial es mejor.
\includegraphics[angle=0, width=0.8\textwidth]{fig06-11.eps}

6.8.6.7 Ejemplo

Durante cierta epidemia de gripe, enferma el $30\%$ de la población. En un aula con 200 estudiantes de Medicina, ¿cuál es la probabilidad de que al menos 40 padezcan la enfermedad? Calcular la probabilidad de que haya 60 estudiantes con gripe.

Solución: La v.a. que contabiliza el número de alumnos que padece la gripe es


\begin{displaymath}X{\leadsto}{ {{\bf B} \left( n=200,p=0,3 \right)} }
\end{displaymath}

cuya media es $\mu=n\cdot p = 60$ y su varianza es $\sigma^2=n\,p\, q= 42$. Realizar los cálculos con la ley binomial es muy engorroso, ya que intervienen números combinatorios de gran tamaño, y potencias muy elevadas. Por ello utilizamos la aproximación normal de X, teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable:


\begin{displaymath}X{\leadsto}{ {{\bf B} \left( n,p \right)} }\;\;\mbox{ donde }...
...X_N{\leadsto}{ {{\bf N} \left( \mu=60,\sigma^2 = 42 \right)} }
\end{displaymath}

Así aproximando la v.a. discreta binomial X, mediante la v.a. continua normal XN tenemos:

\begin{eqnarray}\html{eqn83}{{\cal P}}[X\leq 40] &\approx& {{\cal P}}[X_N\leq 40...
...
\nonumber \\
\mbox{buscando en la tabla 3}&=& 0,999
\nonumber
\end{eqnarray}


También es necesario calcular ${{\cal P}}[X=60]$. Esta probabilidad se calcula exactamente como:


\begin{displaymath}{{\cal P}}[X=60] = { \left(\begin{array}{c} 200\\ 60 \end{array}\right)\,}p^{60}\, q^{140}
\end{displaymath}

Dada la dificultad numérica para calcular esa cantidad, y como la distribución binomial no está habitualmente tabulada hasta valores tan altos, vamos a utilizar su aproximación normal, XN. Pero hay que prestar atención al hecho de que XN es una v.a. continua, y por tanto la probabilidad de cualquier punto es cero. En particular,


\begin{displaymath}{{\cal P}}[X_N=60]=0 \;\;\Longrightarrow \;\;{{\cal P}}[X=60]\approx 0
\end{displaymath}

lo que ha de ser interpretado como un error de aproximación. Hay métodos más aproximados para calcular la probabilidad buscada. Por ejemplo, podemos aproximar ${{\cal P}}[X=60]$ por el valor de la función de densidad de XN en ese punto (es en el único sentido en que se puede entender la función de densidad de la normal como una aproximación de una probabilidad). Así:


\begin{displaymath}{{\cal P}}[X=60]\approx f_{X_N}(60) =
{\scriptstyle \frac{1}...
...t)^2}
={\scriptstyle \frac{1}{\sigma \sqrt{2\pi}}} e^0 = 0,063
\end{displaymath}

Por último, otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60 del que deseamos hallar su probabilidad y hacer:


\begin{displaymath}{{\cal P}}[X=60] \approx {{\cal P}}[59'5 \leq X_N \leq 60,5] ...
...\underbrace{-0,08\leq Z\leq 0,08}_{\mbox{simetría}}]
= 0,0638
\end{displaymath}

6.8.6.8 Ejemplo

Según un estudio, la altura de los varones de cierta ciudad es una v.a. X, que podemos considerar que se distribuye según una ley gaussiana de valor esperado $\mu=175\,cm$ y desviación típica $\sigma=10\,cm$. Dar un intervalo para el que tengamos asegurado que el $50\%$ de los habitantes de la ciudad estén comprendidos en él.

Solución: Tenemos que $X{\leadsto}{ {{\bf N} \left( \mu=175,\sigma^2=10^2 \right)} }$. Si buscamos un intervalo donde estar seguros de que el $50\%$ de los habitantes tengan sus alturas comprendidas en él hay varias estrategias posibles:

1.
Podemos tomar el percentil 50, ya que este valor deja por debajo suya a la mitad, 0,5, de la masa de probabilidad. Este valor, x0,5, se definiría como:

\begin{eqnarray}\html{eqn83}\int_{-\infty}^{x_{0,5}} f(t)\,dt = 0,5
\;\;&\Longle...
...cando } &\Longleftrightarrow&\;\;
{{\cal P}}[Z\leq z_{0,5}] =0,5
\end{eqnarray}


donde

\begin{eqnarray}\html{eqn84}Z&=&\frac{X-\mu}{\sigma} = \frac{X-175}{10}{\leadsto...
...\
z_{0,5}&= & \frac{x_{0,5}-\mu}{\sigma}= \frac{x_{0,5}-175}{10}
\end{eqnarray}


El valor z0,5 lo podemos buscar en la tabla 3 (distribución ${ {{\bf N} \left ( 0,1 \right )} }$) y se obtiene


\begin{displaymath}z_{0,5}=0\;\;\Longrightarrow x_{0,5}=175 + 10\cdot z_{0,05} = 175
\end{displaymath}

Por tanto podemos decir que la mitad de la población tiene una altura inferior a $x_{0,5}=175\,cm$. Este resultado era de esperar, ya que en la distribución es simétrica y habrá una mitad de individuos con un peso inferior a la media y otro con un peso superior (figura 6.12). Esto puede escribirse como:

El $50\%$ de la población tiene un peso comprendido en el intervalo $(-\infty,175]$.


  
Figura: Intervalo donde tenemos asegurado que el 50% de la población tiene un peso comprendido en él. Como se observa, no es un tamaño óptimo, en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda).
\includegraphics[angle=-90, width=0.8\textwidth]{fig06-12.epsi}

2.
Análogamente podemos considerar el percentil 50, y tomar como intervalo aquellos pesos que lo superan. Por las mismas razones que en el problema anterior, podremos decir:

El $50\%$ de la población tiene un peso comprendido en el intervalo $[175,+\infty)$.

3.
Los anteriores intervalos, aún dando un resultado correcto, no son satisfactorios en el sentido de que son muy grandes, y no tienen en cuenta la simetría de la distribución normal para tomar un intervalo cuyo centro sea $\mu $. Vamos a utilizar entonces otra técnica que nos permita calcular el intervalo centrado en la media, y que además será el más pequeño posible que contenga al $50\%$de la población.

Para ello observamos que la mayor parte de probabilidad está concentrada siempre alrededor de la media en las leyes gaussianas. Entonces podemos tomar un intervalo que contenga un $25\%$ de probabilidad del lado izquierdo más próximo a la media, y un $25\%$ del derecho (figura 6.13).


  
Figura: Intervalo donde tenemos asegurado que el 50% de la población tiene un peso comprendido en él. En este caso el intervalo es más pequeño que el anterior y está centrado en $\mu $.
\includegraphics[angle=-90, width=0.8\textwidth]{fig06-13.epsi}

Esto se puede describir como el intervalo


\begin{displaymath}[x_{0,25}\,,\,x_{0,75}]
\end{displaymath}

donde x0,25 es el valor que deja por debajo de sí al $25\%$de la masa de probabilidad y x0,75 el que lo deja por encima (o lo que es lo mismo, el que deja por debajo al $75\%$ de las observaciones). Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribución normal, tipificando en primera instancia para destipificar después:

\begin{eqnarray}\html{eqn85}\int_{-\infty}^{x_{0,75}} f(t)\,dt = 0,75
\;\;&\Long...
...ndo } &\Longleftrightarrow&\;\;
{{\cal P}}[Z\leq z_{0,75}] =0,75
\end{eqnarray}


donde

\begin{eqnarray}\html{eqn86}Z&=&\frac{X-\mu}{\sigma} = \frac{X-175}{10}{\leadsto...
...z_{0,75}&= & \frac{x_{0,75}-\mu}{\sigma}= \frac{x_{0,75}-175}{10}
\end{eqnarray}


En una tabla encontramos el valor z0,75, y se destipifica:

\begin{displaymath}z_{0,75}=0,675\;\;\Longrightarrow x_{0,75}=175 + 10\cdot z_{0,75} = 181'75
\end{displaymath}

Análogamente se calcularía

\begin{eqnarray}\html{eqn87}\int_{-\infty}^{x_{0,25}} f(t)\,dt = 0,25
\;\;&\Long...
...ndo } &\Longleftrightarrow&\;\;
{{\cal P}}[Z\leq z_{0,25}] =0,25
\end{eqnarray}


donde

\begin{eqnarray}\html{eqn88}Z&=&\frac{X-\mu}{\sigma} = \frac{X-175}{10}{\leadsto...
...z_{0,25}&= & \frac{x_{0,25}-\mu}{\sigma}= \frac{x_{0,25}-175}{10}
\end{eqnarray}


Por la simetría de la distribución normal con respecto al origen, tenemos que z0,25= - z0,75.Luego


\begin{displaymath}z_{0,25}=-0,675\;\;\Longrightarrow x_{0,75}=175 + 10\cdot z_{0,25} = 168,25
\end{displaymath}

En conclusión:

El $50\%$ de la población tiene un peso comprendido en el intervalo [168,25,181,75].

De entre los tres intervalos que se han calculado el que tiene más interés es el último, ya que es simétrico con respecto a la media, y es el más pequeño de todos los posibles (más preciso). Este ejemplo es en realidad una introducción a unas técnicas de inferencia estadística que trataremos posteriormente, conocidas con el nombre de ``estimación confidencial'' o ``cálculo de intervalos de confianza''.


next up previous
Nodo Raíz: 6.8 Distribuciones continuas
Siguiente: 6.8.8 Distribución
Previo: 6.8.4 Distribución exponencial

Éste texto es la versión electrónica del manual de la Universidad de Málaga:
Bioéstadística: Métodos y Aplicaciones
U.D. Bioestadística. Facultad de Medicina. Universidad de Málaga.
ISBN: 847496-653-1
Bioestadística: Apuntes en vídeo