up
next previous
Nodo Raíz: 10. Contrastes basados en el estadístico
Siguiente: 10.6 Contraste de bondad de ajuste
Previo: 10.2 Introducción

10.4 El estadístico $\chi ^2$ y su distribución

Sea X una v.a. cuyo rango son los valores $i=1,2,\dots,k$, de modo que pi es la probabilidad de cada valor;


\begin{displaymath}X{\leadsto}\left\{
\begin{array}{l}
1 \:\rightarrow \: {{\cal...
...
\\
k \:\rightarrow \: {{\cal P}}[X=k]=p_k
\end{array}\right.
\end{displaymath}

Este tipo de v.a. puede corresponder a variables ya estudiadas como es el caso de la distribución Binomial


\begin{displaymath}X{\leadsto}{ {{\bf B} \left( k,p \right)} } \Longrightarrow
...
... k\\ i \end{array}\right)\,} \,p^i\,q^{k-i}
\end{array}\right.
\end{displaymath}

pero nosotros vamos a usarla para v.a. más generales. Supongamos que el resultado de un experimento aleatorio es una clase c1, c2, ..., ck(ci, $i=1,\dots,k$), que puede representar valores cualitativos, discretos o bien intervalos para variables continuas. Sea pi la probabilidad de que el resultado del experimento sea la clase ci. Vamos a considerar contrastes cuyo objetivo es comprobar si ciertos valores pi0, propuestos para las cantidades pi son correctas o no, en función de los resultados experimentales

 \begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \mbox{Los $p_i^0$\space s...
...dots
\\
p_k \neq p_k^0.
\end{array}\right.
\end{array}\right.
\end{displaymath}

Mediante muestreo aleatorio simple, se toma una muestra de tamaño n y se obtienen a partir de ella unas frecuencias observadas de cada clase que representamos mediante ${\cal O}_1$, ${\cal O}_1$, ..., ${\cal O}_k$

Clase Frec. Abs.
ci ${\cal O}_i$
c1 ${\cal O}_1$
c2 ${\cal O}_2$
... ...
ck ${\cal O}_k$
$\displaystyle \sum_{i=1}^k {\cal O}_i=n$

Supongamos que la hipótesis nula es cierta. Al ser pi=pi0 la proporción de elementos de la clase ci en la población, el número de individuos de que presentan esta modalidad al tomar una muestra de tamaño n, es una v.a. de distribución binomial, ${ {{\bf B} \left( n,p_i^0 \right)} }$. Por tanto la frecuencia esperada de individuos de esa clase es


\begin{displaymath}{\cal E}_i= n\cdot p_i^0 \qquad \forall \,i=1,2,\dots,k
\end{displaymath}


\begin{displaymath}\sum_{i=1}^k {\cal E}_i = n \cdot \sum_{i=1}^k p_i^0 = n
\end{displaymath}

Obsérvese que a diferencia de las cantidades ${\cal O}_i$, que son las frecuencias que realmente se obtienen en una muestra, las frecuencias esperadas no tienen por que ser números enteros. De cualquier modo, bajo la suposición de que H0 es cierta cabe esperar que las diferencias entre las cantidades ${\cal E}_i$ y ${\cal O}_i$ sea pequeña.

Pearson propuso el estadístico


\begin{displaymath}\chi^2=\sum_{i=1}^k \frac{({\cal O}_i-{\cal E}_i)^2}{{\cal E}_i}
\end{displaymath}

el cual, siguiendo la linea de razonamiento anterior debe tomar valores pequeños si H0 es cierta. Si al tomar una muestra, su valor es grande eso pone en evidencia que la hipótesis inicial es probablemente falsa. Para decidir cuando los valores de $\chi ^2$ son grandes es necesario conocer su ley de probabilidad. Se tiene entonces el siguiente resultado


\begin{teorema}[Ley asintótica para $\chi^2$ ]
Si la hipótesis $H_0$\space es ci...
...ndo $n$\space es grande y los $p_i$ son cercanos a $\frac{1}{2}$ .
\end{teorema}
Como sólo son los valores grandes de
$\chi ^2$ los que nos llevan a rechazar H0, la región crítica es (véase la figura 10.1


\begin{displaymath}{ {\cal C} }= (\chi_{k-p-h,1-\alpha}^2,\infty)
\end{displaymath}


  
Figura: Región crítica (sombreada) para un contraste con el estadístico $\chi ^2$.
\includegraphics[angle=-90, width=0.8\textwidth]{f10-1.epsi}

es decir,


\begin{displaymath}\mbox{sean }
\left\{
\begin{array}{l} \displaystyle
\chi_{ex...
...mbox{ se rechaza $H_0$ y se acepta $H_1$ .}
\end{array}\right.
\end{displaymath}

10.4.0.1 Observación

A pesar de que el contraste parece ser bilateral al ver la expresión de la relación (10.1), la forma de ${\cal C}$, nos indica que el contraste es unilateral: Sólo podemos saber si existe desajuste entre los esperado y lo observado, pero no podemos contrastar hipótesis alternativas del tipo ``pi mayor que cierto valor''.

10.4.0.2 Observación

Obsérvese que en realidad $\chi ^2$ no es una variable aleatoria continua: Los posibles resultados de la muestra se resumen en las cantidades ${\cal O}_1$, ${\cal O}_2$, ..., ${\cal O}_k$, que únicamente toman valores discretos. Luego las cantidades


\begin{displaymath}\chi_{exp}^2({\cal O}_1,{\cal O}_2,\dots,{\cal O}_k)
\end{displaymath}

sólo puede tomar un número finito de valores distintos (aunque sean cantidades con decimales). Por tanto su distribución no es continua. Luego al realizar la aproximación mencionada hay que precisar en qué condiciones el error cometido es pequeño. De modo aproximado podemos enunciar el siguiente criterio que recuerda al de la aproximación binomial por la distribución normal:

1.
n>30;

2.
${\cal E}_i=n\cdot p_i>5$ para todo $i=1,\dots,k$.

Sin embargo esta regla resulta demasiado estricta a la hora de aplicarla en la práctica. Se utiliza entonces una regla más flexible y que no sacrifica demasiada precisión con respecto a la anterior:

1.
Para ninguna clase ocurre que ${\cal E}_i=n\cdot p_i<1$

2.
${\cal E}_i=n\cdot p_i>5$ para casi todos los $i=1,\dots,k$, salvo a lo sumo un $20\%$ de ellos.

Si a pesar de todo, estas condiciones no son verificadas, es necesario agrupar las clases que tengan menos elementos con sus adyacentes.

10.4.0.3 Observación

El lector puede considerar los contrastes con el estadístico ${ \mbox{\boldmath$\chi$ } }^2$ como una generalización del contraste de proporciones. Para ello le invitamos a estudiar el siguiente ejemplo.

10.4.0.4 Ejemplo

Se desea saber si cierta enfermedad afecta del mismo modo a los hombres que a las mujeres. Para ello se considera una muestra de n=618 individuos que padecen la enfermedad, y se observa que 341 son hombres y el resto son mujeres. ¿Qué conclusiones se obtiene de ello?

Solución:

El contraste a realizar se puede plantear de dos formas que después veremos que son equivalentes:

* Contraste de una proporción:
Si p es el porcentaje de hombres en la población de enfermos, podemos considerar el contraste:


\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: p=1/2
\\
\\
H_1\: : \: p\neq 1/2
\end{array}\right.
\end{displaymath}

De la muestra obtenemos la siguiente estimación puntual del porcentaje de enfermos de sexo masculino:

\begin{displaymath}\hat{p}=341/618=0,55178
\end{displaymath}

Para ver si esto es un valor ``coherente'' con la hipótesis nula, calculemos la significatividad del contraste:

\begin{displaymath}Z_{exp}=\frac{\hat{p}-p}{\sqrt{p*q/n}}{\leadsto}{ {{\bf N} \left( 0,1 \right)} }.
\end{displaymath}

Por otro lado,


\begin{displaymath}Z_{exp}=
\frac{0,55178-0,5}{\sqrt{0,5\times0,5/60}}=2,574
\end{displaymath}

Como el contraste es de tipo bilateral, la significatividad del contraste es (buscando en la tabla de la distribución normal):


\begin{displaymath}{{\cal P}}[\left\vert Z\right\vert>2,574]=2\cdot{{\cal P}}[Z>2,574]=2*0,005=1\%<5\%
\end{displaymath}

Lo que nos indica que se ha de rechazar la hipótesis nula y aceptar la hipótesis alternativa, es decir, afirmamos que existe una evidencia significativa a favor de la hipótesis de que la enfermedad no afecta por igual a hombres y mujeres.

* Contraste con el estadístico ${ \mbox{\boldmath$\chi$ } }^2$:
En este caso planteamos el contraste:


\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \left\vert
\begin{array}{...
...
\\
p_{mujeres}\neq 1/2
\end{array}\right.
\end{array}\right.
\end{displaymath}

Para resolverlo escribimos en una tabla los frecuencias muestrales observadas de hombres y mujeres, junto a los valores esperados en el caso de que la hipótesis nula fuese cierta:

  frecuencias frecuencias    
  observadas esperadas diferencia  
  ${\cal O}_i$ ${\cal E}_i$ ${\cal O}_i-{\cal E}_i$ $({\cal O}_i-{\cal E}_i)^2/{\cal E}_i$
Hombres 341 $618\times1/2=309$ 9 322/309
Mujeres 277 $618\times1/2=309$ -9 (-32)2/309
  618 618 0 6,63

Consideremos entonces el estadístico


\begin{displaymath}\chi^2=\sum_{i=1}^k \frac{({\cal O}_i-{\cal E}_i)^2}{{\cal E}...
...oldmath$\chi$ } }_{2-0-1}^2={ \mbox{\boldmath$\chi$ } }_{1}^2
\end{displaymath}

donde:

El estadístico calculado sobre la muestra ofrece el valor experimental:

\begin{displaymath}\chi_{exp}^2=6,63
\end{displaymath}

que es el percentil 99 de la distribución ${ \mbox{\boldmath$\chi$ } }_{1}^2$. De nuevo se obtiene que la significatividad del contraste es del 1%<5%.

En conclusión, con los dos métodos llegamos a que hay una fuerte evidencia en contra de que hay el mismo porcentaje de hobres y mujeres que padecen la enfermedad. La ventaja de la última forma de plantear el contraste (diferencia entre frecuencias observadas y esperadas) es que la técnica se puede aplicar a casos más generales que variables dicotómicas, como se verá más adelante.

10.4.0.5 Observación

Hay una fórmula alternativa para el cálculo de $\chi ^2$ cuya expresión es más fácil de utilizar cuando realizamos cálculos:


\begin{proposicion}\par\begin{displaymath}
\chi^2=\sum_{i=1}^k \frac{{\cal O}_i^2}{{\cal E}_i} - n
\end{displaymath}
\end{proposicion}

Demostración


\begin{eqnarray*}\chi^2&=&\sum_{i=1}^k \frac{({\cal O}_i-{\cal E}_i)^2}{{\cal E}...
...\\
& &
\\
&=&\sum_{i=1}^k \frac{{\cal O}_i^2}{{\cal E}_i} - n
\end{eqnarray*}




 
next up previous
Nodo Raíz: 10. Contrastes basados en el estadístico
Siguiente: 10.6 Contraste de bondad de ajuste
Previo: 10.2 Introducción

Éste texto es la versión electrónica del manual de la Universidad de Málaga:
Bioéstadística: Métodos y Aplicaciones
U.D. Bioestadística. Facultad de Medicina. Universidad de Málaga.
ISBN: 847496-653-1
Bioestadística: Apuntes en vídeo