Sea X una v.a. cuyo rango son los valores
, de modo
que pi es la probabilidad de cada valor;
Este tipo de v.a. puede corresponder a variables ya estudiadas como es el caso de la distribución Binomial
pero nosotros vamos a usarla para v.a. más generales.
Supongamos que el resultado de un
experimento aleatorio es una clase c1, c2, ..., ck(ci,
), que puede representar valores
cualitativos, discretos o bien intervalos para variables continuas.
Sea pi la probabilidad de que el resultado del experimento
sea la clase ci. Vamos a considerar contrastes cuyo
objetivo es comprobar si
ciertos valores pi0, propuestos para las cantidades pi son correctas
o no, en función de los resultados experimentales
Mediante muestreo aleatorio simple, se
toma una muestra de tamaño n y se obtienen a partir de ella
unas frecuencias observadas de cada clase que representamos
mediante
,
, ...,
| Clase | Frec. Abs. |
| ci |
|
| c1 |
|
| c2 |
|
| ... | ... |
| ck |
|
![]() |
|
Supongamos que la hipótesis nula es cierta.
Al ser pi=pi0 la proporción de elementos de la clase ci en la
población, el número de individuos de que presentan esta modalidad
al tomar una muestra de tamaño n, es una v.a. de distribución
binomial,
.
Por tanto la frecuencia esperada de
individuos de esa clase es
Obsérvese que a diferencia de las cantidades
,
que son las frecuencias que realmente se obtienen en una muestra,
las frecuencias esperadas no tienen por que ser números enteros.
De cualquier modo, bajo la suposición de que H0 es cierta
cabe esperar que las diferencias entre las cantidades
y
sea pequeña.
Pearson propuso el estadístico
el cual, siguiendo la linea de razonamiento anterior
debe tomar
valores pequeños si H0 es cierta. Si al tomar
una muestra, su valor es grande eso pone en evidencia que
la hipótesis inicial es probablemente falsa. Para
decidir cuando los valores de
son grandes es
necesario conocer su ley de probabilidad. Se tiene
entonces el siguiente resultado
Como sólo son los valores grandes de
los que nos
llevan a rechazar H0, la región crítica es (véase la figura
10.1
es decir,
sólo puede tomar un número finito de valores distintos (aunque sean cantidades con decimales). Por tanto su distribución no es continua. Luego al realizar la aproximación mencionada hay que precisar en qué condiciones el error cometido es pequeño. De modo aproximado podemos enunciar el siguiente criterio que recuerda al de la aproximación binomial por la distribución normal:
Sin embargo esta regla resulta demasiado estricta a la hora de aplicarla en la práctica. Se utiliza entonces una regla más flexible y que no sacrifica demasiada precisión con respecto a la anterior:
Solución:
El contraste a realizar se puede plantear de dos formas que después veremos que son equivalentes:
De la muestra obtenemos la siguiente estimación puntual del
porcentaje de enfermos de sexo masculino:
Para ver si esto es un valor ``coherente'' con la hipótesis
nula, calculemos la significatividad del contraste:
Por otro lado,
Como el contraste es de tipo bilateral, la significatividad del contraste es (buscando en la tabla de la distribución normal):
Lo que nos indica que se ha de rechazar la hipótesis nula y aceptar la hipótesis alternativa, es decir, afirmamos que existe una evidencia significativa a favor de la hipótesis de que la enfermedad no afecta por igual a hombres y mujeres.
Para resolverlo escribimos en una tabla los frecuencias muestrales observadas de hombres y mujeres, junto a los valores esperados en el caso de que la hipótesis nula fuese cierta:
| frecuencias | frecuencias | |||
| observadas | esperadas | diferencia | ||
|
|
|
|
|
|
| Hombres | 341 |
|
9 | 322/309 |
| Mujeres | 277 |
|
-9 | (-32)2/309 |
| 618 | 618 | 0 | 6,63 |
Consideremos entonces el estadístico
El estadístico calculado sobre la muestra ofrece el valor
experimental:
que es el percentil 99 de la distribución
.
De nuevo se obtiene que la significatividad del contraste es del
1%<5%.
En conclusión, con los dos métodos llegamos a que hay una fuerte evidencia en contra de que hay el mismo porcentaje de hobres y mujeres que padecen la enfermedad. La ventaja de la última forma de plantear el contraste (diferencia entre frecuencias observadas y esperadas) es que la técnica se puede aplicar a casos más generales que variables dicotómicas, como se verá más adelante.