up
next previous
Nodo Raíz: 2.7 Medidas de variabilidad o dispersión
Siguiente: 2.7.6 Coeficiente de variación
Previo: 2.7.2 Desviación media, Dm

Subsecciones

2.7.4 Varianza y desviación típica

Como forma de medir la dispersión de los datos hemos descartado:

Si las desviaciones con respecto a la media las consideramos al cuadrado, $(x_i-\overline{x})^2$, de nuevo obtenemos que todos los sumandos tienen el mismo signo (positivo). Esta es además la forma de medir la dispersión de los datos de forma que sus propiedades matemáticas son más fáciles de utilizar. Vamos a definir entonces dos estadísticos que serán fundamentales en el resto del curso: La varianza y la desviación típica.

La varianza, ${{\cal S}^{2}}$, se define como la media de las diferencias cuadráticas de n puntuaciones con respecto a su media aritmética, es decir \begin{displaymath}\mbox{\fbox{$
\displaystyle {{\cal S}^{2}}= \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2
$ } }
\end{displaymath}
Para datos agrupados en tablas, usando las notaciones establcidas en los capítulos anteriores, la varianza se puede escibir como \begin{displaymath}\displaystyle {{\cal S}^{2}}= \frac{1}{n} \sum_{i=1}^k (x_i - \overline{x})^2 \, n_i
\end{displaymath}
Una fórmula equivalente para el cálculo de la varianza está basada en lo siguiente:

\begin{eqnarray}\html{eqn14}{{\cal S}^{2}}&=& \frac{1}{n} \sum_{i=1}^n (x_i - \o...
...}^2 = \frac{1}{n} \sum_{i=1}^n x_i^2 -
\overline{x}^2
\nonumber
\end{eqnarray}


Con lo cual se tiene

 \begin{displaymath}\mbox{\fbox{$
\displaystyle {{\cal S}^{2}}=\frac{1}{n} \sum_{i=1}^n x_i^2 -
\overline{x}^2
$ } }
\end{displaymath}

Si los datos están agrupados en tablas, es evidente que


\begin{displaymath}{{\cal S}^{2}}=
\frac{1}{n} \sum_{i=1}^k x_i^2 \, n_i -
\overline{x}^2
\end{displaymath}

La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones se miden en metros, la varianza lo hace en $\mbox{metros}^2$). Si queremos que la medida de dispersión sea de la misma dimensionalidad que las observaciones bastará con tomar su raíz cuadrada. Por ello se define la desviación típica, ${\cal S}$, como


\begin{displaymath}{\cal S}= \sqrt{{{\cal S}^{2}}}
\end{displaymath}

2.7.4.1 Ejemplo

Calcular la varianza y desviación típica de las siguientes cantidades medidas en metros:


3,3,4,4,5

Solución: Para calcular dichas medidas de dispersión es necesario calcular previamente el valor con respecto al cual vamos a medir las diferencias. Éste es la media:


\begin{displaymath}\overline{x}= (3+3+4+4+5)/5 = 3,8\mbox { metros}
\end{displaymath}

La varianza es:


\begin{displaymath}{{\cal S}^{2}}= \frac{1}{n} \sum_{i=1}^n x_i^2 - \overline{x}...
... + 3^2 + 4^2+ 4^2+ 5^2\right) - 3,8^2
= 0,56 \mbox{ metros}^2
\end{displaymath}

siendo la desviación típica su raíz cuadrada:


\begin{displaymath}{\cal S}=\sqrt{{{\cal S}^{2}}}= \sqrt{0,56} = 0,748 \mbox{ metros}
\end{displaymath}

Las siguientes propiedades de la varianza (respectivamente, desviación típica) son importantes a la hora de hacer un cambio de origen y escala a una variable. En primer lugar, la varianza (resp. Desviación típica) no se ve afectada si al conjunto de valores de la variable se le añade una constante. Si además cada observación es multiplicada por otra constante, en este caso la varianza cambia en relación al cuadrado de la constante (resp. La desviación típica cambia en relación al valor absoluto de la constante). Esto queda precisado en la siguiente proposicion:

  
2.7.4.2 Proposición

Si $Y=a \, X+b$ entonces ${{\cal S}^{2}}_Y = a^2 \, {{\cal S}^{2}}_X$

Demostración
Para cada observación xi de X, $i=1, \dots,n$, tenemos una observación de Y que es por definición $y_i = a\,x_i + b$. Por la proposición 2.1, se tiene que $\overline{y}=a\,\overline{x}+b$. Por tanto, la varianza de Y es

\begin{eqnarray}\html{eqn16}{{\cal S}^{2}}_Y &=& \frac{1}{n} \sum_{i=1}^n (y_i -...
...2\, (x_i-\overline{x})^2
\nonumber \\
&=& a^2\,{{\cal S}^{2}}_X
\end{eqnarray}


2.7.4.3 Observación

Las consecuencias del anterior resultado eran de esperar: Si los resultados de una medida son trasladados una cantidad b, la dispersión de los mismos no aumenta. Si estos mismos datos se multiplican por una cantidad a <1, el resultado tenderá a concentrarse alrededor de su media (menor varianza). Si por el contrario a>1 habrá mayor dispersión.

Otra propiedad fundamental de la varianza es la siguiente:

  
2.7.4.4 Proposición

Dados r grupos, cada uno de ellos formado por ni observaciones de media $\overline{x}_i$ y de varianza ${{\cal S}_{i}^{2}}$. Entonces la varianza, ${{\cal S}^{2}}$, del conjunto de todas las $n=n_1+\dots+n_r$ observaciones vale

\begin{displaymath}{{\cal S}^{2}}= \frac{1}{n} \sum_{i=1}^r n_i \, {{\cal S}_{i}...
...\frac{1}{n} \sum_{i=1}^r n_i (\overline{x}_i - \overline{x})^2
\end{displaymath}

Demostración

Dicho de otro modo, pretendemos demostrar que la varianza total es igual a la media de las varianzas más la varianza de las medias. Comenzamos denotando mediante xij la observación j-ésima en el i-ésimo grupo, donde $i=1,\dots,r$ y $j=1,\dots, n_i$. Entonces

\begin{eqnarray}\html{eqn19}{{\cal S}^{2}}&=& \frac{1}{n} \sum_{i=1}^r \sum_{j=1...
...{1}{n} \sum_{i=1}^r (\overline{x}_i - \overline{x})^2
\nonumber
\end{eqnarray}


2.7.4.5 Observación

Además de las propiedades que hemos demostrado sobre la varianza (y por tanto sobre la desviación típica), será conveniente tener siempre en mente otras que enunciamos a continuación:

2.7.4.6 Método abreviado para el cálculo de la varianza

La proposición de la página [*] puede ser utilizada para simplificar cálculos al igual que vimos en el ejemplo 2.1. Si una variable X toma unos valores para los cuales las operaciones de cálculo de media y varianza son tediosas, podemos realizar los cálculos sobre una variable Z definida como


\begin{displaymath}Z= \frac{X-x_0}{a}
\end{displaymath}

Una vez que han sido calculadas $\overline{z}$ y ${\cal S}_Z^2$, obtenemos $\overline {x}$ y ${\cal S}_X^2$ teniendo en cuenta que:


\begin{displaymath}X = a\,Z + x_0 \Longrightarrow
\left\{
\begin{array}{l}
\over...
...0
\\
\\
{\cal S}_X^2 = a^2\, {\cal S}_Z^2
\end{array}\right.
\end{displaymath}

   
2.7.4.7 Grados de libertad

Los grados de libertad de un estadístico calculado sobre n datos se refieren al número de cantidades independientes que se necesitan en su cálculo, menos el número de restricciones que ligan a las observaciones y el estadístico. Es decir, normalmente n-1.

Ilustremoslo con un ejemplo. Consideramos una serie de valores de una variable,


\begin{displaymath}x_i \leadsto 2,5,7,9,12
\end{displaymath}

que han sido tomados de forma independiente.

Su media es $\overline{x}=7$ y se ha calculado a partir de las n=5observaciones independientes xi, que están ligadas a la media por la relación:


\begin{displaymath}\overline{x}=\frac{1}{n}\sum x_i
\end{displaymath}

Luego el número de grados de libertad de la media es n-1=4.

Si calculamos a continuación la varianza, se han de sumar n cantidades


\begin{displaymath}\frac{(x_i-\overline{x})^2}{n}
\end{displaymath}

Sin embargo esas cantidades no son totalmente independientes, pues están ligadas por una restricción:


\begin{displaymath}\sum_{i=1}^n (x_i- \left(\sum_{i=1}^n x_i\right)/n ) = 0
\end{displaymath}

El número de grados de libertad del estadístico es el número de observaciones de la variable menos el número de restricciones que verifican, así que en este caso, los grados de libertad de la varianza sobre los n=5 datos son también n-1 =4.

Un principio general de la teoría matemática nos dice que si pretendemos calcular de modo aproximado la varianza de una población a partir de la varianza de una muestra suya, se tiene que el error cometido es generalmente más pequeño, si en vez de considerar como estimación de la varianza de la población, a la varianza muestral


\begin{displaymath}{{\cal S}^{2}}= \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2
\end{displaymath}

consideramos lo que se denomina cuasivarianza muestral, $\widehat{\cal S}^2$ que se calcula como la anterior, pero cambiando el denominador por el número de grados de libertad, n-1:

\begin{displaymath}{
\mbox{\fbox{$\displaystyle
\widehat{\cal S}^2 = \frac{1}{n...
... - \overline{x})^2 =
\frac {n \, {{\cal S}^{2}}}{n-1}
$ } }
}
\end{displaymath}

Sobre este punto incideremos más adelante, ya que es fundamental en estadística inferencial.

2.7.4.8 Tipificación

Se conoce por tipificación al proceso de restar la media y dividir por su desviación típica a una variable X. De este modo se obtiene una nueva variable

\begin{displaymath}%
{
\mbox{\fbox{$\displaystyle
Z=\frac{X-\overline{x}}{{\cal S}}
$ } }
}
\end{displaymath}
de media $\overline{z}=0$ y desviación típica ${\cal S}_Z=1$, que denominamos variable tipificada.

Esta nueva variable carece de unidades y permite hacer comparables dos medidas que en un principio no lo son, por aludir a conceptos diferentes. Así por ejemplo nos podemos preguntar si un elefante es más grueso que una hormiga determinada, cada uno en relación a su población. También es aplicable al caso en que se quieran comparar individuos semejantes de poblaciones diferentes. Por ejemplo si deseamos comparar el nivel académico de dos estudiantes de diferentes Universidades para la concesión de una beca de estudios, en principio sería injusto concederla directamente al que posea una nota media más elevada, ya que la dificultad para conseguir una buena calificación puede ser mucho mayor en un centro que en el otro, lo que limita las posibilidades de uno de los estudiante y favorece al otro. En este caso, lo más correcto es comparar las calificaciones de ambos estudiantes, pero tipificadas cada una de ellas por las medias y desviaciones típicas respectivas de las notas de los alumnos de cada Universidad.


next up previous
Nodo Raíz: 2.7 Medidas de variabilidad o dispersión
Siguiente: 2.7.6 Coeficiente de variación
Previo: 2.7.2 Desviación media, Dm

Éste texto es la versión electrónica del manual de la Universidad de Málaga:
Bioéstadística: Métodos y Aplicaciones
U.D. Bioestadística. Facultad de Medicina. Universidad de Málaga.
ISBN: 847496-653-1
Bioestadística: Apuntes en vídeo