Como forma de medir la dispersión de los datos hemos descartado:
Si las desviaciones con respecto a la media las consideramos al cuadrado,
,
de nuevo
obtenemos que todos los sumandos tienen el mismo signo (positivo).
Esta es además la forma de medir la dispersión de los
datos de forma que sus propiedades matemáticas
son más fáciles de utilizar. Vamos a definir entonces dos
estadísticos que serán fundamentales en el resto del curso:
La varianza y la desviación típica.
La varianza,
,
se define como la media de las diferencias
cuadráticas de n puntuaciones con respecto a su media aritmética,
es decir
Para datos agrupados en tablas, usando las notaciones establcidas
en los capítulos anteriores, la varianza se puede escibir como
Una fórmula equivalente para el cálculo de la varianza está
basada en lo siguiente:

Si los datos están agrupados en tablas, es evidente que
La varianza no tiene la misma magnitud que las observaciones (ej. si las
observaciones se miden en metros, la varianza lo hace en
).
Si queremos que la medida de dispersión sea de la misma dimensionalidad
que las observaciones bastará con tomar su raíz cuadrada. Por
ello se define la desviación típica,
,
como
Solución: Para calcular dichas medidas de dispersión es necesario calcular previamente el valor con respecto al cual vamos a medir las diferencias. Éste es la media:
La varianza es:
siendo la desviación típica su raíz cuadrada:
Las siguientes propiedades de la varianza (respectivamente, desviación típica) son importantes a la hora de hacer un cambio de origen y escala a una variable. En primer lugar, la varianza (resp. Desviación típica) no se ve afectada si al conjunto de valores de la variable se le añade una constante. Si además cada observación es multiplicada por otra constante, en este caso la varianza cambia en relación al cuadrado de la constante (resp. La desviación típica cambia en relación al valor absoluto de la constante). Esto queda precisado en la siguiente proposicion:

Otra propiedad fundamental de la varianza es la siguiente:
Dicho de otro modo, pretendemos demostrar que la varianza total
es igual a la media de las varianzas más la varianza de las medias.
Comenzamos denotando mediante xij la observación j-ésima
en el i-ésimo grupo, donde
y
.
Entonces

se encuentra, al menos, el 75%
de las observaciones
(vease más adelante el teorema de Thebycheff, página
).
Incluso si tenemos muchos datos y estos provienen de una distribución normal (se definirá este concepto más adelante), podremos
llegar al
.
La proposición de la página
puede ser utilizada para
simplificar cálculos al igual que vimos en el ejemplo
2.1.
Si una variable X toma unos valores para los cuales
las operaciones de cálculo de media y varianza son tediosas,
podemos realizar los cálculos sobre una variable Z definida como
Una vez que han sido calculadas
y
,
obtenemos
y
teniendo en cuenta que:
Los grados de libertad de un estadístico calculado sobre n datos se refieren al número de cantidades independientes que se necesitan en su cálculo, menos el número de restricciones que ligan a las observaciones y el estadístico. Es decir, normalmente n-1.
Ilustremoslo con un ejemplo. Consideramos una serie de valores de una variable,
que han sido tomados de forma independiente.
Su media es
y se ha calculado a partir de las n=5observaciones independientes xi, que están ligadas a la media
por la relación:
Luego el número de grados de libertad de la media es n-1=4.
Si calculamos a continuación la varianza, se han de sumar n cantidades
Sin embargo esas cantidades no son totalmente independientes, pues están ligadas por una restricción:
El número de grados de libertad del estadístico es el número de observaciones de la variable menos el número de restricciones que verifican, así que en este caso, los grados de libertad de la varianza sobre los n=5 datos son también n-1 =4.
Un principio general de la teoría matemática nos dice que si pretendemos calcular de modo aproximado la varianza de una población a partir de la varianza de una muestra suya, se tiene que el error cometido es generalmente más pequeño, si en vez de considerar como estimación de la varianza de la población, a la varianza muestral
consideramos lo que se denomina cuasivarianza muestral,
que se
calcula como la anterior, pero cambiando el denominador por el
número de grados de libertad, n-1:
Sobre este punto incideremos más adelante, ya que es fundamental en estadística inferencial.
Se conoce por tipificación al proceso de restar la media y dividir por su desviación típica a una variable X. De este modo se obtiene una nueva variable
de media
y desviación típica
,
que
denominamos variable tipificada.
Esta nueva variable carece de unidades y permite hacer comparables dos medidas que en un principio no lo son, por aludir a conceptos diferentes. Así por ejemplo nos podemos preguntar si un elefante es más grueso que una hormiga determinada, cada uno en relación a su población. También es aplicable al caso en que se quieran comparar individuos semejantes de poblaciones diferentes. Por ejemplo si deseamos comparar el nivel académico de dos estudiantes de diferentes Universidades para la concesión de una beca de estudios, en principio sería injusto concederla directamente al que posea una nota media más elevada, ya que la dificultad para conseguir una buena calificación puede ser mucho mayor en un centro que en el otro, lo que limita las posibilidades de uno de los estudiante y favorece al otro. En este caso, lo más correcto es comparar las calificaciones de ambos estudiantes, pero tipificadas cada una de ellas por las medias y desviaciones típicas respectivas de las notas de los alumnos de cada Universidad.