Hemos visto que las medidas de centralización y dispersión nos
dan información sobre una muestra. Nos podemos preguntar
si tiene sentido usar estas magnitudes para comparar dos poblaciones.
Por ejemplo, si nos piden comparar la dispersión de los pesos de las
poblaciones de elefantes de dos circos diferentes,
nos
dará información útil.
¿Pero qué ocurre
si lo que comparamos es la altura de unos elefantes con respecto a su
peso?
Tanto la media como la desviación típica,
y
,
se expresan en las mismas unidades que la variable. Por ejemplo,
en la variable altura podemos usar como unidad de longitud el metro
y en la variable peso, el kilogramo. Comparar una desviación (con
respecto a la media) medida en metros con otra
en kilogramos no tiene ningún sentido.
El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en toneladas de una población de 100 elefantes con el correspondiente en miligramos de una población de 50 hormigas.
El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes (toneladas). Si la ingeriería genética no nos sorprende con alguna barbaridad, lo lógico es que la dispersión de la variable peso de las hormigas sea practicamente nula (¡Aunque haya algunas que sean 1.000 veces mayores que otras!)
En los dos primeros casos mencionados anteriormente, el problema viene de la dimensionalidad de las variables, y en el tercero de la diferencia enorme entre las medias de ambas poblaciones. El coeficiente de variación es lo que nos permite evitar estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la proporción existente entre medias y desviación típica. Se define del siguiente modo:
Basta dar una rápida mirada a la definición del coeficiente de variación, para ver que las siguientes consideraciones deben ser tenidas en cuenta:
| Horas trabajadas | Num. empleados |
| 0 -- 4 | 47 |
| 4 -- 10 | 32 |
| 10 -- 20 | 17 |
| 20 -- 40 | 4 |
| 100 |
Solución:
Para calcular la variable tipificada
| li-1 -- li | xi | ni | xi ni | xi2 ni |
| 0 -- 4 | 2 | 47 | 94 | 188 |
| 4 -- 10 | 7 | 32 | 224 | 1.568 |
| 10 -- 20 | 15 | 17 | 255 | 3.825 |
| 20 -- 40 | 30 | 4 | 120 | 3.600 |
| n=100 | 693 | 9.181 |

A partir de estos valores podremos calcular los valores tipificados para las marcas de clase de cada intervalo y construir su distribución de frecuencias:

| zi | ni | zi ni | zi2 ni |
| -0,745 | 47 | -35,015 | 26,086 |
| 0,011 | 32 | 0,352 | 0,004 |
| 1,220 | 17 | 20,720 | 25,303 |
| 3,486 | 4 | 13,944 | 48,609 |
| n=100 | 0,021 | 100,002 |

A pesar de que no se debe calcular el coeficiente de variación sobre variables que presenten valores negativos (y Z los presenta), lo calculamos con objeto de ilustrar el porqué:
Es decir, el coeficiente de variación no debe usarse nunca con variables tipificadas.