Consideremos una población estadística de n individuos, descrita
según un carácter o variable C cuyas modalidades han sido agrupadas
en un número k de clases, que denotamos mediante
.
Para cada una de las clases ci,
,
introducimos las siguientes magnitudes:
Obsérvese que fi es el tanto por uno de observaciones
que están en la clase ci. Multiplicado por
representa el porcentaje de la población que comprende esa clase.
Como todas las modalidades son exhaustivas e incompatibles ha de ocurrir que
.
Llamaremos distribución de frecuencias al conjunto de clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadística sirve para presentar de forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente:
| Modali. | Frec. Abs. | Frec. Rel. | Frec. Abs. Acumu. | Frec. Rel. Acumu. |
| C | ni | fi | Ni | Fi |
| c1 | n1 |
|
N1 = n1 |
|
| ... | ... | ... | ... | ... |
| cj | nj |
|
|
|
| ... | ... | ... | ... | ... |
| ck | nk |
|
Nk = n | Fk = 1 |
| n | 1 | |||
| li-1 -- li | ni | fi | Ni |
| 0 -- 10 | 60 | f1 | 60 |
| 10 -- 20 | n2 | 0,4 | N2 |
| 20 -- 30 | 30 | f3 | 170 |
| 30 -- 100 | n4 | 0,1 | N4 |
| 100 -- 200 | n5 | f5 | 200 |
| n | |||
Solución:
Sabemos que la última frecuencia acumulada es igual al total de observaciones, luego n=200.
Como N3=170 y n3=30, entonces
Por otro lado podemos calcular n4 teniendo en cuenta
que conocemos la frecuencia relativa correspondiente:
Así:
Al haber calculado todas las frecuencias absolutas, es inmediato obtener las relativas:

Escribimos entonces la tabla completa:
| li-1 -- li | ni | fi | Ni |
| 0 -- 10 | 60 | 0,3 | 60 |
| 10 -- 20 | 80 | 0,4 | 140 |
| 20 -- 30 | 30 | 0,15 | 170 |
| 30 -- 100 | 20 | 0,1 | 190 |
| 100 -- 200 | 10 | 0,05 | 200 |
| 200 | |||
En cuanto a la elección de las clases, deben seguirse los siguientes criterios en función del tipo de variable que estudiemos:
o bien
En estos casos llamaremos amplitud del intervalo a las cantidades
y marca de clase ci, a un punto representativo del intervalo. Si éste es acotado, tomamos como marca de clase al punto más representativo, es decir al punto medio del intervalo,
La marca de clase no es más que una forma abreviada de representar un intervalo mediante uno de sus puntos. Por ello hemos tomado como representante, el punto medio del mismo. Esto está plenamente justificado si recordamos que cuando se mide una variable continua como el peso, la cantidad con cierto número de decimales que expresa esta medición, no es el valor exacto de la variable, sino una medida que contiene cierto margen de error, y por tanto representa a todo un intervalo del cual ella es el centro.
En el caso de variables continuas, la forma de la tabla estadística es la siguiente:
| Interv. | M. clase | Frec. Abs. | Frec. Rel. | Frec. Abs. Acum. | Frec. Rel. Acum. |
| C | ni | fi | Ni | Fi | |
| l0 -- l1 | c1 | n1 |
|
N1 = n1 | F1 = f1 |
| ... | ... | ... | ... | ... | ... |
| lj-1 -- lj | cj | nj |
|
Nj= Nj-1+nj | Fj = Fj-1 + fj |
| ... | ... | ... | ... | ... | ... |
| lk-1 -- lk | ck | nk |
|
Nk=n | Fk =1 |
| n | 1 | ||||
A la hora de seleccionar los intervalos para las variables continuas, se plantean varios problemas como son el número de intervalos a elegir y sus tamaños respectivos. La notación más común que usaremos para un intervalo sea
El primer intervalo, l0 -- l1, podemos a cerrarlo en el extremo inferior para no excluir la observación más pequeña, l0
El número de intervalos, k, a utilizar no está determinado de forma fija y por tanto tomaremos un k que nos permita trabajar cómodamente y ver bien la estructura de los datos; Como referencia nosotros tomaremos una de los siguientes valores aproximados:
Por ejemplo si el número de observaciones que tenemos es n=100,
un buen criterio es agrupar las observaciones en
intervalos. Sin embargo si tenemos
n=1.000.000, será mas razonable
elegir
intervalos, que
.
La amplitud de cada intervalo
suele tomarse constante, considerando
la observación más pequeña y más grande de la población (respectivamente
y
)
para calcular la amplitud total, A,
de la población
de forma que la amplitud de cada intervalo sea:
Así la división en intervalos podría hacerse tomando:

Podría ocurrir que la cantidad a fuese un número muy
desagradable a la hora de escribir los intervalos
(ej.
a=10,325467). En este caso, es recomendable variar simétricamente
los extremos,
,
de forma que se tenga que a es un número más simple (ej. a=10).
|
|
||||||
| 58 | 42 | 51 | 54 | 40 | 39 | 49 |
| 56 | 58 | 57 | 59 | 63 | 58 | 66 |
| 70 | 72 | 71 | 69 | 70 | 68 | 64 |
Agrupar los datos en una tabla estadística.
Solución:
En primer lugar hay que observar que si denominamos X a la variable
``peso de cada persona'' esta es una variable de tipo cuantitativa
y continua. Por tanto a la hora de ser ordenados los resultados
en una tabla estadística, esto se ha de hacer agrupándolos en intervalos
de longitud conveniente. Esto nos lleva a perder cierto grado de precisión.
Para que la perdida de información no sea muy relevante seguimos el
criterio de utilizar
intervalos
(no son demasiadas las observaciones). En este punto podemos
tomar bien k=4 o bien k=5. Arbitrariamente se elige una de estas dos
posibilidades. Por ejemplo, vamos a tomar k=5.
Lo siguiente es determinar la longitud de cada intervalo, ai
.
Lo más cómodo
es tomar la misma longitud en todos los intervalos, ai=a (aunque esto no tiene
por qué ser necesariamente así),
donde

Entonces tomaremos k=5 intervalos de longitud a=6,6comenzando por l0=xmin=39 y terminando en l5=33:
| Intervalos | M. clase | f.a. | f.r. | f.a.a. | f.r.a. | |
| li-1 -- li | ci | ni | fi | Ni | Fi | |
| i=1 | 39 -- 45,6 | 42,3 | 3 | 0,1428 | 3 | 0,1428 |
| i=2 | 45,6 -- 52,2 | 48,9 | 2 | 0,0952 | 5 | 0,2381 |
| i=3 | 52,2 -- 58,8 | 55,5 | 6 | 0,2857 | 11 | 0,5238 |
| i=4 | 58,8 -- 65,4 | 62,1 | 3 | 0,1428 | 14 | 0,6667 |
| i=5 | 65,4 -- 72 | 68,7 | 7 | 0,3333 | 21 | |
| 21 | ||||||
Otra posibilidad a la hora de construir la tabla, y que nos permite que trabajemos con cantidades más simples a la hora de construir los intervalos, es la siguiente. Como la regla para elegir l0 y l5 no es muy estricta podemos hacer la siguiente elección:

ya que así la tabla estadística no contiene decimales en la expresión de los intervalos, y el exceso d, cometido al ampliar el rango de las observaciones desde A hasta A', se reparte del mismo modo a los lados de las observaciones menores y mayores:
| Intervalos | M. clase | f.a. | f.r. | f.a.a. | f.r.a. | |
| li-1 -- li | ci | ni | fi | Ni | Fi | |
| i=1 | 38 -- 45 | 41,5 | 3 | 0,1428 | 3 | 0,1428 |
| i=2 | 45 -- 52 | 48,5 | 2 | 0,0952 | 5 | 0,2381 |
| i=3 | 52 -- 59 | 55,5 | 7 | 0,3333 | 12 | 0,5714 |
| i=4 | 59 -- 66 | 62,5 | 3 | 0,1428 | 15 | 0,7143 |
| i=5 | 66 -- 73 | 69,5 | 6 | 0,2857 | 21 | |
| 21 | ||||||