up
next previous
Nodo Raíz: 1.7 Organización de los datos
Siguiente: 1.9 Representaciones Gráficas
Previo: 1.7.2 Variables estadísticas

Subsecciones

1.7.4 Tablas estadísticas

Consideremos una población estadística de n individuos, descrita según un carácter o variable C cuyas modalidades han sido agrupadas en un número k de clases, que denotamos mediante $c_1,c_2,\dots,c_k$. Para cada una de las clases ci, $i=1,\dots,k$, introducimos las siguientes magnitudes:

Frecuencia absoluta
de la clase ci es el número ni, de observaciones que presentan una modalidad perteneciente a esa clase.

Frecuencia relativa
de la clase ci es el cociente fi, entre las frecuencias absolutas de dicha clase y el número total de observaciones, es decir


\begin{displaymath}f_i = \frac{n_i}{n}
\end{displaymath}

Obsérvese que fi es el tanto por uno de observaciones que están en la clase ci. Multiplicado por $100\%$representa el porcentaje de la población que comprende esa clase.

Frecuencia absoluta acumulada
Ni, se calcula sobre variables cuantitativas o cuasicuantitativas, y es el número de elementos de la población cuya modalidad es inferior o equivalente a la modalidad ci:


\begin{displaymath}N_i = n_1+ n_2 + \dots + n_i = \sum_{j=1}^i \, n_j
\end{displaymath}

Frecuencia relativa acumulada
, Fi, se calcula sobre variables cuantitativas o cuasicuantitativas, siendo el tanto por uno de los elementos de la población que están en alguna de las clases y que presentan una modalidad inferior o igual a la ci, es decir,


\begin{displaymath}F_i = \frac{N_i}{n} = \frac{n_1 + \dots + n_i}{n} = f_1 + \dots +f_i
= \sum_{j=1}^i \, f_j
\end{displaymath}

Como todas las modalidades son exhaustivas e incompatibles ha de ocurrir que


\begin{displaymath}\sum_{i=1}^k n_i = n_1 + n_2 + \dots + n_k = n
\end{displaymath}

o lo que es lo mismo,


\begin{displaymath}\sum_{i=1}^k f_i = \sum_{i=1}^k \frac{n_i}{n} =
\frac{\sum_{i=1}^k n_i}{n} = \frac{n}{n}=1.
\end{displaymath}




Frecuencia absoluta (ni): Número de elementos que presentan la clase xi.

Frecuencia relativa: $\displaystyle f_i = n_i/N$.
Frecuencia absoluta acumulada: $\displaystyle
N_i = \sum_{j=1}^i \, n_j$.
Frecuencia relativa acumulada: $\displaystyle
F_i= N_i/N =\sum_{j=1}^i \, f_j$


Llamaremos distribución de frecuencias al conjunto de clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadística sirve para presentar de forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente:

Modali. Frec. Abs. Frec. Rel. Frec. Abs. Acumu. Frec. Rel. Acumu.
C ni fi Ni Fi
c1 n1 $f_1 = \frac{n_1}{n}$ N1 = n1 $F_1 = \frac{N_1}{n} =f_1$
... ... ... ... ...
cj nj $f_j = \frac{n_j}{n}$ $N_j = n_1 +\dots n_j$ $F_j = \frac{N_j}{n} =f_1 + \dots + f_j$
... ... ... ... ...
ck nk $f_k = \frac{n_k}{n}$ Nk = n Fk = 1
  n 1  

1.7.4.1 Ejemplo

Calcular los datos que faltan en la siguiente tabla:

li-1 -- li ni fi Ni
0 -- 10 60 f1 60
10 -- 20 n2 0,4 N2
20 -- 30 30 f3 170
30 -- 100 n4 0,1 N4
100 -- 200 n5 f5 200
  n  

Solución:

Sabemos que la última frecuencia acumulada es igual al total de observaciones, luego n=200.

Como N3=170 y n3=30, entonces

N2=N3-n3=170-30=140.

Además al ser n1=60, tenemos que

n2=N2-n1=140-60=80.

Por otro lado podemos calcular n4 teniendo en cuenta que conocemos la frecuencia relativa correspondiente:

\begin{displaymath}f_4=\frac{n_4}{n} \qquad \Longrightarrow\qquad
n_4 = f_4 \cdot n = 0,1 \times 200 = 20
\end{displaymath}

Así:


N4=n4+N3=20+170 =190.

Este último cálculo nos permite obtener

n5=N5-N4=200-190=10.

Al haber calculado todas las frecuencias absolutas, es inmediato obtener las relativas:

\begin{eqnarray}\html{eqn0}f_1 &=& \frac{n_1}{n}=\frac{60}{200}=0,3 \nonumber
\\...
...\nonumber
\\
f_5 &=& \frac{n_5}{n}=\frac{10}{200}=0,05 \nonumber
\end{eqnarray}


Escribimos entonces la tabla completa:

li-1 -- li ni fi Ni
0 -- 10 60 0,3 60
10 -- 20 80 0,4 140
20 -- 30 30 0,15 170
30 -- 100 20 0,1 190
100 -- 200 10 0,05 200
  200  

1.7.4.2 Elección de las clases

En cuanto a la elección de las clases, deben seguirse los siguientes criterios en función del tipo de variable que estudiemos:

En el caso de variables continuas, la forma de la tabla estadística es la siguiente:

Interv. M. clase Frec. Abs. Frec. Rel. Frec. Abs. Acum. Frec. Rel. Acum.
  C ni fi Ni Fi
l0 -- l1 c1 n1 $f_1 = \frac{n_1}{n}$ N1 = n1 F1 = f1
... ... ... ... ... ...
lj-1 -- lj cj nj $f_j = \frac{n_j}{n}$ Nj= Nj-1+nj Fj = Fj-1 + fj
... ... ... ... ... ...
lk-1 -- lk ck nk $f_k = \frac{n_k}{n}$ Nk=n Fk =1
    n 1  

1.7.4.3 Elección de intervalos para variables continuas

A la hora de seleccionar los intervalos para las variables continuas, se plantean varios problemas como son el número de intervalos a elegir y sus tamaños respectivos. La notación más común que usaremos para un intervalo sea


\begin{displaymath}\mbox{$l_{j-1}$\space --- $l_j$ } \stackrel{def}{\equiv}
\left( \mbox{$l_{j-1}$ ,$l_j$ }\right].
\end{displaymath}

El primer intervalo, l0 -- l1, podemos a cerrarlo en el extremo inferior para no excluir la observación más pequeña, l0


\begin{displaymath}\mbox{$l_{0}$\space --- $l_1$ } \stackrel{def}{\equiv}
\left[ \mbox{$l_{0}$ ,$l_1$ }\right].
\end{displaymath}

Éste es un convenio que tomaremos en las páginas que siguen. El considerar los intervalos por el lado izquierdo y abrirlos por el derecho no cambia de modo significativo nada de lo que expondremos.

El número de intervalos, k, a utilizar no está determinado de forma fija y por tanto tomaremos un k que nos permita trabajar cómodamente y ver bien la estructura de los datos; Como referencia nosotros tomaremos una de los siguientes valores aproximados:


\begin{displaymath}\mbox{$N^{\circ}$\space intervalos } \equiv k \approx \left\{...
...e 1+ 3,22 \, \log n & \mbox{ en otro caso.}
\end{array}\right.
\end{displaymath}

Por ejemplo si el número de observaciones que tenemos es n=100, un buen criterio es agrupar las observaciones en $k=\sqrt{100}=10$intervalos. Sin embargo si tenemos n=1.000.000, será mas razonable elegir $k=1+ 3,22 \, \log n\approx 20$ intervalos, que $k=\sqrt{1.000.000}=1.000$.

La amplitud de cada intervalo

ai = li -li-1

suele tomarse constante, considerando la observación más pequeña y más grande de la población (respectivamente $l_0=x_{\min}$ y $l_k=x_{\max}$) para calcular la amplitud total, A, de la población


A= lk - l0

de forma que la amplitud de cada intervalo sea:


\begin{displaymath}a_i = a \:\:\: \forall \,i=1,\dots,k
\qquad \mbox{donde}\qquad a= \frac{A}{k}
\end{displaymath}

Así la división en intervalos podría hacerse tomando:

\begin{eqnarray}\html{eqn0}l_0 &=& x_{\min} \nonumber \\
l_1 &=& l_0 + a \nonumber \\
& \dots& \\
l_k &=& x_{\max} \: = l_0 +k\,a \nonumber
\end{eqnarray}


1.7.4.4 Observación

Podría ocurrir que la cantidad a fuese un número muy desagradable a la hora de escribir los intervalos (ej. a=10,325467). En este caso, es recomendable variar simétricamente los extremos, $l_0 < x_{\min} < x_{\max} < l_k$, de forma que se tenga que a es un número más simple (ej. a=10).




Recorrido: $x_{\max}-x_{\min}$

Amplitud: ai= li - li-1

Marca de clase: $ x_i = \displaystyle \frac{l_{i-1} + l_{i}}{2}$

Frecuencias rectificadas: $ f_i{\mbox{$'$ }}= \displaystyle \frac{n_i}{a_i}$;      $ n_i{\mbox{$'$ }}= f_i{\mbox{$'$ }}\cdot n$


1.7.4.5 Ejemplo

Sobre un grupo de n=21 personas se realizan las siguientes observaciones de sus pesos, medidos en kilogramos:

$X{\leadsto}x_1,x_2,\dots,x_{21}$
58 42 51 54 40 39 49
56 58 57 59 63 58 66
70 72 71 69 70 68 64

Agrupar los datos en una tabla estadística.

Solución:

En primer lugar hay que observar que si denominamos X a la variable ``peso de cada persona'' esta es una variable de tipo cuantitativa y continua. Por tanto a la hora de ser ordenados los resultados en una tabla estadística, esto se ha de hacer agrupándolos en intervalos de longitud conveniente. Esto nos lleva a perder cierto grado de precisión. Para que la perdida de información no sea muy relevante seguimos el criterio de utilizar $k\approx\sqrt{n}=\sqrt{21}$ intervalos (no son demasiadas las observaciones). En este punto podemos tomar bien k=4 o bien k=5. Arbitrariamente se elige una de estas dos posibilidades. Por ejemplo, vamos a tomar k=5.

Lo siguiente es determinar la longitud de cada intervalo, ai $\forall \, i=1,\dots, 5$. Lo más cómodo es tomar la misma longitud en todos los intervalos, ai=a (aunque esto no tiene por qué ser necesariamente así), donde

\begin{eqnarray}\html{eqn1}a&=&\frac{A}{5} = \frac{33}{5}= 6,6 \nonumber
\\
A&=...
...\\
l_0&=& x_{min}= 39 \nonumber
\\
l_5&=& x_{max}= 72 \nonumber
\end{eqnarray}


Entonces tomaremos k=5 intervalos de longitud a=6,6comenzando por l0=xmin=39 y terminando en l5=33:

  Intervalos M. clase f.a. f.r. f.a.a. f.r.a.
  li-1 -- li ci ni fi Ni Fi
i=1 39 -- 45,6 42,3 3 0,1428 3 0,1428
i=2 45,6 -- 52,2 48,9 2 0,0952 5 0,2381
i=3 52,2 -- 58,8 55,5 6 0,2857 11 0,5238
i=4 58,8 -- 65,4 62,1 3 0,1428 14 0,6667
i=5 65,4 -- 72 68,7 7 0,3333 21 $\approx 1$
  21 $\approx 1$  

Otra posibilidad a la hora de construir la tabla, y que nos permite que trabajemos con cantidades más simples a la hora de construir los intervalos, es la siguiente. Como la regla para elegir l0 y l5 no es muy estricta podemos hacer la siguiente elección:

\begin{eqnarray}\html{eqn1}a'&=& 7 \nonumber
\\
A'&=&a' \cdot 5 = 35 \nonumber
...
... \nonumber
\\
l_5&=& x_{max}+ \frac{d}{2}= 72 + 1 = 73 \nonumber
\end{eqnarray}


ya que así la tabla estadística no contiene decimales en la expresión de los intervalos, y el exceso d, cometido al ampliar el rango de las observaciones desde A hasta A', se reparte del mismo modo a los lados de las observaciones menores y mayores:

  Intervalos M. clase f.a. f.r. f.a.a. f.r.a.
  li-1 -- li ci ni fi Ni Fi
i=1 38 -- 45 41,5 3 0,1428 3 0,1428
i=2 45 -- 52 48,5 2 0,0952 5 0,2381
i=3 52 -- 59 55,5 7 0,3333 12 0,5714
i=4 59 -- 66 62,5 3 0,1428 15 0,7143
i=5 66 -- 73 69,5 6 0,2857 21 $\approx 1$
  21 $\approx 1$  


next up previous
Nodo Raíz: 1.7 Organización de los datos
Siguiente: 1.9 Representaciones Gráficas
Previo: 1.7.2 Variables estadísticas

Éste texto es la versión electrónica del manual de la Universidad de Málaga:
Bioéstadística: Métodos y Aplicaciones
U.D. Bioestadística. Facultad de Medicina. Universidad de Málaga.
ISBN: 847496-653-1
Bioestadística: Apuntes en vídeo