up
next previous
Nodo Raíz: 3. Variables bidimensionales
Siguiente: 3.10.2 Una interpretación geométrica de la
Previo: 3.8 Medias y varianzas marginales y

3.10 Covarianza y coeficiente de correlación

Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también podemos considerarlas de forma individual para cada una de las componentes de la variable bidimensional.

Si observamos con atención los términos

\begin{eqnarray}\html{eqn8}{\cal S}_X^2&=& \sum_{i=1}^k f_{i {{\scriptscriptstyl...
...e{\overline{y}}) \cdot
(y_j - \overline{\overline{y}})
\nonumber
\end{eqnarray}


vemos que las cantidades $(x_i - \overline{\overline{x}})$ y $(y_j - \overline{\overline{y}})$ van al cuadrado y por tanto no pueden ser negativas.

La covarianza ${{\cal S}_{XY}}$, es una manera de generalizar la varianza y se define como:


\begin{displaymath}{{\cal S}_{XY}}=
\sum_{i=1}^k \sum_{j=1}^p f_{i j} (x_i - \overline{\overline{x}}) \cdot
(y_j - \overline{\overline{y}})
\end{displaymath}

Como se ve, la fórmula es muy parecida a las de las varianzas. Es sencillo comprobar que se verifica la siguiente expresión de ${{\cal S}_{XY}}$, más útil en la práctica:

  
3.10.0.1 Proposición

\begin{displaymath}{{\cal S}_{XY}}=
\sum_{i=1}^k \sum_{j=1}^p f_{i j} x_i y_j \, - \overline{\overline{x}}\cdot \overline{\overline{y}}
\end{displaymath}

Si las observaciones no están ordenadas en una tabla de doble entrada, entonces se tiene que


\begin{displaymath}{{\cal S}_{XY}}= \frac{1}{n} \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})
\end{displaymath}

o lo que es lo mismo


\begin{displaymath}{
\mbox{\fbox{$\displaystyle
{{\cal S}_{XY}}= \frac{1}{n} \sum_{i=1}^n x_i y_i -\overline{x}\,\overline{y}
$ } }
}
\end{displaymath}

3.10.0.2 Ejemplo

Se han clasificado 100 familias según el número de hijos varones (${\cal V}$) o hembras (${\cal H}$), en la tabla siguiente:

${\cal H}$ 0 1 2 3 4
${\cal V}$  
0 4 6 9 4 1
1 5 10 7 4 2
2 7 8 5 3 1
3 5 5 3 2 1
4 2 3 2 1 0

1.
Hallar las medias, varianzas y desviaciones típicas marginales.

2.
¿Qué número medio de hijas hay en aquellas familias que tienen 2 hijos?

3.
¿Qué número medio de hijos varones hay en aquellas familias que no tienen hijas?

4.
¿Qué número medio de hijos varones tienen aquellas familias que a lo sumo tienen 2 hijas?

5.
Hallar la covarianza

Solución:En primer lugar, definimos las variables X= número de hijos varones, e Y=número de hijas y construimos la tabla con las frecuencias marginales, y con otras cantidades que nos son útiles en el cálculo de medias y varianzas:

$Y_{={\cal H}}$ y1 y2 y3 y4 y5        
$X_{={\cal V}}$ 0 1 2 3 4 $n_{i{{\scriptscriptstyle \bullet}}}$ $n_{i{{\scriptscriptstyle \bullet}}} x_i$ $n_{i{{\scriptscriptstyle \bullet}}} x_i^2$ $ \displaystyle x_i \sum_{j=0}^4 n_{ij} y_j$
$x_1\mapsto 0$ 4 6 9 4 1 24 0 0 0
$x_2\mapsto 1$ 5 10 7 4 2 28 28 28 44
$x_3\mapsto 2$ 7 8 5 3 1 24 48 96 62
$x_4\mapsto 3$ 5 5 3 2 1 16 48 144 63
$x_5\mapsto 4$ 2 3 2 1 0 8 32 128 40
$n_{{{\scriptscriptstyle \bullet}}j}$ 23 32 26 14 5 100 156 396 209
$n_{{{\scriptscriptstyle \bullet}}j}y_j$ 0 32 52 42 20 146  
$n_{{{\scriptscriptstyle \bullet}}j}y_j^2$ 0 32 104 126 80 342  

de este modo, las medias marginales son

\begin{eqnarray}\html{eqn10}\overline{\overline{x}}&=& \frac{1}{n_{{{\scriptscri...
...ptscriptstyle \bullet}}j}y_{j}
= \frac{146}{100}= 1,46
\nonumber
\end{eqnarray}


Calculamos después las varianzas marginales

\begin{eqnarray}\html{eqn10}{{\cal S}_{X}^{2}}&=& \frac{1}{n_{{{\scriptscriptsty...
...ine{\overline{y}}^2 =
\frac{342}{100}-1,46^2 = 1,2884
\nonumber
\end{eqnarray}


que nos dan directamente las desviaciones típicas marginales,

\begin{eqnarray}\html{eqn10}{{\cal S}_X}&=& \sqrt{{{\cal S}_{X}^{2}}} = 1,2354
\...
...\\
{{\cal S}_Y}&=& \sqrt{{{\cal S}_{Y}^{2}}} = 1,1351
\nonumber
\end{eqnarray}


El número medio de hijas en las familias con 2 hijos varones se obtiene calculando la distribución condicionada de $Y_{\mid X=2} = Y_{\mid x_3}$

$Y_{\mid X=2}$ n3j n3j yj
$y_1 \mapsto 0$ 7 0
$y_2 \mapsto 1$ 8 8
$y_3 \mapsto 2$ 5 10
$y_4 \mapsto 3$ 3 9
$y_5 \mapsto 4$ 1 4
  24 31
         $\Longrightarrow$ $\overline{Y_{\mid X=2}} \equiv \overline{Y_{\mid x_3}} \equiv \overline{y}_3 =
...
...ptscriptstyle \bullet}}}}
\sum_{j=1}^5 n_{3 j }y_{j} = \frac{31}{24} = 1,2917
$

Del mismo modo, el número medio de hijos varones de las familias sin hijas, se calcula con la distribución condicionada $X_{\mid Y=0} = X_{\mid y_1}$

$X_{\mid Y=0}$ ni1 ni1 xi
$x_1\mapsto 0$ 4 0
$x_2\mapsto 1$ 5 5
$x_3\mapsto 2$ 7 14
$x_4\mapsto 3$ 5 15
$x_5\mapsto 4$ 2 8
  23 42
         $\Longrightarrow$ $\overline{X_{\mid Y=0}} \equiv \overline{X_{\mid y_1}} \equiv \overline{x}_1 =
...
...ptscriptstyle \bullet}}1}}
\sum_{i=1}^5 n_{i 1 }x_{i} = \frac{42}{23} = 1,826
$

El número medio de hijos varones en las familias que a lo sumo tienen dos hijas, se calcula usando las marginales de la tabla obtenida a partir de las columnas y1, y2 e y3

$X_{\mid Y\leq 2}$ ni1 ni2 ni3 ni1+ni2+ni3 (ni1+ni2+ni3) xi
$x_1\mapsto 0$ 4 6 9 19 19
$x_2\mapsto 1$ 5 10 7 22 22
$x_3\mapsto 2$ 7 8 5 20 40
$x_4\mapsto 3$ 5 5 3 13 39
$x_5\mapsto 4$ 2 3 2 7 28
  81 129
$\Longrightarrow$ $\overline{X_{\mid Y\leq 2}} = \frac{129}{81} = 1,5926
$

La covarianza es:


\begin{displaymath}{{\cal S}_{XY}}= \frac{1}{n_{{{\scriptscriptstyle \bullet}}{{...
...ine{\overline{y}}= \frac{209}{100}-
1,56 \times 1,46 = -0,1876
\end{displaymath}



 
next up previous
Nodo Raíz: 3. Variables bidimensionales
Siguiente: 3.10.2 Una interpretación geométrica de la
Previo: 3.8 Medias y varianzas marginales y

Éste texto es la versión electrónica del manual de la Universidad de Málaga:
Bioéstadística: Métodos y Aplicaciones
U.D. Bioestadística. Facultad de Medicina. Universidad de Málaga.
ISBN: 847496-653-1
Bioestadística: Apuntes en vídeo