Tema 4: Covarianza y coeficiente de correlación.
Covarianza y correlación: comprendiendo su utilidad
La covarianza y la correlación son muy útiles para comprender la relación entre dos variables continuas. La covarianza indica si ambas variables varían en la misma dirección (covarianza positiva) o en dirección opuesta (covarianza negativa).
No hay importancia en el valor numérico de covarianza, solo el signo es útil. Mientras que la correlación explica sobre el cambio en una variable, indica cuánto cambio de proporción en la segunda variable.
La correlación varía entre -1 a +1. Si el valor de correlación es 0, significa que no existe una relación lineal entre las variables, sin embargo, puede existir otra relación funcional.
Comprendamos estos términos en detalle:
Covarianza:
En el estudio de la covarianza sólo el signo importa. El valor positivo muestra que ambas variables varían en la misma dirección y el valor negativo muestra que varían en la dirección opuesta.
La covarianza entre dos variables x e y se puede calcular de la siguiente manera:
Dónde:
- x̄ es la media muestral de x
- ȳ es la media muestral de y
- x_i e y_i son los valores de x e y para el registro i-ésimo en la muestra.
- n es el no de registros en la muestra
Importancia de la fórmula:
- Numerador: Cantidad de varianza en x multiplicada por cantidad de varianza en y.
- Unidad de covarianza: Unidad de x multiplicada por unidad de y
- Por lo tanto, si cambiamos la unidad de variables, la covarianza tendrá un nuevo valor, sin embargo, el signo seguirá siendo el mismo.
- Por lo tanto, el valor numérico de la covarianza no tiene ningún significado; sin embargo, si es positivo, ambas variables varían en la misma dirección; de lo contrario, si es negativo, varían en la dirección opuesta.
Correlación:
Como la covarianza solo informa sobre la dirección que no es suficiente para comprender la relación por completo, dividimos la covarianza con la desviación estándar de x e y respectivamente y obtenemos un coeficiente de correlación que varía entre -1 y +1.
- -1 y +1 dice que ambas variables tienen una relación lineal perfecta.
- Negativo significa que son inversamente proporcionales entre sí con el valor del factor de coeficiente de correlación.
- Positivo significa que son directamente proporcionales entre sí, la media varía en la misma dirección con el factor del valor del coeficiente de correlación.
- si el coeficiente de correlación es 0, significa que no existe una relación lineal entre las variables, sin embargo, podría existir otra relación funcional.
- Si no hay ninguna relación entre dos variables, entonces el coeficiente de correlación será ciertamente 0; sin embargo, si es 0, solo podemos decir que no existe una relación lineal, pero podría existir otra relación funcional.
La correlación entre x e y se puede calcular de la siguiente manera:
Dónde:
- S_xy es la covarianza entre x e y.
- S_x y S_y son la desviación estándar de x e y respectivamente.
- r_xy es el coeficiente de correlación.
- El coeficiente de correlación es una cantidad adimensional. Por lo tanto, si cambiamos la unidad de x e y, también el valor del coeficiente seguirá siendo el mismo.
Comprendamos cuál es la importancia del coeficiente de correlación con la ayuda del siguiente gráfico: