Você está na página 1de 7

Correlacin, Pearson y Spearman

Introduccin
La correlacin es una medida de la asociacin lineal entre dos variables. La correlacin fue utilizada por primera vez por Sir Francis Galton, aunque su discpulo Karl Pearson (1857-1936) fue quien estudi en profundidad sus propiedades. Karl Pearson fue profesor de matemticas aplicadas y mecnica en el University College of London, autor de la prueba Chi-Cuadrado y del anlisis de componentes principales. Karl Pearson Charles E. Spearman

La correlacin de rangos fue introducida por primera vez por el psiclogo Charles Edward Spearman (1863-1945) en 1904 al intentar construir una teora de la inteligencia.

Frmulas bsicas
La correlacin mide la relacin lineal entre dos variables y su sentido (si es directo o inverso). Cuando la relacin es perfectamente lineal dicho coeficiente vale 1 ( -1). Cuando el coeficiente tiene un valor prximo a cero, o bien no existe relacin entre las variables analizadas o bien dicha relacin no es lineal. La correlacin habitualmente denotada por se puede estimar de dos maneras diferentes: - El coeficiente de correlacin de Pearson denotado por r es utilizado cuando ambas variables son cuantitativas siguiendo una distribucin normal. - El coeficiente de correlacin de Spearman denotado por rs se utiliza cuando alguna de las variables es ordinal o incluso dicotmica o para variables cuantitativas con muestras pequeas. Ambos coeficientes son adimensionales y se calculan de forma anloga, aunque en el caso del coeficiente de Spearman se utilizan los rangos de los valores en lugar de los valores originales, siendo adecuado para muestras pequeas puesto que es robusto a la presencia de outliers (valores extremos). El coeficiente de correlacin de Pearson se obtiene calculando en primer lugar la covarianza entre las variables, que es una medida de asociacin con dependencia de las unidades de medida de las variables. Despus se divide por el producto de cada una de las desviaciones tpicas de ambas variables, resultando una medida de asociacin adimensional. Para cada coeficiente obtenido se puede realizar el siguiente el contraste de hiptesis para determinar si el coeficiente es igual a cero: H0 : = 0 H1 : 0 Mediante estos contrastes se puede establecer aquellos coeficientes que son estadsticamente significativos. Aunque exista una correlacin significativa entre dos variables, no se debe confundir correlacin con causalidad, la relacin de causa debe ser determinada mediante el conocimiento del rea de estudio.

Correlacin de Pearson

Se recogen datos experimentales correspondientes a n individuos con informacin de dos variables Var1 y Var2. Para calcular el coeficiente de correlacin r de Pearson entre estas dos variables se necesita calcular previamente la covarianza entre las dos variables y las desviaciones tpicas muestrales. Clculo de la Covarianza Muestral La covarianza entre dos variables Var1 y Var2 viene dada por:

s xy =
2

donde xi indica el valor de la variable Var1 para el individuo i, yi indica el valor de la variable Var1 para el individuo i,

1 n (x i x ) (y i y ) n 1 i=1

x la media de Var1 e y la media de Var2.

Clculo de las desviaciones tpicas muestrales Las desviaciones tpicas muestrales sx y sy se calculan a partir de las expresiones siguientes:

sx =

1 n (x i x )2 n 1 i=1

sy =

1 n (y i y) 2 n 1 i =1

siendo sx la desviacin tpica de la variable Var1 y sy la desviacin tpica de la variable Var2. Clculo del coeficiente de correlacin de Pearson A partir de los coeficientes calculados con anterioridad se calcula el coeficiente de correlacin r de Pearson dado por:

r=

s2 xy s xs y

Significacin del coeficiente de correlacin de Pearson Para realizar el contraste: H0 : = 0 H1 : 0 se construye el siguiente estadstico de contraste:

t=r

que sigue una distribucin t-Student con n 2 grados de libertad.

n2 1 r2

Correlacin de Spearman

El coeficiente de correlacin de Spearman es una tcnica no paramtrica que se basa en los rangos en vez de en los valores originales de la variable. Clculo de Rangos Para los datos de las variables Var1 y Var2 se calculan los rangos de los valores de stas, a los que se denota por: Ri (Var1) y Ri (Var2), siendo Ri (Var1) los rangos de Var1 asociados al individuo i y Ri (Var2) los rangos de Var2 asociados al individuo i. Clculo de valores intermedios A continuacin, se realizan los siguientes clculos intermedios:

D = (R i (Var1) R i (Var 2))


i =1

Tx = Ty =

empates en Var1

(n empates (n empates

) n empates )
n empates

empates en Var2

n 3 n Tx A= 12 3 n n Ty B= 12
Clculo del coeficiente de correlacin de Spearman A partir de los coeficientes calculados con anterioridad, se calcula el coeficiente de correlacin rs de Spearman dado por:

r=

A +B D 2 AB

Se puede demostrar que si se calcula el coeficiente de correlacin de Pearson sobre las variables Ri (Var1) y Ri (Var2) se llega al mismo resultado. Significacin del coeficiente de correlacin de Spearman Para realizar el contraste: H0 : = 0 H1 : 0 se construye el siguiente estadstico de contraste:

t = rs

n2 1 rs2

que sigue una distribucin t-Student con n - 2 grados de libertad.

Ejemplo
Correlacin de Pearson

Se tienen los siguientes datos experimentales, correspondientes a 12 individuos de los que se ha recogido informacin de dos variables Var1 y Var2: Var2 76 80 92 67 69 70 75 86 87 102 98 67 Calcular el coeficiente de correlacin de Pearson. Clculo de la Covarianza Muestral Para calcular el coeficiente de correlacin r de Pearson se necesita calcular previamente la covarianza entre las dos variables que viene dado por: Var1 72 70 68 86 89 85 70 68 70 70 68 80

s xy =
2

donde xi indica el valor de la variable Var1 para el individuo i, yi indica el valor de la variable Var1 para el individuo i,

1 n (x i x )(y i y ) n 1 i=1

x la media de Var1 e y la media de Var2. Para los datos del ejemplo:


1 n x i = 74.6667 n i=1 1 n y = y i = 80.7500 n i=1 x= s xy =
2

1 n (x i x )(y i y ) = 74.4545 n 1 i=1

Clculo de las desviaciones tpicas muestrales Las desviaciones tpicas muestrales sx y sy se calculan a partir de las expresiones siguientes:

sx = sy =

1 n (x i x )2 = 63.3333 = 7.9582 n 1 i=1 1 n (y i y )2 = 148.2045 = 12.1739 n 1 i =1

siendo sx la desviacin tpica de la variable Var1 y sy la desviacin tpica de la variable Var2.

Clculo del coeficiente de correlacin de Pearson A partir de los coeficientes calculados con anterioridad se calcula el coeficiente de correlacin r de Pearson dado por:

r=

s2 xy s xs y

74.4545 = 0,7685 7.9582 12.1739

Significacin del coeficiente de correlacin de Pearson Para realizar el contraste: H0 : = 0 H1 : 0 Se construye el siguiente estadstico de contraste:

t=r

que sigue una distribucin t-Student con n - 2 = 10 grados de libertad y que tiene asociado un p-valor de 0.0035.

n2 = 3.7981 1 r 2

Correlacin de Spearman

Se tienen los datos experimentales del ejemplo anterior, calcular el coeficiente de correlacin de Spearman. Clculo de Rangos Para los datos de las variables Var1 y Var2 se calculan los rangos de los valores de stas a los que se denota por: Ri (Var1) y Ri (Var2), siendo Ri (Var1) los rangos de la Var1 asociados al individuo i y Ri (Var2) los rangos de la Var2 asociados al individuo i, de forma que: Var2 76 80 92 67 69 70 75 86 87 102 98 67 Var1 72 70 68 86 89 85 70 68 70 70 68 80 Ri (Var2) 6 7 10 1.5 3 4 5 8 9 12 11 1.5 Ri (Var1) 8 5.5 2 11 12 10 5.5 2 5.5 5.5 2 9

Clculo de valores intermedios A continuacin se realizan los siguientes clculos intermedios:

D = (R i (Var1) R i (Var 2)) = 505.5


2

Tx =

empates en Var1

(n empates

i =1

n empates = 2 3 2 = 6

) (

Ty =

empates en Var2

(n empates
A=

n empates = 3 3 3 + 4 3 4 = 84

) (

) (

n 3 n Tx = 142.50 12 n 3 n Ty B= = 136.00 12

Clculo del coeficiente de correlacin de Spearman A partir de los coeficientes calculados con anterioridad se calcula el coeficiente de correlacin rs de Spearman dado por:

r=

A +B D 2 AB

= 0.8153

Significacin del coeficiente de correlacin de Spearman Para realizar el contraste: H0 : = 0 H1 : 0 se construye el siguiente estadstico de contraste:

t = rs

n2 = 4.4526 1 rs2

que sigue una distribucin t-Student con n 2 = 10 grados de libertad y que tiene asociado un p-valor de 0.0012.