Você está na página 1de 10

COEFICIENTE DE CORRELACIÓN POR RANGOS DE SPEARMAN

Cuando se obtienen datos en parejas, tales como observaciones de dos variables


para un mismo elemento de una muestra, se pueden usar los rangos para medir la
correlación entre las parejas de datos con la ventaja de que no se hacen
suposiciones sobre las distribuciones X y Y (Marques de Cantú, 1991, Castilla y
Cravioto, 1991). Hay varios métodos no paramétricos para medir la correlación
entre dos variables, el más usado es el coeficiente de correlación por rangos de
Spearman, denotado por rs y cuya fórmula es:
n
6∑ d i2
rs = 1 − i =1

n(n − 1)
2

donde n es el número de parejas de datos y di es la diferencia de los rangos de Xi y


Yi (RXi – RYi)

Es importante hacer notar que el coeficiente de correlación por rangos de Spearman


nos conduce al mismo resultado que el coeficiente de correlación de Pearson
calculado para los rangos asignados a X y Y, pero no es el mismo valor de r
calculado para los valores de X y Y.

La hipótesis nula a probar es la no correlación de las variables X y Y y la hipótesis


alternativa es que si hay correlación. Para probarla se ejecutan los siguientes
pasos:
a) Asignar rangos de 1 a n a los valores de X (1 al menor
y n al mayor). Luego asignar rangos a los valores de Y, también de menor a
mayor.
b) Calcular las diferencias entre los rangos de X y de Y
para cada pareja.
c) Calcular rs que al igual que r varía de –1 a +1.

1
d) Si n está entre 4 y 30 se comparan los valores de r s
con los valore críticos rs* de la tabla 1 del apéndice, y se rechaza H0 si el vlor
calculado es mayor que el valor rs* o menor que -rs*.
e) Si n es mayor que 30 se puede calcular z = rs n −1 y
luego usar la tabla de distribución normal estándar para obtener los valores
críticos.

Ejemplo: Las siguientes son calificaciones obtenidas por 8 estudiantes de sexto


grado en una prueba de aptitud para las matemáticas (X) y en un curso de
computación (Y). Encuentre si hay correlación entre la aptitud para las matemáticas
y las calificaciones obtenidas en el curso de computación. Pruebe la hipótesis de no
correlación. Los números en paréntesis son los rangos de X y de Y. Utilice un nivel
de significancia de 0.05.

Utilizando los datos de la tabla y sustituyendo en la fórmula se tiene:


6 (80) 480
rs = 1 - ---------------- = 1 - ------- = 0.0476
8 (64 - 1) 504

Estudiante Aptitud para las


Matemáticas
Calificaciones de
Computación di2
1 10 (7) 74 (5) 4
2 8 (6) 91 (8) 4
3 2 (1) 54 (1) 0
4 12 (8) 61 (2) 36
5 3 (2) 84 (7) 25
6 7 (5) 66 (4) 1
7 5 (3) 79 (6) 9
8 6 (4) 64 (3) 1
Σ = 80

Los valores críticos para α = 0.05/2 para pruebas de dos extremos y n = 8 son
–0.7143 y 0.7143 (Tabla 1). Por lo que se acepta la hipótesis nula y se concluye que
la aptitud para las matemáticas y la calificación en computación no están
correlacionadas.

2
JI CUADRADA (χ 2)

Prueba χ 2
de independencia

Un investigador puede estar interesado en saber, respecto de una población, si dos


criterios de clasificación están probablemente relacionados o no. Si se concluye que
dos criterios de clasificación no están relacionados, se dice que son independientes.
Dos criterios de clasificación son independientes si la distribución de un criterio no
depende de ninguna manera de la distribución del otro.

Para llegar a una decisión sobre la independencia de dos criterios en una población
se analizan los datos de la muestra y se sacan conclusiones acerca de la población.
Para este tipo de problemas la técnica que se emplea es la χ 2
de independencia
(Daniel, 1988).

Por ejemplo, si un profesor desea saber si es posible concluir que hay relación entre
el nivel de hábitos de estudio y el grado que cursa en la universidad en una
población de estudiantes universitarios. El profesor seleccionó una muestra de 500
estudiantes. La hipótesis nula que se va a verificar con la prueba χ 2
de
independencia es que los dos criterios de clasificación son independientes y la
hipótesis alterna es que los dos criterios de clasificación no son independientes.

Para el ejemplo:
H0: El nivel de hábitos de estudio de los estudiantes y el grado que cursan son
independientes.
H1: Los dos criterios no son independientes.

Para aplicar la prueba χ 2


de independencia se llevan a cabo los siguientes pasos:
1. Se toma una muestra aleatoria de elementos de la población de interés.
2. Se escoge a cada elemento de acuerdo con cada uno de los dos criterios.
Para el ejemplo, se puede clasificar a cada elemento como bajo, moderado y
3
alto respecto del nivel de hábitos de estudio y como 1°, 2°, 3° y 4° año en
relación al grado que cursa.
3. Los datos de la muestra se distribuyen en una tabla denominada de
contingencia, en la cual los niveles de un criterio de clasificación forman las
filas, y los niveles del otro criterio, las columnas. Las celdas que se
encuentran en las intersecciones de las filas y las columnas contienen las
frecuencias de los elementos que se han clasificado en forma cruzada con
base a los dos criterios.

La siguiente tabla es una tabla de contingencia generalizada:


Clasificación de doble entrada de una muestra.
Primer criterio Segundo criterio de clasificación
de clasificación NIVEL
NIVEL 1 2 ... j ... c Total
1 n11 n12 ... n1j n1c n1.
2 n21 n22 ... n2j n2c n2.
. . . . .
. . . . .
. . . . .
i ni1 ni2 ... nij nic ni.
.
.
.
r nr1 nr2 ... nrj nrc nr.
Total n.1 n.2 ... n.3 n.c n

La tabla que sigue es la tabla de contingencia correspondiente al ejemplo:

Grado Nivel de hábitos de estudio Total


Bajo Moderado Alto
1° año 30 83 37 150
2° año 19 56 50 125
3° año 16 46 63 125
4° año 10 38 52 100
75 223 202 500

4
4. Se calculan las frecuencias esperadas para cada una de las celdas de la
tabla de contingencia. Esto se hace suponiendo que la hipótesis nula es
verdadera, es decir que los dos criterios de clasificación son independientes.

Las frecuencias esperadas se calculan así:


 (ni. )( n. j ) 
Eij = 
 

 n 
Aplicando esta fórmula para el ejemplo las frecuencias esperadas son:
(150 )( 75 ) (150 )( 223 ) (150 )( 202 )
E11 = = 22 .50 E12 = = 66 .90 E13 = = 60 .60
500 500 500
(125 )( 75 ) (125 )( 223 ) (125 )( 202 )
E 21 = = 18 .75 E 22 = = 55 .75 E 23 = = 50 .50
500 500 500
(125 )( 75 ) (125 )( 223 ) (125 )( 202 )
E31 = = 18 .75 E32 = = 55 .75 E33 = = 50 .50
500 500 500
(100 )( 75 ) (100 )( 223 ) (100 )( 202 )
E 41 = = 15 .00 E 42 = = 44 .60 E 43 = = 40 .40
500 500 500

La tabla de contingencia que muestra las frecuencias esperadas (entre paréntesis) y


las observadas se presenta enseguida:
Grado Nivel de hábitos de estudio Total
Bajo Moderado Alto
1° año 30 (22.50) 83 (66.90) 37 (60.60) 150
2° año 19 (18.75) 56 (55.75) 50 (50.50) 125
3° año 16(18.75) 46(55.75) 63(50.50) 125
4° año 10 (15.00) 38 (44.60) 52 (40.40) 100
75 223 202 500

5. Se comparan las frecuencias esperadas y observadas calculando


r c  (O − E ) 2 
Χ 2 = ∑∑ 
ij ij

i =1 j =1 
 Eij 

Para el ejemplo:

Χ2 =
( 30 − 22.50 ) 2 +
( 83 − 66.90 ) 2 + ... +
( 52 − 40.40 ) 2 = 26.752
22 .50 6.690 40 .40

5
6. Se compara el valor calculado de Χ 2 con los valores tabulados de χ 2
al nivel
de significancia que se haya seleccionado. Si Χ 2 es igual o mayor que χ 2

para los grados apropiados de libertad y el nivel de significancia elegido, se


rechaza la hipótesis nula de independencia y se concluye que los dos
criterios de clasificación no son independientes.

El número de grados de libertad asociados con el valor de Χ 2, calculado a partir de


la tabla de contingencia, es igual al número de celdas que se pueden llenar
arbitrariamente si se han establecido los totales marginales. En general el número
de grados de libertad es igual al número de hileras menos uno, por el número de
columnas menos uno, gl= (r-1)(c-1).

Para el ejemplo: gl=(4-1)(3-1) = 6 ; la tabla 2 muestra que χ 2


6, .05 = 12.592 y como
Χ 2=26.752, entonces se rechaza la hipótesis nula y se concluye que el nivel de
hábitos de estudio y el grado que se cursa en la universidad no son independientes
en la población que se tomó la muestra.

La tabla de contingencia 2 x 2
Una tabla de contingencia de dos hileras y dos columnas se presenta cuando la
muestra se categoriza según dos criterios, cada uno de los cuales ocurre en dos
niveles. La tabla siguiente es una típica tabla de contingencia 2x2.
Primer criterio de Segundo criterio de clasificación Total
clasificación 1 2
1 a b a+b
2 c d c+d
a+c b+d n

Se puede aplicar la fórmula que se presenta enseguida para calcular Χ 2 a partir de


datos de una tabla de contingencia de 2x2.
n( ad − bc ) 2
Χ2 =
( a + c )( b + d )( a + b)( c + d )

Una tabla de contingencia 2x2 tiene un grado de libertad.

6
Ejemplo: Con una muestra aleatoria de bachillerato un sociólogo recolectó datos
sobre la ocupación de los padres y la atmósfera disciplinaria predominante en los
hogares de los estudiantes la siguiente tabla muestra los resultados:

Ocupación del Atmósfera disciplinaria Total


padre Permisiva Autoritaria
Empleado 98 42 140
Obrero 101 59 160
199 101 300

H0: Atmósfera disciplinaria en el hogar y la ocupación del padre son independientes.


H1: Los dos criterios no son independientes.
300 [( 98 )( 59 ) − ( 42 )(101 )] 2
Χ2 = =1.580
(199 )(101 )(140 )(160 )

la tabla 2 muestra que χ 2


1, .05 = 3.841 y como Χ 2=1.580, entonces se acepta la
hipótesis nula y se concluye que la ocupación del padre y la atmósfera disciplinaria
en el hogar pueden ser independientes.

Prueba χ 2
de homogeneidad
Se puede verificar la hipótesis nula de que dos proporciones poblacionales son
iguales por medio de la prueba χ 2
de homogeneidad (Daniel, 1988). Se pueden
disponer los datos en una tabla de contingencia 2x2 utilizando las dos poblaciones
como un criterio de clasificación y la característica de interés por el otro, siendo la
presencia y la ausencia del criterio los dos niveles de clasificación. Se calcula el
estadístico de prueba Χ 2 a partir de la ecuación:
n( ad − bc ) 2
Χ2 =
( a + c )( b + d )( a + b)( c + d )

y se compara, al nivel de significancia elegido, con el valor χ 2 tabulado con un


grado de libertad. La hipótesis nula de que dos proporciones poblacionales son
iguales se escribe:
H0: p1=p2

7
Y puede leerse “las dos poblaciones son homogéneas respecto de la característica
de interés”.

Ejemplo: Se está estudiando la diferencia entre las características que tienen los
universitarios que participan activamente en reuniones de protesta y los que no lo
hacen. Se desea saber si es posible sacar como conclusión que las proporciones de
los que notaban una brecha generacional entre sí mismos y sus padres eran
diferentes en los dos grupos.
H0: La proporción de estudiantes que notan la existencia de una brecha
generacional entre sí mismos y sus padres es la misma en los dos grupos.
H0: p1 = p2
H1: Las dos proporciones no son iguales. H1: p1 ≠ p2
Se seleccionó una muestra aleatoria de 200 estudiantes que se identificaron como
participantes activos en las reuniones de protesta y otra de 250 que no se
identificaron de ese modo. Se pueden presentar los resultados de las entrevistas en
una tabla de contingencia 2x2, como la siguiente:
Brecha Grupo Total
generacional Participante No participante
Presente 116 113 229
Ausente 84 137 221
200 250 450

450 [(116 )(137 ) − (113 )( 84 )] 2


Se calcula: Χ2 = = 7.284
(200 )( 250 )( 229 )( 221 )

La tabla 2 muestra que χ 2


1, .01 = 6.635 y como Χ 2=7.284, entonces se rechaza la
hipótesis nula y se concluye que la proporción de estudiantes que observan la
existencia de una brecha generacional entre ellos y sus padres no es la misma en la
población de participantes en reuniones de protesta que en la población de no
participantes. En otras palabras, las dos poblaciones no son homogéneas respecto
de la existencia de una brecha generacional entre los estudiantes y sus padres.

Es posible ampliar la prueba χ 2


de homogeneidad para verificar hipótesis acerca de
más de dos poblaciones y más de dos niveles de la variable de interés. Para esto,
8
se sacarían muestras aleatorias de cada población, se haría el conteo de las
respuestas de los elementos en cada muestra y calcularíamos Χ 2 como se vio
anteriormente. Los datos se presentan en una tabla de contingencia r x c, en la que
r es el número de categorías de la variable de interés y c es el número de
poblaciones muestreadas. Se compara el estadístico Χ 2, de acuerdo al nivel de
significancia elegido, con el valor tabulado de χ 2
correspondiente a (r-1)(c-1)
grados de libertad.

Ejemplo: De cada una de tres comunidades se sacó una muestra aleatoria de


parejas de jóvenes casados. A cada pareja se le pidió que especificara el nivel
mínima de educación que esperaban que sus hijos recibieran. La siguiente tabla
muestra los resultados del estudio incluyendo las frecuencias esperadas en cada
celda:
Nivel mínimo de Comunidad Total
educación deseado
para sus hijos A B C
Colegio 30 (25.89) 28 (21.58) 24 (34.53) 82
Comercio 30 (30.00) 19 (25.00) 46 (40.00) 95
Universidad 90 (94.11) 78 (78.42) 130 (125.47) 298
150 125 200 475

H0: Las tres poblaciones son homogéneas respecto de las aspiraciones de


educación para sus hijos.
H1: Las tres poblaciones no son homogéneas respecto de la variable de interés.
r  ( Oij − E ij ) 2 
c
Utilizando la ecuación: Χ = ∑∑ 
2
 con base en los datos de la tabla
i =1 j =1 
 E ij 

anterior, se tiene:

Χ 2
=
( 30 − 25 .89 )
2
+
( 30 − 30 .00 )
2
+ ... +
(130 − 125 .47 )
2
= 8.458
25 .89 30 .00 125 .47
La tabla 2, con cuatro grados de libertad, muestra que χ 2
4, .05 = 9.488 y como
Χ 2=8.458, entonces se acepta la hipótesis nula. La conclusión es que las tres
poblaciones pueden ser homogéneas respecto al nivel mínimo de educación
deseado para sus hijos.
9
Diferencia entre las pruebas de independencia y las pruebas de homogeneidad.

Los cálculos matemáticos en las pruebas χ 2


de independencia y de homogeneidad
son los mismos, pero los procedimientos tienen diferencias. En las pruebas de
independencia el investigador selecciona una sola muestra de una sola población y
los clasifica en forma cruzada a los elementos, según los dos criterios que le
interesen. En las pruebas de homogeneidad, el investigador identifica dos o más
poblaciones antes de recolectar los datos. Selecciona una muestra de cada una de
las poblaciones y coloca a los elementos de cada muestra en una de dos o más
categorías de la variable de interés.

10

Você também pode gostar