Você está na página 1de 32

Estadstica No Paramtrica

Parte de las notas tomadas de: Prof. Edgar Acua http://math.uprm/edu/~edgar UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ

METODOS ESTADISTICOS NO PARAMETRICOS


Las tcnicas estadsticas de estimacin de parmetros, intervalos de confianza y prueba de hiptesis son, en conjunto, denominadas ESTADSTICA PARAMTRICA y son aplicadas bsicamente a variables contnuas. Estas tcnicas se basan en especificar una forma de distribucin de la variable aleatoria y de los estadsticos derivados de los datos. En ESTADSTICA PARAMTRICA se asume que la poblacin de la cual la muestra es extrada es NORMAL o aproximadamente normal. Esta propiedad es necesaria para que la prueba de normal hiptesis sea vlida. Sin embargo, en un gran numero de casos no se puede determinar la distribucin original ni la distribucin de los estadsticos por lo que en realidad no tenemos parmetros a estimar. Tenemos solo distribuciones que comparar. Esto se llama ESTADSTICA NO-PARAMTRICA. TRICA

PRUEBAS NO PARAMTRICAS
Vamos a ver algunas de las pruebas noparamtricas, las cuales no requieren asumir normalidad de la poblacin y que en su mayora se basan en el ordenamiento de los datos. Todas las pruebas que veremos requieren que la poblacin sea continua. El parmetro que se usa para hacer las pruebas estadsticas es la Mediana y no la Media. Media En MINITAB, para las pruebas noparamtricas se elige la secuencia STAT 4Noparametrics.

Pruebas No paramtricas para una sola muestra


1 Prueba de los Signos Se usa para hacer pruebas de hiptesis acerca de la mediana de una poblacin. Ho: La Mediana poblacional es igual a un valor dado. Ha: La mediana es menor (mayor distinta) del valor dado. La prueba estadstica est basada en la distribucin Binomial con probabilidad de xito p=, puesto que la probabilidad de que un dato sea mayor o menor que la mediana es . Para calcularla se determinan las diferencias de los datos con respecto al valor dado de la mediana y se cuentan los signos positivos y negativos.

Si la hiptesis alterna es "menor que" y el nmero de diferencias positivas es mayor que el nmero de diferencias negativas entonces valor-p = P2 en caso contrario valor-p = P1. Cuando la hiptesis alterna es de dos lados y el nmero de diferencias positivas son mayores que el nmero de diferencias negativas entonces el valor-p = 2P2, si hay menor nmero de diferencias positivas entonces valor-p=2P1 y si hay igual nmero de diferencias positivas y negativas entonces, valor-p=1. Si n>20 se puede usar aproximacin Normal a una Binomial con p = q = 0.5, para calcular los valores-p. Es decir,

Z=

X .5 n .5 n

Ejemplo
Los tiempos de sobrevivencia (en aos) de 12 personas que se han sometido a un transplante de corazn son los siguientes: 3.1 .9 2.8 4.3 .6 1.4 5.8 9.9 6.3 10.4 0 11.5

One-Sample T: tiempo
Variable N Mean StDev SE Mean 99% CI tiempo 12 4.75000 4.04599 1.16798 (1.1224, 8.3775)

Probar con 95% de confianza si los datos del tiempo de vida despus del transplante sugieren que la mediana sea distinta de 5. Primero se calculan las diferencias contra el valor de prueba y se cuentan los signos positivos y negativos:

3.1 .9 2.8 4.3 .6 1.4 5.8 9.9 6.3 10.4 0 11.5

-5 -5 -5 -5 -5 -5 -5 -5 -5 -5 -5 -5

-1.9 -4.1 -2.2 -0.7 -4.4 -3.6 +0.8 +4.9 +1.3 +5.4 -5.0 +6.5

+ + + + +

7(-) y 5(+)

Vamos a ver qu significa esto. La prueba se basa en la distribucin binomial. Para ello podemos usar la frmula o bien emplear una herramienta de software. En este caso necesitamos: Probabilidad binomial para n = 12, p=0.5
0.05 0.016 0.0029 0.0002

Como lo que queremos es probar es si la mediana de la muestra es diferente a la mediana de prueba, esto implica que el valor de p no est cercano (dentro del 95%) a 0 (Hiptesis nula). Calculamos la suma de las probabilidades de los extremos (colas) hasta llegar lo ms prximo a 0.05 y podemos ver que los valores que nos interesan son 0,1,2 y 10,11 y 12 (sumando sus probabilidades, 0.0002+0.0029+0.016+0.016 +0.0029+0.0002=0.0382 nos acercamos a 0.05 si usamos otro valor nos pasamos) o sea que para que haya diferencia debe haber 2 o menos o bien 10 o ms. Como tenemos 7 (-) y 5 (+) conclumos que no hay diferencia con la mediana (no podemos rechazar la hiptesis nula de que no hay diferencia con la mediana).

Usando minitab Ho, es que la mediana del tiempo es igual a 5 aos Ha, es que la mediana del tiempo es distinta de 5 aos.

Sign Test for Median: tiempo Sign test of median = 5.000 versus not = 5.000 N Below Equal Above P Median tiempo 12 7 0 5 0.7744 3.700

Interpretacin: Como el valor-p es mayor que .05 se aceptar la hiptesis nula. Es decir que la mediana del tiempo de vida despus del transplante es 5.
Si usamos aproximacin normal a la binomial el valor-p = 2P(X5) = .77728,

2 La Prueba de Rangos con signos de Wilcoxon Es usada para hacer pruebas de hiptesis acerca de la mediana. La prueba estadstica se basa en el estadstico de Wilcoxon (1945), el cual se calcula de la siguiente manera: Se resta de cada dato el valor de la mediana que se considera en la hiptesis nula. Se calcula los rangos de las diferencias sin tomar en cuenta el signo de las mismas (o sea en valor absoluto). En el caso de haber empate se asigna un rango promedio a todas las diferencias empatadas es decir; se les asigna el rango:
(menor rango del grupo del empate + mayor rango del grupo del empate) nmero de empates

El estadstico W de Wilcoxon ser la suma de los rangos correspondientes a las diferencias positivas.

A diferencia de la prueba de los signos, la prueba Rangos con signos de Wilcoxon toma en cuenta la magnitud de la diferencia. Los pasos son: ----se ordenan las diferencias por valor absoluto diferencias positivas tienen un signo + diferencias negativas tienen un signo se suman las diferencias con signo + y las diferencias con signo -

Bajo la Ho de que la mediana = 0 se espera que la muestra tenga aproximadamente igual nmero de ( + ) que de ( ) o sea que: suma de rangos positivos = suma de rangos negativo

EJEMPLO 3.1 -5 .9 -5 2.8 -5 4.3 -5 .6 -5 1.4 -5 5.8 -5 9.9 -5 6.3 -5 10.4 -5 0 -5 11.5 -5

-1.9 -4.1 -2.2 -0.7 -4.4 -3.6 +0.8 +4.9 +1.3 +5.4 -5.0 +6.5

1.9 4.1 2.2 0.7 4.4 3.6 0.8 4.9 1.3 5.4 5.0 6.5

4 7 5 1 8 6 2 9 3 11 10 12

SUMA DE RANGOS POSITIVOS = 37 SUMA DE RANGOS NEGATIVOS = 41 son casi iguales SE ACEPTA LA HIPTESIS NULA (NO hay diferencia con la Mediana)

En MINITAB, para hacer la prueba de Wilcoxon se sigue la secuencia STAT 4Noparametrics 41-Sample Wilcoxon.

Ejemplo.
Aplicar la prueba de Wilcoxon a los datos del ejemplo anterior. Solucin: La ventana de dilogo se completar como se muestra en la figura. Los resultados en la ventana session sern
Wilcoxon Signed Rank CI: tiempo Confidence Estimated Achieved Interval N Median Confidence Lower Upper tiempo 12 4.63 94.5 1.85 7.30

Interpretacin: Como el p-value= 94.5% es mayor que 5% no se rechaza la hiptesis nula. Es decir, hay suficiente evidencia estadstica para concluir que la mediana de los tiempos de vida es 5.0.

Pruebas Noparamtricas para pares de muestras


La prueba de los signos y la prueba de Wilcoxon se pueden usar tambin como una prueba alterna a la prueba de t para comparaciones de pares de muestras. En este caso se aplica la prueba noparamtrica a las diferencias entre los dos grupos.

Ejemplo 11.3. Se desea probar si el rendimiento en la prueba de aprovechamiento matemtico es mejor que en la prueba de aptitud matemtica. Para ello se toma una muestra de los resultados de 40 estudiantes:
Wilcoxon Signed Rank Test: diferenc Test of median = 0.000000 versus median > 0.000000 N for Wilcoxon Estimated N Test Statistic P Median diferenc 40 40 591.0 0.008 27.75

hiptesis nula y se concluye que hay evidencia estadstica de que el rendimiento en aprovechamiento es mejor que en aptitud.

Interpretacin: Como el p-value es menor que .05, se rechaza la

Se usa cuando se quiere comparar dos poblaciones usando muestras independientes, es decir; es una prueba alterna a la prueba de t para comparar dos medias usando muestras independientes. Tambin es conocida como la prueba de suma de rangos de Wilcoxon. La hiptesis nula es que la mediana de las dos poblaciones son iguales y la hiptesis alterna puede ser que la mediana de la poblacin 1 sea mayor ( menor distinta) de la mediana de la poblacin 2. Cuando tanto n1 como n2 sean mayores que 10, se puede demostrar que si no hay empates, entonces W se distribuye aproximadamente como una empates normal con media n1(n1+n2+1)/2 y varianza n1n2(n1+n2+1)/12.

La prueba de Mann-Withney para dos muestras independientes

z=

n1 (n1 + n2 + 1) 2 ~ N (0,1) n1 n2 (n1 + n2 + 1) 12

Cuando hay empates entonces, la varianza es modificada y se obtiene:

z=

n1 (n1 + n 2 + 1) 2 ~ N (0,1) 3 g ti ti n1 n 2 [n1 + n 2 + 1 12 i =1 ( n1 + n 2 )( n1 + n 2 1) W

donde, g y ti tienen el mismo significado dado anteriormente. En MINITAB, para hacer la prueba de Mann-Withney, se sigue la secuencia

STAT 4Noparametrics 4Mann-Withney.

Ejemplo
Usando los datos probar si el rendimiento en la prueba de aprovechamiento matemtico de los estudiantes de escuela pblica y privada es el mismo. Los datos son como siguen:
privada pblica 642 580 767 638 641 704 721 694 625 615 689 617 623 689

Solucin
Mann-Whitney Test and CI: privada, pblica N Median privada 6 665.5 pblica 8 630.5 Point estimate for ETA1-ETA2 is 26.5 95.5 Percent CI for ETA1-ETA2 is (-47.0,104.0) W = 56.5 Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.1556 The test is significant at 0.1551 (adjusted for ties)

Interpretacin: Como el p-value 0.1551 (ajustado por empates), es mayor que 0.05 se acepta hiptesis nula. Es decir; que hay evidencia estadstica para concluir que el rendimiento en aprovechamiento matemtico es el mismo para estudiantes de escuela pblica y privada.

La prueba de Kruskal-Wallis para comparar ms de dos grupos


La prueba de Kruskal-Wallis, es una alternativa a la prueba F del anlisis de varianza para diseos de clasificacin simple. En este caso se comparan varios grupos pero usando la mediana de cada uno de ellos, en lugar de las medias. Ho: La mediana de las k poblaciones consideradas son iguales y Ha: Al menos una de las poblaciones tiene mediana distinta a las otras.

k Ri2 12 H= n 3(n + 1) n(n + 1) i =1 i

donde,

n es el total de datos.

Si hay empates en los datos entonces, se aplica la siguiente modificacin a H.

H '= 1

t
i =1

3 i

ti

n3 n

Se puede mostrar que si los tamaos de cada grupo son mayores que 5 entonces, H se distribuye como una Ji-Cuadrado con, k-1 grados de libertad. Luego, la hiptesis nula se rechaza si . Para hacer la prueba de Kruskal-Wallis en MINITAB, los datos de la variable H > k 1,1 cuantitativa deben ir en una columna y los niveles del factor en otra. No se permite en este caso entrar los grupos en columnas separadas.
2

Ejemplo
Se trata de comparar 3 mtodos de enseanza (a, b y c) pero tomando en cuenta adems el factor turno (m, t y n), es decir el tiempo del da al cual se da clase. Los datos son como siguen:
a b c m 80.000 65.000 66.000 78.000 79.000 49.000 t 69.000 50.000 34.000 72.000 58.000 58.000

Primero se introducen los datos en tres columnas:


nota mtodo turno 80 a m 78 a m 69 a t 72 a t 73 a n 74 a n 65 b m 79 b m 50 b t 58 b t 62 b n 65 b n 66 c m 49 c m 34 c t 58 c t 46 c n 59 c n

n 73.000 62.000 46.000 74.000 65.000 59.000

Usar la prueba de Kruskal-Wallis para comparar los mtodos de enseanza Solucin: Ho: Las medianas de los tres mtodos de enseanza son iguales y Ha: Al menos uno de los mtodos de enseanza tiene mediana distinta a los otros.
Kruskal-Wallis Test: notas versus mtodo Kruskal-Wallis Test on notas mtodo N Median Ave Rank Z 1 6 61.50 5.4 -2.29 2 7 85.00 13.8 2.72 3 5 74.00 8.4 -0.54 Overall 18 9.5 H = 8.23 DF = 2 P = 0.016 H = 8.25 DF = 2 P = 0.016 (adjusted for ties)

Interpretacin: Como el p-value es 0.016 menor que .05, se rechaza la hiptesis nula y se concluye que los mtodos no son todos iguales. Es decir; al menos uno de los mtodos tiene mediana distinta a los otros.

El Coeficiente de Correlacin de Spearman


Este coeficiente es el equivalente noparamtrico del Coeficiente de Correlacin que vimos anteriormente, al que tambin se le llama Coeficiente de Pearson. Al igual que el coeficiente de correlacin, el Coeficiente de Spearman puede tomar valores entre -1.0 y 1.0, un valor de -1.0 indica una correlacin negativa perfecta y un valor de 1.0 indica una correlacin positiva perfecta.

Pasos para calcular el Coeficiente de Spearman


1. Definir la hiptesis nula, por ejem. No hay relacin entre los dos juegos de datos. 2. Calcular el rango (Rank) para ambos juegos de datos del mayor al menor verificando empates. 3. Substraer los rangos para obtener la diferencia d. 4. Elevar la diferencia d al cuadrado. 5. Sumar los valores de d al cuadrado para obtener d2. 6. Usar la frmula

rs = 1

n( n2 1)

6 d 2

donde n es el nmero de rangos.

el Coeficiente de Spearman
Si el valor de rs: ... es -1, hay una correlacin negativa perfecta. ... se encuentra entre -1 y -0.5, hay una fuerte correlacin negativa. ... se encuentra entre -0.5 y 0, hay una dbil correlacin negativa. ... es 0, no hay correlacin ... se encuentra entre 0 y 0.5, hay una dbil correlacin positiva. ... se encuentra entre 0.5 y 1, hay una fuerte correlacin positiva. ... es 1, hay una correlacin positiva perfecta. entre los 2 juegos de datos. # Si el valor de rs es 0, podemos decir que la hiptesis nula se acepta. De otra forma se rechaza.

La correlacin de Spearman mide el grado de asociacin entre dos variables cuantitativas que siguen una tendencia siempre creciente o siempre decreciente. es ms general que el Coeficiente de correlacin de Pearson, la correlacin de Spearman, en cambio se puede calcular para relaciones exponenciales o logartmicas entre las variables. Para hallar los ordenamientos, se usa la opcin Rank del men Calc. Los ordenamientos se guardan en otras columnas y luego se halla simplemente el coeficiente de correlacin usual entre stas dos columnas usando la opcin correlacin del submen Basic Statistics del men STAT.

MINITAB tambin incluye en el men de Pruebas Noparamtricas a la Prueba de Friedman para anlisis de diseos en bloques al azar y la prueba de Mood.

Tarea
Calcular el coeficiente de Correlacin de Spearman y compararlo con el coeficiente de correlacin de Pearson para los siguientes datos:
Aos como Realtor (X) Casas Vendidas(Y) 3 9 4 12 6 16 7 19 8 23 12 119 15 34 20 37 22 40 26 45

Solucin: Ordenando los datos de cada variable se obtiene:


rankx ranky 1 1 2 2 3 3 4 4 5 5 6 10 7 6 8 7 9 8 10 9

La correlacin de Spearman de las variables X e Y ser igual a la correlacin de Pearson entre las variables rankx y ranky dando un valor de 0.879 lo que indica una alta asociacin entre las variables. Sin embargo; la correlacin de Pearson entre las variables X e Y da solamente 0.371, lo que indica una baja asociacin lineal entre las variables. Notar que el dato atpico" y=119 ha afectado de manera importante al coeficiente de correlacin de Pearson, pero no ha tenido efecto sobre la correlacin de Spearman.

Você também pode gostar