Você está na página 1de 60

FUNDAMENTOS CONCEPTUALES DE LAS PRINCIPALES PRUEBAS DE SIGNIFICACIN ESTADSTICA EN EL AMBITO EDUCATIVO

AUTORES: Clemente Rodrguez Sabiote Jos Gutirrez Prez Teresa Pozo Llorente

Los autores Edita: Grupo Editorial Universitario ISBN: Depsito Legal: Imprime: Lozano Impresores S.L.L. Distribuye: Grupo Editorial Universitario Telf: 958 800580 Fax: 958 291615 http://www.editorial-geu.com E-mail: grupoeditorial@terra.es No est permitida la reproduccin total o parcial de esta obra, ni su tratamiento informtico, ni la transmisin de ninguna forma o por ningn medio, ya sea electrnico, mecnico, por fotocopia, u otros medios, sin el permiso previo y por escrito de los titulares del Copyright.

INDICE Pag. BASES CONCEPTUALES DE LOS PRINCIPALES CONTRASTES DE HIPTESIS 1. Introduccin 2. Anlisis inferencial 2.1. Aspectos generales del contraste de hiptesis. 2.2. Pruebas de significacin estadstica.. 2.2.1. Principales pruebas de contraste de hiptesis de tipo paramtrico.. 2.2.1.1. Pruebas relacionadas con la igualdad de medias de dos grupos... 2.2.1.2. Pruebas relacionadas con la igualdad de varianzas de dos o ms grupos 2.2.2. Principales pruebas de contraste de hiptesis de tipo no paramtrico Bibliografa. 5 7 8 8 14 18 18 24 33 59

PRIMERA PARTE: Bases conceptuales de los principales contrastes de hiptesis

El mtodo cientfico se caracteriza por: a) una cuidadosa y precisa clasificacin de hechos y observaciones, debidamente relacionadas e hiladas, b) el descubrimiento de leyes cientficas por medio de la imaginacin creativa, c) el sentido de la autocrtica, como piedra angular de la potencialidad innata que poseen todas las mentes para ejercitarla (Pearson, 1911)

1. INTRODUCCIN La Estadstica es una herramienta de reconocido valor al servicio de la investigacin educativa. Mediante los procedimientos estadsticos se

construyen modelos de interpretacin del mundo, de los fenmenos naturales, sociales y tambin educativos, basndonos en los principios en que se asienta la lgica de su mtodo y las reglas de su lenguaje. La Estadstica trata de formular generalizaciones con el mayor alcance posible dentro unos mrgenes de error acordados. En cuanto a la lgica de su mtodo cabe afirmar que las cosas no son verdaderas o falsas de forma categrica, pues nunca podemos afirmar con rotundidad que nuestras conclusiones obtenidas en una investigacin son correctas al 100%; hacemos afirmaciones y sacamos conclusiones tras el anlisis de los datos asumiendo el riesgo de equivocarnos 1 de cada 100 veces o 1 de cada 20 veces. Evidentemente la posibilidad de equivocarse en el primer caso es menor que en el segundo, la tolerancia del error es mayor a medida que nuestras conclusiones cabe la posibilidad de que sean falsas con un mayor margen de error. En cuanto a las reglas de su lenguaje, decimos que las cosas son probablemente ciertas y, por tanto, las conclusiones a las que se llega en las investigaciones se basan en afirmaciones probabilsticas y nunca en verdades taxativas. Estas afirmaciones permiten establecer generalizaciones, asumiendo un riesgo de error ms tolerante o ms exigente, sobre el total de la poblacin objeto de estudio; aun a sabiendas de que los datos se han recogido no sobre el total sino sobre muestras representativas del total a las que hemos aplicado las reglas y que con las licencias del lenguaje hacemos inferencias y decimos que es muy probable que esas afirmaciones sean vlidas tambin para toda la poblacin. La Estadstica Inferencial aplica estos modelos de razonamiento lgico y estas reglas de lenguaje para formular conclusiones generalizables a la poblacin mediante el establecimiento de conjeturas e hiptesis basadas en 7

pruebas matemticas de distinta naturaleza que hacen posible aceptarlas como afirmaciones vlidas dentro de unos mrgenes de confianza. Cuando el inters del anlisis de datos se centra en la verificacin de hiptesis a fin de denotar posibles efectos diferenciales y, adems, en las relaciones de interdependencia y dependencia que mantienen un conjunto de variables podemos hablar de anlisis confirmatorio. Precisamente uno y otro objetivo dan lugar a los dos grandes bloques del anlisis confirmatorio: anlisis inferencial y multivariante. En este cuaderno de tratarn slo diversos aspectos del primero (anlisis inferencial) haciendo hincapi en las principales pruebas de tipo paramtrico y no paramtrico. Por tanto, se trata de un material de apoyo que complementa, por una parte los contenidos de anlisis de datos que se desarrollan de manera manual y, por otra, el primer cuaderno dedicado al anlisis descriptivo.

2. ANLISIS INFERENCIAL 2.1. Aspectos generales del contraste de hiptesis El propsito fundamental de los anlisis estadsticos de tipo inferencial es el conocimiento de poblaciones a partir del estudio de muestras o subconjuntos representativos y suficientes de dichas poblaciones (Fernndez, Garca, Fuentes y Asensio, 1992; Tejedor y Etxeberria, 2006). En este tipo de anlisis, amn de la probabilidad, el muestreo y la estimacin de parmetros (de tipo puntual e interval) destaca el importante papel que juegan los contrastes de hiptesis. Para Martn (2001:9) los trminos contraste de hiptesis son sinnimos de pruebas de significacin y se refieren a los procedimientos estadsticos mediante los cuales aceptamos o rechazamos una hiptesis nula (Ho) lo que automticamente nos habilita para rechazar o aceptar otra hiptesis denominada hiptesis alternativa (H1). Mientras la primera postula la ausencia de diferencias estadsticamente entre dos medidas o ms (las que existen se deben al azar), la segunda postula todo lo contrario, o sea, la existencia de diferencias estadsticamente significativas entre dos o ms medidas.

Teniendo en cuenta que una hiptesis es una relacin potencial entre dos o ms variables, por ejemplo, los alumnos que utilizan calculadora de bolsillo obtienen un mayor rendimiento acadmico que aquellos que no lo hacen, podemos afirmar que el contraste de hiptesis es el procedimiento que nos permite verificar y confirmar si esa relacin potencial es verdadera o no y con qu margen de error. A continuacin explicitamos otro ejemplo ms actual para tratar de comprender mejor el concepto de contraste de hiptesis.

Por ejemplo, un estudiante de doctorado ha recogido datos sobre el fenmeno del botelln en Granada. Le interesa, tomando como objeto de estudio varias Facultades, determinar el grado de acuerdo que tienen los estudiantes universitarios sobre este tipo de eventos tomando en consideracin diferentes variables de agrupacin: titulacin, curso En este caso, resultara til comparar si la variable opinin sobre este tipo de eventos resulta ms o menos importante dependiendo de la titulacin a la que pertenece el alumnado, el curso en el que est

Foto extrada de: www.ideal.es/granada/Media/200703/05/botellon


Siguiendo un procedimiento sistemtico de muestreo en las diferentes Facultades, el estudiante de doctorado podr obtener unas conclusiones sobre la participacin y la opinin que podr generalizar al conjunto de la poblacin estudiantil de universitarios granadinos. Para ello deber establecer una serie de hiptesis que finalmente le han de permitir establecer sus conclusiones con un mayor grado de precisin. En trminos generales, sus formulaciones hipotticas sobre el botelln pueden establecerse en los trminos siguientes: Los universitarios estn a favor del botelln, los universitarios estn en contra del botelln. Pero los matices sobre esta formulacin pueden expresarse con ms precisin: Hay diferencias entre los alumnos de la Facultad A y los de la Facultad B. De igual forma se pueden establecer aproximaciones al tema teniendo en cuenta la variable sexo: No hay diferencias en la opinin de los estudiantes y estudiantas universitarios sobre el fenmeno botelln. O bien en funcin de la variable curso, lugar de residencia (Granada, no Granada; pueblo, ciudad). Un anlisis exhaustivo de esta serie de variables nos permitira entender el fenmeno ms ampliamente, aunque para generalizar los resultados a toda la poblacin universitaria deberamos contar con una muestra de todo el pas.

Por otra parte, existe un consenso ms o menos extendido a la hora de formular dichas hiptesis, que se resume de la siguiente forma.

Hiptesis nula (Ho): no se postulan diferencias estadsticamente significativas entre las medidas y si las hay se deben al azar. Bilateral: Contraste con una muestra (Ho): = k Contraste con ms de una muestra (Ho): 1 = 2 o tambin 1 - 2 = 0 Unilateral: Contraste con una muestra (Ho): k o tambin (Ho): k Contraste con ms de una muestra Ho): 1 2 y tambin H1): 1 2

Hiptesis alternativa (H1): Bilateral: se postulan diferencias estadsticamente significativas entre las medidas, pero se desconoce a favor de cual de ellas: Contraste con una muestra (H1): k Contraste con ms de una muestra (H1): 1 2 o tambin 1 - 2 0 Unilateral: se postulan diferencias estadsticamente significativas entre las medidas y, adems, se contemplan a favor de alguna de ellas: Contraste con una muestra: (H1): < k o tambin (H1): > k Contraste con ms de una muestra H1): 1 < 2 o tambin 1 > 2

Cuadro 1. Formulacin convencional de las hiptesis estadsticas

En el desarrollo del proceso de contraste de hiptesis es igualmente relevante el nivel de significacin, error tipo I o (rechazar una Ho cuanto sta es verdadera) que se asume en el mismo, as como el nivel de confianza (1-). Los valores habituales asumidos para los errores son el 10%, menos usado y, sobre todo, 5% y 1%, siendo por ende, los niveles de confianza del 90%, 95% y 99%. Tambin destacamos el error tipo II o (no rechazar una Ho cuando sta es falsa) y la potencia de contraste (1-). Todos estos aspectos quedan esquemticamente reflejados en la siguiente tabla:
Decisiones respecto a Ho H0 rechazada H0 no rechazada H0 cierta Error tipo I () Decisin correcta Nivel de confianza (1-) H0 falsa Decisin correcta Potencia de contraste (1-) Error tipo II ()

Tabla 1. Situaciones de un contraste de hiptesis y posibles decisiones Como podemos apreciar en la tabla anterior (tabla 1) el proceso final del contraste de hiptesis es un resultado que sirve para aceptar o rechazar la 10

hiptesis nula con un cierto grado de error. Este resultado se denomina valor emprico o terico y se compara con un valor crtico o tabular (valores de tabla) asumiendo un determinado nivel de error (generalmente 5% o = 0.05) y en algunas ocasiones unos determinados grados de libertad. La norma general, es que si el valor emprico de la prueba calculada (el que se produce como resultado de aplicar una expresin matemtica) es menor que el crtico se acepta la hiptesis nula, ya que entrara dentro de la regin de aceptacin de la misma.

Grfico 2. Zonas de aceptacin de Ho con un = 0.05/2, es decir, bilateral. Sin embargo esta receta slo funciona cuando el contraste es unilateral, es decir, cuando el error asumido se sita en una sola cola de la curva, exactamente la derecha. Por esa razn, es posible encontrar numeradores de expresiones de clculo de contrastes de hiptesis donde la diferencia entre parmetro y estadstico ( media de poblacin media de muestra x) o entre dos medias muestrales (x1 x2) se muestra en valor absoluto a fin de evitar una situacin como la que vamos a describir a continuacin.

11

Ejemplo 1: Una educadora ha comparado el rendimiento en matemticas de los grupos de maana y tarde. Para ello ha utilizado una prueba de contraste de hiptesis determinada (por ejemplo T de Student para grupos grandes e independientes) habiendo obtenido un resultado Z (emprica) = -2.

Si el contraste es unilateral derecho asumiendo un = 0.05 (5%) el criterio Valor emprico < Valor crtico sera vlido ya que:

-2

1,64

Evidentemente Z (emprica) es menor que Z (crtica) razn por la cual se acepta Ho. Pero imaginemos que el contraste fuese bilateral (con dos colas). En ese caso ocurrira lo siguiente:

12

-2

1,96

As pues, aunque Z (emprica) es menor que ambas Zetas (crticas) no se puede aceptar Ho, ya que 2 cae fuera del rea de aceptacin de la hiptesis nula. Ello no hubiera ocurrido si en el numerador de la expresin utilizada en el contraste se hubiese utilizado valor absoluto en la diferencia de medias.

En conclusin se pueden utilizar dos estrategias para una correcta decisin en una situacin de contraste bilateral: 1) Utilizar en el numerador de la expresin de diferencias entre medidas el valor absoluto. 2) Considerar que todo valor emprico que se salga fuera de la regin de aceptacin de la hiptesis nula, bien por encima o por debajo, implicar la aceptacin de la hiptesis alternativa.

Como puede apreciarse se han manejado distintos valores de puntuaciones zetas crticas. Tomando como referencia la lateralidad de la prueba (unilateral o bilateral), as como los distintos riesgos o alfas habitualmente asumidos (10%, 5% y 1%), podemos establecer diferentes valores crticos para las puntuaciones zeta:

13

Riesgo Lateralidad Contraste unilateral Contraste bilateral 10% 1,28 1,64 5% 1,64 1,96 1% 2,33 2,58

Tabla 2. Valores crticos para las puntuaciones zeta, segn la lateralidad y el error alfa asumido. 2.2. Pruebas de significacin estadstica Existen dos grandes grupos de pruebas de significacin estadstica, el referido a las paramtricas y el relacionado con las no paramtricas con rasgos distintivos que las caracterizan. Los ms importantes son el cumplimiento o incumplimiento de determinados supuestos (normalidad, homoscedasticidad e independencia), as como el nivel de escala de medida (ordinal, nominal, intervalo o de razn) de las variables y, finalmente, el nmero de sujetos que conforman el estudio (muestra).

Las pruebas de tipo paramtrico estn sometidas a determinadas condiciones de aplicacin, normalmente: normalidad, homoscedasticidad e independencia (Tejedor, 1999).

Con Ximnez y San Martn (2000: 31) entendemos por normalidad el ajuste de los datos, en mayor o menor medida, a la curva normal; por independencia el que las n observaciones hayan sido aleatoriamente extradas y sean independientes entre s; y por homoscedasticidad que las varianzas de las distribuciones intervinientes sean homogneas. Las pruebas de tipo no paramtrico por el contrario no estn sometidas a determinadas condiciones de aplicacin y son, pues, adecuadas cuando se incumple alguno de los criterios previstos para las pruebas de significacin de tipo paramtrico. Antes de proponer un catlogo sobre algunos de los diferentes tipos de pruebas de significacin que podemos encontrar hacemos referencia a las

14

distintas tcnicas y estrategias de verificacin de los supuestos paramtricos. Con Tejedor (1999) contemplamos, entre otros, los siguientes:
SUPUESTO

Normalidad

Homoscedasticidad

Independencia

TCNICA/ESTRATEGIA Representaciones grficas: histograma con curva normal, grfico P-P o de proporciones, grfico Q-Q o de cuantiles Valores de asimetra y apuntamiento Constraste de Shapiro y Wilk Contraste de Contraste de Kolmogorov-Smirnov con correccin de Lilliefors Contraste de Bartlett Contraste de Lehman Contraste de Hartley Contraste de Cochran Contraste de Levene Prueba con los logaritmos de las cuasivarianzas (para ANOVA) Coeficiente de correlacin serial de separacin 1 (prueba de autocorrelacin) Contraste de rachas

Tabla 3. Tcnicas y estrategias para verificar los distintos supuestos paramtricos Finalmente, proponemos una serie de pasos para implementar una prueba de significacin estadstica en el campo educativo, bien sea de forma manual o informatizada: 1. Exposicin (formulacin) de las hiptesis estadsticas: nula y alternativa. 2. Establecimiento de un nivel de significacin alfa o error. 3. Clculo de la probabilidad de que nuestros resultados puedan haberse obtenido bajo la hiptesis nula (Ho): 3.1. Seleccin de la prueba estadstica adecuada, dependiendo de la escala de medida de las variables del estudio, el nmero de participantes en el mismo... 3.2. Ejecucin de la prueba, bien mediante estrategia manual o informatizada. 4. Toma de decisiones teniendo en cuenta que: 4.1. Si el valor obtenido tras la aplicacin de la prueba se encuentra localizado en la regin de aceptacin de la hiptesis nula se acepta dicha hiptesis, si por el contrario cae fuera de dicha regin, bien por debajo o por encima se acepta la hiptesis alternativa.

15

4.2. Si la implementacin es informatizada podemos fijarnos en el valor obtenido tras la aplicacin (valor emprico o terico) y compararlo con los valores crticos o tabulares. Una estrategia ms rpida consiste en centrar nuestro inters en el valor-p de probabilidad obtenido en la salida del programa informtico utilizado: la frmula usual es que todo valor con una p 0,05 implica la aceptacin de la hiptesis alternativa, mientras una p > 0,05 el rechazo de la misma, o lo que es lo mismo, la aceptacin de la nula. 5. Conclusiones de tipo estadstico y educativo.

Dichos pasos pueden resumirse a travs del siguiente cuadro organizado a modo de mapa conceptual.

Figura 1. Proceso de desarrollo de un contraste de hiptesis. Elaboracin propia.

16

Obtener una probabilidad p0,05 significa que tenemos un 5% de probabilidades de error en las conclusiones, por lo cual la probabilidad que equivocarnos es baja. En definitiva, y antes de pasar a los distintos tipos de pruebas de contrastes de hiptesis, podemos afirmar que la significacin estadstica (SE) hace referencia a la cuestin tendente a determinar estadsticamente si un valor o resultado obtenido de una muestra es poco probable, de modo que no puede explicarse por la fluctuaciones propias de esta muestra en cuestin. En este caso, las conclusiones pueden ser extensibles a la poblacin de la cual deriva la muestra, dando el basamento de rechazo de la hiptesis nula.

Las pruebas de significacin estadstica que presentamos en la presente obra son algunas de las que mostramos en la siguiente tabla (tabla 4) no sin antes advertir al lector que en la literatura sobre anlisis de datos se contemplan muchas ms tcnicas obviadas por razones de espacio. Para una informacin ms detallada, y en relacin al campo educativo, pueden consultarse las obras de Gil, Rodrguez y Garca (1995), as como la ms reciente de Tejedor y Etxeberria (2006).

PRUEBAS PARAMTRICAS

Pruebas relacionadas con la media de una poblacin Prueba Z (N>30) Prueba T (N30) Pruebas relacionadas con la igualdad de medias de dos grupos Prueba Z (N>30) Prueba T (N30) Pruebas relacionadas con la igualdad de varianza de dos o ms grupos ANOVA simple Para una sola muestra Prueba de Kolmogorov-Smirnov Prueba de Ji cuadrado () Prueba binomial Para dos muestras Prueba U de Mann-Whitney (muestras independientes) Prueba W de Wilcoxon (muestras relacionadas)

PRUEBAS NO PARAMTRICAS

Tabla 4. Principales pruebas de significacin estadstica

17

2.2.1. Principales pruebas de contraste paramtricas 2.2.1.1. Pruebas relacionadas con la igualdad de medias de dos grupos Cuando se desea determinar si las medias tericas de dos grupos son iguales, o por el contrario diferentes, en definitiva, si las medias muestrales de ambos grupos difieren estadsticamente entre s o no lo hacen podemos utilizar los contrastes de hiptesis paramtricos para dos grupos materializados en las diversas tipologas de la prueba t.

Suele ser sta, pues, una situacin ms habitual de lo que a priori podemos pensar en el campo de la investigacin social en general y educativa en particular. Ahora bien, se manejan diversas expresiones dependiendo de algunos aspectos:

1. Varianzas iguales o diferentes entre los grupos. 2. Consideracin de muestras independientes o relacionadas. 3. Nmero de participantes que constituyen el estudio (N 30 N > 30).

Los aspectos uno y tres no necesitan mayor aclaracin, sin embargo, el aspecto dos necesita de una aproximacin conceptual. En este sentido, para Martn (2001:38) las muestras independientes, sin aparear o no relacionadas son aquellas en las que los datos de una muestra no se pueden relacionar con lo de la otra. Se trata, por tanto, de dos conjuntos de datos independientes entre s y cuyos tamaos de muestras pueden ser diferentes. Por otra parte, las muestras apareadas, relacionadas o dependientes son aquellas en las que cada dato de una muestra se puede asociar de manera unvoca con otro de otro grupo debido, fundamentalmente, a que las observaciones de ambos se realizan sobre las mismas unidades muestrales.

As pues, en la literatura existente se contemplan una gran variedad de expresiones matemticas para determinar los valores empricos de los contrastes de hiptesis. Asumiendo la homogeneidad de las muestras consideramos las dos ecuaciones que habitualmente suelen utilizarse en diferentes situaciones de investigacin. Las expresiones consideradas son:

18

Para un N > 30 participantes y muestras independientes: x1 x2 S1/N1 + S2/N2

Z=

Para un N 30 participantes y muestras relacionadas:

t=

x1 x2 Sd / N

donde: x1: media muestral del grupo 1 x2: media muestral del grupo 2 S1: cuasivarianza o varianza poblacional del grupo 1 S2: cuasivarianza o varianza poblacional del grupo 2 N1: Nmero de participantes del grupo 1 N2: Nmero de participantes del grupo 2 N: Nmero de participantes del estudio (N1+N2) Sd: Cuasidesviacin o desviacin tpica poblacional de la diferencia entre puntuaciones del grupo 1 y 2.

19

A) PRUEBA T PARA MUESTRAS INDEPENDIENTES

Ejemplo 2 (PRUEBA T PARA MUESTRAS INDEPENDIENTES): Un educador y su grupo de investigacin estn interesados en verificar la superioridad del mtodo de lectura silbico frente al fonolgico. Para ello ensean a 16 alumnos de una clase con el primer mtodo (silbico) y a otros 16 de otra clase con el segundo (fonolgico). Tras un periodo prudencial miden la variable dependiente, rendimiento lector, habindose obtenido los siguientes resultados: M. silbico (1) 3,3,4,4,5,5,5,6,6,7,7,8,8,9,9,10 M. fonolgico (2) 2,2,3,3,4,5,6,6,6,6,7,7,7,7,7,7

Desarrollo y resolucin del ejemplo: 1. Planteamiento de las hiptesis estadsticas: Contraste bilateral: Ho: 1 = 2 tambin 1 - 2 = 0 H1: 1 2 tambin 1 - 2 0 Contraste unilateral: Ho: 1 2 tambin 1 - 2 0 H1: 1 > 2 tambin 1 - 2 > 0

2. Seleccin de la prueba adecuada. Considerando las varianzas de ambos grupos homogneas y tratndose de dos grupos de sujetos independientes, cuya suma de elementos excede de 30 (N>30) utilizamos la expresin:

Z=

x1 x2 S1/N1 + S2/N2

20

Si sustituimos cada miembro de la expresin por su valor tenemos que:


6,18 5,31 0,87

Z=

4,791/16 + 3,53/16

Z=

0.29 + 0,22

= 1,21

3. Interpretacin y decisin Asumiendo un error = 0,05 bilateral y, por tanto, unos valores crticos de zeta 1,96 podemos apreciar como el valor de Ze (1,21) se sita en la regin de aceptacin de Ho. Cualquier lateralidad supuesta, as como errores asumidos daran lugar a una decisin similar a la tomada.

-1,96 1,21

1,96

4. Implicaciones estadsticas y educativas Ante los resultados obtenidos podemos afirmar que no existen diferencias estadsticamente significativas entre los mtodos de lectura silbico y fonolgico. Por tanto, el educador puede abordar la enseanza de la lectura desde cualquiera de los dos mtodos ya que ninguno se ha mostrado significativamente superior. Ello no implica, desde luego, que una rplica de este estudio con diferentes sujetos ofrezca resultados distintos a los obtenidos.

21

B) PRUEBA T PARA MUESTRAS RELACIONADAS

Ejemplo 3 (PRUEBA T PARA MUESTRAS RELACIONADAS): Un educador ha medido el nmero de palabras correctamente ledas (de 10 posibles) por 10 alumnos con n.e.e. (necesidades educativas especiales) despus de haber sido instruidos mediante una ACI (Adaptacin Curricular Individual). Estos son los resultados
Antes de ACI
3 3 5 4 3 4 5 4 3 3 Xa = 3,7

Despus de ACI
5 5 6 7 5 8 7 6 7 8 Xd = 6,4

D
-2 -2 -1 -3 -2 -4 -2 -2 -4 -5 Sd =1,25

Desarrollo y resolucin del ejemplo: 1. Planteamiento de las hiptesis estadsticas: Contraste bilateral: Ho: a = d o tambin a -d = 0 H1: a d o tambin a - d 0 Contraste unilateral: Ho: a d o tambin a - d 0 H1: a > d o tambin a - d > 0

2. Seleccin de la prueba adecuada. Considerando las varianzas de ambos grupos homogneas y tratndose de dos grupos relacionados, ya que son los mismos sujetos los que se someten a diferentes condiciones experimentales o niveles (no ACI/s ACI), comparndose consigo mismos y teniendo en cuenta que el nmero de elementos que conforman el estudio es inferior a 30 (N<30) utilizamos la expresin:

22

t=

xa xd Sd / N

Si sustituimos cada miembro de la expresin por su valor tenemos que:


3,7 6,4 -2,7

t=

1,25 / 10

t= 0,39

= -6,92

3. Interpretacin y decisin Asumiendo un error = 0,05 bilateral y unos grados de libertad (n de parejas1), es decir, 10-1 = 9 situamos la regin de aceptacin de Ho entre las puntuaciones t = [-2,26, 2,26] . Claramente el valor de te est situado fuera de la regin de aceptacin de la hiptesis nula (Ho), razn por la cual la decisin es aceptar H1. A colacin de la determinacin de los grados de libertad (gl) debemos recordar que stos se calculan de tres formas diferentes dependiendo de las caractersticas del tipo de contraste:

a) Si el contraste es de 1 sola muestra en comparacin con un parmetro poblacional: Grados de libertad = N 1 donde N: nmero de participantes del estudio b) Si el contraste es de 2 muestras y stas son independientes:

Grados de libertad = N1 + N2 2 donde N1 y N2 son el nmero de participantes de uno y otro grupo

c) Si el contraste es de 2 muestras y stas son relacionadas:

Grados de libertad = Nmero de parejas 1 donde el nmero de parejas est constituido por la comparacin de cada sujeto consigo mismo, as en una muestra de 5 sujetos el nmero de parejas sera de 5

23

-6,92

-2,26

2,26

4. Implicaciones estadsticas y educativas Ante los resultados obtenidos podemos afirmar que existen diferencias estadsticamente significativas entre la capacidad lectora de los nios antes ser instruidos mediante una ACI y tras ser instruidos a travs de la misma. Desde estas coordenadas, los autores del estudio estn en condiciones de afirmar que las adaptaciones curriculares individuales a nios con n.e.e. parecen incidir en una mejora de la capacidad lectora.

2.2.1.2. Pruebas relacionadas con la igualdad de varianzas de dos o ms grupos

A) EL ANOVA simple Tambin hay situaciones en que el nmero de muestras y/o grupos a comparar exceden de dos. En este caso, la opcin ms vlida es el clculo del ANOVA o ANVA (Anlisis de la varianza). En esencia, el anlisis de varianza intenta determinar las variaciones que se generan entre los participantes u observaciones de cada grupo (fuente de variacin entre o inter) y entre los sujetos de un mismo grupo y las achacables al error (fuente de variacin intra o de error). Puede consultarse la obra de Arnal y otros (1994: 107-110) para un

24

entendimiento ameno y pedaggico del fundamento del ANOVA a travs de un ejemplo de tipo experimental.

El ANOVA, pues, es una prueba semejante a las pruebas t y z en cuanto a la prctica, pero la comparacin entre grupos no se basa en las diferencias entre las medias, sino en la varianza de la variable numrica y o variable dependiente en cada grupo (nivel) de la variable categrica x o variable independiente.

Si las diferencias entre las varianzas de cada grupo (fuente de variacin inter) son mayores que las intragrupales (fuente de variacin intra), seguramente se reportarn diferencias estadsticamente significativas entre los grupos que no son debidas al azar. As, mientras en las pruebas de significacin para dos grupos obtenemos valores empricos t y z en el

ANOVA la cifra estadstica obtenida se denomina razn F de Snedecor. Al ser F el resultado de dividir la media cuadrtica inter entre la media cuadrtica intra cuanto mayor sea el dividendo mayor, por tanto, ser el cociente y mayor, por ende, la probabilidad de que existan diferencias estadsticamente significativas.

Cabe preguntarse entonces, porque cuando existen ms de dos grupos en vez de utilizar el ANOVA, aparentemente no sera ms lgico e intuitivo comparar todas las posibles combinaciones tomadas de dos en dos. Supongamos, en este sentido, que un educador est interesado en denotar la posible superioridad de un programa de tcnicas de estudio sobre otros dos programas. Para ello implementa cada programa en un grupo diferente. En este caso la variable independiente sera programa de tcnicas de estudio con tres niveles: A, B y C, mientras la dependiente el rendimiento escolar en Historia.

Si no se contempla el ANOVA como tcnica de contraste, la manera lgica de resolver esta cuestin sera comparar cada grupo con el resto por binomios, o lo que es lo mismo combinar n- elementos (3 grupos) tomados dos a dos. Si tenemos en cuenta la expresin matemtica:

25

N! C n(m) = m * (N-m)! donde: m: nmero de elementos que se combinan N!: factorial de n-elementos N y/o n: nmero de elementos tomando como ejemplo el caso de los programas de tcnicas de estudio y sustituyendo cada elemento por su valor en la expresin anterior tenemos que:

3! C 3(2) = 2 * (3-2)!

3*2*1 2* (1)!

=3

Podemos determinar que son tres las combinaciones necesarias para denotar las posibles diferencias entre los tres grupos tomados de dos a dos, ya que las otras tres son imagen de la matriz resultante y, por tanto, idnticas combinaciones. Grficamente podra mostrarse de la siguiente forma:
A B A*B C A*C B*C -

A B C

En este caso en las tres comparaciones podran utilizarse pruebas t o z dependiendo del nmero de participantes que constituyen el estudio. Sin embargo, existen razones de peso para descartar esta posibilidad. Abraira y Prez (1996) y Tejedor (1999) destacan las siguientes:

1. Ya que se realizan varios contrastes de hiptesis simultneos e independientes la probabilidad de encontrar alguno estadsticamente

significativo sin serlo verdaderamente (comisin del error tipo I o alfa) aumentara.

26

2. Es difcil interpretar la verdadera influencia de la variable que acta como factor de clasificacin (variable independiente) ya que se generan diferentes niveles de significacin (p) resultante de las comparaciones entre sus subgrupos (niveles de la variable independiente).

3. Cuando el nmero de niveles de la variable independiente es mayor o igual a 5 el nmero de comparaciones se dispara convirtindose en una ingente cantidad de cruces por parejas donde es difcil discernir cules de estos contrastes son estadsticamente significativos y cules no lo son.

As pues, el uso del ANOVA resulta una estrategia claramente vlida para minimizar en gran medida los inconvenientes de los mltiples contrastes por parejas por dos razones fundamentales:

1. Simplifica todas las comparaciones posibles entre los niveles de la variable independiente a un solo valor F asociado a una probabilidad (p).

2. Especifica entre qu niveles de la variable independiente se reportan diferencias estadsticamente significativas mediante los contrastes post-hoc por parejas a travs de diferentes estadsticos: por ejemplo los tests de Scheff, Tukey...

En este captulo se tratar profundamente el ANOVA simple o de un factor (grupos independientes), el ms sencillo de todos los que se contemplan en la literatura sobre anlisis de datos. No obstante, destacamos que adems existen otros tipos de ANOVA. Fernndez y otros (1992:130) contemplan los siguientes:

27

I. ANOVAS DE UN FACTOR O VARIABLE INDEPENDIENTE 1. 2. 3. 4. ANOVA simple (grupos independientes) ANOVA simple de medidas repetidas MR (grupos relacionados) ANOVA simple con un factor de bloqueo ANOVA simple con medidas repetidas

II. ANOVAS DE DOS O MS FACTORES O VARIABLES INDEPENDIENTES 1. ANOVA FACTORIAL (DISEOS COMPLETOS) 1.1. CON DOS FACTORES 1.1.1. Dos factores 1.1.2. Dos factores + medidas repetidas 1.1.3. Dos factores + una variable control por emparejamiento 1.1.4. Dos factores + una variable de bloqueo 1.2. TRES FACTORES O MS 2. ANOVA EN DISEOS INCOMPLETOS 2.1. Diseos en cuadrado latino 2.2. Diseos jerrquicos 2.3. Diseos en cuadrado grecolatino

Tabla 5. Tipologa de ANOVAS Debe tenerse en cuenta, adems, que la aplicacin del ANOVA precisa del cumplimiento de tres supuestos bsicos de carcter paramtrico: homocedasticidad, normalidad e independencia (consultar tabla n3)

Finalmente, y antes de proponer y desarrollar un ejemplo de ANOVA simple para grupos independientes, mostramos los diferentes apartados que constituyen este tipo de ANOVA, as como las expresiones que se utilizan para su clculo:

Fuentes de variacin (FV) Entre grupos Intragrupos o Error Total

Sumas de cuadrados (SC) SCe SCi SCt

Grados de libertad (GL) t-1 N-t N-1

Medias cuadrticas (MC) MCe MCi

Valor de F

MCe / MCi

siendo:

28

SCe =

(xi) N

SCi = SCt SCe SCt = xi C


C: trmino de correccin que a su vez se define como:

(xi) C= N t-1 (grados de libertad entre): nmero de grupos/tratamientos 1 N-t (grados de libertad intra): nmero de participantes total menos el nmero de grupos/tratamientos N-1 (grados de libertad del total): nmero de participantes 1 MCe (media cuadrtica entre) = SCe / t-1 MCi (media cuadrtica intra) = SCi / N-t

29

Ejemplo 4 (ANOVA simple): Un profesor est interesado en verificar si el uso de diferentes metodologas de enseanza (M1, M2, M3) resulta determinante en la consecucin de un mayor o menor rendimiento escolar en la asignatura de ingls. As pues, durante un trimestre implementa las tres metodologas contempladas en tres diferentes grupos de alumnos midiendo el rendimiento acadmico en ingls al final del trimestre en una prueba final. Estos han sido los resultados
M1 A B C D E M1 4 3 4 3 3 17 59 3,4 (17/5) M2 F G H I J M2 5 4 5 5 6 25 127 5 (25/5) M3 K L M N O M3 7 8 9 8 9 41 339 8,2 (41/5) TOTAL

xi xi
Media

83 525

Asumiendo un nivel de significacin = 0,05 bilateral puede decirse que existe alguna metodologa que influye decisivamente en el rendimiento en ingls, o lo que es lo mismo se reportan diferencias estadsticamente significativas entre los tres grupos que utilizan metodologas de enseanza diferentes, tomando como variable dependiente el desempeo en ingls?

Desarrollo y resolucin del problema 1. Planteamiento de las hiptesis estadsticas: Ho: xm1 = xm2 = xm3 tambin M = 0 H1: xm1 xm2 xm3 tambin M 0

2. Seleccin de la prueba adecuada y clculo de trminos Las caractersticas de la situacin planteada (comparacin de tres grupos con una sola variable independiente) aconsejan la utilizacin del ANOVA, aunque su uso est condicionado al cumplimiento de determinados supuestos paramtricos. Asumiendo el cumplimiento de estos supuestos desarrollamos diferentes clculos de diversos trminos

30

a) El primer elemento es el trmino de correccin (C) que se define como:

(xi) C= N Por tanto, el trmino de correccin sustituyendo cada elemento por su valor es: (83) C= 15 b) Suma de cuadrados total SCt = 525 459,266 = 65,73 c) Suma de cuadrados entre SCe = [(17)/5 + (25)/5 + (41)/5] - 459,266 = 59,73 a) Suma de cuadrados intra SCi = 65,73 59,73 = 6 e) Valor de la razn F F = 29,85 / 0,5 = 59,73 f) Asociacin de la magnitud del ANOVA Para tratar de determinar la varianza explicada por el modelo, es decir, en qu porcentaje el rendimiento en ingls est determinado por el uso de una u otra metodologa de enseanza se utiliza el coeficiente de asociacin y su correlato para determinar el porcentaje de varianza . = 459,266

31

Ambos se definen como:

= =

SCe/ SCt
SCe / SCt

Sustituyendo cada elemento de ambas expresiones por su valor tenemos que:

59,73/65,73
=

= 0,95

SCe / SCt = 59,73 / 65,73 = 0,90 * 100 = 90%

Como puede apreciarse el rendimiento en ingls est determinado por las metodologas de enseanza en un 90%, un porcentaje altsimo que a fe de ser sinceros pocas veces se produce en la realidad educativa. Un resumen de todo el proceso de clculo puede apreciarse en la siguiente tabla:
Fuentes de variacin Entre grupos Intragrupos o Error Total Sumas de cuadrados (SC) 59,73 6 65,73 Grados de libertad (GL) 3-1 15-3 15-1 Medias cuadrticas 29,86 0,5 Valor de F 59,73

3. Interpretacin y decisiones

Aunque todos los valores calculados son importantes, el valor decisivo para interpretar un ANOVA desarrollado manualmente es la razn F. Dicho valor es el estadstico emprico o terico que hay que comparar con una razn F crtica o tabular. Esta segunda razn viene determinada por los grados de libertad entre e intra y el valor alfa que se asuma. Los grados de libertad entre e intra actan como numerador y denominador respectivamente, de tal forma que el proceso de bsqueda y comparacin entre razones F es, para el caso que nos ocupa, el siguiente:

32

F emprico = 59,73 mientras F crtico (gl m/n, /2)

m = gl/entre n = gl/intra

F emprico = 59,73 mientras F crtico (2/12, 0,05/2), o sea, 5,09

Evidentemente Femp. > Fcrt., motivo por el cual se acepta H1; ello implica que se reportan diferencias estadsticamente significativas entre los tres tipos de metodologas de enseanza del ingls. En este sentido, la observacin de los resultados obtenidos a nivel de medias resulta elocuente, ya que aquellos alumnos instruidos con la metodologa 3 (M3) han alcanzado un rendimiento acadmico en ingls muy superior a los instruidos mediante las metodologas M2 y M3.

Adems

de

verificar

que

existen

diferencias

estadsticamente

significativas entre los grupos resulta conveniente determinar entre qu grupos se producen stas. Para ello pueden utilizarse diferentes estrategias post-hoc

2.2.2. Principales pruebas de contraste no paramtricas 2.2.2.1. Para una muestra A) Prueba de para una muestra El test de es una prueba de bondad de ajuste y como tal intenta determinar el ajuste entre las distribuciones de frecuencias observadas y esperadas de los diferentes niveles categoriales de una variable. Desde estas coordenadas, podemos afirmar que esta prueba se aplica cuando la variable objeto de estudio est medida en una escala de tipo categorial o nominal. El mecanismo de anlisis, por tanto, es parecido al de otras pruebas de similares caractersticas y parte de la siguiente expresin:

= (fo-fe) fe

33

donde:

fo: frecuencia observada de cada categora fe: frecuencia esperada de cada categora

definindose fe como:

fe = suma de frecuencias de todas las categoras / nmero de categoras

En cuanto a las hiptesis estadsticas se plantean de la siguiente forma:

Ho: fo = fe H1 : fo fe

Debemos tener en cuenta, adems, que su uso est determinado por el cumplimiento de algunos supuestos:

1. La variable estudiada debe estar medida en escala nominal. 2. La variable estudiada debe ser discreta, o sea, slo admite valores enteros no fraccionarios. 3. La variable debe ser como mnimo dicotmica o admitir un determinado nmero de categoras. 4. La presencia de frecuencias esperadas < 5 en un 20% de los casos puede distorsionar el resultado obtenido en un contraste , razn por la cual se desaconseja su aplicacin para tal supuesto (Pick y Lpez, 1994; Seoane, 1983 y Siegel, 1991).

34

Ejemplo 5 (Prueba de para una muestra): Dos investigadores pretenden determinar si entre las tres posibles respuestas a un tem: buena, mala y regular se reportan diferencias estadsticamente significativas en una encuesta pasada a 15 participantes. Los resultados han sido los siguientes: Buena (9 respuestas) Mala (3 respuestas) Regular (3 respuestas)

Desarrollo del problema

1. Planteamiento de las hiptesis estadsticas

Ho: fo = fe H1 : fo fe 2. Clculo de la prueba Las caractersticas del ejemplo planteado (variable nominal y que slo admite valores enteros) aconsejan el uso de la prueba . Aplicando su expresin de clculo y sustituyendo cada miembro de la expresin por su valor tenemos que:

(9-5) 5

(3-5) 5

(3-5) = 4,8 5

teniendo en cuenta que las fe = 15 /3 = 5

3. Interpretacin y decisin Tomando el nivel de significacin habitual, es decir, = 0,05 unilateral, por ejemplo, y 2 grados de libertad (nmero de categoras 1) tenemos que el 35

valor de crit.= 5,99. Ya que emp < crit, es decir, 4,8 < 5,99 aceptamos la hiptesis nula. Desde estas coordenadas, podemos afirmar que a pesar de que la alternativa ms respondida ha sido buena (60%) frente al 20% de las otras dos alternativas mala y regular no podemos afirmar que esta diferencia sea estadsticamente significativa y, por ende, a tener en cuenta para

interpretaciones posteriores. b) Prueba de Kolmogorov-Smirnov para una muestra

Esta prueba resulta til para determinar el grado de acuerdo entre la distribucin de un conjunto de valores de una muestra (valores observados) y alguna distribucin terica (valores esperados). Por tanto, y al igual que la tcnica Ji cuadrado, se utiliza como prueba de bondad de ajuste, es decir, para decidir acerca de cundo un conjunto de observaciones se ajusta a una distribucin de probabilidad dada. La comparacin se lleva a cabo a travs de las distribuciones acumulativas terica Fo (xi) y la observada establecindose las siguientes hiptesis estadsticas a nivel bilateral: Sn (xi)

Ho: Fo = Sn H1: Fo Sn

En este sentido, esperamos que las diferencias entre Fo (xi) y Sn (xi) de cada una de las categoras comparadas sea pequea y est dentro de los lmites de los errores aleatorios. Es por ello que para denotar si existen diferencias estadsticamente significativas entre lo observado y lo terico se toma como valor criterio la diferencia mxima resultante, es decir:

D = max l Sn(xi) Fo (xi) l

36

Ejemplo 6 (Prueba de KolmogorovSmirnov para una muestra): Las respuestas de 25 participantes acerca de su opinin sobre la nueva Ley de Calidad de la Educacin (LOCE) medida mediante escala tipo Likert con formato de 5 categoras: 1> muy en desacuerdo hasta 5> muy de acuerdo es la siguiente:
Categoras de respuesta 1 2 3 4 5 Frecuencia 4 3 2 8 8

Asumiendo un nivel de significacin de 0,05 bilateral, podemos afirmar que las respuestas son unnimes o por el contrario diferentes?

Desarrollo del problema 1. Planteamiento de las hiptesis estadsticas

Ho: Fo = Sn H1: Fo Sn

2. Elaboracin de la tabla de frecuencias observadas y esperadas y sus derivaciones


Categoras 1 2 3 4 5 OBSERVADAS 4 3 2 8 8 TERICAS 5 5 5 5 5 OBS.ACUM. 4 7 9 17 25 TE.ACUM. 5 10 15 20 25 Sn (xi) 4/25 (0,16) 7/25 (0,28) 9/25 (0,36) 17/25 (0,68) 25/25 (1) Fo (xi) 5/25 (0,2) 10/25 (0,4) 15/25 (0,6) 20/25 (0,8) 25/25 (1) Sn - Fo - 0,04 -0,12 -0,24 -0,12 0

37

3. Interpretacin y decisin

La diferencia mxima l Sn(xi) Fo (xi) l es l0,24l . Asumiendo el alfa anteriormente contemplado (0,05/2) con un N =25 la tabla de valores crticos para la prueba K-S arroja un valor de 0,29.

As pues, tenemos que el K-S emp. < K-S crt., es decir, que l0,24l < 0,29 razn por la cual aceptamos Ho y podemos afirmar que existe una cierta unanimidad en las respuestas efectuadas.

4. Clculo informatizado del ejemplo Como haremos en casos posteriores el primer paso una vez creada la plantilla de datos es marcar la opcin analizar y dentro de ella pruebas no paramtricas para finalmente marcar K-S de 1 muestra.

Los resultados suministrados por paquete estadstico SPSS 11.0 son los siguientes:

38

Prueba de Kolmogorov-Smirnov para una muestra N Parmetros normales Diferencias ms extremas Z de Kolmogorov-Smirnov Sig. asintt. (bilateral) Media Desviacin tpica Absoluta Positiva Negativa VAR00001 25 3,5200 1,4754 ,268 ,158 -,268 1,338 ,056

Los resultados arrojados por el programa SPSS no son exactamente iguales a los hallados manualmente, ya que 0,24 y 0,26 (diferencias mximas manual e informatizada respectivamente) distan dos centsimas, sin embargo, estas diferencias son atribuibles a la exactitud con la que opera el programa estadstico (4 ms decimales). La decisin en ambos casos es aceptar la hiptesis nula, en el caso manual por que el valor emprico es menor que el crtico y en el informatizado por que el p-valor es > 0,05, exactamente 0,056. d) Prueba Binomial Cuando el nmero de categoras a comparar es exclusivamente dicotmico, por ejemplo: acuerdo/desacuerdo; acierto/fallo... es aconsejable la utilizacin de la prueba binomial como sustituta de la prueba de . En este caso, la situacin de estudio se caracteriza por que:

1. Cada una de las n observaciones se clasifican en dos categoras exclusivamente. 2. Las n observaciones son independientes. 3. La probabilidad de pertenecer a una categora es constante.

Las expresiones que se utilizan para su clculo estn determinadas por el tamao de la muestra. De esta forma contemplamos dos opciones: Para un N 25:

39

18

N-x

P=
8

0,5 *

Para un N > 25:

donde:

(x 0,5) N*p Z= N* p * q

P: probabilidad de un caso individual N: tamao muestral x: nmero de casos en la categora P de la variable dicotmica p: probabilidad de x conforme a hiptesis nula q: 1 p

En cuanto a las hiptesis estadsticas el planteamiento bilateral sera:

Ho: p = 0,5 o tambin p = po H1: p 0,5 o tambin p po

Ejemplo 7 (Prueba Binomial): Un investigador ha clasificado a 18 nios con dislexia despus de un programa de actuacin en dos grupos: a) Los que han mejorado: 8 nios b) Los que no han mejorado: 10 nios Tomando como referencia un nivel de significacin 0,05 bilateral y p y q = 0,5 cada una respectivamente, podemos afirmar que el programa de actuacin ha resultado significativamente efectivo?

40

Desarrollo del problema 1. Planteamiento de las hiptesis estadsticas Ho: p = 0,5 H1: p 0,5

2. Aplicacin de la expresin de probabilidades binomiales

18

10

18

18

P=
8

0,5 *

+ .
0

0,5 *

3. Interpretacin y decisin Comparando esta probabilidad con la mitad de (dado que el contraste es bilateral) comprobamos que: P emp. > /2

0,4073 > 0,025. Por tanto, se

debe aceptar la hiptesis nula pudiendo ocurrir que la proporcin de nios que han mejorado tras el programa sea igual a 0,5. Desde estas coordenadas, podemos afirmar que dicho programa, pues, posee una efectividad que no ha resultado estadsticamente superior y, por ende, puede ser considerarse cuestionable.

4. Clculo informatizado del ejemplo Sustituyendo el tipo de prueba por Binomial tenemos que:
Prueba binomial Categora N EFECTO TRATAMIENTO Grupo 1 Grupo 2 Total MEJORAN NO MEJORAN 8 10 18 Proporcin observada ,44 ,56 1,00 Prop. de prueba ,50 Sig. exacta (bilateral) ,815

Al igual que ha sucedido en la prueba Ji cuadrado los resultados manuales son coincidentes con los informatizados. En los dos casos el p-valor es > 0,025 (contraste bilateral) > 0,05 (en caso que fuese un contraste unilateral), razn por la que se acepta la hiptesis nula. En cuanto a la probabilidad hallada manualmente 0,4073 si la multiplicamos por 2 dar como resultado una probabilidad aproximada de 0,815 la reseada por el programa por haber operado con un contraste bilateral.

41

2.2.2.2. Para dos muestras e) Tablas de contingencia 1 o para dos muestras Son muchas las ocasiones en que un investigador/a est interesado/a en verificar la relacin que caracteriza a dos variables medidas en escala nominal o categrica. El tipo de anlisis ms apropiado para estos casos es el clculo de una tabla de contingencia bidimensional (AxB), tambin conocida con las denominaciones de tabla de dos vas, tabla cruzada o crosstabs en su acepcin anglosajona.

b1) Elementos bsicos de una tabla de contingencia

En esencia una TCB consiste en una representacin de la potencial correspondencia que pudiera existir entre dos elementos nominales (A,B) y los niveles (I,J) que los constituyen, es decir, asociar a cada elemento (A,B) de IxJ un nmero no negativo K (A,B). Si todos los valores K (A,B) son enteros se trata de una correspondencia estadstica, ya que los nmeros indican cuntas veces se presenta el elemento (A,B), aunque otras representaciones son tambin posibles mediante probabilidades (proporciones) y porcentajes.

Para un mayor y mejor entendimiento le proponemos el siguiente ejemplo:

De ahora en adelante TCB.

42

Ejemplo 7 (Tablas de contingencia bidimensionales): Sean las siguientes opiniones a favor y en contra de la nueva ley de calidad sobre la educacin (LOCE) de 50 maestros (30 mujeres y 20 hombres).

Gnero

Mujer Hombre Marginal

Opinin A favor En contra 20 10 15 5 35 15

A Marginal B 30 20 50 I1 I2 Marginal J1 Ni1j1 Ni2j1 Nj1 J2 Ni1j2 Nij2 Nj2 Marginal Ni1 Ni2 N

Gnero

Mujer Hombre Marginal

Opinin A favor En contra 40% 20% 30% 10% 70% 30%

Marginal 60% 40% 100% Gnero Mujer Hombre Marginal

Opinin A favor En contra 0,4 0,2 0,3 0,1 0,7 0,3

Marginal 0,6 0,4 1

A la vista de las anteriores tablas en las que, por cierto, se muestran los diversos tipos de representacin de esta tcnica, es decir: notacin estadstica, frecuencias, porcentajes y proporciones, destacamos los cuatro elementos de toda tabla de contingencia:

1. Las frecuencias observadas. 2. Las frecuencias esperadas. 3. Las frecuencias marginales. 4. Los grados de libertad.

43

1. Frecuencias observadas

Las frecuencias observadas (fo) se definen como el nmero de veces que se presenta en una muestra cada combinacin de niveles (I,J) de las variables (A,B). As, retomando el ejemplo anterior existen cuatro frecuencias observadas, las correspondientes al cruce de (A,B) con los niveles (IxJ), o sea, 2x2. En este caso la primera combinacin Ni1j1 estara representada por el valor 20 y as sucesivamente.

2. Frecuencias esperadas

Las frecuencias esperadas son el resultado de dividir el producto de cada total marginal de fila y columna por el total de las frecuencias observadas. Siguiendo con el ejemplo anterior tendramos que:

Gnero

Mujer Hombre Marginal

Opinin A favor 35*30/50 (21) 35*20/50 (14) 35

En contra 15*30/50 (9) 15*20/50 (6) 15

Marginal 30 20 50

3. Frecuencias marginales

Las frecuencias marginales (fm) son la suma por filas (I) y columnas (J) de las frecuencias observadas (fo). Obviamente el sumatorio, en este caso, las cuatro frecuencias observadas debe ser igual a N o nmero total de frecuencias observadas.
Opinin Gnero Mujer Hombre Marginal A favor 20 15 35 En contra 10 5 15 Marginal 30 20 50

4. Los grados de libertad

Se definen como el producto del nmero de filas menos uno por el nmero de columnas menos uno, o sea, GL = [(I-1) * (J-1)]. En nuestro caso, pues, los grados de libertad GL = [(2-1) * (2-1)] = 1. 44

b2) Objetivos fundamentales de una tabla de contingencia

Como ya adelantamos al principio el objetivo bsico de una TCB es denotar si la relacin que existe entre dos variables nominales (A,B) es o no estadsticamente significativa, es decir, si las diferentes condiciones (IxJ) determinan o no un comportamiento diferencial al combinarse. Siguiendo con el ejemplo anterior, podemos denotar si la condicin de gnero (hombre vs mujer) puede o no ser una variable determinante sobre las opiniones favorable vs desfavorable hacia la nueva ley de calidad de la educacin (LOCE). La consecucin de este objetivo implica la implementacin de dos estrategias diferentes, pero estrechamente relacionadas:

a) Contraste de la independencia entre las variables nominales propuestas. b) Determinacin del grado de asociacin que hay entre dichas variables categoriales.

b2.1) Independencia en TCB

Para denotar la independencia entre variables nominales en una TCB pueden calcularse diferentes colecciones de pruebas de contraste de hiptesis, por ejemplo: de bondad de ajuste, asintticos exactos o para tablas cuadradas generadas por datos dependientes. Por ello, sin algn lector desea profundizar en las diferentes pruebas para verificar la independencia entre dos variables nominales puede consultar la obra de Aguilera del Pino (2001). Por nuestra parte destacamos la posibilidad de utilizar el contraste chi cuadrado de bondad de ajuste, ya suficientemente explicitado, aunque para una muestra en un apartado anterior (aptado. 2).

b2.2) Grado de asociacin en una TCB

Al igual que se puede contrastar la independencia entre dos variables nominales, tambin podemos determinar el grado de asociacin entre ambas. De hecho, el rechazo de independencia entre dos variables categoriales y/o ordinales es el punto de partida para indagaciones posteriores ms profundas 45

de cara de determinar la intensidad de la asociacin, as como su direccin. Con Aguilera del Pino (2001) destacamos las principales propiedades de estas medidas de asociacin:

a) Interpretabilidad: Resulta importante establecer unos criterios de etiquetado que faciliten la interpretabilidad de los resultados de modo que un extremo indique asociacin nula (independencia) y el otro asociacin perfecta. Generalmente se suele estandarizar las medidas entre 0 y 1 o entre -1 y 1 para dirigir la asociacin, aunque la interpretacin de los extremos no es generalmente la misma para todas ellas.

b) Simetra: Se dice que una medida de asociacin es simtrica cuando su valor resulta invariable independientemente del factor (de los dos posibles) que acte como criterio o explicacin.

c) Invarianza: Las medidas de asociacin, adems, deben permanecer invariantes frente a cambos de escala de medida sobre filas y columnas.

En cuanto a los tipos de medidas de asociacin se barajan gran cantidad de coeficientes. Para una mayor informacin puede consultarse la obra de Aguilera del Pino (2001).

b3) Proceso de clculo y ejemplo prctico de una TCB

Para explicitar los pasos que constituyen el proceso de clculo de una TCB tomaremos como referencia el ejemplo propuesto al principio del captulo. As pues, los pasos que guan la determinacin de una TCB son:

A) Elaboracin de la TCB tomando como base el enunciado del caso o problema. En nuestro caso, la TCB incluye, al menos frecuencias observadas, marginales y total:

46

Opinin Gnero Mujer Hombre Marginal A favor 20 15 35 En contra 10 5 15 Marginal 30 20 50

B) Determinacin de las frecuencias esperadas y los grados de libertad A J1 J2 a*c / t b*c / t a*d/ t b*d /t

Marginal

I1 I2
Marginal

Gnero

Mujer Hombre Marginal

Opinin A favor 35*30/50 (21) 35*20/50 (14)

En contra 15*30/50 (9) 15*20 (6)

Marginal

C) Aplicacin de estrategias de clculo a fin de verificar el grado de relacin existente entre las dos variables (A,B) y sus diferentes niveles (IxJ).

Para denotar la posible relacin existente las variables gnero (hombre vs mujer) y opinin hacia la nueva ley de calidad sobre la educacin (LOCE) (a favor vs en contra) se pueden utilizar diversas pruebas de contraste de hiptesis, as como medidas de asociacin. Como anteriormente, le proponemos la clsica expresin de chi cuadrado, cuya sustitucin de los valores numricos en la expresin arroja un resultado final:

(20-21) + 21

(15-14) . 14 = 0,39

Antes de implementar el mismo clculo mediante SPSS, trataremos de interpretar el resultado que procede del desarrollo manual. Como podemos apreciar el valor de emprico/terico = 0,39 que asociado a unos grados de 47

libertad, en nuestro caso (2-1)*(2-1) = 1, y a un nivel de significacin del 5% dara como resultado un crtico/tabular = 3,84. Aplicando el criterio de que todo emprico/terico > crtico/tabular implica aceptacin de la hiptesis alternativa o el contrario emprico/terico crtico/tabular la aceptacin de la hiptesis nula obtendramos finalmente la conclusin de que no se reportan diferencias estadsticamente significativas en la condicin de ser hombre vs mujer y estar a favor o en contra de la LOCE.

Mediante el programa estadstico SPSS deberamos para llegar a resultados similares al poner en prctica los siguientes pasos:

1 Activar la funcin analizar, despus estadsticos descriptivos y finalmente tablas de contingencia

48

2 Una vez en tablas de contingencia colocamos la variable gnero como filas y la variable opinin como columnas. Despus activamos

estadsticos y una vez desplegada la pantalla de la derecha marcamos Chi cuadrado, y por ejemplo, tres medidas de asociacin ms, como son el Coeficiente de Contingencia, Phi y V de Cramer. Finalmente, activamos la opcin continuar y obtenemos los siguientes resultados

Tabla de contingencia GENERO * OPINION OPININ a favor en contra 20 10 15 5 35 15 Marginal 30 20 50

GNERO Marginal

hombre mujer

Pruebas de chi-cuadrado Estadstico Chi-cuadrado de Pearson* N de casos vlidos Valor ,397 50 gl 1 Sig. asinttica (bilateral) ,529

* 0 casillas (0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 6. Medidas simtricas Tipos Nominal x Nominal N de casos vlidos Medidas de asociacin Phi V de Cramer Coeficiente de contingencia Valor ,089 ,089 ,089 50 Sig. aproximada ,529 ,529 ,529

* Asumiendo la hiptesis alternativa. ** Empleando el error tpico asinttico basado en la hiptesis nula.

Puede apreciarse como los resultados de la prueba de Chi cuadrado son idnticos a los obtenidos manualmente. Adems, podemos apreciar como la significacin asinttica (bilateral) es p > 0,05, exactamente 0,529 lo que implica

49

la aceptacin de la hiptesis nula. Adems se han calculado tres medidas ms asociacin que como puede observarse no han resultado significativas. Le proponemos como tarea prctica calcular manualmente estos tres valores de asociacin, cuyas expresiones son las siguientes: = /N
C = / +N

V = / mn (I-1),(J-1)

f) Prueba U de Mann-Whitney (muestras independientes) Est considerada como una de las pruebas ms potentes dentro del contexto no paramtrico y la alternativa ideal a la prueba t cuando sta por las caractersticas del estudio no pueda realizarse. Las variables han de estar medidas en escala de intervalo u ordinal contemplndose dos procedimientos de clculo, segn el tamao de la muestra:

Para muestras pequeas (tamao de, al menos un grupo 8 participantes) U1 = n1 * n2 + [n1*(n1+1)/ 2] - R1 U2 = n1 * n2 + [n2*(n2+1)/ 2] - R2

donde: n1 y n2: nmero de sujetos de cada grupo R1 y R2: suma de rangos correspondientes a cada grupo

Para muestra grandes (tamao de cada grupo > 8 participantes)

50

U (n1 * n2) /2 Z

n *n
1

2 * (n1

+ n2 + 1) /12

donde: U: menor valor de las dos U calculadas n1 y n2: nmero de sujetos de cada grupo

Secuencia de clculo 1. Se ordenan conjuntamente de menor a mayor las puntuaciones de ambas muestras. 2. Se asigna un rango de orden a cada puntuacin. 3. Se suman los rangos de cada muestra. 4. Se calculan los valores U de cada muestra tomndose el menor de ellos.

Veamos a travs de un ejemplo el desarrollo de clculo de la U de MannWhitney:

Ejemplo 8 (Prueba de U de Mann-Whitney): Se ha pasado un determinado test de rendimiento a dos grupos de clase de 2 de bachillerato (grupo de maana y de tarde). Los resultados obtenidos para ambos grupos son los siguientes:

51

Grupo de maana 14 12 13 10 7 6 4

Grupo de tarde 18 16 15 14 19 7 8 6 3

Rango de maana 11,5 9 10 8 5,5 3,5 2

Rango de tarde 15 14 13 11,5 16 5,5 7 3,5 1

Media = 9,42

Media = 11,77

Rm =
49,5

Rt = 86,5

Antes estos resultados, podemos afirmar que alguno de los dos grupos ha obtenido un mayor rendimiento estadsticamente significativo que el otro, o por el contrario las diferencias entre ambos pueden atribuirse al azar?

Como tarea previa al clculo de la prueba le proponemos la determinacin del rango 3,5 como ejemplo para el resto de rangos:

Ya que los rangos 1 y 2 estn ocupados por los valores 3 y 4 el siguiente valor en orden ascendente es 6. Al haber dos 6 debemos interpolar: 3 + 4/2 = 3,5. El resto de rangos se halla siguiendo semejante lgica. De esta forma, al haber dos 7 se vuelve a interpolar de la siguiente forma 5 + 6/2 = 5,5 y as sucesivamente hasta calcular todos los rangos.

52

Desarrollo y resolucin del problema:

1. Planteamiento de las hiptesis estadsticas:

Ho: m = t tambin m - t = 0 H1: m t tambin m - t 0 2. Clculo de la prueba U1 = 7 * 9 + [7 * (7+1)/ 2] - 49,5 = 41,5 U2 = 7 * 9 + [9 * (9+1)/ 2] - 86,5 = 21,5

3. Interpretacin y decisin

De los dos valores U se toma el menor, U2 = 21,5, que se compara con el valor crtico de U en tabla. Para n1 = 7 y n2 = 9 y un nivel de significacin de 0,05 U = 16. De esta forma, ya que Uemp. > Ucrit. se acepta Ho. Llamamos la atencin del lector sobre la decisin tomada, que como se habr apreciado posee una lgica totalmente opuesta hasta la ahora argumentada. Ello se debe a que en las tablas de U se ofrece el valor crtico por la izquierda de la curva, luego la regin de rechazo estar formada por los valores de U menores o iguales al valor crtico. En este caso, pues, la decisin de aceptar Ho implica afirmar que el rendimiento demostrado por los alumnos de tarde, aunque superior (11,77 > 9,42) a nivel de medias, no es estadsticamente superior al de los alumnos de maana. Las diferencias entre ambos grupos se deben, en este caso, al azar.

53

4. Clculo informatizado del ejemplo

Sustituyendo el tipo de prueba por 2 muestras independientes, prueba U de Mann-Whitney tenemos que:
grupo maana tarde Total Rangos N 7 9 16 Rango promedio 7,07 9,61 Suma de rangos 49,50 86,50

rendimiento

Estadsticos de contraste** U de Mann-Whitney Z Sig. asintt. (bilateral) Sig. exacta [2*(Sig. unilateral)] rendimiento 21,500 -1,061 ,289 ,299*

* No corregidos para los empates. ** Variable de agrupacin: grupo

Los resultados manuales e informatizados, igual que en los ejemplos anteriores, son enteramente coincidentes. Los valores crticos y el de los pvalores hallados determinan la aceptacin de la hiptesis nula.

2. Prueba de Wilcoxon (muestras dependientes) Al igual que la prueba U de Mann-Whitney, sta es la ms potente de su categora y una buena alternativa de la prueba T para dos grupos

relacionados. Adems de considerar el sentido de las diferencias de las puntuaciones contempla tambin la magnitud de las mismas. El

procedimiento de clculo que sigue es el siguiente:

1. Se calculan las diferencias entre los dos pares de puntuaciones de cada sujeto/objeto. 2. Se ordenan estas diferencias en sentido creciente de su valor absoluto a travs de la asignacin de rangos que mantendrn el mismo signo de la diferencia de referencia. Por esa razn se crearn dos columnas de rangos: R+ y R

54

3. Se suman las dos columnas de R+ y R 4. Se toma como valor criterio o emprico el rango de menor cuanta.

Para el clculo de la prueba se manejan dos expresiones dependiendo del tamao muestral:

Para muestras pequeas (N 25)

W = [ S (+)] - [ S (-)]

donde:

S (+): suma de rangos con signo positivo S (-): suma de rangos con signo negativo

Muestras grandes (N > 25) W n (n +1) /4 Z donde:

n * (n +1) * (2n +1)/ 24

W: Valor mnimo de S(+) y S(-) N: nmero de diferencias entre los pares de observaciones cuyo valor sea diferente de 0, o lo que es lo mismo el nmero de rangos cuyas diferencias no sean = 0

55

Ejemplo 9 (Prueba W de Wilcoxon): Un investigador ha medido el rendimiento matemtico de 10 nios antes de un programa sobre el uso de la calculadora de bolsillo. Tras implementarse este programa durante dos meses vuelve a medir el rendimiento matemtico obtenindose los siguientes resultados:

Antes programa 4 3 6 2 5 4 3 3 1 2 Media = 3,4

Despus programa Antes Despus 8 -4 7 -4 5 1 6 -4 4 1 5 -1 7 -4 6 -3 3 -2 5 -3 Media = 5,6

R(+)

R(-) 8,5 8,5 8,5

2 2 2 8,5 5,5 4 5,5 R(+) = 4 R(-) = 51

Tomando como referencia un nivel de significacin de 0,05 unilateral, podemos afirmar que el programa con calculadora de bolsillo ha influido significativamente en la consecucin de un mayor rendimiento matemtico?

56

Clculo y desarrollo del ejemplo 1. Planteamiento de las hiptesis estadsticas Ho: a = d tambin a - d = 0 H1: a d tambin a - d 0

2. Clculo de la prueba y decisin e interpretacin de la misma De la suma de los dos rangos, el Ra o R(+) es evidentemente menor que el Rd o R(-). Por tanto, es Ra = 4 el sumatorio de rangos que se toma como criterio. El valor de Wilcoxon crtico para un = 0,05 unilateral es 11. Como R(+) (valor emprico) = 4 < 11 (valor crtico) siguiendo con la misma lgica de la prueba de U de Mann-Whitney rechazamos Ho y, por ende, aceptamos automticamente H1. Ello implica que podemos afirmar que el programa de calculadora de bolsillo aplicado a los diez nios objeto del estudio ha resultado significativamente efectivo, ya que ha generado diferencias estadsticamente significativas en el rendimiento matemtico medido a los diez nios antes (media = 3,4) y despus (media = 5,6) del programa. 3. Clculo informatizado del ejemplo Sustituyendo el tipo de prueba por 2 muestras relacionadas, prueba de Wilcoxon tenemos que:
N Rangos positivos DESPUES - Rangos negativos ANTES Empates Total 2* 8** 0*** 10 Rango promedio 2 6,37 Suma de rangos 4 51

* DESPUES < ANTES ** DESPUES > ANTES *** ANTES = DESPUES

57

Estadsticos de contraste** DESPUES - ANTES Z -2,325* Sig. asintt. (bilateral) ,020 * Basado en los rangos positivos. ** Prueba de los rangos con signo de Wilcoxon

Finalmente, tambin los resultados manuales han sido exactamente iguales a los informatizados. En ambos casos determinan la aceptacin de la hiptesis alternativa.

58

BIBLIOGRAFA

59

BIBLIOGRAFA
Abraira, V. y Prez, A. (1996). Mtodos multivariantes en bioestadstica. Madrid. CERA. Aguilera del Pino, A.M. (2001). Tablas de contingencia bidimensionales. Madrid. La Muralla. Arnal, J. y otros (1994). Investigacin educativa. Fundamentos y metodologa. Barcelona. Labor. Fernndez, M.J.; Garca, J.M.; Fuentes, A. y Asensio, A. (1992). Resolucin de problemas de estadstica aplicada a las Ciencias Sociales. Gua prctica para profesores y alumnos. Madrid. Sntesis. Gil, J.; Rodrguez, G. y Garca, E. (1995). Estadstica bsica aplicada a las Ciencias de la Educacin. Sevilla. Kronos. Martn, Q. (2001). Contrastes de hiptesis. Madrid. La Muralla.

Pick, S. y Lpez, A.L. (1994) (5 edicin). Cmo investigar en ciencias sociales. Mxico. Trillas. Seone, J. (1983): Psicologa Matemtica I. Madrid. UNED. Siegel, S. (1991): Estadstica no paramtrica aplicada a las ciencias de la conducta. Mxico. Trillas. Tejedor, F.J. (1999). Anlisis de varianza. Madrid. La Muralla. Tejedor, F.J. y Etxeberria, J. (2006). Anlisis inferencial de datos en educacin. Madrid. La Muralla. Ximnez, C. y San Martn, R (2000). Anlisis de varianza con medidas repetidas. Madrid. La Muralla.

60

Você também pode gostar