Cuando se analizan datos medidos por una variable cuantitativa continua, las pruebas estadsticas de estimacin y contraste frecuentemente empleadas se basan en suponer que se ha obtenido una muestra aleatoria de una distribucin de probabilidad de tipo normal o de Gauss.
Pero en muchas ocasiones esta suposicin no resulta vlida, y en otras la sospecha de que no sea adecuada no resulta fcil de comprobar, por tratarse de muestras pequeas.
En estos casos disponemos de dos posibles mecanismos: Los datos se pueden transformar de tal manera que sigan una distribucin normal. O bien se puede acudir a pruebas estadsticas que no se basan en ninguna suposicin en cuanto a la distribucin de probabilidad a partir de la que fueron obtenidos los datos, y por ello se denominan pruebas no paramtricas (distribucin free), mientras que las pruebas que suponen una distribucin de probabilidad determinada para los datos se denominan pruebas paramtricas. 1) PRUEBAS NO PARAMTRICAS: Las pruebas estadsticas no paramtricas son las que, a pesar de basarse en determinadas suposiciones, no parten de la base de que los datos analizados adoptan una distribucin normal. Se conocen tambin como de distribucin libre (distribucin free).
Cuando trabajamos con muestras pequeas (n < 10) en las que se desconoce si es vlido suponer la normalidad de los datos, conviene utilizar pruebas no paramtricas, al menos para corroborar los resultados obtenidos a partir de la utilizacin de la teora basada en la normal.
En estos casos se emplea como parmetro de centralizacin la mediana, que es aquel punto para el que el valor de X est el 50% de las veces por debajo y el 50% por encima.
Las pruebas no paramtricas no requieren asumir normalidad de la poblacin y en su mayora se basan en el ordenamiento de los datos, la poblacin tiene que ser continua.
El parmetro que se usa para hacer las pruebas estadsticas es la Mediana y no la Media.
Son tcnicas estadsticas que no presuponen ningn modelo probabilstico terico.
Son menos potentes que las tcnicas paramtricas, aunque tienen la ventaja que se pueden aplicar ms fcilmente.
2) PRUEBAS PARAMTRICAS: Las pruebas estadsticas paramtricas, como la de la t de Student o el anlisis de la varianza (ANOVA), se basan en que se supone una forma determinada de la distribucin de valores, generalmente la distribucin normal, en la poblacin de la que se obtiene la muestra experimental.
En contraposicin de la tcnicas no paramtricas, las tcnicas paramtricas si presuponen una distribucin terica de probabilidad subyacente para la distribucin de los datos.
Son ms potentes que las no paramtricas.
Dentro de las pruebas paramtricas, las ms habituales se basan en la distribucin de probabilidad normal, y al estimar los parmetros del modelo se supone que los datos constituyen una muestra aleatoria de esa distribucin, por lo que la eleccin del estimador y el clculo de la precisin de la estimacin, elementos bsicos para construir intervalos de confianza y contrastar hiptesis, dependen del modelo probabilstico supuesto.
Cuando un procedimiento estadstico es poco sensible a alteraciones en el modelo 2 probabilstico supuesto, es decir que los resultados obtenidos son aproximadamente vlidos cuando ste vara, se dice que es un procedimiento robusto.
El estadstico t fue introducido por William Sealy Gosset en 1908, un qumico que trabajaba para la cervecera Guinness de Dubln. Student era su seudnimo de escritor.
Gosset haba sido contratado gracias a la poltica de Claude Guiness de reclutar a los mejores graduados de Oxford y Cambridge, y con el objetivo de aplicar los nuevos avances en bioqumica y estadstica al proceso industrial de Guiness. Gosset desarroll el test t como una forma sencilla de monitorizar la calidad de la famosa cerveza Stout. Public su test en la revista inglesa Biometrika en el ao 1908, pero fue forzado a utilizar un seudnimo por su empleador, para mantener en secreto los procesos industriales que se estaban utilizando en la produccin. Aunque de hecho, la identidad de Gosset era conocida por varios de sus compaeros estadsticos.
Entre los usos mas frecuentes de las pruebas t se encuentran: El test de Locacin de muestra nica por el cual se comprueba si la media de una poblacin distribuida normalmente tiene un valor especificado en una hiptesis nula. El test de locacin para dos muestras, por el cual se comprueba si las medias de dos poblaciones distribuidas en forma normal son iguales. Todos estos test son usualmente llamados test t de Student, a pesar de que estrictamente hablando, tal nombre slo debera ser utilizado si las varianzas de las dos poblaciones estudiadas pueden ser asumidas como iguales; la forma de los ensayos que se utilizan cuando esta asuncin se deja de lado suelen ser llamados a veces como Prueba t de Welch. Estas pruebas suelen ser comnmente nombradas como pruebas t desapareadas o de muestras independientes, debido a que tienen su aplicacin mas tpica cuando las unidades estadsticas que definen a ambas muestras que estn siendo comparadas no se superponen. El test de hiptesis nula por el cual se demuestra que la diferencia entre dos respuestas medidas en las mismas unidades estadsticas es cero. Por ejemplo, supngase que se mide el tamao del tumor de un paciente con cncer. Si el tratamiento resulta efectivo, lo esperable seria que el tumor de muchos pacientes disminuyera de tamao luego de seguir el tratamiento. Esto con frecuencia es referido como prueba t de mediciones apareadas o repetidas. El test para comprobar si la pendiente de una regresin lineal difiere estadsticamente de cero. http://es.wikipedia.org/wiki/Prueba_t_de_Student
ANALISIS DE VARIANZA
ANOVA son siglas para el anlisis de la Variacin (ANalysis Of VAriance).
Un ANOVA segrega diversas fuentes de la variacin vistas en resultados experimentales.
Son un conjunto de tcnicas estadsticas para conocer el modo en que el valor medio de una variable es afectado por diferentes tipos de clasificaciones de los datos.
Con el anlisis de la varianza se pueden ajustar las estimaciones del efecto de un tratamiento segn otros factores como sexo, edad, gravedad, etc.
3 Es una tcnica estadstica que sirve para decidir/determinar si las diferencias que existen entre las medias de tres o ms grupos (niveles de clasificacin) son estadsticamente significativas.
Las tcnicas de ANOVA se basan en la particin de la varianza para establecer si la varianza explicada por los grupos formados es suficientemente mayor que la varianza residual o no explicada.
El anlisis de la varianza (ANOVA) es una tcnica estadstica de contraste de hiptesis.
Tradicionalmente estas tcnicas, conjuntamente con las tcnicas de regresin lineal mltiple, de las que prcticamente son una extensin natural, marcan el comienzo de las tcnicas multivariantes.
Con estas tcnicas se manejan simultneamente ms de dos variables, y la complejidad del aparato matemtico se incrementa proporcionalmente con el nmero de variables en juego.
El anlisis de la varianza de un factor es el modelo ms simple: una nica variable nominal independiente, con tres o ms niveles, explica una variable dependiente continua.
Otra alternativa, que aparentemente es ms lgica e intuitiva, consiste en comparar, en todas las posibles combinaciones de dos en dos, las medias de todos los subgrupos formados.
En el ANOVA se comparan medias, no varianzas: medias de los subgrupos o estratos originados por los factores de clasificacin estudiados.
Un ANOVA entonces prueba si la variacin asociada a una fuente explicada es grande concerniente a la variacin inexplicada. Si ese cociente (la estadstica de F) es tan grande que la probabilidad que ocurri por casualidad es baja (por ejemplo, P<=0.05), podemos concluir (en ese nivel de la probabilidad) que esa fuente de la variacin tena un efecto significativo.
CONDICIONES GENERALES DE APLICACIN.
A- INDEPENDENCIA DE LOS ERRORES I Los errores experimentales han de ser independientes Se consigue si los sujetos son asignados aleatoriamente. Es decir, se consigue esta condicin si los elementos de los diversos grupos han sido elegidos por muestreo aleatorio
B- NORMALIDAD Se supone que los errores experimentales se distribuyen normalmente. Lo que supone que cada una de las puntuaciones yi.i se distribuir normalmente. Para comprobarlo se puede aplicar un test de ajuste a la distribucin normal como et de Kolmogov- Smirnov.
C- HOMOGENEIDAD DE VARIANZAS (HOMOSCEDASTICIDAD). La varianza de los subgrupos ha de ser homognea 21 = 22 = .....= 2k ya que estn debidas al error. Se comprobarn mediante los test de: Razn de varianzas (mx. /min), C de Cochran, Barlett-Box
CARACTERSTICAS: 4 Existen normalidad en los datos(x) La poblacin debe ser n< = 30 datos La prueba T trabaja solo con 2 grupos Se divide en: una muestra, muestras relacionadas y muestras independientes
Enunciado: La tabla siguiente muestra el crecimiento del tallo de 20 plantas antes y despus de haberles colocado abono orgnico.
VD= Crecimiento del tallo. VI= Abono orgnico. Tipo de Prueba T= muestras relacionadas. Ho= El abono orgnico no tiene efecto en el crecimiento del tallo de las plantas. Ha= El abono orgnico aumenta el crecimiento del tallo de las plantas.
Clculos:
5
CONCLUSIN: P = 0,000 =0,05 P < Se rechaza la Ho Con un 95% de confianza se concluye que el abono orgnico aumenta el crecimiento del tallo de las plantas.
ANLISIS DE VARIANZA (ANOVA)
CARACTERSTICAS: Tiene ms de dos (2) grupos. La poblacin es n>= 100 datos. Homogeneidad de varianzas. Se divide en: una va o factor o dos vas o factores.
Enunciado: Un estudio realizado a 5 pacientes del Ambulatorio Rural del Casero EL Merey muestra sus niveles de Glicemia, tratados con 4 tratamientos diferentes.
1 2 3 4 110 96 130 180
115 98 160 128
125 103 170 99
130 99 155 110
142 145 196 130
VD= Glicemia VI= Tipos de tratamientos 6 Ho= Los tipos de tratamientos aplicados no generan efecto en los niveles de glicemia de los pacientes. Ha= Los tipos de tratamientos aplicados generan efectos en los niveles de glicemia de los pacientes.
CLCULOS: Estadstico de Levene= 0,704 Si hay homogeneidad de varianza P=0,704 =0,05 no se rechaza Ho ANOVA P= 0.014 =0,05 no se rechaza Ho
CONCLUSIN Con un 95% de confianza se concluye que los tipos de tratamientos aplicados no generan efecto en los niveles de glicemia de los pacientes.
PRUEBA DE CHI CUADRADO. 7
La Prueba de Bondad de Ajuste, consiste en determinar si los datos de cierta muestra corresponden a cierta distribucin poblacional. En este caso es necesario que los valores de la variable en la muestra y sobre la cual se quiere realizar la inferencia est dividida en : Clases de ocurrencia, o equivalentemente, sea cual sea la variable de estudio, se debe categorizar los datos asignando sus valores a diferentes clases o grupos.
La Prueba de Homogeneidad de varias muestras cualitativas, consiste en comprobar si varias muestras de una carcter cualitativo proceden de la misma poblacin (por ejemplo: estas tres muestras de alumnos provienen de poblaciones con igual distribucin de aprobados?. Es necesario que las dos variables medibles estn representadas mediante categoras con las cuales construiremos una tabla de contingencia.
La Prueba de Independencia, consiste en comprobar si dos caractersticas cualitativas estn relacionadas entre s (por ejemplo: el color de ojos est relacionado con el color de los cabellos?). Aunque conceptual mente difiere del anterior, operativamente proporciona los mismos resultados. Este tipo de contrastes se aplica cuando deseamos comparar una Variable en dos situaciones o poblaciones diferentes, Ej: si se desea estudiar, si existen diferencias en las dos poblaciones respecto a la variable de estudio. Por otra parte, se debe sealar que, la Prueba Estadstica para determinar la significativamente de la diferencia en las frecuencias observadas y las frecuencias esperadas, es la prueba llamada Chi Cuadrada, estadstico que representa un test puede ser usado cuando los datos estn en forma de frecuencia. . Adems, el propsito de analizar los datos a travs de la Prueba de Chi Cuadrado es por ej: es ver si existen, diferencias estadsticamente significativa entre las frecuencias observadas y las frecuencias esperadas, basadas en el azar o en alguna otra hiptesis formulada con antelacin, a su vez puede que alguna variable subyacente est produciendo la gran diferencia entre los valores observados y los valores esperados. Igualmente, al comparar las expectativas producidas por la casualidad entre las observaciones reales,- nos permite decidir si es factible que el patrn de frecuencias observadas es lo que se puede esperar slo como producto de la casualidad por algn factor sistemtico. El Chi Cuadrado debe ser utilizado con datos de frecuencia, no con datos en forma bruta. El tipo de datos usados con una mayor tendencia de ser analizados a travs del Chi Cuadrado son: encuestas de opinin, lanzamiento de monedas y algunas formas de respuestas a cuestionarios. A su vez, los valores de frecuencia observadas se determinan mediante un proceso de recoleccin de datos, y los valores de frecuencia esperados tienen que ser estimados en base a la casualidad, usualmente en las probabilidades que ocurran. Adems, si se desea comprobar que existe diferencia significativa entre la preferencia de los alumnos para seleccionar entre la realizacin de un acto solemne y la eleccin por las pruebas deportivas. En el caso del ejemplo, se trata de dos categoras, lo que conduce a un grado de libertad. A continuacin el proceso para calcular el valor Chi cuadrada 1. A favor del acto solemne: Frecuencias observadas = 405 Frecuencias esperadas = 450 (Frecuencias observadas - frecuencias esperadas)2 / frecuencias esperadas (405 - 450) / 450 = (-45)2 / 450 = 2025/450 = 4.5 2. A favor del acto deportivo: Frecuencias observadas = 495 Frecuencias esperadas = 450 (Frecuencias observadas - frecuencias esperadas)2 / frecuencias esperadas La prueba Chi Cuadrada (?2) file:///A|/Chicuadrada.htm (1 of 3) [27/03/2000 10:57:32 a.m.] (405 - 450) / 450 = (45)2 / 450 = 2025/450 = 4.5 3. Se suman los valores obtenidos en cada grupo para obtener el valor de chi cuadrada. 4.5 + 4.5 = 9.00 4. Se compara este valor con el valor correspondiente a un grado de libertan en la tabla de Chi 8 cuadrado y se encuentra que el valor crtico de 2para un grado de libertad a un nivel alpha = .05 a dos colas es = 3.8941 Siendo que el valor Chi cuadrada ( 2) obtenido es mayor que el valor crtico, se desacredita la hiptesis nula que afirma que no existe diferencia significativa entre las frecuencias observadas y se concluye que la diferencia es significativa. Esto quiere decir que en menos de 5 casos de cada cien, una diferencia como la del valor igual o mayor al observado de Chi cuadrado en este caso ( 2 =9), puede ser atribuida a la seleccin de la muestra (azar). Ejemplo No. 2 Se supone que, en una escuela las estadsticas de aos pasados muestran que, la comisin de admisin tiende a aceptar 4 alumnos por 1 que se rechaza. Y en el presente ao una comisin constituida por un grupo diferentes de personas, acept 275 y rechaz 60. Se puede decir que esta nueva comisin difiere de manera significativa con la razn de rechazo de la anterior comisin? Corresponde en este caso calcular 2 para esta razn de rechazo comparada con la tradicional. De manera que tratndose de 330 casos en total, si la comisin anterior hubiera actuado se esperara que aceptaran 264 alumnos y rechazaran 66. As Pues, se toman estos nmeros (razn 4:1) como las frecuencias esperadas en cada caso. Aceptado Rechazados Total Frecuencia observada (fo) 275 55 330 Frecuencia esperada (fe) 264 66 330 ( fe - fo ) = 11 -11 ( fe - fo )2 = 121 121 ( fe - fo )2/ fe = 121/ 264 121/66 ( fe - fo )2/ fe = 0.4589 1.83 2 = 0.4589 + 1.83 = 2.29 Al comparar el valor 2 obtenido con el valor crtico de un grado de libertad y .05 de significatividad a dos colas vemos que el valor crtico (3.841) es mayor que el observado por lo que no se puede desacreditar la hiptesis nula y se concluye que la nueva comisin no muestra una poltica diferente a la de la comisin anterior. Prueba 2 para determinar la independencia de variables. La prueba Chi Cuadrada (?2) file:///A|/Chicuadrada.htm (2 of 3) [27/03/2000 10:57:32 a.m.] Sin embargo, en los ejemplos anteriores se ha limitado a tomar decisiones respecto a categoras en una variable a partir de un solo grupo. Pero esta prueba puede ser utilizada para probar la significatividad de la diferencia entre dos o ms grupos respecto una o varias variables cuando el grupo o grupos estn clasificados por categoras. Eso es lo que se denomina prueba de independencia. Ntese que se puede utilizar para determinar independencia entre los grupos o entre las variables. A manera de ejemplo se presenta a continuacin datos obtenidos en una investigacin realizada por Silvana Poblete de Araya entre estudiantes universitarios, quienes evaluaron el desempeo de alguno de sus maestros. Se trata de un total de 780 estudiantes y para servir como nuestro ejemplo, se busca determinar si el sexo del estudiante y el sexo del maestro al cual le toc evaluar, son dependientes. Se puede calcular, a partir de los valores en las columnas y filas, que participaron un total de 328 varones y 452 mujeres los cuales evaluaron a 544 profesores y a 236 profesoras. Sexo del alumno Masculino Femenino Sexo del maestro Masculino 269 228.8 275 315.2 Femenino 59 99.2 9 117 136.8 Las cifras que aparecen en cada recuadro representan, la superior, el nmero de frecuencias observadas (f o) y la que aparecen abajo es el nmero de frecuencias esperadas (f e). Si se procede a determinar la diferencia entre las frecuencias observadas y las esperadas y luego, se elevan al cuadrado y se divide el resultado entre las frecuencias esperadas en cada recuadro se esta listos para sumar estos valores resultantes y computar el chi cuadrada que en este caso es 40.37. En lo que respecta a los grados de libertad, estos se calculan restando 1 al nmero de filas y de columnas y multiplicando el resultado entre s. GL = (columnas - 1) (filas - 1) = (2 - 1) (2 - 1) = (1) (1) = 1 Al buscar el valor 2 para 1 grado de libertad y .05 de significatividad a dos colas, se encuentra el valor 3.841 que es menor que 40.37 por lo que se desacredita la hiptesis nula que afirma que el gnero del alumno y el gnero del maestro evaluado son independientes, conduciendo a la conclusin de que en este estudio, el gnero del estudiante que hizo la evaluacin y el gnero del maestro evaluado, son variables dependientes (es decir que tiene cierto grado de asociacin). Siendo que un valor 2 como el obtenido o mayor slo puede ser atribuido a factores aleatorios en 5 o menos de cada 100 casos. Ntese que en este caso, se esta probando una especie de relacin entre la variable gnero del estudiante y gnero del maestro evaluado, pero no se utiliza la terminologa de las correlacin. En ese caso, en lugar de decir que las variables estn relacionadas, se dice, que son dependientes. Esto se explica dado el "bajo" nivel de medicin de las variables (nominal). De igual forma, tambin el investigador debe cuidarse de no confundir este concepto de dependencia con la terminologa propia de estudios de causalidad donde se habla de variables dependientes e independientes.
La Prueba de Chi-Cuadrado. A su vez la prueba de chi Cuadrado. Tiene aplicabilidad en la biologa, tal es el caso, de los experimentos donde se emplean las proporciones Mendelianas . Ya que, que resulta muy til . Frmula de Chi-cuadrado:
grados de libertad (gl): n-1 donde n es el nmero de clases. Probemos si los siguientes datos se ajustan a la proporcin 9:3:3:1 Valores Observados Valores Esperados 315 semillas redondas y amarillas (9/16)(556) = 312.75 redondas y amarillas 108 semillas redondas y verdes (3/16)(556) = 104.25 redondas y verdes 101 semillas arrugadas y amarillas (3/16)(556) = 104.25 arrugadas y amarillas 32 semillas arrugadas y verdes (1/16)(556) = 34.75 arrugadas y verdes 556 Total de semillas 556.00 Total de semillas Aplicando la ecuacin:
X 2 = 0,47 Nmero de clases: 4 Gl (grados de libertad): n-1= 4-1= 3 Valor de Chi-cuadrado: 0.47
Si se entra en la Tabla de Chi-cuadrado por tres grados de libertad, se observa que el valor de Chi-cuadrado encontrado se encuentra con una probabilidad mayor de 0,90. Quiere decir que la probabilidad de encontrar un valor de Chi-cuadrado como el calculado para nuestro experimento es mayor del 90%, que es lo mismo que decir que las diferencias entre los valores observados y calculados se deben al azar con una probabilidad mayor al 90%. Por convencin estadstica se utiliza el valor de 0.05 de probabilidad como el valor lmite o crtico. Si el valor de Chi-cuadrado calculado para un experimento es mayor 10 que el correspondiente al de la probabilidad del 5% se rechaza la hiptesis. En el caso del ejemplo anterior el valor calculado es menor que el valor encontrado en la tabla de Chi-cuadrado por lo que se acepta la hiptesis de que los datos se ajustan a una distribucin 9:3:3:1. H:\chi-cuadrado_files\chi2_02.gif