ALEATORIDAD Y ESTABLECIMIENTO DEL EXPERIMENTO EN CAMPO
La observacin y la experimentacin son la base en que se apoya el investigador
para el estudio de fenmenos de su inters, presentes en la naturaleza. Mediante la observacin describe el fenmeno con todas las circunstancias que lo rodean, no pudiendo atribuir sus efectos a una causa especfica. Con la ayuda de la experimentacin estudia dichos fenmenos en forma ms controlada, aislando aquellos factores que pudieran enmascarar el efecto que ocasiona la causa de su inters sobre dicho fenmeno.
En el estudio experimental de un fenmeno se plantea una hiptesis, para cuya prueba disea un procedimiento de ejecucin, que denomina diseo del experimento. Esta hiptesis, al ser probada requiere generalizarla a un espectro ms amplio que aquel de su experimento, asocindole una medida de probabilidad o confiabilidad. Este es el caso de los diseos experimentales, cuya metodologa es ampliamente usada en la investigacin agropecuaria para la comparacin de efectos de diferentes factores o tratamientos.
Un diseo experimental debe adecuarse al material experimental con que se cuenta y a la clase de preguntas que desea contestarse el investigador. Sus resultados se resumen en un cuadro de Anlisis de Varianza y en una tabla de comparacin de medias de tratamientos que indica las diferencias entre dichas medidas. El anlisis de varianza proporciona la variacin de la variable de inters en fuentes explicables por algunos factores o tratamientos y en aquella para la cual el investigador no tiene control, no puede medir y no le es posible explicar o atribuir a algn factor en particular, constituyendo el error experimental. Por ejemplo: si se realiza un experimento en el cual se estudie el uso de los aminocidos en raciones para pollos en crecimiento y se mide la ganancia de peso, la variacin de dicha ganancia puede descomponerse en fuentes de variacin conocidas, atribuibles al distinto nivel de aminocidos usando las raciones y las fuentes de variacin desconocidas o error. Esta particin de la varianza se hace al travs de la suma de cuadrados asociados a sus respectivos grados de libertad (nmero de comparaciones linealmente independientes). La realizacin de un Anlisis de la varianza presupone la aditividad de los errores, la homogeneidad de varianza de las poblaciones de tratamientos y la independencia y distribucin normal de los errores.
DISEOS EXPERIMENTALES
En la experimentacin Agrcola, conjuntamente con la adecuada definicin de los elementos fundamentales que componen el experimento, la decisin acerca del diseo experimental que deber ser aplicado constituye uno de los aspectos decisivos dentro de la fase de planificacin de las investigaciones. El diseo experimental como tal puede ser definido como la disposicin en tiempo y espacio de las variantes o tratamientos. Podemos decir tambin que los diseos experimentales son las formas que se han ideado para arreglar las parcelas y satisfacer las necesidades de cada experimento, sus objetivos y el cultivo de que se trate. No es ms que el esquema de distribucin de las variantes en el experimento. El objetivo fundamental que se persigue al seleccionar el diseo experimental es asegurar condiciones iguales para la comparacin de las variantes, eliminando al mximo la variabilidad de la fertilidad del suelo. Requisitos que debe satisfacer un diseo experimental: 1) Debe asegurar condiciones iguales para todas las variantes experimentales. 2) De ajustarse a los principios de la aleatoriedad que permitan analizar los mismos por mtodos estadsticos. 3) Debe ser simple y que posibilite la conduccin adecuada de los mismos. DISEOS DE BLOQUES
En este grupo se encuentran los diseos de mayor utilizacin en la prctica de la experimentacin agrcola actual. Estos diseos poseen tres caractersticas fundamentales. 1. La replicacin. 2. El control local o tcnicas de los bloques. 3. La aleatorizacin. La influencia de la replicacin de los tratamientos experimentales fue analizada por Cochran y Cox (1965) quienes sealan que la rplica resultan importantes para hacer coincidir el resultado estadstico y biolgico de los datos experimentales bajo ciertas condiciones de investigaciones. La repeticin de cada tratamiento en el experimento reduce, de forma general el error tpico y por tanto incrementa la precisin experimental. La caracterstica del control local o tcnicas de bloqueo le confiere a estos diseos la ventaja de poder detectar y la posibilidad de eliminar o remover del error experimental, en el caso de los experimentos de campo, la variabilidad por la heteroneidad del suelo entre esos bloque.
La aleatorizacin de los tratamientos permite la utilizacin de mtodos estadsticos en el procesamiento de los datos, ofrece la posibilidad de cualquier unidad elemental tenga la misma probabilidad de recibir un tratamiento u otro, puede tener otra ventaja como es evitar el efecto de la variante vecina, puesto que no siempre un tratamiento experimental tendr a su lado el mismo tratamiento.
Los diseos de bloques pueden ser agrupados en diseo de bloques completos y diseo de bloques incompleto. Los diseos de bloque completo contienen en cada bloque todos los tratamientos experimentales, por lo que cada bloque constituye una rplica del experimento. Los diseos de bloques incompletos contienen solo una parte de los tratamientos experimentales en cada bloque, por ello cada bloque no constituye una rplica del experimento.
VARIABLES Y SUS RELACIONES EN UN DISEO EXPERIMENTAL: En todo experimento debemos definir la unidad experimental, como el material mnimo requerido para aplicar los tratamientos (las causas) y evaluar las respuestas (los efectos). Tambin debemos definir los tratamientos como cada una de las diferentes condiciones experimentales que van a ser evaluadas en el experimento. Las variables en un diseo experimental se clasifican fundamentalmente en dos grandes grupos de acuerdo su rol en la unidad experimental: 1. Variables de entrada. 2. Variables de salida. Las variables de entrada son todas aquellas variables a las que esta expuesta la unidad experimental. Comprende los siguientes grupos de variables: 1. Factores experimentales. 2. Factores de bloqueo. 3. Factores de ruido. 4. Variables deliberadamente controladas. 5. Variables no controladas. Factores experimentales: Los factores experimentales son aquellas variables del proceso que deliberadamente son manipuladas en un experimento para investigar su impacto sobre las variables de respuesta. Cada uno de los valores de estas variables incluidos en un experimento se denomina los niveles del factor. Si el experimento incluye solo un factor (experimento unifactorial), entonces cada uno de los niveles se constituye en un tratamiento. Si el experimento incluye varios factores (experimento multifactorial), entonces la combinacin de los niveles de todos y cada uno de los factores incluidos ser lo que se constituya como un tratamiento. Los factores experimentales se clasifican de acuerdo a varios criterios: De acuerdo a la naturaleza de los niveles los factores se clasifican en: 1. Cualitativos o categricos. 2. Cuantitativos o continuos. Los cualitativos o categricos son aquellos factores donde la escala de los niveles es puramente nominal. Para este tipo de factores el inters se centra en la comparacin de los promedios, para seleccionar el ms adecuado. Al graficar estos promedios no existe un orden nico de los niveles y por lo tanto nunca deben usarse lneas continuas o de puntos en su representacin, siendo lo ms conveniente una grfica de barras. Los factores cuantitativos son aquellos cuyos niveles se expresan en una escala numrica, siendo el principal objetivo del anlisis el describir un modelo de respuesta de acuerdo a los niveles de este factor. Su representacin grfica ms adecuada es a travs de puntos o lneas. De acuerdo a la forma de seleccin de los niveles del factor, se clasifican como: 1. Factores fijos. 2. Factores aleatorios. Los factores fijos son aquellos en los que la seleccin de los niveles est basada en el inters del investigador, quien decide cuales son los que deben incluirse en el experimento. Para este tipo de factores las conclusiones estn restringidas al rango de niveles seleccionados, para factores continuos, o estrictamente para los niveles seleccionados en caso de los factores cualitativos. Los factores aleatorios son aquellos en donde los niveles del factor se seleccionan de una poblacin de niveles de una manera aleatoria. Para este tipo de factores el inters est centrado en investigar la variabilidad que genera el cambio en los niveles de este factor. Para los experimentos multifactoriales, los factores se clasifican de acuerdo a la relacin que guardan los niveles de los factores en: 1. Factores cruzados, en los que los niveles de dos factores son independientes, es decir, los niveles de un factor se pueden combinar sin ninguna restriccin con los niveles del segundo factor, generando as una estructura factorial de tratamientos. 2. Factores anidados, en los que los niveles de un factor de jerarqua inferior depende de los niveles de un factor de jerarqua superior, generando as una estructura jerrquica.
Factores de bloqueo: Cuando fuentes de variacin extraa e indeseable pueden ser identificadas, podemos disear el experimento de tal forma que eliminemos su influencia. La idea es arreglar las unidades experimentales en grupos o bloques de unidades uniformes en los valores de la variable de bloqueo, asignando luego, al azar, los tratamientos dentro de cada bloque. La variabilidad entre bloques es considerada en el anlisis, lo que conduce a una mejora en la precisin del experimento. Cuatro criterios son frecuentemente usados para bloquear unidades experimentales: Proximidad de unidades experimentales; caractersticas fsicas de las unidades experimentales que tengan un impacto fuerte en las variables de respuesta; tiempo; administracin de tareas en el experimento.
Factores de Ruido: Son las variables que solo pueden controlarse durante la fase experimental, ya que resulta difcil o costoso tratar de controlarlas durante la etapa de produccin normal.
Variables deliberadamente controladas: Conjunto de variables en un experimento que se caracterizan por tomar un valor constante durante la etapa experimental, debido al control que ejerce el investigador sobre estas.
Variables no controladas: Conjunto muy grande de variables que se les permite variar sin control durante un experimento. Algunas pueden ser monitoreadas y llegar a convertirse en covariables. Otras puede ser que no sean medibles o accidentalmente ignoradas y este grupo es el que origina el error experimental. En cualquier caso, el impacto que tienen sobre las variables de respuesta debe ser mnimo. Si sucede que una variable de este grupo cambia a la par con los niveles de un factor experimental, esto ocasiona una confusin, ya que el anlisis no puede separar el efecto en el cambio simultaneo de ambas variables. Si el investigador no est consciente de este cambio simultaneo de variables, entonces la variable no controlada va a enmascarar el efecto del factor experimental. Las covariables deben reunir dos caractersticas: Guardar una relacin lineal con las variables de respuesta y que no deben ser impactadas por los tratamientos. Estas variables, que pueden ser del ambiente fsico o de las mismas unidades experimentales, son analizadas conjuntamente con la respuesta para mejorar la precisin del experimento.
Las variables de salida es el conjunto de variables que se van a evaluar en la unidad experimental, una vez que el tratamiento haya impactado, para determinar los efectos de tratamiento. Las respuestas se seleccionan en base a dos criterios: Las respuestas que son sensibles a los factores experimentales que se estn investigando y las respuestas que son de importancia econmica.
MODELOS PARA ESTABLECER LAS RELACIONES ENTRE VARIABLES EN UN DISEO EXPERIMENTAL: En diseo de experimentos todo el anlisis de resultados se lleva a cabo mediante el ajuste de modelos. Estos modelos, en general se establecen como: RESPUESTA = INDEPENDIENTES + ERROR En Las variables independientes deben distinguirse aquellas que son fijas de las que son aleatorias. Las fijas se agrupan dentro de la parte sistemtica del modelo y las aleatorias en lo que se considera la parte aleatoria del modelo, dentro de la cual se puede ubicar el error, por lo que la estructura del modelo quedara como: RESPUESTA = SISTEMTICA + ALEATORIA En la parte sistemtica se incluira entonces los factores experimentales y los factores de bloqueo, en tanto que en la parte aleatoria se incluiran los efectos aleatorios y el error experimental.
EL DISEO COMPLETAMENTE AL AZAR
Es el arreglo geomtrico ms simple, en el que se supone que tanto las unidades experimentales como el ambiente fsico en el que se lleva a cabo el experimento son totalmente homogneos, uniformes, sin cambio, lo cual representara un ambiente controlado y un material experimental estable. Bajo estas condiciones ideales solo quedara por definir los factores experimentales y sus niveles para determinar los tratamientos o condiciones experimentales que van a ser investigadas. Por esta razn, el nico efecto incluido en el modelo bajo este diseo, es precisamente el efecto de los tratamientos, que sera la nica fuente de variacin identificable en este experimento. Como puede ser sospechado, difcilmente se van a cubrir los requisitos para poder aplicar este diseo, por lo que en la prctica solo se recomienda para condiciones muy controladas, como es el caso de experimentos de laboratorio.
Aleatorizacion: Ya que las unidades experimentales y las condiciones fsicas en las que se va a llevar a cabo el experimento son muy homogneas, entonces el mecanismo de asignacin de tratamientos a las unidades experimentales es completamente al azar, lo cual se puede lograr mediante la aplicacin de cualquier mtodo de sorteo aleatorio. Puede ser mediante el uso de nmeros aleatorios, mediante seleccin aleatoria de nmeros asociados a unidades experimentales y aplicacin secuencial de tratamientos. Si en realidad las unidades experimentales son muy homogneas, entonces cualquier nmero de subgrupos generados al azar van a ser tambin muy similares, lo cual asegura una comparacin muy justa de los tratamientos. Este diseo, es una generalizacin, para comparar ms de dos tratamientos, de la comparacin de dos medias mediante la prueba de t para muestras independientes. Datos en el diseo completamente al azar: Los datos en un diseo completamente al azar solo tienen un criterio de clasificacin, correspondiente a los tratamientos. Para identificar a cada una de las observaciones, se requieren entonces de dos subndices ligados a la letra que representa la variable de respuesta; de acuerdo al modelo estadstico Y ij
i ij El subndice i est asociado al tratamiento y el subndice j est asociada a la repeticin dentro de cada tratamiento. Y ij corresponde al valor de la variable de respuesta en la repeticin j del tratamiento i. es la media general del experimento. i es el efecto del tratamiento i. ij es el error experimental en la repeticin j del tratamiento i.
i=1,2,,t; j=1,2,,r Lo cual indica que en el experimento hay t tratamientos, y en cada tratamiento r es el nmero de repeticiones, cuando el nmero de repeticiones es el mismo en cada tratamiento; entonces el experimento esta balanceado. Cuando el nmero de repeticiones varia de tratamiento a tratamiento, el diseo experimental ser desbalanceado y el subndice j llegara a un nmero diferente para cada tratamiento, lo cual puede ser indicado con j=1,2,,r i . Hiptesis que se desea probar: La hiptesis que se desea probar es la referente al efecto de los tratamientos. La hiptesis estadstica es: Ho: Todos los efectos de tratamientos son iguales a cero. 1 2 t =0 Ha: Al menos uno de los efectos de tratamiento es diferente de cero. Para expresarla en trminos de los parmetros del modelo tendra que ser una hiptesis mltiple, que por el momento no es de inters llegar a detallar. Lo importante en este punto es recordar que la hiptesis nula es de consecuencias estadsticas definidas. En este caso la consecuencia de la hiptesis nula, es que el modelo estadstico se reduce a: Y ij
ij Al que se le llama el modelo reducido. Para probar esta hiptesis el razonamiento que se sigue es evaluar la magnitud de los errores en ambos modelos y determinar que tanto impacto tienen los efectos de tratamiento. Si la reduccin en los errores es importante, entonces el efecto de los tratamientos se declara significativo. Por el contrario, si la magnitud de los errores prcticamente es la misma en ambos modelos, esto significa que los efectos de tratamiento no contribuyen a explicar la respuesta, y por lo tanto son declarados no significativos. Anlisis de los datos: El anlisis de los datos de un diseo experimental siempre se lleva a cabo mediante la tcnica del anlisis de varianza. Para aplicar esta tcnica se requiere del ajuste de los dos modelos al mismo conjunto de observaciones, el completo y el reducido bajo la hiptesis nula, para despus comparar la magnitud de los errores obtenida en ambos modelos. El ajuste de un modelo consiste en estimar sus parmetros, es decir todos aquellos componentes del modelo que no incluyan la secuencia completa de subndices usada en la variable de respuesta. En otras palabras, el nico componente que no se estima en el ajuste del modelo es el que corresponde al error experimental. En el ajuste del modelo se deben tener en cuenta las siguientes caractersticas tanto del conjunto de observaciones como del modelo que se desea ajustar: 1. Nmero total de observaciones: Corresponde al nmero total de valores en el diseo experimental. Vamos a denotar este nmero con la letra n. 2. Numero de parmetros independientes en el modelo que se ajusta: Parmetros independientes son aquellos que no estn sujetos a las restricciones impuestas por la definicin de los parmetros. Por ejemplo el modelo reducido solo tiene un parmetro, que es independiente; en el modelo completo del diseo completamente al azar se impone la i=1 i = 0, por lo que el nmero de parmetros independientes seria t-1. A estos faltara sumar el parmetro , por lo que entonces serian t parmetros independientes. 3. Grados de libertad para el modelo ajustado: Se refiere al nmero de componentes independientes en el conjunto de datos despus de haber ajustado un modelo. Los grados de libertad se van reduciendo a medida que se introducen ms componentes en un modelo. Estos grados de libertad son los que permiten estimar la varianza del error, por lo que se recomienda en general que no deben ser inferiores de 10 a 12 en el modelo completo. Se estiman como: G.L. = n parmetros independientes en el modelo. Para el modelo completo de un diseo completamente al azar se tiene: G.L. = n t Para el modelo reducido se tienen: G.L.= n 1 Al revisar la estructura del modelo reducido y el modelo completo se puede deducir que los resultados de las diferencias entre el modelo reducido menos el modelo completo se pueden atribuir al trmino que corresponde al efecto de los tratamientos. Entonces: G.L.Trat = t 1 Estos grados de libertad son de particular importancia, ya que indican el nmero de parmetros independientes en un modelo ajustado al conjunto de datos, tomando como variables independientes los tratamientos. Si el factor es cuantitativo, entonces los grados de libertad indican el grado mximo de polinomio en el modelo de regresin; si se trata de un factor cualitativo, entonces los grados de libertad en los tratamientos indica el nmero mximo de comparaciones independientes entre los niveles del factor.
Con esta informacin podemos empezar a generar la tabla de anlisis de varianza, que resume el ajuste de modelos y sus comparaciones. Para el diseo completamente al azar, las fuentes de variacin bsicas que se incluyen son:
Tratamientos Error Total.
El total corresponde al ajuste del modelo reducido. De esta manera cuando requiramos los grados de libertad del total, sern los grados de libertad al ajustar el modelo reducido, esto es n-1.
El error corresponde al ajuste del modelo completo. Cuando hablemos de los grados de libertado en un diseo completamente al zar, entonces se calcularan como n t.
Hasta aqu el anlisis de varianza solo requiere de la informacin de cuantas observaciones comprende el conjunto de datos y cuantos tratamientos van a ser incluidos. Para el resto del anlisis se requiere ya del procesamiento de los datos y ajuste de los modelos.
Ajuste de modelos por mnimos cuadrados ordinarios: Los modelos de anova se ajustan por mnimos cuadrados ordinarios, llamados as porque el ajuste se lleva a cabo bajo las suposiciones convencionales de anlisis, esto es, suponiendo normalidad, independencia y homogeneidad de varianzas en el componente de error. Una suposicin adicional es la aditividad de los componentes del modelo. Los pasos para llevar a cabo el ajuste son los siguientes: 1. Definir el modelo que se va a ajustar. 2. Definir las restricciones que se imponen en los parmetros del modelo. 3. Obtener la expresin para el error experimental despejando este termino del modelo que se vaya a ajustar. 4. Obtener la expresin para la suma de cuadrados de los errores. 5. Derivar la expresin de la suma de cuadrados de los errores con respecto a cada uno de los parmetros del modelo. 6. Igualar a cero las derivadas, para generar las ecuaciones normales de mnimos cuadrados. 7. De las ecuaciones normales de mnimos cuadrados se despejan los estimadores de los parmetros. Vamos a considerar el modelo reducido del diseo completamente al azar para ejemplificar los pasos del ajuste de un modelo: 1. Modelo que se va a ajustar: Y ij
ij 2. Restricciones en los parmetros: No hay restricciones. 3. ij = Y ij - i j ij 2
i j (Y ij ) 2 5. i j (Y ij )(-1). 6. Ecuacin normal de mnimos cuadrados: - i j (Y ij ) = 0 7. Estimador del parmetro: Media general de las observaciones. Este proceso de estimacin es para obtener las expresiones algebraicas de los estimadores de mnimos cuadrados ordinarios y solo es necesario desarrollarlo cuando estas se desconozcan, ya que si se tienen a la mano, pues solo restara aplicarlas al conjunto particular de observaciones. Por otro lado si se tiene un paquete estadstico disponible, lo nico que hara falta es cargar adecuadamente los datos y darle correctamente las instrucciones para que genere los estimadores y todo el anlisis completo. Por estas razones vamos a enfocar la atencin al manejo del paquete para captura y anlisis de resultados ms que a la teora para generar estimaciones.
Sumas de cuadrados en la tabla de anlisis de varianza: Una vez que los estimadores de los parmetros del modelo han sido obtenidos, pueden obtenerse los valores ajustados para cada una de las observaciones, a los que se les denominan los valores predichos. Por diferencia de los observados menos los predichos se obtienen los residuales o errores estimados para cada una de las observaciones. Al elevar al cuadrado cada uno de los residuales se obtienen solo cantidades positivas, que al sumarlas generan las sumas de cuadrados de los errores para el modelo ajustado. En cuanto a las sumas de cuadrados de los errores de un modelo ajustado se deben hacer las siguientes observaciones: a). Mientras ms reducido sea el modelo ajustado, esto es, mientras menor sea el nmero de parmetros que contiene, la suma de cuadrados de los errores tendera a ser mayor. b). Cada suma de cuadrados de los errores tiene asociados un cierto nmero de grados de libertad, que como ya se discuti, se calculan por la diferencia del nmero de observaciones menos el nmero de parmetros independientes que se van a estimar c). La suma de cuadrados de los errores refleja, en general, que tan separados estn los valores observados de los valores ajustados por el modelo. d). Al comparar las sumas de cuadrados de los errores de un modelo reducido contra un modelo completo, la diferencia puede ser atribuida a los componentes que aparecen en el modelo completo pero que no aparecen en el modelo reducido. As entonces en el diseo completamente al azar, la diferencia entre el modelo reducido Y ij ij y el modelo completo Y ij i ij se puede atribuir al efecto de los tratamientos, y esta suma de cuadrados tiene asociados t-1 grados de libertad. Hasta aqu podemos construir la tabla de anlisis de varianza para un diseo completamente al azar, con las siguientes columnas:
Fuente de variacin Grados de libertad Suma de cuadrados Tratamientos t-1 Diferencia. Error n-t S.C.E. modelo completo Total n-1 S.C.E. modelo reducido
Estadstica de prueba en el anlisis de varianza: A partir de estas columnas en el anlisis de varianza, que fueron generadas en base a la informacin colectada de los datos y del ajuste de los modelos, se calcula otra columna encabezada por el ttulo de cuadrados medios, que contiene el estimador de varianza para cada fuente de variacin. Como cualquier varianza, estas cantidades se calculan como el cociente de la suma de cuadrados entre sus grados de libertad. Finalmente, la estadstica de prueba que se utiliza en el anlisis de varianza es una F, el cociente de dos varianzas, a partir de la cual se va a poder tomar una decisin acerca de la hiptesis planteada en trminos de los efectos de tratamientos. La F calculada es el cociente del cuadrado medio de tratamientos entre el cuadrado medio del error. En los paquetes estadsticos una columna adicional es agregada a la tabla de anlisis de varianza para mostrar el valor de probabilidad, es decir, la probabilidad de obtener un valor de F mayor o igual a la F calculada. Con este nico valor es posible llegar a una decisin acerca de la hiptesis, al compararlo con el nivel de significancia de la prueba. Las decisiones basadas en este criterio son: Rechazar Ho si el valor de probabilidad es menor o igual al nivel de significancia de la prueba. No rechazar Ho si el valor de probabilidad es mayor que el nivel de significancia de la prueba.
Ejemplo numrico 1: Observaciones de la produccin de una reaccin qumica tomada a diferentes temperaturas fue registrada como sigue: 150 77.4 150 76.7 150 78.2 200 84.1 200 84.5 200 83.7 250 88.9 250 89.2 250 89.7 300 94.8 300 94.7 300 95.9
La primer columna representa los niveles de temperatura que se incluyeron en el experimento y la segunda columna los valores correspondientes a la produccin de la reaccin qumica. Como puede ser observado, se realizaron tres repeticiones por cada uno de los cuatro niveles de temperatura. Para empezar un anlisis exploratorio del comportamiento de los datos, siempre es recomendable graficar las observaciones contra los niveles del factor bajo estudio. En este caso la grfica resulta ser
Dos patrones son los que deben ser observados en una grfica exploratoria: 1. La tendencia o patrn general de las observaciones. Debe ser identificado el comportamiento de los datos de acuerdo a los niveles del factor bajo estudio. Aqu observamos que a medida que aumenta la temperatura la produccin de la reaccin tambin aumenta de manera muy consistente, esto es, que se tiene un comportamiento lineal de la produccin con respecto a los niveles de temperatura. 2. Observaciones que se salen del patrn general de tendencia: En estas graficas exploratorias tambin pueden ser identificadas aquellas observaciones que no siguen el patrn de comportamiento. Estas observaciones deben ser cuidadosamente tratadas y checadas, pues en la gran mayora de las ocasiones son resultado de un error, ya sea en el experimento, a la hora de registrar, o inclusive capturar la informacin. En este ejemplo, como puede ser observado en la grfica, todas las observaciones siguen el mismo comportamiento de tendencia lineal.
75 80 85 90 95 100 100 150 200 250 300 350 Serie1 El anlisis de los datos consiste de los siguientes puntos, que corresponden a los de una prueba de hiptesis: 1. Establecer las hiptesis: Ho: Todos los efectos de tratamiento son iguales a cero. Ha: al menos uno de los efectos de tratamiento es diferente de cero. 2. Llevar a cabo la tabla de anlisis de varianza. Anlisis de varianza de un factor ANLISIS DE VARIANZA Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilid ad Valor crtico para F Entre grupos 510.45666 7 3 170.152222 511.7360 07 1.7736E- 09 4.066180 56 Dentro de los grupos 2.66 8 0.3325
Total 513.11666 7 11
3. Cantidades bsicas del anova: 3.1 Coeficiente de determinacin R-cuadrado: 3.2 Desviacin estndar del error: 3.3 Probabilidad de un valor mayor de F: El coeficiente de determinacin R-cuadrado es el porcentaje de variacin explicado por el efecto de los tratamientos. Se calcula como una regla de tres directa, en la que la suma de cuadrados del total es al 100 % como la suma de cuadrados de tratamientos es al coeficiente de determinacin. Para nuestro ejemplo: 513.116667 100% 510.456667 Coeficiente de determinacin
R-Cuadrado = 510.456667100 = 99.4816 513.116667 Lo que significa que el 99.48 % de la variacin en el conjunto de observaciones est siendo explicado por la variacin en la temperatura y solo el 0.52 % se debe a los factores de error. La varianza del error lo constituye el cuadrado medio del error y la desviacin del error se calcula como la raz cuadrada de la varianza, siendo en este caso S = 0.5679 La probabilidad mayor de un valor de F es lo que se denomina el valor de P o nivel de significancia observado, valor que nos permite tomar una decisin sobre la hiptesis acerca del efecto de los tratamientos. En este caso el valor es P = 1.7736E-09 Aun cuando parece mayor que uno, el componente E-09 indica que hay ocho cero antes de la parte entera, lo que representa un valor muy inferior al 0.05 que consideramos como nivel de significancia de la prueba, por lo cual la hiptesis nula es rechazada, y por lo tanto se concluye que los tratamientos si tienen un efecto significativo sobre la respuesta. Ya que se trata de un factor cuantitativo, la mejor manera de investigar el efecto de los tratamientos es a travs de una regresin polinomial, checando hasta que nivel de tendencia llega a ser significativa.
Ejemplo numrico 2: Los datos siguientes se refieren a las prdidas de peso de ciertas piezas mecnicas (en miligramos) debidas a la friccin cuando tres diferentes lubricantes se utilizaron en condiciones controladas. El lubricante C es el que se ha estado usando en el proceso, y ahora se desea evaluar dos nuevas posibilidades, el lubricante A y el lubricante B. Lubricant e Desgaste A 12.2 A 11.8 A 13.1 A 11 A 3.9 A 4.1 A 10.3 A 8.4 B 10.9 B 5.7 B 13.5 B 9.4 B 11.4 B 15.7 B 10.8 B 14 C 12.7 C 19.9 C 13.6 C 11.7 C 18.3 C 14.3 C 22.8 C 20.4
Anlisis exploratorio: Mediante una grfica de barras con su error estndar, podemos determinar el comportamiento de desgaste y la variabilidad en el conjunto de observaciones.
Como puede observarse en la grfica, los patrones de dispersin dentro de cada lubricante son muy parecidos (por la similitud en las barras de error estndar). Puede observarse tambin que el lubricante de mayor valor en la respuesta es el C, seguido en orden decreciente por el lubricante B y el de ms baja respuesta en promedio el lubricante A. Planteamiento de la hiptesis: Promedios de desgaste 0 2 4 6 8 10 12 14 16 18 20 A B C Tipo de lubricante D e s g a s t e
( m g s ) Ho: Las medias de desgaste por friccin bajo los tres lubricantes empleados son iguales. Ha: Al menos una media de desgaste asociada a un lubricante es diferente. Modelo estadstico para este conjunto de datos: Bajo la Ha el modelo es el correspondiente a un diseo completamente al azar: Y ij
i ij Y ij corresponde al valor del desgaste en la repeticin j del tratamiento i. es la media general del desgaste. i es el efecto del lubricante i. ij es el error experimental en la repeticin j del lubricante i.
i=1,2,3 j=1,2,,8
Anlisis de varianza para probar la hiptesis: ANLISIS DE VARIANZA Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilid ad Valor crtico para F Entre grupos 230.58583 3 2 115.292917 8.746815 21 0.001724 72 3.466800 11 Dentro de los grupos 276.80375 21 13.181131
Total 507.38958 23 3
R-Cuadrado = 0.4544 Lo que significa que los lubricantes explican el 45 % de la variacin en el conjunto de datos. El 55 % se debe a factares no considerados en la investigacin. Desviacin estndar = 3.6306 que es el promedio del error en nuestro conjunto de datos bajo el modelo completo. Error estndar de la media = 1.2836 Lo que viene a confirmar el patrn de similitud en la variacin de desgaste dentro de cada lubricante, al obtener un error estndar muy similar a partir del anlisis de varianza, con los ya obtenidos para cada lubricante por separado. Valor de P = 0.0017 Que por ser menor al nivel de significancia de la prueba (0.05) se toma la decisin de rechazar Ho y concluir que las medias de desgaste en los tres lubricantes no son iguales. Esto implica que el lubricante entonces si tiene un impacto en el nivel de desgaste, por lo cual debemos investigar el patrn de variacin entre lubricantes y poder llegar a tomar una decisin acerca de cul lubricante es el ms conveniente para conservar las piezas de la maquinaria. DISEO COMPLETAMENTE AL AZAR DESBALANCEADO Algunas veces es posible que el nmero de rplicas de cada tratamiento sea diferente y as cada tratamiento tendr rplicas Estos diseos se pueden presentar en el caso que se est comparando un control contra otros tratamientos ya que queremos obtener buena informacin acerca del control, por ello este tendr ms replicaciones que los otros tratamientos (Cuntas?, Ver Montgomery). Otro caso en el que suele presentarse es cuando entre los tratamientos algunos son ms importantes que otros. Otra razn es cuando la observacin de alguna UE por algn motivo se pierde. El modelo sobre el cual se basa el anlisis est dado por:
Ejemplo Se realiz un experimento para determinar la influencia de dos medicamentos sobre el tiempo en realizar una tarea por parte de unos estudiantes. Los datos se presentan a continuacin:
DISEO EN BLOQUES COMPLETOS AL AZAR
Cuando las unidades experimentales no son homogneas en alguna de las variables identificadas como de impacto importante sobre la respuesta, o bien, las condiciones fsicas en que se lleva a cabo el experimento no son totalmente uniformes, entonces se puede emplear un diseo en bloques para asegurar comparaciones ms justas entre los tratamientos. La idea de un bloque en diseo de experimentos se refiere a un conjunto de unidades experimentales que tienen valores muy similares en cuanto a la variable de bloqueo, o bien que estn bajo condiciones experimentales muy similares. Una variable de bloqueo es una caracterstica de las unidades experimentales o del ambiente fsico donde se lleva a cabo el experimento, que se ha identificado como de impacto importante en la variable de respuesta. Esto es, valores diferentes en la variable de bloqueo, tienen efecto sobre la variable de respuesta. Por esto, si no se controlan a travs del diseo de experimentos, puede enmascarar el efecto de los tratamientos. Una variable de bloqueo debe ser seleccionada de acuerdo al tipo de experimento que se est llevando a cabo y a las variables de respuesta que se estn evaluando. A menudo las unidades de equipo de prueba o maquinas son diferentes en sus caractersticas de operacin y constituyen un factor tpico que es necesario controlar. Lotes de materia prima, personas o tiempo son posibles fuentes de variacin que pueden ser controladas mediante un arreglo geomtrico en bloques al azar. Por ejemplo, si se desea evaluar las caractersticas organolpticas en pasta de manzana para pasteles, elaborados con diferentes edulcorantes; se debe considerar como variables importantes que las impactan, a la variedad de la manzana, el nivel de madurez del fruto, o inclusive la regin de donde se cosecho. Todas estas variables pudieran ser controladas como variables de bloqueo, para obtener una estimacin ms pura del efecto de los tratamientos. Una condicin que debe conservarse para que este diseo sea vlido, es que no debe haber un efecto cruzado entre las variables de bloqueo y las variables de respuesta. Esto implica que el efecto de un tratamiento se modifica por los bloques de manera proporcional en todos los tratamientos. Esto permite identificar diferencias de tratamientos, independientemente del bloque. En un diseo en bloques completos al azar cada bloque generado debe contener un nmero de unidades experimentales igual al nmero de tratamientos, ya que cada bloque debe contener a todos los tratamientos. Los bloques en este diseo constituyen las repeticiones del experimento. Para poder llevar a cabo el arreglo geomtrico en bloques al azar, es necesario conocer el valor de la variable de bloqueo en cada una de las unidades experimentales, para poder agruparlas en base a esta informacin y construir los bloques, que deben quedar con valores muy similares en la variable(s) de bloqueo. Es necesario tambin saber que la variable de bloqueo no tiene un efecto cruzado con la variable de respuesta que se est evaluando, esto es, el valor de la variable de bloque no modifica el efecto de los tratamientos.
Ventajas del diseo en bloques con respecto al diseo completamente al azar: 1. Con un agrupamiento efectivo, el diseo en bloques puede generar resultados sustancialmente ms precisos de los que arrojara un diseo completamente al azar de tamao comparable. En otras palabras, el error experimental se puede controlar a niveles ms bajos con el diseo en bloques. 2. La variabilidad de las unidades experimentales, o de las condiciones fsicas donde se lleva a cabo el experimento, puede ser deliberadamente introducida para ampliar el rango de validez de los resultados experimentales sin sacrificar precisin. Desventajas del diseo en bloques comparado con el diseo completamente al azar: 1. Los grados de libertad para el error experimental no son tan grandes como en un diseo completamente al azar. Un grado de libertad es perdido para cada bloque despus del primero. 2. Mas suposiciones son requeridas para el modelo (varianza constante de bloque a bloque y no efecto cruzado de bloque y tratamiento) que para un diseo completamente al azar.
Aleatorizacion: Una vez que los bloques han sido formados, con unidades experimentales lo ms parecido posible en cuanto a la variable de bloqueo, cada bloque se considera como un grupo muy homogneo de unidades experimentales, pero con un alto grado de variacin entre bloques. La forma de asignar tratamientos a las unidades experimentales es al azar e independientemente dentro de cada bloque. Modelo estadstico: El modelo completo de un diseo en bloques al azar contiene los efectos de tratamiento (como en el completamente al azar) y el de los bloques, dado por Y ij
i + j
ij I=1,2,,t; j=1,2,,b Y ij Es la variable de repuesta en el bloque j y el tratamiento i. Es la media general del experimento. i Es el efecto del tratamiento i.
j Es el efecto del bloque j. ij es el error experimental en el bloque j y el tratamiento i.
Hiptesis del investigador: La hiptesis que se desea probar bajo este arreglo experimental es: i = 0 para toda i). Ha: al menos un efecto de tratamiento es diferente de cero. En relacin al efecto de los bloques, debemos ser claros de que no se deseaba investigar su efecto, solo se emple como una forma de controlar la variabilidad en las unidades experimentales, con la finalidad de hacer mas sensible el experimento, es decir, poder detectar efecto de tratamientos cuando verdaderamente existan. De esta manera, no se plantea una hiptesis asociada el efecto de los bloques. Tampoco es posible probarla, ya que prcticamente no se tienen repeticiones de bloques. Cabe hacer mencin que si se tuvieran repeticiones de bloques, entonces el experimento dejara de ser bloques para convertirse en un arreglo de tratamientos factorial, y en este caso la variable de bloqueo ya pasara a ser un factor. ANOVA en el diseo en bloques al azar: El anlisis de varianza en un diseo en bloques al azar debe incluir las fuentes de variacin de tratamientos y la fuente de variacin de bloques, adems del error y total. Debe considerarse las restricciones en los parmetros, dadas por: 1. i = 0 2. j = 0 El arreglo en un diseo en bloques completos al azar y que no tenga datos perdidos, siempre tendr un numero de observaciones igual al producto del nmero de bloques por el nmero de tratamientos (n = t b). Entonces el anova se construye como
Fuente de variacin Grados de libertad Suma de cuadrados Bloques b-1 Diferencia (1) Tratamientos t-1 Diferencia (2). Error (t-1)(b-1) S.C.E. modelo completo Total n-1 S.C.E. modelo reducido
Los paquetes estadsticos en general reportan dos tipos de sumas de cuadrados en un anova, denominadas las secuenciales y las ajustadas. Estos nombres hacen referencia a la forma en que cada una es calculada. En el caso de las secuenciales, son calculadas mediante la diferencia en sumas de cuadrados de los errores de modelos conteniendo trminos adicionales, empezando con el modelo reducido y hasta llegar al modelo completo. As para un diseo en bloques al azar la secuencia de modelos serian: 1. Y ij
ij 2. Y ij = + j
ij 3. Y ij
i + j
ij La suma de cuadrados secuencial para bloques seria la suma de cuadrados del error en el modelo (1) menos la suma de cuadrados del error en el modelo (2). La suma de cuadrados secuencial para tratamientos seria la suma de cuadrados del error en el modelo (2) menos la suma de cuadrados del error en el modelo (3). En estas sumas de cuadrados, la de tratamientos seria ajustada por la presencia de los bloques, ya que se calcul como la diferencia con respecto a un modelo conteniendo el efecto de los bloques. Los modelos requeridos para el clculo de las sumas de cuadrados ajustadas serian: 1. Y ij
ij 2. Y ij = + j
ij 3. Y ij
i
ij 4. Y ij
i + j
ij La suma de cuadrados ajustada por efecto de los tratamientos se calcula por la diferencia en la suma de cuadrados de los errores del modelo 3 menos la suma de cuadrados del error del modelo 4. La suma de cuadrados ajustada para los efectos de tratamiento se calculara por la diferencia en las sumas de cuadrados de los errores del modelo (2) menos la del modelo (4). Cuando el diseo esta balanceado estas sumas de cuadrados coinciden. Las diferencias se presentan cuando el diseo esta desbalanceado, y en este caso se deben considerar para la prueba de hiptesis las sumas de cuadrados ajustadas.
Ejemplos Numricos. 1. Una compaa constructora desea probar la eficiencia de 3 tipos de aislantes diferentes. Ya que el rea sobre la que la compaa construye se caracteriza por diferencias importantes en el clima, la compaa ha dividido, en base a esta caracterstica, el rea en 4 regiones geogrficas. Dentro de cada regin geogrfica usa aleatoriamente cada uno de los tres aislantes y registra la perdida de energa como un ndice. Valores ms pequeos del ndice corresponden a perdidas ms bajas de energa. Aislante R.G. 1 R.G. 2 R.G. 3 R.G. 4 1 19.2 12.8 16.3 12.5 2 11.7 6.4 7.3 6.2 3 6.7 2.9 4.1 2.8
La hiptesis que se desea probar es: Ho: No hay diferencias en el valor promedio del ndice de perdida de energa i = 0 para toda i). Ha: Al menos el promedio del ndice de perdida de energa para uno de los i 0). Una grfica para explorar las caractersticas de los datos es muy recomendable. En este caso conviene graficar las observaciones de los tres aislantes para cada regin por separado, para determinar si el efecto de los tratamientos es proporcional en todos los bloques.
Podemos observar el comportamiento muy homogneo de los aislantes en cada una de las regiones geogrficas, lo cual implica que no existe un efecto cruzado de regin con aislante, con lo que se cumple uno de los requisitos fundamentales para aplicar el diseo en bloques. Se puede observar que el Valores de perdida de energia 0 5 10 15 20 25 R.G. 1 R.G. 2 R.G. 3 R.G. 4 Region Geografica P e r d i d a
d e
e n e r g i a Aislante 1 Aislante 2 Aislante 3 aislante 1 es el de mayores prdidas de energa, seguido del aislante 2 y el de menor perdidas de energa es el aislante 3.
El siguiente paso es llevar a cabo el anlisis de varianza para probar la hiptesis acerca del efecto de los tratamientos.
Origen de las variacion es Suma de cuadrado s Grados de libertad Promedio de los cuadrado s F Probabilid ad Aislantes 253.595 2 126.7975 170.8989 14 5.1342E- 06 Regiones 55.63583 33 3 18.54527 78 24.99550 73 0.000864 44 Error 4.451666 67 6 0.741944 44
Total 313.6825 11
El nivel de significancia para el efecto de los aislantes es 5.13E-6, que es un valor menor de 0.05 (P<.05) lo que conduce al rechazo de la hiptesis nula, por lo que se concluye que los tipos de aislantes tienen un impacto importante en la media de prdidas de energa.
El siguiente paso es detectar cuales son las diferencias entre los aislantes. Ya que nada es especificado acerca de la naturaleza de los aislantes, lo nico que procede es una comparacin de todas contra todas las medias, usando la prueba honesta de Tukey.
Construimos primero las medias de la variable perdida de energa por aislante: RESUME N Repeticion es Suma Promedio Varianza Aislante 1 4 60.8 15.2 10.08666 67 Aislante 2 4 31.6 7.9 6.646666 67 Aislante 3 4 16.5 4.125 3.295833 33
Calculamos el error estndar de las medias: 0.4307 Valor de la tabla de rangos estudentizados, con 3 medias, 6 grados de libertad para el error y un nivel de significancia de 0.05: 4.34 Calculamos el valor de HSD: 1.8692 Enseguida, se construye la tabla de diferencias de medias: 7.9 (2) 15.2 (1) 4.125 (3) (2)-(3) = 3.775 * (1)-(3) = 11.075 * 7.9 (2) (1)-(2) = 7.3 * * Diferencia significativa (P<.05) De estos resultados se concluye que las 3 medias son estadsticamente diferentes, y por lo tanto, podemos hacer una seleccin del mejor aislante desde el punto de vista de la variable de inters, perdida de energa. Ya que el aislante tiene por objetivo la conservacin de la energa, el mejor es aquel en el que las prdidas son mnimas, por lo que tomamos la decisin de que el mejor aislante es el tipo 3.
BIBLIOGRAFA: Introduccin: http://www.galeon.com/colposfesz/est501/dca/dca.htm Aleatoriedad y diseo de experimentos Pag: http://orton.catie.ac.cr/repdoc/A0023S/A0023S09.PDF Experimentacin agrcola Pag:http://www.ujcm.edu.pe/bv/links/cur_agronomica/ModExperimentacionAgricola .pdf Diseo completamente al azar desbalanceado http://www.virtual.unal.edu.co/cursos/ciencias/2000352/html/un2/cont_208-28.html https://www.google.com.mx/url?sa=t&rct=j&q=&esrc=s&source=web&cd=9&cad=rj a&uact=8&ved=0CFkQFjAI&url=http%3A%2F%2Fwww.fcq.uach.mx%2Findex.php %2Fdocumentos%2Fcategory%2F60ioestadistica%3Fdownload%3D387%3Adisen ioexperimentos%26start%3D20&ei=zEESMDqe0sQSmkoD4AQ&usg=AFQjCNGC 849ChdX1agduapCRSQc62FzmUQ