Escolar Documentos
Profissional Documentos
Cultura Documentos
DISEODEEXPERIMENTOS:
UNAINTRODUCCINPRAGMTICA
REALIDAD
FENMENO
?
HIPTESIS
MODELODELAREALIDAD
DESCRIPCINYEVALUACIN
S DISEODEEXPERIMENTOS
DELOSRESULTADOSDEL
PARAPROBARLAHIPOTESIS
EXPERIMENTO
AJUSTEDELMODELO? CONCLUSIONES
NO
NUEVASPREGUNTAS EXPLICACIN
Este esquema explica que el mtodo cientfico exige la presentacin de evidencia experimental
para validar hiptesis formuladas al respecto de un fenmeno natural, proceso o problema que
se busca solucionar. Ms especficamente, el mtodo cientfico est basado en la recoleccin de
datos fiables y reproducibles que puedan ser contrastados con hiptesis postuladas sobre
determinado fenmeno natural o a la solucin de un problema dado. A diferencia de los
enfoques dogmticos, la prctica del mtodo cientfico siempre lleva a nuevas preguntas ms
profundas y refinadas sobre la naturaleza. Es decir, el mtodo cientfico es una herramienta de
perfeccionamiento del conocimiento. En ingeniera, esto se traduce en el mejoramiento continuo
y optimizacin de un proceso, una tcnica, un diseo; en innovacin.
Existen dos maneras principales de disear buenos experimentos cumpliendo los postulados
presentados arriba. La primera es la metodologa clsica de diseo de experimentos, en la cual el
investigador elige las variables de inters e investiga sus efectos sobre el problema abordado uno
a la vez. Esta ha sido muy exitosa en la historia de la ciencia y en el desarrollo de nuevas
tecnologas y procesos. Sin embargo, es un mtodo muy intuitivo y que requiere muchsima
experiencia por parte del investigador para lograr resultados de mxima confiabilidad. En
contraste, la segunda metodologa; que constituye el objeto de este curso, se basa en una serie
de tcnicas donde la combinacin de diversas condiciones experimentales permite la generacin
de datos que pueden ser analizados por mtodos estadsticos. Estos mtodos tienen la fortaleza
de brindar una mayor objetividad a la hora de evaluar tanto las hiptesis planteadas al inicio del
estudio como la calidad misma de la informacin recolectada. Adems, los datos generados
pueden ser sujetos tambin a los mismos mtodos de anlisis que se usan en la metodologa
clsica de diseo de experimentos. Comparativamente entonces, las tcnicas estadsticas de
diseo de experimentos ofrecen la informacin ms rica posible al menor costo (o esfuerzo)
experimental. En este curso, el trmino DdE se aplicar exclusivamente a esta de manera realizar
experimentos y se mostrarn al estudiante sus fundamentos y aplicacin en el anlisis y solucin
de problemas de ingeniera qumica.
Para realizar diseos de experimentos es necesario saber leer. Leer aqu se entiende en dos
sentidos: (i) la capacidad de delimitar un problema a partir del conocimiento previo de principios
Ejemplo cotidiano
Hiptesis: Si subo la temperatura de llama del fogn (variable de entrada) hervir ms
rpido el sancocho (variable respuesta: tiempo para alcanzar el punto de ebullicin del
sancocho).
Por otro lado, es importante aprender a hacer las siguientes distinciones sobre la naturaleza de
las variables. Primero, las variables; de entrada o de respuesta, pueden ser cuantitativas o
cualitativas. Una variable cuantitativa es aquella que puede medirse con una escala numrica
estandarizada. Una variable cualitativa es aquella que est sujeta a una clasificacin que puede o
no estar asociada a una escala numrica. Tanto las variables cuantitativas como las cualitativas
pueden ser de carcter aleatorizable o no aleatorizable. Las variables cuantitativas son
comnmente de carcter aleatorizable pues pueden asumir cualquier valor numrico en el
conjunto de los nmeros reales. As, variables como temperatura, presin, concentracin de un
compuesto o elemento en una mezcla son muy frecuentemente aleatorizables. Sin embargo, el
lector debe que el principal factor que define si una variable es aleatorizable es la posibilidad de
seleccionar valores de esta de entre una poblacin determinada. De la identificacin adecuada
Ejemplo conceptual
Como ingeniero responsable de la operacin de la unidad de
hidrotratamiento (HDT) cataltico de una refinera, la
gerencia le solicita hacer un plan experimental para
determinar las condiciones de temperatura, flujo y presin
necesarias para operar el proceso con la ms alta eficiencia
posible. A continuacin, se presenta un diagrama de la unidad
de hidrotratamiento:
Solucin
En este prrafo est encerrada gran parte de la informacin clave en la solucin del
problema. Se presenta el sistema a estudiar: la unidad de hidrotratamiento.
El diagrama del sistema es otra pieza clave en la solucin del problema ya que seala
condiciones necesarias para plantear un diseo experimental apropiado. En particular,
un acercamiento al diagrama permite ver que la unidad est compuesta de dos
reactores. La entrada del alimento al sistema se hace por el Reactor 1 y es nica. El
producto de este reactor es enviado al Reactor 2; de donde sale la corriente de producto
final. Es importante notar aqu que, en el contexto del diseo experimental, tendramos
una nueva variable cualitativa no aleatorizable: el reactor donde se realiza el proceso. En
principio, la variable reactor tendra dos niveles y sera otra variable de entrada en el
diseo experimental.
Este prrafo da ms informacin sobre el proceso. Del texto, aparecen resaltadas pero
tachadas: objetivo del HDT, eliminar y azufre, nitrgeno y
metales. La razn para tachar esta informacin es porque no debe olvidarse que la
eliminacin de azufre, nitrgeno y metales son expresiones de la variable respuesta a
estudiar: Eficiencia. Por otra parte, el hecho que se solicite considerar los dos reactores
indica que se deben tomar como niveles de la variable interferencia: reactor.
Ejercicios
1. Identifique y clasifique (elabore una tabla como la del ejemplo) de manera adecuada las
variables implicadas en los siguientes enunciados. En adicin, prepare un informe donde
presente los fundamentos de ingeniera de los procesos estudiados.
(i). La verde promesa de los biocombustibles se ha ido tornando cada vez ms gris
(http://spectrum.ieee.org/energy/renewables/biofuels-arent-really-green). Las causas de ello
estn ligadas a que grandes extensiones de tierras han sido taladas o estn en riesgo de serlo para
el monocultivo intensivo de plantas como la caa de azcar. Tambin, estudios sobre el ciclo de
vida de algunos de los productos derivados de la biomasa (Green Chem., 2015,17, 343-355)
muestran que su impacto ambiental puede ser mayor al que tienen los combustibles fsiles. En
adicin, los biocombustibles presentan una composicin qumica; alta concentracin de
insaturados, que los hace susceptibles a una rpida degradacin de su poder calorfico. Para tratar
de reducir el efecto negativo de la oxidacin de insaturados, se deben agregar antioxidantes al
biodiesel.
(ii). De acuerdo a Aprem et al (J Elastomers Plastics 35 (2003) 29), la vulcanizacin del caucho
es un proceso qumico de alta complejidad donde ocurren reacciones entre el caucho natural,
azufre mineral y ciertos aditivos qumicos; como, por ejemplo, los aceleradores. Gracias a las
reacciones qumicas que se llevan a cabo se produce un entrecruzamiento de las cadenas
polimricas del caucho natural y ste se transforma de un material suave y fcilmente deformable
a uno muy fuerte y elstico.
(iii). Un muy interesante proyecto UIS corresponde a la obtencin de aceites esenciales (AAEE)
por parte del CENIVAM (https://www.youtube.com/watch?v=jsrfmssbvFg). El CENIVAM
busca mejorar la extraccin de estos aceites a partir de plantas como la palmarrosa (tambin
conocida como limoncillo, en la Costa Caribe).
(iv). Con el despertar de la consciencia global respecto a las consecuencias negativas del cambio
climtico, tanto la comunidad acadmica como la industria han hecho inversiones importantes
en el desarrollo de tecnologas para la reduccin y aprovechamiento de emisiones de gases de
invernadero. En el caso particular de los pozos y refineras petroleras, estos estn obligados a
eliminar excedentes de gases combustibles livianos como metano, etano, propano y butano,
denominados VOCs (Volatile Organic Compounds), mediante su combustin a altas
temperaturas debido a normas ambientales respecto a su emisin y a que stos tienen un mucho
ms alto potencial de invernadero comparados con el CO2. Sin embargo, esta solucin
tradicional es slo un paliativo al problema principal y demanda una solucin tecnolgica que
permita eliminar los VOCs a baja temperatura y alta selectividad hacia CO2 (hidrocarburos como
el metano tienen un potencial de gas de invernadero muy superior al del CO2). En respuesta a
esta problemtica, se plantea un proyecto para el desarrollo de una alternativa que permita
realizar la combustin cataltica de VOCs.
Modelo tpico de un reactor cataltico de combustin. Tomado de:
http://pdf.directindustry.com/pdf/ecochimica-system/catalytic-combustion-plant/90121-601969.html
La evidencia en la literatura permite postular la hiptesis de que el objetivo del proyecto se puede
lograr mediante el desarrollo de materiales catalticos basados en xidos mixtos. La sintonizacin
de tres de las propiedades clave de estos materiales: especficamente, el rea especfica, la
capacidad xido-reductora, y el tamao de partcula, permitir obtener los mejores valores de las
variables respuesta del problema en trminos de desarrollar un proceso de alta eficiencia.
(v). Las zeolitas son materiales cristalinos con un altsimo nivel de organizacin. Gracias a ello,
poseen redes porosas con tamaos que pueden llegar a la escala molecular (dimetros entre 0.3
y 1.0 nm). Adems, su estructura qumica; basada en combinaciones de tomos de silicio y
aluminio, les confieren una excelente reactividad frente a la conversin de mltiples compuestos
qumicos; como por ejemplo, los hidrocarburos de la industria petrolera. Las principales
aplicaciones de las zeolitas se encuentran entonces en los campos de la adsorcin y la catlisis
heterognea. De acuerdo a datos de Wikipedia, al ao se producen en el mundo tres millones de
toneladas de zeolitas que se destinan principalmente a aplicaciones en las industrias:
petroqumica, nuclear y del biogs, as como para usos cotidianos como: diseo de sistemas de
calefaccin o aire acondicionado, aditivo en detergentes y construccin, entre otros.
10
cuyas ventajas seran: la reduccin drstica o eliminacin total del solvente y una reduccin
significativa del tiempo de produccin de la zeolita. El siguiente diagrama es una comparacin
entre los dos mtodos:
De acuerdo a la figura, la propiedad de mayor inters de las zeolitas obtenidas en ambos casos
es la porosidad: ms precisamente, la distribucin de tamao de poro y el rea superficial.
(vi). Las arenas feldespticas; que constituyen aproximadamente 60% de la corteza terrestre y
cuya produccin anual supera los 18 millones de toneladas, son muy importantes para la
manufactura de vidrios y cermicos. Para la manufactura de estos productos, variables como la
temperatura y concentracin de impurezas son cruciales para las propiedades mecnicas y
estticas de los materiales.
11
En el artculo de Argelles et al., los autores buscaron optimizar el rendimiento del proceso de
recuperacin de feldespato mediante el anlisis del efecto de las siguientes variables de proceso:
la concentracin de una amina y de cido hidrofluorhdico y el pH. Por otro lado, los autores
tambin estudiaron la velocidad de rotacin del motor mezclador y el tiempo en el proceso de
pre-acondicionamiento del feldespato en suspensin. En general, estas dos ltimas variables
estuvieron restringidas a condiciones ya establecidas en estudios anteriores. En adicin, en el
pre-acondicionamiento los autores decidieron emplear varios tamaos de partcula del mineral
con el objeto de analizar su efecto.
(A) Los procesos a los que se hace referencia en el texto. Seale cul(es) de ellos en especfico
se estudi(aron)
Respecto al (los) proceso(s) estudiado(s), identifique:
(B) Las variables de entrada y respuesta
12
(vii). Una de las principales causas del deterioro de las carreteras es la accin del agua sobre las
propiedades fisicoqumicas del material con que se construyen. En el caso de aquellas construidas
con asfaltos; que son las ms comunes en el mundo, el agua ataca la cohesin interna de este
material. Con el tiempo, el asfalto presenta entonces baches, peladuras y hasta desprendimiento
del suelo. Los asfaltos se elaboran a partir de mezclas que consisten normalmente en: (i) un
conglomerado mineral compuesto de tres fracciones de partculas de tamaos (Dp) diferentes:
(1) Dp > 2mm; (2); 0.063mm < Dp < 2mm; y, (3) Dp < 0.063mm. (ii) un bitumen o un derivado
de ste que acta como agente ligante y cuya funcin es darle cohesin al conglomerado mineral.
(3) Aditivos como: fibras, ceras, entre otros, que se usan para mejorar las propiedades mecnicas
del material. En particular, la plasticidad y la resistencia a la fatiga suelen ser objeto de estudio
en este sentido.
Antes de usar un asfalto en la construccin de una carretera, ste debe pasar una serie de pruebas
de laboratorio que certifiquen su calidad. Para poder llegar a mitigar el efecto negativo del agua,
mencionado antes, se requiere, de antemano, el diseo de pruebas de laboratorio que permitan
formular modelos para predecir el potencial efecto de la humedad en la vida media de los asfaltos.
Para ello, los mtodos deben ser capaces de tener en cuenta los efectos de la composicin de la
mezcla asfltica, la temperatura, la carga vehicular a la que estar sometida la carretera (la cual
viene dada por regulaciones gubernamentales) y las condiciones ambientales que estn fuera del
control del experimentador. De esta manera, no existe una nica prueba de laboratorio que
conduzca a la formulacin de modelos sobre el efecto de la humedad en asfaltos, sino que cada
una aporta al conocimiento global del problema dentro unas condiciones dadas.
Moreno-Navarro et al. (Dyna 183 (2014) 49) describen un estudio en el que se compararon dos
mtodos que evalan el efecto del agua en asfaltos. Los mtodos fueron: Inmersin-Compresin
(siglas: NTL-162) y Sensibilidad al agua (siglas: UNE-EN 12697-12). A travs de ellos, los
autores midieron el efecto del agua en la resistencia de los asfaltos a esfuerzos de compresin (
[=] kPa) y tensin ( [=] kPa). La cantidad de agua en las mezclas de asfalto preparadas se
expres en trminos de la fraccin de burbujas de aire (Air-void [=] %) que stas contenan. Los
autores probaron 33 muestras de asfaltos provenientes de dos lotes de preparacin diferentes
por cada uno de los mtodos seleccionados. Es seguro asumir que los investigadores no posean
13
control de los lotes empleados en sus anlisis y que adems su laboratorio solamente tena acceso
a los dos tipos de pruebas de laboratorio mencionados antes. En cambio, s podan cambiar
libremente la temperatura y la cantidad de agua adicionada a las muestras de asfalto agua
estudiadas.
2. Consulte los artculos siguientes e identifique las variables implicadas en los estudios
presentados:
(i). Operando XAS and NAP-XPS studies of preferential CO oxidation on Co3O4 and
CeO2-Co3O4 catalysts, L. Lukashuk et al., Journal of Catalysis 344 (2016) 115.
(iv). The Manufacture of Gelatine, L.A. Thiele, Ind. Eng. Chem. 4 (1912) 446451.
3. Describa un fenmeno cotidiano y analice las variables que estaran implicadas en un diseo
experimental que lo describa.
4. Realice una definicin del problema de los malos olores en la ciudad de Bucaramanga y
describa las variables a tener en cuenta para plantear una solucin.
14
CAPTULO II
HERRAMIENTAS DE ESTADSTICA DESCRIPTIVA PARA
DISEO DE EXPERIMENTOS
Una vez se define la metodologa adecuada para la realizacin de un experimento (o proyecto),
se procede a la ejecucin de los mismos y a la consiguiente recoleccin de datos. Los datos son
el corazn de la experimentacin y el sujeto de anlisis que llevar a concluir y tomar decisiones
al respecto de lo que se est investigando. Este captulo se centra en el primer paso hacia el
anlisis de datos; su descripcin. Para ello, expondremos herramientas bsicas de estadstica
descriptiva que permiten una evaluacin preliminar pero bastante diciente sobre los
experimentos llevados a cabo.
Dentro de este contexto, es necesario dar una serie de definiciones que se deben tener presentes
en el mbito del uso de la estadstica en ingeniera y ciencias, en general.
Precisin: Para una serie de experimentos, se refiere a qu tan cerca se encuentra una medida
experimental de otra.
Exactitud: Est ligada a la aceptacin y uso de un patrn de medida previamente definido. As,
se refiere a qu tan cerca est el valor de una medida experimental de aquel aceptado como real.
Cifras significativas: Es el nmero de cifras en una medida experimental que tiene significado
fsico. El nmero de cifras significativas est ligado directamente al instrumento de medida
empleado. De este modo, si un termmetro tiene una escala de lectura de un decimal, reportar
un valor de 50,09876C es irrealista, falso y en consecuencia sin sentido fsico.
Poblacin: En estadstica, una poblacin se refiere a todas las posibles medidas u observaciones
experimentales que pueden llevarse a cabo en el marco de una investigacin. En este sentido,
para una variable cuantitativa, es frecuente que una poblacin contenga un nmero infinito de
valores. Las poblaciones son sujeto de muestreo de parte del investigador quien busca predecir
sus propiedades a travs del muestreo estadstico.
Estadstico: Se refiere a un valor numrico de resume alguna propiedad bsica de una muestra.
Parmetro: Es un valor numrico que resume una propiedad bsica para una poblacin.
15
Ejemplos conceptuales
Este semestre, la poblacin de estudiantes del curso de Anlisis de Variables de Proceso
de la Escuela de Ingeniera Qumica es de 150. El grupo O1 de la materia tiene 37 estudiantes
que son una muestra de la poblacin. Los estudiantes de estos cursos hacen parte de la
poblacin de estudiantes de Ingeniera Qumica y son una muestra de los mismos.
Un ingeniero investiga la influencia de la temperatura en un proceso de produccin de
azcar. Decide hacer experimentos a 80, 95 y 112C. Estos valores se encuentran dentro del
intervalo: 70 130C que se consideran seguros para el proceso. Definir la poblacin y la
muestra. Cul es el tamao de la poblacin? Cuntas muestras se pueden tomar?
Rta/ En este caso, la poblacin son los valores de temperatura en el intervalo 70 130C.
La muestra tomada por el ingeniero corresponde a los valores de 80, 95 y 112C.
Considerando que la temperatura es una variable cuantitativa continua, es posible
tericamente medirla en todo el intervalo planteado. El nmero de valores en este intervalo
es infinito y por tanto la poblacin tiene, en principio, tamao infinito. Desde el punto de
vista experimental, el tamao de esta poblacin depende del nmero de cifras significativas
que da el instrumento de medida empleado. Por ejemplo, si el ingeniero posee un
termmetro para sus experimentos, las cifras significativas estn ligadas a la escala de un
decimal. Por tanto, la poblacin tendr un tamao de: (130 70)10 = 600. Es posible
entonces tomar 600 muestras de esta poblacin sin considerar un proceso de combinatoria
(!).
Esta rama de la estadstica se usa para describir las caractersticas bsicas de un conjunto de
datos. En general, las herramientas de estadstica descriptiva sirven para mostrar y resumir datos
de una manera sistemtica y para que se puedan sacar conclusiones sustanciales de los mismos.
Estas herramientas son de dos tipos bsicos: sumariales y grficas. Las sumariales se refieren a
valores numricos que describen los datos a travs de un nico valor numrico. Entre estas
tenemos: el mximo, el mnimo, el rango, la media, la mediana y los cuartiles, la moda, la varianza,
la desviacin estndar y el coeficiente de variacin. A continuacin se presentan sus definiciones:
Mximo y mnimo: Como lo indica su nombre, son los valores mximo (Mx) y mnimo (Mn)
de un conjunto de datos.
Rango de un conjunto de datos: Se define como la diferencia entre los valores mximo y
mnimo del conjunto de datos.
Media: Su definicin se da tanto para una poblacin y como para una muestra. En el caso de
una poblacin, se denomina: media poblacional (m). Desde el punto de vista matemtico, la
media poblacional representa el valor esperado o Esperanza matemtica de una variable
aleatoria Se simboliza usualmente: E(Y), donde E representa la Esperanza matemtica e Y es
una variable aleatoria. El concepto de Esperanza Matemtica es muy importante en estadstica y
de l se derivan importantes teoremas. Lo ms usual en el campo del diseo de experimentos es
16
que se desconozca la media poblacional, razn por la cual cobra muchsima relevancia el
muestreo estadstico y la estadstica inferencial pues a travs de ellos se pueden lanzar y probar
hiptesis sobre m a partir de muestras aleatorizadas y la media muestral de la respectiva
poblacin. La media muestral se define como la suma de todos los valores de los datos de la
muestra (yi) dividida por el nmero total de datos recolectados, n:
n
y
i 1
i
y
n
Mediana: En una serie de datos, es justo aquel que se encuentra en la mitad del rango que los
contiene. En este sentido, los datos se dividen en dos partes iguales. El valor de la mediana es
automtico cuando el nmero de datos de la muestra es impar. Cuando el nmero de datos es
par, se deben encontrar los dos datos que se encuentran en la mitad del rango y se calcula la
mediana como la media de ellos.
Tanto la media como la media como la mediana son parmetros que describen tendencias
centrales. Desde un punto de vista prctico, la media representa un punto de equilibrio entre los
datos de la serie. Este punto de equilibrio no se encuentra necesariamente en la mitad del rango
de los datos. Por lo tanto, puede o no coincidir con la mediana.
Ligado al concepto de la mediana se encuentran los cuartiles. Un cuartil surge de dividir una
serie de datos en cuatro partes iguales. Los cuartiles se designan ordenando los datos de menor
a mayor. As, el lmite del primer cuartil cubre el 25% de los datos incluyendo el mnimo, el
lmite del segundo cuartil cubre el 50% de los datos (numricamente, es la misma mediana),
el tercer cuartil se refiere a los datos entre la mediana y el 75% de los datos y el cuarto cuartil
cubre el 25% de los datos restantes y su lmite es el mximo registrado.
Moda: Es el valor que ms se repite en una serie de datos. Puede darse el caso que una serie de
datos no posea moda cuando ningn valor se repita. Si se tiene ms de una moda, entonces el
conjunto de datos es Multimodal. Sin embargo, la moda general sera igual a un conjunto vaco
porque de todas formas no va a haber un dato que prevalezca sobre otro.
(Y i m)2
2 i 1
. En ella, N es el nmero total de datos de la poblacin. Se emplea Yi (en
N
mayscula) para hacer referencia a la poblacin. Se usar en adelante este tipo de representacin
para distinguir entre poblacin y muestra.
17
Para una muestra de una poblacin, la varianza muestral (s2) se calcula a partir de:
N
(y i y) 2
s2 i 1
.
n 1
Desviacin estndar: Es una medida directa de la dispersin de los datos pues tiene sus mismas
unidades pues es la raz cuadrada de la varianza. As, la desviacin estndar poblacional es:
2 y la muestral es: s s 2
El segundo tipo de herramientas de estadstica descriptiva usada en DdE son las grficas. De
las mltiples representaciones grficas posibles, aquellas que ms se emplean en DdE son:
diagramas de dispersin, diagramas de caja y bigote y los histogramas.
18
las desigualdades: Valor atpico leve del lmite inferior de los datos < Lmite del primer cuartil
1,5*RIC; Valor atpico leve del lmite superior de los datos > Lmite del tercer cuartil +
1,5*RIC; Valor atpico extremo del lmite inferior de los datos < Lmite del primer cuartil
3,0*RIC; Valor atpico extremo del lmite superior de los datos > Lmite del tercer cuartil
+ 3,0*RIC.
Ejemplo
Resuma mediante el uso de las herramientas de estadstica descriptiva, presentadas en esta
seccin, la siguiente serie de datos que corresponde a los tiempos empleados (en segundos)
en una carrera de 100 m planos disputada por algunos estudiantes del primer semestre de
2016 del curso de Anlisis de Variables de Proceso: 12,65; 12,43; 12,63; 13,19; 13,60; 13,13;
14,60; 16,06; 16,17; 16,32; 16,93; 18,42; 17,65; 17,77; 18,5; 18,23; 19,60; 17,98; 19,34; 18,50;
19,53; 19,93; 20,16; 19,44; 20,14; 23,00.
Rta/ Las herramientas de estadstica descriptiva presentadas hasta ahora son: mximo,
mnimo, rango, media, mediana, cuartiles, moda, varianza, desviacin estndar y coeficiente
de variacin. Antes de hacer los clculos correspondientes es clave leer que en el enunciado
se habla de algunos estudiantes; lo cual indica que vamos a analizar una muestra y no una
poblacin. El tamao de esta muestra es n = 26 datos.
Mximo = 23,00 s; Mnimo = 12,43 s; Rango = Mx. Mn = 23,00 12,43 = 10,57 s;
Media, y = (1/26)(12,65 + 12,43 + 12,63 + 13,19 + 13,60 + + 19,44 + 20,14 + 23,00)
= 17,50 s.
Para la mediana se deben primero ordenar los datos en forma ascendente o descendente. En
forma ascendente, estos quedan as: 12,43; 12,63; 12,65; 13,13; 13,19; 13,60; 14,60; 16,06;
16,17; 16,32; 16,93; 17,65; 17,77; 17,98; 18,23; 18,42; 18,50; 18,50; 19,34; 19,44; 19,53; 19,60;
19,93; 20,14; 20,16 y 23,00. Los datos en la mitad de la serie son: 17,77 s y 17,98 s.
Por tanto, Mediana = (17,77 + 17,98)/2 = 17,88 s. Cuartiles: Primer cuartil lmite =
(13,60 + 14,60)/2 = 14,10 s; Segundo cuartil lmite = Mediana = 17,88 s; Tercer cuartil
lmite = (19,34 + 19,44)/2 = 19,39 s; Cuarto cuartil lmite = Mximo = 23,00 s. Moda
= 18,50 s que se repite dos veces. Varianza muestral, s2 = 1/25[(12,65 - 17,50)2 + (12,43 -
17,50)2 + (12,63 - 17,50)2 + (13,19 - 17,50)2 + (13,60 - 17,50)2 + + (19,44 - 17,50)2 + (20,14
- 17,50)2 + (23,00 - 17,50)2] = 8,25 s2 ; Desviacin estndar, s = s2 = 8,25 = 2,87 s.
Coeficiente de variacin, %CV = (2,87/17,50) 100 = 16,7%.
(ii) Elabore grficos de dispersin y de caja y bigote para representar los datos obtenidos y
comente.
19
Rta/ Para elaborar el diagrama de dispersin, se toman los datos ordenados de manera
ascendente y se grafican en funcin de un contador numrico que representa el orden de llegada
de los estudiantes. El grfico que se obtiene no puede interpretarse en el mismo sentido que un
clsico grfico de una funcin pues en este caso no hay sino una variable: el tiempo obtenido
en la carrera de 100 m. A continuacin, se presenta este grfico:
Grfico de dispersin para la carrera de 100 m disputada por un grupo de estudiantes del curso Anlisis de
Variables de Proceso (primer semestre de 2016).
Se pueden resaltar las siguientes caractersticas: (a) Los estudiantes se distribuyen claramente en
tres grandes grupos en funcin de sus tiempos. Los puntos de la grfica donde se presenta un
quiebre evidente (cambio notable de pendiente) sirven para clasificarlos cualitativamente. De
este modo, La mayora hizo un tiempo entre 16.06 s y 18,50 s. Este intervalo encierra la media
del grupo ( y = 17,50 s). Los mejores estudiantes tienen tiempos entre: 12.43 s y 13,60 s y los
de menor desempeo deportivo obtuvieron tiempos entre 19.34 s y 23,00 s. Considerando las
tendencias de la grfica, se puede pensar que el resultado obtenido por el estudiante que ocup
el ltimo lugar de la carrera sera atpico.
Aunque las observaciones realizadas a partir del grfico de dispersin son vlidas, un grfico de
caja y bigotes provee informacin adicional de mucho inters. La grfica se presenta en la pgina
siguiente.
El ancho de las cajas en este grfico muestra la amplitud de cada cuarta fraccin de los datos.
As, se ve que el primer cuartil es ms ancho que el tercero. Esto indica que hay una mayor
densidad de resultados all. En trminos de los datos que se estn analizados, significa que hubo
ms estudiantes que registraron tiempos en el primer cuartil. Por otro lado, dado que las
anchuras de los cuartiles uno y tres difieren se puede inferir que la mediana y la media de los
datos tienen valores diferentes. Ms precisamente, comparando lo anterior con la anchura de
los cuartiles se puede afirmar (sin clculos adicionales) que la media es menor que la mediana.
Esta afirmacin se demuestra fcilmente pues Mediana = 17,88 s > y = 17,50 s. Por otra
parte, se puede calcular el RIC = 19,39 14,10 = 5,29 s y a partir de l determinar si existen
valores atpicos en la muestra. Valor atpico leve del lmite inferior de los datos < 14,10
1,5*5,29 6,17 s y Valor atpico leve del lmite superior de los datos > 19,39 + 1,5*5,29
27,33 s.
20
Grfico de cajas y bigotes para la carrera de 100 m disputada por un grupo de estudiantes del curso Anlisis de
Variables de Proceso (primer semestre de 2016)
De acuerdo a estos resultados, la muestra no posee datos atpicos pues el mnimo y el mximo
son mayor y menor que los lmites calculados.
Pasos para la construccin de un diagrama de caja y bigotes
(Adaptado de: Statistics for Engineers & Scientists, W. Navidi, 4th Ed., McGraw-Hill,
2015)
1. Calcular la mediana y los cuartiles primero y tercero de la muestra. Sealar lo anterior con lneas
horizontales para luego conectarlas verticalmente.
2. Encontrar el valor ms grande de la muestra que no exceda 1,5*RIC por encima del tercer
cuartil e igualmente hallar el valor ms pequeo que no sea menor a 1,5*RIC por debajo del primer
cuartil. Trazar lneas verticales desde los cuartiles hasta estos valores (bigotes). En la grfica de
arriba, se trazaron los bigotes hasta los valores mximo y mnimo registrados para la muestra ya
que estos estn dentro de los lmites asignados para datos atpicos leves.
3. Los puntos que excedan 1,5*RIC son atpicos y se grafican de manera individual.
4. El procedimiento anterior se repite tantas veces sea necesario cuando se desean comparar series
de datos.
Ejemplo conceptual interactivo sobre diagramas de caja y bigote
Los diagramas de caja y bigote para las series de datos: GrupoA = [7, 7, 7, 7, 7, 7, 7]; GrupoB =[1,
2, 7, 7, 7, 7, 7]; GrupoC = [7, 7, 7, 7, 9, 10,12]; GrupoD = [1, 2,7, 7, 9, 10, 12]; GrupoE = [0, 7,
7, 7, 8, 9,22] se presentan en la siguiente grfica:
21
En la grfica:
(1) Marcar los valores de las medias, varianzas y desviaciones estndar para las series representadas.
Dnde se ubica en cada caso?
(2) Comparar los valores numricos series GrupoA, GrupoB, GrupoC y GrupoD con los
diagramas de caja y bigotes respectivos. Qu se observa respecto a la anchura de las cajas? Qu
se puede concluir respecto a la relacin entre la dispersin de los datos y la anchura de estas cajas?
De manera ms general, qu representa un diagrama de cajas y bigotes?
(3) Para la serie E: Cules son los valores marcados como atpicos?, son extremos o leves? Cul
son los valores lmite de los bigotes?, de qu manera se construy el diagrama en este caso?
22
2. Determinar el nmero de datos que pertenecen a las categoras definidas; a esto se le llama
frecuencia.
3. Calcular el cociente de las frecuencias al nmero total de datos de la muestra (n); a esto se le
llama frecuencia relativa. Aqu, se debe notar que la suma de las frecuencias relativas es igual a
1. Si el ancho de las categoras es el mismo, este paso es opcional.
4. Para categoras numricas, calcular las densidades relativas de las categoras de datos. La
densidad relativa = frecuencia relativa/ancho de la categora. Este paso tambin es
opcional cuando se define un ancho de categora constante.
5. Los clculos anteriores se presentan en una tabla y se grafican en forma de barras cuya base
es el ancho del intervalo y cuya altura es la frecuencia, frecuencia relativa o densidad relativa,
segn convenga.
23
Ejemplo: anlisis de datos a travs de un histograma
Ms del 80% de los procesos qumicos industriales implican el uso de un catalizador. Los llamados
catalizadores heterogneos son normalmente slidos que actan sobre reactivos en fase lquida o
gas. Existen dos tipos principales de catalizadores heterogneos; los msicos y los soportados. Un
tipo comn de catalizador soportado consiste en nanopartculas metlicas dispersas en un xido
inorgnico. Usualmente, el porcentaje en peso de las nanopartculas metlicas del material no
supera el 5%. Los metales ms empleados son: platino, paladio, nquel, cobalto, hierro, molibdeno,
entre otros. Mientras que, entre los xidos, los ms frecuentes son: almina (Al2O3), titania (TiO2),
slice (TiO2), etc. En el trabajo titulado: Synergetic behavior of TiO2-supported Pd(z)Pt(1-z)
catalysts in the green synthesis of methyl formate (ChemCatChem 8 (2016) 1157-1166), los
autores analizaron el comportamiento de catalizadores soportados Pd-Pt en la reaccin de
oxidacin parcial de metanol a metil-formato. Este ltimo es una importante molcula plataforma
para la produccin de compuestos de alto valor agregado (Ver detalles aqu).
25
2.
3.
4.
26
(III). Con las tablas de frecuencia, se elaboran grficos de barras que resultan en:
1.
2.
27
3.
4.
28
Ejercicios
1. El trgico caso del Challenger (Adaptado de: D.C. Montgomery & G.C. Runger, Applied
Statistics & Probability for Engineers, 3ra Ed., Jhon Wiley & Sons, p. 195).
29
Tomado de: V.G. Baldovino-Medrano et al., Establishing the Role of Graphite as a Shaping Agent of VanadiumAluminum
Mixed (Hydr)oxides and Their Physicochemical Properties and Catalytic Functionalities, ACS Catal. 2 (2012) 322336.
3. Uno de los principales retos de las refineras actuales es el manejo y transformacin de crudos
pesados. Los crudos pesados tienen problemas para su transporte, producen depsitos
indeseables en las tuberas y equipos de las refineras, causan prdidas econmicas por
desactivacin rpida de los catalizadores empleados en diferentes procesos de refinacin, entre
otras. Una caracterstica de los crudos pesados es su alto contenido en metales como el vanadio.
A continuacin, se presentan histricos del contenido de vanadio en crudos pesados procesados
en cierta refinera:
30
Fecha Vanadio,ppm
nov-02 5,2 feb-05 3,65 ene-08 5,432 oct-10 11,9
dic-02 8 mar-05 6,93 feb-08 5,073 jun-12 6,704
mar-03 8,3 abr-05 5,87 jul-08 8,564 ago-12 5,85
abr-03 6,6 may-05 4,19 sep-08 7,09 abr-13 13,4
jul-03 6,04 jul-05 9,55 oct-08 10,47 jul-13 4,065
ago-03 5,1 sep-05 7,01 ene-09 6,845 ago-13 7,843
sep-03 8,282 nov-05 3,7 mar-09 9,153 oct-13 5,149
feb-04 4,94 feb-06 3,282 may-09 6,488 feb-14 4,689
mar-04 8,54 mar-06 3,266 jul-09 6,264 may-14 4,689
may-04 1,85 jun-06 5,153 sep-09 5,54 oct-14 3,115
sep-04 5,45 mar-07 7,26 nov-09 5,777 dic-14 2,115
oct-04 3,96 ago-07 8,675 mar-10 8,569 jun-15 4,478
nov-04 7,59 sep-07 4,276 sep-10 10,24 may-13 5,357
31
El CICAT UIS ha trabajado diversos proyectos en esta temtica (ver: Appl Catal A: Gen 197
(2000) 6168; Appl Catal A: Gen 302 (2006) 118126; Fuel 89 (2010) 10121018; J Catal 267
(2009) 129139). Recientemente, un joven investigador del grupo de investigacin; trabajando
en esta temtica, obtuvo resultados catalticos que a su juicio eran extraos. En particular, el
investigador plante la hiptesis que se estaba perdiendo una cantidad significativa de catalizador
en la corriente de salida del reactor. Para demostrar su hiptesis, el investigador registr el peso
de catalizador utilizado para reaccin y el peso de catalizador despus de la reaccin. Los datos
correspondientes son: (i) peso de catalizador inicial (g): 3.0673; 3.0728; 3.0409; 3.0262; 3.0349;
3.0835; 3.0820; 3.0442; 3.0977; 3.0350; 3.0845; 3.0722; 3.0558; 3.0815; 3.0402; 3.1673; 3.0077;
3.2350; 2.9350; 3.0834; 2.6080; 3.1785; 3.0409; 3.1958; 3.1223; 3.1409. (ii) peso de catalizador
final (g): 2.2635; 2.3258; 2.6798; 2.4796; 2.6420; 2.5510; 2.7931; 2.3725; 2.3638; 2.6535; 2.7988;
2.8580; 2.3916; 2.8502; 2.2350; 2.5510; 2.3725; 2.6385; 2.1510; 2.6754; 2.0006; 2.4796; 2.8580;
2.5478; 2.0988; 2.3638.
El anlisis de los datos obtenidos consiste entonces en estudiar la prdida de peso obtenida
durante los experimentos. Normalmente, debido a limitaciones experimentales, no se puede
recuperar un promedio de 20% del catalizador inicial.
Teniendo en cuenta la informacin anterior, elabore un informe que permita validar o rechazar
la hiptesis del estudiante. Emplee en su informe las herramientas de estadstica descriptiva
tratadas en clase. Organice su informe de la manera siguiente: (1) Introduccin; (2) metodologa
de anlisis; (3) resultados y anlisis; (4) conclusiones; (5) referencias.
32
CAPTULO III
HERRAMIENTAS DE ESTADSTICA INFERENCIAL PARA
DISEO DE EXPERIMENTOS
De histogramas a predicciones
La interpretacin de histogramas como distribuciones de densidad permite tender un puente
entre los anlisis de datos de una muestra y un modelo de poblacin. Estos modelos se
denominan distribuciones de probabilidad y son la herramienta requerida para adelantar estudios
de estadstica inferencial.
De qu se trata la estadstica inferencial?
La estadstica inferencial investiga las propiedades de las poblaciones mediante el anlisis de
datos muestrales. Para ello, se desarrollan modelos predictivos probabilsticos. Estos modelos
estn sujetos a supuestos que siempre deben comprobarse para garantizar que los anlisis
presentados sean confiables; dentro de los lmites de probabilidad empleados. A pesar de lo
amplio e interesante del tema, nos limitaremos aqu a discutir modelos de estadstica inferencial
para variables aleatorias continuas ya que estos son los que se aplican directamente en diseo de
experimentos.
Qu es una variable aleatoria continua?
Es aquella cuyo valor puede ser cualquiera i.e. hay infinitas posibilidades de escogencia dentro
de un intervalo con la condicin que este haya sido seleccionado al azar. En la vida del
experimentador, las posibilidades se restringen a la capacidad de medida que posean los
instrumentos de medida empleados. Por ejemplo, en un laboratorio que emplee termmetros
convencionales no se puede medir una temperatura de 83,697895C (!).
Una variable aleatoria continua puede representarse en estadstica mediante una funcin de
densidad de probabilidad continua.
Qu es una funcin de densidad de probabilidad continua?
Es aquella que describe los valores que una variable continua puede tomar en todo su dominio.
En consecuencia, estas funciones describen poblaciones. Las funciones de densidad de
probabilidad continua, representadas aqu por f(x), tienen las siguientes propiedades:
1. f(x) 0. Dicho en palabras, la funcin no posee valores negativos.
33
2. f ( x )dx 1 . En otras palabras, la funcin no predice valores de probabilidad mayores
al 100%.
b
3. P ( a X b) f ( x )dx . Aqu, quiere decir: la probabilidad (P) de que la variable
a
aleatoria continua (X) adquiera un valor entre a y b { P(a X b) } es igual al rea bajo
la curva de la funcin de densidad de probabilidad comprendida entre a y b1.
La integral de una funcin de densidad de probabilidad corresponde a la funcin de distribucin.
En muchas ocasiones es de inters conocer la denominada funcin de distribucin acumulada.
Qu es una funcin de distribucin acumulada -F(X)-?
Es aquella que da el valor de probabilidad que alcanza la variable aleatoria continua desde -
hasta un lmite especfico (x). As, la siguiente definicin matemtica se aplica:
b
F ( X ) P( X x ) f (u)du . En la expresin, u se usa simplemente para diferenciar la
1
Recordar que una integral definida es una Suma de Riemman.
34
3. Una distribucin usada para modelar los niveles de tolerancia de sustancias txicas en
bioensayos es la distribucin logstica que est parametrizada respecto a y . La funcin de
( x ) 1
probabilidad acumulada de la distribucin logstica es: F ( x ) 1 e
El parmetro puede ser cualquier nmero real y puede ser cualquier nmero positivo. Sea
X una variable aleatoria con esta distribucin:
(a) Hallar la funcin de densidad de probabilidad fX(x).
(b) Demuestre que fX(- x) = fX(+ x); es decir, fX(x) es simtrica respecto a para todo
x.
4. Considerando que la media (mX) y la varianza (X2) de una variable aleatoria continua X se
2 2
definen como: m X xf ( x )dx y
X x f ( x ) dx m X2 , respectivamente. Determine la
35
En la grfica se evidencia que el centro de la distribucin corresponde a la media y que la curva
es simtrica respecto a este parmetro.
36
P ( m X m ) 0,6827
P ( m 2 X m 2 ) 0 ,9545
P ( m 3 X m 3 ) 0 , 9973
- 3 - 2 - x= + + 2 + 3 x
37
una medida, las medias de cada medida tienden a distribuirse de manera normal. Aunque una
discusin rigurosa de este teorema escapa del presente manual, debe decirse que el mismo
constituye el cimiento de la estadstica inferencial. Desde el punto de vista prctico, la
consecuencia ms importante del teorema del lmite central es que a partir de un muestreo
aleatorio se puede describir una poblacin usando las herramientas desarrolladas a partir de la
distribucin normal de probabilidad. Sin embargo, en situaciones reales, es siempre importante
verificar si un conjunto de datos se comporta de acuerdo a una distribucin normal.
Ejercicios de aplicacin de N(0,1)
Cules de las siguientes distribuciones podran representarse por una distribucin normal?
(a) La distribucin de medidas entre el pulgar y el meique?
(b) Los salarios anuales de los empleados de Coca-Cola?
Los ejercicios a continuacin son para una distribucin normal.
1. Determine las siguientes probabilidades para una distribucin normal estandarizada:
P(Z < 1,32)
P(Z > -2,15)
P(Z < 3.0)
P(-2,34 < Z < 1,76)
P(-1 < Z < 1)
P(0 < Z < 1)
P(Z > 1,87)
P(Z > -1,09)
P(Z > 1,32)
P(Z < -2,15)
P(-2,34 < Z < 1,45)
2. Determine el valor z de la variable estndar normalizada en los siguientes casos:
P(Z < z) = 1,09
P(Z < z) = 0,5
P(Z > z) = 0,1
P(Z > z) = -1,09
P(-1,24 < Z < z) = 0,8
P(-z < Z < z) = 0,95
P(-z < Z < z) = 0,68
P(-z < Z < z) = 0,95
P(-z < Z < z) = 0,9973
38
3. Suponga que X se distribuye de manera normal con una media de 10 y una desviacin estndar
de 2. Determine lo siguiente:
39
Prueba de normalidad
Una condicin necesaria para validar las inferencias estadsticas que se hagan sobre una
poblacin determinada es que los datos de las muestras aleatorias tomadas de dicha poblacin
se comporten de acuerdo a una distribucin normal. A esta condicin se le denomina: supuesto
de normalidad.
Para comprobar si un conjunto de datos se puede describir a partir de una distribucin normal,
se hacen los siguientes pasos:
( j 0,5)
3. Se determina la probabilidad de cada dato de acuerdo a la expresin: . Aqu, n es el
n
nmero total de datos.
40
wca t[=]g
3,0673 3,0835 3,0845
3,0728 3,0820 3,0722
3,0409 3,0442 3,0558
3,0262 3,0977 3,0815
3,0349 3,0350
Para comprobar si se cumple el supuesto de normalidad, se elabora la tabla siguiente:
n 14
j xj (j-0,5)/n zj
1 3,026 0,03571 -1,8027
2 3,035 0,10714 -1,2419
3 3,035 0,17857 -0,9208
4 3,041 0,25000 -0,6745
5 3,044 0,32143 -0,4637
6 3,056 0,39286 -0,2719
7 3,067 0,46429 -0,0896
8 3,072 0,53571 0,0896
9 3,073 0,60714 0,2719
10 3,082 0,67857 0,4637
11 3,082 0,75000 0,6745
12 3,084 0,82143 0,9208
13 3,085 0,89286 1,2419
14 3,098 0,96429 1,8027
41
Ejemplo de comprobacin del supuesto de normalidad
1,50
R = 0,9346
1,00
0,50
0,00
zj
-1,00
-1,50
-2,00
Aunque se esperara que la correlacin entre los datos analizados y la variable normal
estandarizada (zj) fuera R2 = 1, esto es muy difcil, pues para alcanzar tales niveles de
correlacin se requiere una cantidad importante de datos experimentales. Normalmente,
muestras aleatorias de tamao menor a treinta se consideran pequeas y exhiben
comportamientos como el aqu ilustrado. As las cosas, desde el punto de vista prctico, uno
considera la prueba satisfactoria pues la correlacin R2 es mayor de 0,9. Adems, se puede
notar que no hay desviaciones particularmente grandes de la tendencia central lo cual refuerza
la conclusin obtenida. Cuando los datos no se comportan de acuerdo a una distribucin
normal se debe emplear otra distribucin probabilstica que s se adece a los mismos. Para
los alcances del presente curso, se limitarn los anlisis a datos que se comporten de acuerdo
a la distribucin normal. Se deja al lector la potestad de consultar otros textos que revisan
este interesante tema.
42
la experimentacin, es casi siempre imposible realizar todas las mediciones posibles en una
poblacin.2
Estadstico
Se define como cualquier funcin de las observaciones de una muestra que no contiene
parmetros desconocidos. Los parmetros ms importantes en estadstica con la media y la
varianza.
Estimadores puntuales
Casi nunca se pueden conocer la media y varianza de una poblacin. En consecuencia, en
estadstica se recurre a los denominados estimadores puntuales construidos a partir de las
mediciones que se hagan en las muestras aleatorias tomadas. Como es natural, los estimadores
de m y 2se derivan de la media y varianza muestrales.
Vale la pena recordar que:
Sea una muestra con valores experimentales: y1, y2, , yn, la media muestral se define como:
n
y
i 1
i
y .
n
Mientras que la varianza muestral se define como:
n
(y i y)2
s2 i 1
. En esta ecuacin, es importante resaltar que n-1 son los grados de libertad
n 1
n
y que el numerador ( y i y)2 es una suma de cuadrados. Los grados de libertad representan
i 1
Una expansin posterior de estos conceptos nos llevar al denominado anlisis de varianza
(ANOVA).
2
ParaunapoblacincontamaoN,elnmeroposibledemuestrascontamaonconigualprobabilidades
N!
( N n)!n!
43
Esta variable sigue una distribucin 2 con k grados de libertad. La funcin de densidad de
2 1 k ( 2 )
1
probabilidad correspondiente es: f ( )
2
2 e 2
, 2 > 0
k k
2 2
2
Tal como sucede con la distribucin de probabilidad normal, la distribucin 2 es compleja
analticamente y los clculos de probabilidades que de ella se derivan se hacen por medio de
mtodos numricos. El resultado ms relevante que se obtiene a partir de la distribucin 2
concierne la distribucin de probabilidad que sigue la varianza puesto que el cociente
n
( y i y)2
SS i 1
sigue una distribucin 2 con n-1 grados de libertad, i.e. n21 . Este resultado
2 2
es sumamente importante pues sirve para hacer un puente matemtico que permite estimar la
varianza poblacional con la varianza muestral. Las inferencias logradas se aprovechan para
revelar relaciones entre variables aleatorias que se comportan de acuerdo a una distribucin
normal dada.
Distribucin t de Student
Una de las primeras distribuciones que se derivan de la distribucin 2 es la denominada
distribucin t de Student. La distribucin se define para dos variables independientes; una
normal estandarizada z y otra k2 (donde, k seala los grados de libertad de la segunda) las
z
cuales definen la nueva variable aleatoria tk . La variable tk sigue entonces una
k2
k
44
k 1
2 1
f (t ) k 1 2
, - < t < .
2
k t2
k
k
1
u v F 2
u 2 u 1
2 v
h(F ) , 0 < F < .
u v u
F 1
2 2 v
El uso de la distribucin F para hacer inferencias sobre las varianzas de dos poblaciones en
relacin a las varianzas muestrales; de muestras aleatorias de tamao n1 y n2, respectivamente,
s12
obtenidas en un experimento dado est basado en que el cociente 2 se distribuye de acuerdo
s2
a una distribucin F con n1-1 y n2-1 grados de libertad ( F n 1, n
1 2 1
).
45
Las distribuciones presentadas en esta seccin tienen una utilidad similar a la Normal
Estandarizada pues sirven para modelar o predecir el comportamiento de poblaciones a partir
de la toma de muestras.
1. Si X es una variable aleatoria que se puede modelar con una distribucin k2 con seis grados
de libertad, calcular:
(a) P(X 6); (b) P(3 X 9).
2. Repita los clculos anteriores si la distribucin tiene cero, uno, tres, ocho, diecisis y cuarenta
grados de libertad.
3. Si T obedece una distribucin t-Student con ocho grados de libertad, calcule:
(a) P(T 1); (b) P(T 2) ; (c) P(1 < T < 1).
4. Repita los clculos anteriores si la distribucin tiene cero, uno, tres, ocho, diecisis y cuarenta
grados de libertad.
5. Repita los incisos 2 y 4 para una distribucin Fn1 1,n2 1 , considerando que las variables
46
CAPTULO IV
DISEO DE EXPERIMENTOS DE UNA VARIABLE: CASOS
11 Y 21
Qu es un diseo experimental 11?
Un diseo 11 es aquel en el que se estudia el comportamiento de una variable (o factor)
comparado a su comportamiento a lo largo del tiempo o al nmero de muestras tomadas. Para
ello se requiere entonces poseer informacin previa sobre el sistema estudiado. Por ejemplo,
registros histricos del comportamiento de la variable. Tales registros deben llevar a valores
identificados de la media y la varianza poblacional. Los diseos 11 son de particular inters en
sistemas donde se desee controlar el desempeo de un proceso a lo largo del tiempo. As, este
tipo de diseo es muy comn en el control de calidad. Otra manera comn en libros de estadstica
y diseos de experimentos de llamar a los diseos 11 es referirse a ellos como pruebas de
hiptesis. En este manual, haremos una primera aproximacin a este tipo de experimentos
mediante la construccin de los llamados intervalos de confianza.
Qu es un intervalo de confianza?
En la vida diaria, ingenieril y cientfica es supremamente difcil conocer los parmetros de una
poblacin. En particular, es muy raro que se conozcan la media y la varianza de una poblacin;
a menos que esta sea muy modesta. e.g el triste caso de las especies en vas de extincin. En vista
de lo anterior, el investigador se ve abocado a emplear herramientas de estadstica inferencial
para estimar estos parmetros. Como se discuti en pginas anteriores, lo usual es tomar
muestras aleatorias de la poblacin objeto de estudio, calcular los estadsticos que se derivan de
tal estudio; la media y la varianza muestral, y emplear las distribuciones de probabilidad como
puente entre los estadsticos y los parmetros. Un intervalo de confianza es entonces un intervalo
de valores calculado a partir de los estadsticos de las muestras estudiadas y contrastados con
una expresin ligada a una distribucin de probabilidad adecuada en el cual se estima que se
encuentra un cierto parmetro estadstico. Existen as, dos tipos principales de intervalos de
confianza; los que se refieren a la media poblacional y los que se refieren a la varianza muestral.
A continuacin, analizaremos los intervalos de confianza para la media poblacional.
Intervalos de confianza para la media poblacional
Un intervalo de confianza para la media poblacional (m) define los valores entre los cuales esta
se encontrara a partir de los valores la media muestral ( y ) y asumiendo que la poblacin se
47
Teniendo en cuenta las propiedades que comparten N(m,2) y N(0, 1), esta ltima es la
herramienta indicada para construir un intervalo de confianza para la media; dadas ciertas
condiciones. En tal instancia, se debe, de entrada, determinar si los datos de las muestras
recolectadas se ajustan bien a una curva de normalidad; zj vs. yj usando el procedimiento descrito
en la pgina 39. Sin embargo, tal como se comprob en el ejemplo citado en esa pgina, para
muestras con un nmero de datos modesto la curva de normalidad no tiene un ajuste
satisfactorio. De manera emprica, se ha observado que lo anterior sucede cuando n < 30. Por
tanto, se aconseja emplear N(, 1) solamente para experimentos con n 30 mientras que para
n < 30 es ms apropiado emplear la distribucin tn. Teniendo en cuenta esto, el procedimiento
para construir un intervalo de confianza para ma partir deN(, 1) para n 30 est basado en
ym
asociar m, y y z . Esto se logra aplicando la definicin de z a la media muestral: z . Si
y
determinar el valor de m. Sin embargo, hay que tener presente que, por un lado, y tambin es
0
un parmetro de la poblacin; calculado como y , donde es el valor de la desviacin
n
estndar poblacional; posiblemente conocido a travs de registros histricos, que en la mayora
de los casos tambin es desconocido, y que, por otro lado, z solamente puede conocerse cuando
se asocia a un determinado valor de probabilidad. Para el caso que nos compete actualmente, n
sy
30, se tiene que y . Respecto a z es indispensable definir una cierta probabilidad
n
asociada para poder tener su valor. A esta probabilidad se le llamar nivel de confiabilidad y al
48
resto de la probabilidad con la que se alcanza el 100% del nivel de confiabilidad se le denominar
o error tipo-I. Por definicin, el nivel de confiabilidad es entonces: 1 . Grficamente, un
intervalo de confianza para mbasado en N(,1) y tomando un nivel de confiabilidad de 1 -
se ve as cuando se asocia a los valores posibles de la media muestral:
2 1- 2
y
m z y
1- m m z y y
2 2
y z y y z y
2 2
1-
y z y y z y
2 2
y est dentro en el intervalo limitado por
1 - , entonces contiene a m
y est en alguno de los intervalos limitados por 2,
entonces no contiene a m se comete un error tipo-I
49
P( y z y m y z y ) 1
2 2
wca t[=]g
3,0673 3,0835 3,0845
3,0728 3,0820 3,0722
3,0409 3,0442 3,0558
3,0262 3,0977 3,0815
3,0349 3,0350
(i) Intervalo de confianza del 99.99%.
Para este caso, = 1 0.9999 = 0.0001.
Dado este valor, /2 = 0.0001/2 = 0.00005.
Con este valor, se calcula el valor z/2 -3,8910 y z 3,8910. (Funcin Excel:
2
50
P( y t ,n 1
sy m y t ,n 1
sy ) 1
2 n 2 n
El intervalo de confianza del 99.99% para mwcat queda entonces: 3,0265 mwcat 3,0990 .
Compare este resultado con el anterior. Qu opina?
3
VerelartculooriginaldeStudentsobresudistribucin:On the error of counting with hmacytometer".
Biometrika. 5 (3): 351360. February 1907. doi:10.1093/biomet/5.3.351ylainteresantehistoriadel
Estudianteen:https://en.wikipedia.org/wiki/William_Sealy_Gosset.
51
Ejercicios
1. Construya intervalos de confianza del 35, 43, 57, 68, 87, 90, 95, 99 y 99,99999% para m usando
los datos de los ejercicios en las pginas 27 30 del manual. Qu tendencia observa en cuanto
al nivel de confianza y la amplitud de los intervalos?
2. Para el ejemplo de pgina 39, elabore un grfico de probabilidad usando la Distribucin t-
Student en lugar de N(0,1). Describa paso a paso la metodologa empleada.
3. De acuerdo a Navidi (Statistics for Engineers & Scientists, 4th Ed. McGraw Hill, 2015, p 347),
la Distribucin t-Student no debe usarse si la muestra contiene datos atpicos. Analice los
siguientes problemas determinando primero si s es posible aplicar t/2, n-1 para construir
intervalos de confianza del 93,8 y 97,6%.
3.1. Una de los principales efluentes de las refineras (entre ellas, la Refinera de Barrancabermeja)
y campos petroleros es el fenol. Existen serios indicios de los nocivos efectos de este compuesto
en la salud y el ambiente (http://www.eoearth.org/view/article/153418/). En particular, la
presencia de este compuesto en ros y lagunas induce graves efectos sobre las poblaciones de
peces; donde se ha reportado que produce problemas de infertilidad y mutaciones genticas.
Adems, el fenol puede acumularse en estos mismos peces que son, en muchas ocasiones,
consumidos por la poblacin. La eliminacin de fenol de efluentes es entonces objeto de
investigacin. En el caso de la Escuela de Ingeniera Qumica de la UIS, un estudio reciente por
parte del grupo de investigacin Interfase buscaba comparar el potencial uso de dos carbones
activados como adsorbentes en un proceso de absorcin de fenol de efluentes (J.J. Carreo M
& C.J. Schotborgh C. - 2014). Los carbones activados probados fueron un carbn activado
comercial (CC) y uno producido a partir de llantas (CL). Los resultados de las pruebas de
adsorcin para cada carbn fueron:
52
Construya los intervalos de confianza antes indicados cada temperatura sin tener en cuenta el
tipo de catalizador. Haga lo mismo, pero ahora teniendo en cuenta el tipo de catalizador.
Finalmente, repita los procedimientos contando solo con el nmero del ensayo como variable.
53
Todo experimento conlleva siempre una nocin preconcebida del resultado que puede dar. A tal
nocin se le llama hiptesis. En consecuencia, una definicin apropiada de hiptesis es que es
una idea que necesita ser demostrada experimentalmente. Desde el punto de vista de la
estadstica, las hiptesis que se postulan se refieren usualmente a parmetros estadsticos como
la media y la varianza poblacional. Bsicamente, una prueba de hiptesis estadstica juzga si un
grupo de datos pertenece a una misma poblacin. Para el DdE probar hiptesis sobre la media
y la varianza poblacional se constituye en la herramienta principal para decidir si una variable
de entrada ejerce un efecto estadsticamente significativo sobre la(s) variable(s) respuesta
del proceso estudiado. De manera general, una prueba de hiptesis para un experimento 11
consiste en comparar un determinado valor de un estadstico como la media o la varianza
muestral contra la informacin que se tenga sobre el parmetro estadstico correspondiente. Se
est entonces en el terreno de tratar de sacar conclusiones sobre poblaciones a partir de un
muestreo aleatorio. La prueba de hiptesis produce entonces un valor de probabilidad (que,
por supuesto, se encuentra entre 0 y 1) que nos describe el grado de certeza que se tiene sobre
la veracidad de la hiptesis postulada para el parmetro estadstico investigado. Para obtener tal
valor, se requerir entonces el uso de una distribucin de probabilidad adecuada al DdE
efectuado. El clculo de este valor de probabilidad est directamente ligado a la determinacin
de un estadstico de prueba como z, t, 2. As, un estadstico de prueba es el valor que
asume la variable aleatoria ligada a la distribucin de probabilidad usada como puente entre la
muestra y la poblacin; e.g. z para muestras grandes que siguen una distribucin normal. El
estadstico de prueba se usa entonces para sopesar la fortaleza de la evidencia en contra de H0.
La evidencia a la que nos referimos es la informacin recolectada en el nuevo experimento.
54
Para enunciar una prueba de hiptesis para un experimento 11 se escoge el parmetro estadstico
adecuado para describir los cambios que el proceso pueda experimentar. La prctica corriente es
postular hiptesis que contrasten los valores histricos m0 o 2 de m o 2 en trminos de
desigualdades respecto a sus valores tericos (my ; los cuales siempre se van a desconocer).
Como se dijo antes, los estadsticos: y y s y representan la evidencia recolectada para evaluar el
contraste planteado en la prueba de hiptesis.
55
2. Asumir que H0 se cumple; i.e. asumir que no hay evidencia suficiente para afirmar que la
variable de entrada manipulada altera significativamente a la variable respuesta.
5. Sacar una conclusin sobre la fortaleza existente al momento de asumir que la variable de
entrada estudiada modific a la variable respuesta.
Nota clave: Es muy importante recordar que aunque una comparacin directa entre
my y puede dar la impresin que se tiene una respuesta inmediata a la prueba de
hiptesis; e.g. si y > muno tendra la impresin que es muy poco probable que H0:
mm no pueda rechazarse, lo cierto es que las pruebas de hiptesis se postulan
sobre la media poblacional mque es un parmetro con valor desconocido y del cual
solamente se puede determinar un probable intervalo en el que puede hallarse. Por
tanto, lo que la hiptesis mide es si bajo la nueva experimentacin hay una
probabilidad de que mya no se encuentre en el intervalo de valores (~ intervalo de
confianza) en que se pensaba que estaba. En otras palabras, se evala si el proceso
ha sido alterado por el cambio efectuado en una de sus variables de entrada de modo
que la variable respuesta ha cambiado significativamente en comparacin con lo que
saba de ella.
56
En muchos experimentos del tipo 11 es usual conocer o tener una estimacin razonable del valor
de la varianza poblacional. En particular, cuando se usan instrumentos estandarizados para los
cuales los fabricantes realizan mltiples pruebas que garanticen la precisin de las medidas que
el aparato otorga. En los casos donde 2 se conoce (2 = 2), las pruebas de hiptesis sobre
mse pueden efectuar de acuerdo al siguiente procedimiento provisto por Navidi:
2. Dado que se conoce 2, es seguro asumir que N(m,2) es la distribucin apropiada para la
poblacin de datos de la variable respuesta analizada. Por tanto, se calcula el estadstico de prueba
y m0
como: z .
y
3. Se calcula el valor-p correspondiente al z del paso anterior. Este valor-p es un rea bajo la
curva de la distribucin normal estandarizada el cual depende de H1 de acuerdo a:
57
58
59
Dado el valor-p obtenido, se concluye que existe evidencia suficiente para considerar veraz
la hiptesis alternativa: i.e. hubo un cambio significativo en el peso del catalizador medido
por el estudiante en sus experimentos.
(c) H 0 : m= 3,1501 g y H 1 : m 3,1501 g.
Lo nico que cambia aqu respecto a los casos (a) y (b) es la definicin del valor-p, que ahora
corresponde a: valor-p = 2P(z<-6,533) = 23,2210-11 6,4410-11. Esto lleva a concluir
que la evidencia es suficiente para decir que hubo un cambio significativo en la variable
respuesta. El grfico de esta prueba es:
60
Una alternativa frente a las pruebas de hiptesis basadas en el clculo del valor-p consiste en
asumir un determinado valor del error tipo-I y calcular con base en ste el valor del estadstico
de prueba (zcrt) comparndolo con aquel obtenido mediante los valores de y , m y 0
correspondientes al experimento cuyo efecto se desea determinar. En este mtodo, se suele fijar
un valor del error tipo-I, 0,05. Escoger 0,05 como valor del error tipo tipo-I corresponde
a postular que la probabilidad de equivocarse en la decisin tomada es una en veinte (1/20). Sin
embargo, no existe ninguna justificacin terica para escoger un valor determinado de ; su
escogencia es entonces producto de las costumbres del experimentador. Un inconveniente
bastante frecuente respecto al mtodo de escoger a priori es saber qu hacer cuando se obtiene
un valor-p muy cercano a e.g. para una prueba dada se obtienen los valores-p de: 0,046 y
0,052. Cul de estos resultados se puede considerar como fiable para = 0,05? La respuesta es
que ambos o cualquiera de los dos; dependiendo de lo que decida el experimentador. Para evitar
ambivalencias u otro tipo de confusin con este mtodo, la mejor costumbre es siempre reportar
el valor-p para dejar en evidencia la robustez de la conclusin declarada.
Tal como se hace para los intervalos de confianza, cuando no se conoce la varianza poblacional
se puede hacer una estimacin de sta por medio de la varianza muestral. Aqu tambin se debe
considerar el tamao de la muestra. Si se trata de una muestra grande, se recurre a la distribucin
61
62
Ejemplo 2:
Para los datos correspondientes al tamao de partculas metlicas en un catalizador
PdPt/TiO2 presentados en el ejemplo de la pgina 22, pruebe la hiptesis que una partcula
de 18,2 nm es significativamente diferente a la media poblacional construida a partir de un
intervalo de confianza del 95.
Rta/ Antes de construir el intervalo de confianza, lo ms conveniente es determinar la
posible existencia de datos atpicos en la medida realizada. Para esto, se elabora un
diagrama de caja y bigotes con los 202 datos de la muestra tomada:
Rta/ El grfico indica que existen cuatro datos atpicos: 17,1; 18,2; 19,1; 20,2 nm. Dado que
estos valores se desvan mucho de la distribucin normal, se descartarn para la construccin
del intervalo de confianza. Por tanto, el nmero de datos pasa de 202 a 198.
El intervalo de confianza se construye usando el procedimiento descrito en las pginas 46-
49. La muestra es grande: n = 198; = 0,05; dado que es un intervalo de dos colas, se usa
/2= 0,025, para el cual |z21,96. Los estadsticos de inters dan: y 7,0 nm; s y
3,5 nm. La desviacin estndar poblacional se estima en y 0,25 nm.
Con estos datos, se determina el I.C. del 95% en:
y z y m y z y = 6,5 nm m 7,5 nm
2 2
Una vez construido este intervalo de confianza, se procede a realizar la prueba de hiptesis
pedida. Como el valor a probar es mayor que el lmite superior del I.C., se tomar este
lmite como el valor mcontra el que se probar el nuevo resultado. Adems, lo ms
razonable es hacer la prueba de hiptesis considerando la alternativa que la media
poblacional sea mayor al valor m. La prueba queda formalmente as:
H 0 : mm 7,5 nm
H 1 : m 7,5 nm
Se asume que el valor a probar corresponde a una media de la muestra.
63
1. Para el ejercicio del Challenger (pgina 27), considere la media de una muestra adicional con
los valores: 31, 33, 35, 32, 30, 31. Considerando los valores reportados originalmente como el
histrico de las medidas realizadas, prueba la hiptesis de que los valores de la muestra aqu
presentada son significativamente diferentes al histrico.
2. Para el ejercicio de los contenidos de metales pesados en crudos pesados (pp. 28-29), si
histricamente el costo de procesamiento del crudo en la refinera es directamente proporcional
al contenido de nquel en el crudo; cul es la probabilidad de que este costo aumente si
histricamente la media de contenido de nquel ha sido de 3,6 ppm con un coeficiente de
variacin del 15%.
3. Resuelva los ejercicios del inciso 4, pp. 37-38, aplicando la metodologa de las pruebas de
hiptesis.
64
4
Las recomendaciones dadas estn basadas en la experiencia y no tienen un sustento terico. Por tanto,
debentomarsecomounaguaynocomoleyesoprincipiosestadsticos.Enestainstancia,eselinvestigador
quiendecideladecisinapropiadaapartirdeunanlisisrigurosodesusdatos.Siempreesobligatorioreportar
losalcancesysupuestosdetrsdeladecisintomada.
65
2 n 1s 2
0 2
. 02 tendr una probabilidad asociada (valor-p) que se puede calcular
0
2 2
Representacin de las regiones correspondientes a las hiptesis: nula H 0 : 0 y alternativa
H1 : 2 02 sobre la varianza en experimentos 11.
precisamente 1 - . Los grficos siguientes ilustran esta prueba para las tres posibles hiptesis
alternativas:
66
67
Determine cules son los valores crticos del estadstico 02 para los siguientes niveles de
significacin, tamaos de muestra e hiptesis.
(a) = 0,01; n = 20; H 0 : 2 7 y H 1 : 2 7 ;
Rta/ Dadas las hiptesis planteadas, se trata de una prueba de dos colas (Figura 2c). Por
tanto, el error tipo I debe dividirse en dos zonas de probabilidad /2 = 0,01/2 = 0,005. Los
grados de libertad son: n-1 = = 20 -1 = 19. Existen entonces dos valores crticos de 02
ledos en la cola izquierda:
2 2
(i) crt 2 / 2, 02,005,19 . El valor de crt buscado puede obtenerse de manera directa en
una Tabla para la distribucin 2 , de cola izquierda. Las entradas de la Tabla se sealan en
2
la Figura 3 y resultan en el valor crt 2 / 2 , 02, 005,19 6,89 . Usando un procedimiento
2
similar, se obtiene un valor crt 12 / 2, 02,995,19 38,6
Figura 3. Lectura del valor 02, 005,19 en una Tabla de distribucin para la distribucin de
probabilidad 2 de cola izquierda. Tomado de (M.R. Spiegel & Stephens 2009).
68
Por tanto, para el valor 02, 005,19 en esta tabla corresponde a 38,5822 (ver Figura 4) mientras
Figura 4. Lectura del valor 02, 005,19 en una Tabla de distribucin para la distribucin de
probabilidad 2 de cola derecha. Tomado de (Thompson 1941).
69
n-1 = 19
f(2)
H1 H0
H1
/2 = 0,005 /2 = 0,005
2 2
crt 6,84 crt 38,58 2
2
Como ejercicio, el lector puede calcular los valores crt para los casos siguientes:
70
Cmo se hace un diseo 11? Anlisis desde el punto de vista del DdE
Dada su naturaleza, el diseo 11 no implica grandes esfuerzos de planificacin para ejecutarse.
Sin embargo, su planeacin y ejecucin deben atenerse a los principios fundamentales del diseo
de experimentos. En particular:
1. Garantizar la confiabilidad de los instrumentos de medicin que se vayan a emplear.5
2. Realizar el muestreo de manera aleatoria. En este caso, aquellas medidas de control de calidad
que se hacen de manera rutinaria; por ejemplo, a la misma hora, el mismo da, el mismo operador,
el mismo lugar, etc, no cumplen el supuesto de aleatoriedad y por tanto los anlisis de estadstica
inferencial que se deseen aplicar carecen de rigurosidad y no pueden emplearse para elaborar
conclusiones slidas.
3. Formulacin de un modelo estadstico y de hiptesis sobre el modelo. Dado el objetivo de
este tipo de diseo experimental, el modelo estadstico a formular es: yi m0 i . En palabras,
este modelo enuncia que cada medida experimental ( yi ) se puede expresar en funcin de la
5
Enestetextoseentiendecomoinstrumentodemedicintodoaquelmedioqueseempleeparala
recoleccindedatos.As,unabalanzayunaencuestaseconsiderancomoinstrumentosdemedicinpor
igual.Ellectordebetenerpresentequeunaencuestadebeestarmuybiendiseadaantesdeaplicarse.
71
1. Determine si los datos de tamao de partcula (nm) correspondientes al catalizador del ejemplo
ilustrativo sobre histogramas (pg. 22) cumple con el supuesto de normalidad. Adems,
compruebe cul sera el valor del error tipo I que habra que asumir para aceptar el supuesto de
varianza constante. Asumir que la varianza de una muestra de mil datos para este catalizador;
s10002 = 18.7 nm2, representa la varianza poblacional (02).
Repita este mismo de comprobaciones para los siguientes puntos.
2. Una refinera convencional recibe crudos de diferente calidad con base en la procedencia de los
mismos. La calidad de los crudos puede definirse de diversas maneras. Una de las ms comunes
es en cuanto a la denominada gravedad API (API). As, cuando un crudo tiene API menor de
20 se considera pesado mientras que si API es mayor que 40 se considera liviano. A
continuacin, se presentan datos de API para la produccin de un determinado pozo petrolero
colombiano recin descubierto:
La varianza histrica para esta situacin es 02 = 30,8API2. Repita los clculos para 02 =
70,3API2 y 02 = 15,4API2 qu observa?
72
3. Los estudiantes del curso de Diseo de Experimentos del primer semestre de 2016 probaron
sus habilidades atlticas en una carrera de 100 m planos. Los siguientes fueron los tiempos
obtenidos por cada estudiante en la prueba:
Tiemposencarrerade100mplanos(s)
23,56 12,42 21,08 13,11 13,26 18,80
12,26 13,44 22,74 19,05 13,53 18,91
17,85 13,81 28,92 17,83 19,16 13,11
17,94 12,64 14,44 17,85 17,32 16,87
18,27 13,11 14,30 17,94 22,30 18,21
17,99 13,26 17,50 23,56 19,49 17,14
18,60 13,53 13,35 12,26 18,27 16,40
18,60 17,85 16,65 17,99 17,94 15,46
73
Sobre los diseos 21 o las comparaciones entre dos poblaciones
Un diseo experimental 21 involucra una variable (exponente = 1) que se mide en dos niveles
(base = 2) y tiene por objeto comparar las dos poblaciones se considera que cada nivel de la
variable genera una poblacin de las cuales se hayan tomado dos muestras aleatorias. Para cada
nivel de la variable habr entonces valores propios de los parmetros y estadsticos respectivos.
El objeto del experimento es establecer si existe una diferencia significativa entre los parmetros
estadsticos de los dos niveles de la variable que se est estudiando. Dos supuestos fundamentales
para la comparacin a realizarse son: (i) las observaciones entre los dos niveles de la variable son
totalmente independientes; (ii) las poblaciones de cada nivel de la variable se pueden modelar a
travs del mismo tipo de Distribucin de Probabilidad. Esquemticamente, la comparacin se
puede ver como lo plantea Montgomery para distribuciones normales:
De manera anloga a lo que se plante para el diseo 11, el modelo a probar en un diseo 21 es:
nivel de la variable, ij son los valores del error aleatorio inherente a cada medicin, i son los
niveles de la variable y j son las observaciones correspondientes a cada nivel i. Dentro del ij se
74
variacin aleatoria de las medidas experimentales. En prximos captulos usaremos este hecho
para expandir el diseo de experimentos a multivariables y multiniveles.
El modelo predice que cada dato medido se puede representar por la media poblacional de cada
nivel de la variable ms un error aleatorio ligado a cada medicin. Un supuesto fundamental del
modelo es que ij obedece una distribucin normal N (0, i2 ) . Las hiptesis estadsticas a
La naturaleza de las hiptesis a probar para un diseo 21 es la misma que para los diseos 11
discutidos antes. La siguiente tabla las resume:
En todos los casos, el concepto detrs de la hiptesis nula es que la variable respuesta no se ve
afectada por el cambio de nivel en la variable de entrada del proceso. En cuanto a la hiptesis
alternativa, sta puede adaptarse a tres casos que se deseen investigar: (i) m1 m 2 la variable
respuesta sufri una alteracin significativa; (ii) m1 m2 la variable respuesta aument con el
cambio del nivel 1 al nivel 2; y, (iii) m1 m2 la variable respuesta disminuy con el cambio del
nivel 1 al nivel 2. En general, (i) sirve para preguntar si un determinado proceso cambia con la
variable de entrada, (ii) y (iii) sirven para comparaciones comunes en procesos industriales de
control de calidad.
En general, los requerimientos y pasos para analizar los resultados de un diseo 21 son similares
a los de un diseo 11. Para las pruebas de hiptesis, el siguiente procedimiento general aplica:
75
(2) Si se conocen las varianzas (12 y 22) de las poblaciones de las cuales se tomaron las muestras,
se emplea el estadstico z para probar las hiptesis sobre las medias poblacionales. En este caso,
y1 y 2 m1 m2
z0 (i.e. el valor z para los datos del experimento) se define como: z0 . En
12 22
n1 n2
esta ecuacin, es importante resaltar las siguientes implicaciones: (i) Si H0 es: m1 = m2,
y1 y 2
m1 m 2 0 y la ecuacin se simplifica a: z0 . (ii) Si por algn motivo, se sabe o
12 22
n1 n2
z0
y1 y2 0
. (iii) Ntese que este procedimiento sirve para obtener un nico valor de
12 22
n1 n2
z0, lo cual es consecuente con haber supuesto que ambas poblaciones pueden modelarse con el
mismo tipo de distribucin estadstica.
(3) Una vez determinado z0, se calcula el valor-p respectivo y se concluye sobre la significancia
estadstica de la diferencia entre las medias poblacionales. Cuando impera tomar una decisin se
opta por establecer a priori un valor del error tipo-I para rechazar H0.
(4) Si se desconocen 12 y 22, es necesario emplear estadstico t para los clculos. Existen dos
y1 y 2 0
instancias: (i) 12 = 22. Aqu, t , donde Sp es una varianza ponderada que se
1 1
Sp
n1 n2
libertad para el estadstico t, son = n1 + n2 2. (ii) Si, 12 22, el estadstico se calcula con
76
y1 y 2 0
la expresin: t . Los grados de libertad, se calculan usando:
S12 S 22
n1 n2
2
S12 S 22
n1 n2
2 2 .
S12 S 22
n n
1
2
n1 1 n2 1
Para determinar si se aplica 4.i o 4.ii, se hace con anterioridad la prueba de normalidad
comparando las pendientes de las curvas para saber si la varianza es constante o no. Una vez
calculado el valor del estadstico, se halla el valor-p y se concluye de acuerdo a lo que se halla
establecido como estadsticamente significativo. A continuacin, se presenta un ejemplo
ilustrativo de lo arriba expuesto.
77
78
Los estadsticos de las muestras son: y1 1,46110-7 A/cm2; y 2 2,17810-7 A/cm2; S12
0,96510-14 A2/cm4 y S 22 3,00810-14 A2/cm4. Con estos valores, se calculan los grados
de libertad del estadstico de prueba t:
2
0,965 1014 3,008 1014
4 4
2 2 4,75. La costumbre en estos casos es
0,965 1014 3,008 1014
4 4
4 1 4 1
siempre redondear este valor al entero menor. De esta manera, 4.
Dado el valor-p obtenido, no se puede rechazar la hiptesis de que las mezclas Tipo-I
tienen mayor resistencia a la corrosin hasta valores del error tipo-I del 26%. Si el estndar
de aceptacin fijado para la hiptesis nula es 0,05, sta no puede rechazarse por ninguna
circunstancia.
79
80
sobre sus propiedades fisicoqumicas. En particular, los autores muestran datos de reas
superficiales de los materiales preparados, los cuales se presentan a continuacin:
(a) Probar la hiptesis que el boro afecta por igual ambos tipos de catalizadores.
(b) Si se requiere que la diferencia entre las medias poblacionales de las reas superficiales
de ambos tipos de catalizadores no sobrepase los 12 m2/g para su uso en reacciones de
hidropurificacin de combustibles fsiles; se pueden utilizar los catalizadores
preparados en la reaccin propuesta?
3. El trabajo de grado de Bermdez & Gonzlez (CICAT, 2017) presenta un primer estudio para
el diseo de un proceso de sntesis de nanopartculas Janus. Estas se definen como partculas
slidas funcionalizadas en su superficie de modo que poseen propiedades qumicas diferentes en
sus caras. El nombre Janus fue dado en honor al dios Romano de las puertas. El grfico a
continuacin es un esquema para representar a este tipo de partculas:
Tomadode:Tolosa, L. Emulsiones estabilizadas con partculas (emulsiones pickering), Escuela de ingeneria
quimica. Mrida: Universidad de los Andes. 2016, pg. 27.
Las autoras sintetizaron este tipo de nanopartculas usando slice funcionalizado con 3-Amino-
propil-tri-etoxi-silano -APTES- y analizaron su comportamiento como agente estabilizador de
emulsiones hexano-agua. Para la sntesis, debieron garantizar un tamao de las nanopartculas
81
de slice de ca. 50 nm. En sus ensayos, obtuvieron partculas con los siguientes tamaos (nm):
51,3; 51,3; 51,3; 51,2; 51,2; 50,5; 50,5; 50,5; 50,5; 49,9; 50,4; 50,4; 49,9; 49,9; 48,8; 48,8; 48,8;
48,8; 48,8; 48,8; 46,8; 46,8; 46,2; 45,7; 45,7. Determine si las autoras cumplieron con su
objetivo.
82
Dependiendo del conocimiento que se tenga sobre las varianzas de las poblaciones estudiadas
(12 y 22) se calcula el intervalo de confianza respectivo. As, existen los mismos tres casos que
se describieron para las pruebas de hiptesis planteadas para este tipo de diseo experimental.
Un diseo 21D es una alternativa empleada cuando se desea evaluar un experimento que est en
correspondencia con otro. De esta manera, los datos recolectados se combinan en parejas y se
realizan pruebas de hiptesis sobre las diferencias entre estas parejas.
En el anlisis estadstico de este tipo de diseos se considera un muestra constituida por pares
de datos ordenados (y11, y21), ,(y1j, y2j) con diferencias aritmticas: dj = y1j - y2j que se
distribuyen de acuerdo a una distribucin normal con media md. Las diferencias dj tienen una
1 n
media muestral: d d j .y una desviacin estndar muestral
n j 1
2
n n
d 2 1 d
j j
n j 1
Sd j 1 .
n 1
Si la muestra recolectada es grande, las hiptesis pueden evaluarse con el estadstico de prueba:
83
d m0
z . Como es costumbre, a partir del valor del estadstico de prueba se calcula el valor-
Sd
n
d m0
p. Si la muestra es pequea, se usa: t ; donde, = n 1. Aqu, se puede notar que en
Sd
n
el diseo 21D se tienen solamente n 1 grados de libertad a partir de los 2n datos iniciales del
experimento. Esto hace que este tipo de diseo experimental sea menos sensible a detectar
cambios en la variable. Por otra parte, se puede considerar que el diseo 21D es un caso especial
de los diseos de una variable bloqueados. Esto debido a que al computar las diferencias entre
los datos pareados se puede estar bloqueando el efecto de una variable interferencia de modo
que su posible impacto en la variable respuesta se sustraiga del efecto de la variable respuesta
que se est investigando. A continuacin, se presenta un ejemplo ilustrativo.
84
Con base en los datos recopilados, determine si el cambio en el peso de los catalizadores
durante la reaccin est relacionado con las observaciones extraas del estudiante.
1 n 1
d dj 8.038 ... 2.313 4.897 g.
n j 1 14
2
n n
d 2 1 d
j 1 j n j 1
j
Sd 1 8.038
2
... 2.3132
1
8.038 ... 2 2.119
n 1 13 14
g.
85
d 4.897
t13 8.65.
Sd 2.119
n 14
Con este valor, usando la funcin de Excel: DISTR.T.2C(8.65, 13), se obtiene valor-p
9.4510-7. Con este valor-p, se puede aseverar con propiedad que la causa de los
resultados raros obtenidos por el investigador bien puede estar asociada a una prdida de
masa durante sus ensayos puesto que hay suficiente evidencia para rechazar la hiptesis
nula.
1. Considere de nuevo los resultados del trabajo de investigacin titulado: Sntesis y evaluacin de
recubrimientos base fluoruro empleando fuentes alternativas al HF sobre la aleacin Elektron 21 para la
fabricacin de implantes ortopdicos biodegradables de L. A. Rojas Flrez et al. (Ion 28 (2015) 7 21)
analizados en el ejemplo ilustrativo de la pgina 74. En este caso, los autores analizaron la
diferencia entre los potenciales de corrosin por picadura (Epic [V]) y pasivacin (Ecorr [V])
como parmetro para evaluar la calidad de materiales preparados. Los resultados obtenidos
fueron:
Determine si los materiales preparados son una buena alternativa frente a la corrosin por
picadura sabiendo que entre ms baja sea la diferencia entre los potenciales medidos mucho ms
resistentes son a sta.
86
2. (Adaptado de: R.L. Manson et al., Statistical Design & Analysis of Experiments, 2nd
Ed., Wiley, 2003, pg. 101) Se quiere saber si existen diferencias significativas en las medidas
hematolgicas de un laboratorio en funcin del profesional que las realiza con el nimo de evitar
una posible interferencia en los resultados entregados a los pacientes. Durante el experimento,
se entregaron siete muestras de sangre a cada profesional para que las analizaran. Los resultados
obtenidos fueron:
Determine si los resultados del laboratorio son confiables o dependen de quin hace el anlisis.
87
CAPTULO V
DISEO DE EXPERIMENTOS DE UN FACTOR CON
MLTIPLES NIVELES: A 1
Qu es un Diseo de Experimentos de una variable multiniveles: A1?
Existen dos tipos principales de modelos estadsticos para Diseos A1. El primero es el llamado
modelo de medias. En l, las observaciones experimentales ( y i , j ) pueden describirse como la
suma de la media poblacional de la variable respuesta para cada nivel de la variable de entrada
(mi) ms el error aleatorio del experimento ( i, j ):
yi, j m i i, j .
Este modelo no se emplea usualmente. Se prefiere con mucha frecuencia el empleo del modelo
de efectos. En este, la media poblacional del experimento (m) se expresa como la suma de la
media poblacional de cada nivel de la variable de entrada ms el efecto de cada nivel sobre la
media poblacional del experimento (i), as: m m i i . De este modo, si un nivel i de la variable
yi, j m i i, j .
88
La base conceptual detrs de las pruebas de hiptesis de estos modelos se refiere a realizar
comparaciones de modo que se establezca si los grupos de datos estudiados pertenecen a una
misma poblacin. En este caso, los efectos de los cambios de nivel sobre la variable respuesta
son nulos y es por ello que todo el experimento se asocia a una nica poblacin con media m y
De manera anloga a lo que se hizo para los diseos 21, se postulan una hiptesis nula y una
alternativa. Para un modelo de efectos fijos, estas corresponden a:
H 0 : 1 2 ... a 0
En la prctica, estas hiptesis implican: Si H 0 no puede rechazarse: los cambios en los niveles
de la variable de entrada no ejercieron un efecto significativo en los resultados del experimento.
Si H 1 se cumple: algn cambio de nivel en la variable de entrada gener un efecto significativo
sobre la variable respuesta estudiada.
Estas hiptesis tambin son equivalentes a verificar si las respuestas generadas por los cambios
en la variable de entrada pertenecen a una nica poblacin.
Para los diseos 21, se plante el uso de pruebas estadsticas con los estadsticos z y t para probar
hiptesis sobre el efecto de la variable de entrada sobre los resultados del experimento realizado.
Cuando se hacen experimentos multiniveles, estas pruebas dejan de ser convenientes porque: (i)
a!
habra que realizar pruebas z o t para probar las hiptesis que se generan al comparar
2!(a 2)!
3!
los a niveles de la variable. As, para un diseo 31, se deben hacer = = 3 pruebas de
2!(3 2)!
hiptesis sobre las diferencias entre cada nivel. (ii) Como consecuencia del aumento en el nmero
de pruebas de hiptesis a realizar, se incrementa la probabilidad de cometer un error tipo I. Por
ejemplo, para el mismo diseo 31 citado en (i), la probabilidad del error tipo I se incrementara
89
Qu es el Anlisis de Varianza?
Anlisis de
Varianza
Diseo
estadstico de
experimentos
Pregunta(s) de
investigacin
Respuestas a
hiptesis postuladas
Como se dijo antes, el principio bsico para la realizacin de un ANOVA es que, si una variable
de entrada ejerce un efecto significativo sobre la variable respuesta estudiada, las variaciones
generadas por los cambios de nivel de la primera deben sobrepasar las variaciones generadas por
90
el error aleatorio del experimento. La definicin de cunto debe ser la diferencia entre los dos
trminos mencionados arriba depende del criterio del investigador. En la prctica, la medida de
estas variaciones corresponde al clculo de la varianza de los datos experimentales asociada a los
cambios de nivel de la variable de entrada dividido por la varianza generada por el error
experimental. Se puede demostrar matemticamente (ver, por ejemplo: (Montgomery & Runger
2014)) que el cociente anterior se distribuye de acuerdo a una funcin de distribucin de
probabilidad F de Fisher. Para una variable de entrada dada, se denotar a la varianza en
cuestin: MSVar-E mientras que la varianza del error experimental se representa como MSError.
Aqu, MS es la sigla en ingls para la denominada Media de la Suma de Cuadrados. Los MS
son los cocientes entre las sumas de cuadrados y los grados de libertad respectivos a la variable
SSVar E SS
de entrada y el error aleatorio: MSVar E y MS Error Error . El valor F derivado de
uVar E Error
MSVar E
los MS arriba descritos; Fu Var E , Error
, se calcula de acuerdo a la expresin: FuVar E , Error
MS Error
. Para el anlisis de varianza, se calcula entonces el valor del estadstico Fu Var E , Error y se compara
El clculo de los MS est fundamentado en un anlisis de las expresiones con las que se estima
la varianza muestral del diseo de experimentos realizados. En general, para todo diseo
experimental, siempre se puede calcular la variabilidad de los datos recolectados de acuerdo a
una suma total de cuadrados; SST, que mida la magnitud de la desviacin de cada valor de la
variable respuesta obtenido; yij (donde, i representa el nivel de la variable de entrada y j las
rplicas del diseo experimental), respecto al promedio de todas las medidas realizadas; y De
manera anloga a como se define la varianza muestral, SST se calcula con la expresin:
91
a n
SS T y ij y 2
. Donde, a es el nmero de niveles de la variable de entrada. Es decir,
i 1 j 1
SS T yij y 2
n y i y y
2
ij
y . Aqu, el primer trmino es la
i 1 j 1 i 1 i 1 j 1
Para SST, T N 1 , Donde, N es el nmero total de datos experimentales (ntese que esta
expresin es la misma que se tiene en la ecuacin para el clculo de la varianza muestral!).
a n 2 a n 2
a
y y
2
ij y n y i y ij y
i 1 j 1 i 1 i 1 j 1
, i.e. la varianza total del diseo
N 1 a 1 N a
experimental es la suma de la varianza de los cambios de nivel de la variable entrada ms la
varianza del error aleatorio.
92
a n
y 2
SS T y i2, j . Aqu, y 2 es el cuadrado de la suma total de todas las observaciones
i 1 j 1 N
y 2
del diseo experimental. Al trmino: se le llamar en adelante Factor de Variacin (FV).
N
1 a 2
SSVar E yi , FV
n i 1
yi, j m i i, j .
Donde, yi,j son los valores de la variable respuesta del experimento llevado a cabo; m es la media
poblacional del proceso; i es el efecto de los cambios de nivel de la variable principal; y, i, j
93
y y
n a n a
En la Tabla, y i y ij ; y y ij yi ; y i y i n ; y y N
j 1 i 1 j 1 i 1
y 2
4. Calcular FV =
N
5. Calcular las sumas de cuadrados: SST, SSVar-E y SSError.
6. Calcular los grados de libertad: T , Var E y Error
7. Calcular las medias de las sumas de cuadrados: MSVar-E y MSError
8. Calcular el valor F Var E , Error
.
9. En este punto, hay dos alternativas para juzgar estadsticamente la existencia de un efecto.
9.1 Calcular el valor-p asociado al valor F Var E , Error
obtenido. Para ello, se puede usar una Tabla
94
que es equivalente a decir que existe una probabilidad de 1/20 de que la conclusin obtenida sea
incorrecta). En Excel, F ,u Var E , Error se calcula con la funcin INV.F.CD(, Var E , Error ). Para
llegar a una conclusin, se comparan Fu Var E , Error y Fcrt , si Fu Var E , Error > Fcrt, se acepta H 1 (i.e. los
De los dos procedimientos enunciados arriba, se recomienda usar el 9.1 debido a que el valor-p
calculado se puede emplear directamente como criterio de decisin. De hecho, este valor-p es el
error tipo I mximo que se podra usar para juzgar la existencia de un efecto de la variable de
entrada sobre la variable respuesta.
10. Concluir sobre la hiptesis postulada y escribir el modelo estadstico de acuerdo a esta
conclusin. Si no se puede rechazar H 0 , se tiene el modelo: y i , j m i , j . Si se acepta H 1 , se
95
A lo largo de los aos, los taninos han encontrado muchos otros usos como, por ejemplo: en
la manufactura de baldosas y tejas, la extraccin de petrleo y la fabricacin de dispersantes y
floculantes. Comnmente, los taninos se extraen de la corteza de los rboles. En el proceso
de extraccin se emplean solventes y otros agentes qumicos que se ponen en contacto con
las cortezas. En su bsqueda por nuevas oportunidades, un joven ingeniero de la UIS decidi
disear un proceso de extraccin de taninos cuyo diagrama de flujo se ilustra a continuacin:
En este diagrama, la corteza del rbol (F1) se pone en contacto con un solvente (F2) a
contracorriente de lo que resulta un residuo (F3) y un extracto de taninos (F4). La
concentracin de las corrientes viene dada en % peso. La composicin del residuo est en
base seca. La capacidad de la unidad es de 100 kg. De los compuestos presentes en la corteza,
la lignina se considera un inerte. Los datos suministrados en el diagrama se obtuvieron para
una primera demostracin de la unidad hecha con una corteza de pino. Para este ensayo, se
puede demostrar; haciendo un balance masa, que el porcentaje de recuperacin de taninos es
del 94.6%.
Ante los buenos resultados, el joven emprendedor decidi repetir el ensayo con la corteza de
pino y adems emplear cortezas de Caracol y Roble para evaluar el comportamiento del
proceso ante el cambio de materia prima. En general, se asumi que las composiciones de las
cortezas son similares.
96
Tipo de corteza
Pino Caracol Roble
% taninos en residuos
0.92 0.82 0.97
0.90 0.87 0.95
0.91 0.83 0.93
0.89 0.85 0.96
Baseseca
Componente F3(composicin%) F1 (masa,kg) F3(masa,kg) F4(masa,kg) %Recuperacin
Solubles 0,45 8,3 0,3
Taninos 0,92 12,6 0,7 11,90 94,60
Humedad 5,8 ---
Lignina 98,63 73,3 73,3
Total:74,3
La anterior tabla se hace en programa en Excel para transformar todos los datos suministrados
as:
97
95,2
%Recuperacin de taninos (F4)
95,0
94,8
94,6
94,4
94,2
94,0
93,8
Pino Caracol Roble
Tipo de corteza
A partir de la figura, se aprecia que usar corteza de Caracol resulta en un mayor porcentaje
de recuperacin de taninos en el proceso. Adems, la corteza de Roble conlleva a un menor
porcentaje de recuperacin de taninos. Adems, la uniformidad de las cajas del diagrama
sugiere fuertemente que las diferencias observadas son estadsticamente significativas. Por
tanto, se esperara que una prueba ANOVA de este conjunto de datos produzca un valor-p
indicativo de la existencia de diferencias significativas entre los porcentajes de recuperacin
de taninos a partir de los tres tipos de corteza estudiados. A continuacin, se presenta el
desarrollo de la prueba ANOVA.
98
y i , j m % R tan icorteza i , j
El modelo expresa que el porcentaje de recuperacin de taninos puede representarse mediante
la media poblacional del porcentaje de recuperacin: m % R tan , ms la contribucin de los
posibles efectos generados por el cambio del tipo de corteza de rbol usado en el proceso:
icorteza , ms el error aleatorio inherente a las medidas realizadas: i, j . Sobre este ltimo, se
har necesario comprobar el supuesto de varianza constante.
2. Las hiptesis nula y alternativa del modelo son respectivamente:
H 0 : 1Pino 2Caracol 3Roble 0 ;
La hiptesis nula expresa entonces que el tipo de corteza empleada no afecta el porcentaje
de recuperacin de taninos, mientras que la alternativa postula que por lo menos un tipo de
corteza cambia la variable respuesta.
3. Se elabora la siguiente tabla de contingencia:
%Recuperacin de taninos Sumas
Tipo de Rplicas Promedios
corteza 1ra 2da 3ra 4ta totales
Pino y11 = 94.6 y12 = 94.7 y13 = 94.6 y14 = 94.8 y1. = 378.7 y 1 =94.7
Caracol y21 = 95.2 y22 = 94.9 y23 = 95.1 y24 = 95.0 y2. = 380.1 y 2 = 95.0
Roble y31 = 94.3 y32 = 94.4 y33 = 94.5 y34 = 94.3 y2. = 377.5 y 2 = 94.4
y 2
4. FV = = (1136.3)2/12 107600.03.
N
99
SST 0.963;
1
SSVar E
1 a 2
n i 1 4
2
2
2
y i , FV = 378.7 380.1 377.5 107600.03 0.862.
En consecuencia:
SSError. SST - SSVar E 0.963 - 0.862 0.101.
6. Los grados de libertad son:
T = N 1 = 12 1 = 11; Var E = a 1 = 2; y Error = T Var E = 11 2 = 9.
7. Las medias de las sumas de cuadrados son:
SSVar E 0.862
MSVar-E = 0.431
Var E 2
SS Error 0.101
MSError = 0.011
Error 9
MS Var E 0.431
FVar E , Error 38.45
MS Error 0.011
El valor-p asociado a FVar E , Error es: 3.9 10-5. Este valor es mucho menor que, por ejemplo,
= 0.01 y por tanto se concluye que existe suficiente evidencia para rechazar H0. Desde el
punto de vista prctico, se concluye que el tipo de corteza s tiene un efecto significativo sobre
el porcentaje de recuperacin de taninos del proceso desarrollado por el joven investigador.
Nota: Un anlisis de varianza aplicado a los datos originales debe llevar a la misma
conclusin. Se recomienda al lector comprobarlo.
100
a y i2,
SSVar E FV
i 1 ni
formulacin formal de este modelo asume dos supuestos fundamentales sobre los errores: i, j .
Una de las mejores alternativas para comprobar los supuestos de normalidad, independencia
y varianza constante de los errores del modelo es el anlisis de los residuales del modelo
(ei,j). Estos ltimos se definen como la diferencia entre las observaciones experimentales ( y i , j )
y las predicciones de estas observaciones obtenidas a partir del modelo estadstico ( y i , j ). i.e.,
ei , j y i , j y i , j .
Ntese que, dada esta definicin, los residuales pueden ser positivos o negativos y
que hay un valor por cada dato experimental que se obtenga en el experimento.
Los valores de las predicciones del modelo se pueden calcular asumiendo que la media
poblacional del modelo se puede estimar a partir del promedio global de los datos; as,
m m y . Por otro lado, los efectos sobre la variable respuesta de los experimentos debidos
101
a los cambios de nivel de la variable de entrada se estiman como la diferencia entre los promedios
de cada nivel y el promedio global, i.e., i , j i , j y i y . Teniendo en cuenta estas dos
expresiones, se asume que las predicciones de modelo corresponden a las contribuciones de los
estimadores de la media global y los efectos: y i , j m i , j . Sustituyendo en esta expresin los
valores de los promedios asociados a los estimadores de los parmetros estadsticos se llega a la
conclusin que el modelo estadstico de un diseo A1 predice que los valores de la variable
respuesta estn dados por el promedio de cada nivel de la variable de entrada al que pertenece,
i.e., y i , j y i . En consecuencia, los valores de los residuales para un diseo A1 se calculan con
la expresin: ei , j y i , j y i .
Existen varios mtodos para comprobar los supuestos de normalidad, independencia y varianza
constante de los errores del modelo. Entre ellos, los ms empleados son de tipo grfico.
Por un lado, los supuestos de normalidad y varianza constante de los errores se pueden verificar
haciendo un histograma de los residuales. Si los residuales se ajustan a una distribucin N(0,2),
el histograma debe parecerse a uno obtenido a partir de una muestra de una distribucin normal
centrada en m = 0. La desventaja de este mtodo es que es poco aplicable a muestras pequeas.
Como alternativa, se puede elaborar un grfico de normalidad de los residuales de acuerdo
a los procedimientos descritos antes (Ver pginas 40-42). En este caso, se graficaran los valores
de zi,j en funcin de ei,j y se esperara observar un comportamiento lineal si se cumple el supuesto
de normalidad.
Los comportamientos descritos como anmalos para la grfica de comprobacin del supuesto
de independencia de los errores tambin son una primera indicacin de la violacin del
102
supuesto de varianza constante de los errores. Para asegurar el cumplimento del supuesto de
varianza constante, se puede elaborar un grfico de los residuales en funcin de los valores
predichos por el modelo estadstico: ei , j vs. y i , j . Recordar que: y i , j y i . Como en el caso de
la comprobacin del supuesto de independencia de los errores, esta grfica no debe tener una
tendencia definida y los puntos representados deben distribuirse de manera aleatoria.
Tipo de corteza
Pino Caracol Roble
% Recuperacin de taninos
94.57 95.17 94.28
94.69 94.87 94.39
94.63 95.11 94.51
94.75 94.99 94.34
Respuesta:
El modelo estadstico de los datos presentados corresponde a: yi , j m% R tan icorteza i , j .
Los resultados del ANOVA mostraron que icorteza 0 . Por tanto, el trmino ligado al efecto
del tipo de corteza en el porcentaje de recuperacin de taninos debe tenerse en cuenta para el
clculo de los residuales. Los residuales se pueden calcular de acuerdo a la expresin:
ei , j y i , j y i . Los valores y i , j corresponden a los resultados del experimento, mientras
que y i representa el promedio de los resultados de cada nivel del experimento. De este
modo, los residuales son:
e11 = 94.57 94.66 = -0.09; e12 = 94.69 94.66 = 0.03; e13 = 94.63 94.66 = -0.03; e14 = 94.75
94.66 = 0.09;
e21 = 95.17 95.04 = 0.13; e22 = 94.87 95.04 = -0.17; e23 = 95.11 95.04 = 0.07; e24 = 94.99
95.04 = -0.05.
e31 = 94.28 94.38 = -0.10; e32 = 94.39 94.38 = 0.01; e33 = 94.51 94.38 = 0.13; e34 = 94.34
94.38 = -0.04.
103
2,00
1,50
1,00
0,50
zk
0,00
-0,50
-1,00
-1,50
-2,00
-0,20 -0,15 -0,10 -0,05 0,00 0,05 0,10 0,15
Residuales: eij
Para comprobar el supuesto de independencia del error aleatorio, se debe conocer el orden
de ejecucin de los experimentos. De esta manera, se plantea la siguiente tabla reportada por
el experimentados:
104
0,10
0,05
0,00
eij
-0,05
-0,10
-0,15
-0,20
0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00
Orden ejecucin de experimentos
En la grfica no se observa alguna tendencia particular, por lo cual se concluye que se
cumple el supuesto de independencia.
0,15
eij
0,00
-0,15
-0,30
94,20 94,40 94,60 94,80 95,00 95,20
105
Ejercicios
Asumiendo que los datos presentados corresponden a un diseo experimental A1; donde las
estaciones pueden considerarse rplicas del experimento, y que el criterio para determinar la
presencia de lluvia cida corresponde a que sta tenga un pH promedio menor a 5.6, decida
sobre el efecto del mes del ao sobre la presencia de lluvia cida.
106
2. Teniendo en cuenta las epidemias de Zika y Chikungunya que se han presentado en el pas,
una compaa de insecticidas decide estudiar la eficiencia de tres nuevos productos para matar
mosquitos. Para ello, el ingeniero encargado, aplica los productos sobre 100 mosquitos durante
seis das y cuenta el nmero total de mosquitos aniquilados expresndolo en porcentaje. El
ingeniero decide esta estrategia experimental considerando la posibilidad que el da puede
interferir en el anlisis de sus resultados y desea, por tanto, aminorar el posible efecto de esta
variable que implica efectos que no puede controlar como: humedad diaria, temperatura,
intensidad del viento. Con las consideraciones arriba mencionadas, obtiene los siguientes
resultados:
No.Derplica(da)
Cdigodeproducto
1 2 3 4 5 6
MMM-01 70 58 66 74 55 68
MMM-02 61 70 59 58 67 50
MMM-03 53 68 69 70 57 53
107
Pour et al. reportan (Chin J Catal 36 (2015) 13721378) un estudio sobre el efecto del tamao
de partcula en la cintica de reaccin del proceso Fischer-Tropsch efectuado en catalizadores
de Co. Para ello, los autores realizaron la preparacin de dos grupos de catalizadores de
nanopartculas de Co soportadas en nanotubos de carbono por dos mtodos de preparacin
distintos. Paso seguido, determinaron los tamaos de partcula del Co y procedieron a hacer
pruebas catalticas a 493 K y 508 K, 20 bar, relacin molar H2/CO = 2, y una velocidad espacial
de 2.4 Nl/(gcath). Una seleccin de los resultados del estudio de estos autores se presenta a
continuacin:
Aqu, dcat representa el tamao de partcula del Co y kFTS representa la constate cintica de
reaccin calculada a partir los experimentos catalticos.
Considerando que el objetivo del estudio de Pour et al. fue analizar el efecto del tamao de
partcula en la cintica de la reaccin de FT, realice el siguiente anlisis estadstico de los
resultados presentados por los autores, considerando que los cambios en temperatura del
proceso son una manera de replicar los experimentos:
1. Elabore un diagrama de cajas que ilustre si hay una dependencia de la constante cintica
de reaccin con el tamao de partcula.
2. Formule un modelo correspondiente al posible efecto de dcat sobre kFTS y postule las
hiptesis a probar sobre este modelo.
3. Compruebe la hiptesis de que el dimetro de partcula tiene influencia sobre kFTS
cataltico mediante una prueba ANOVA.
4. Compruebe los supuestos de normalidad, independencia y varianza constante del error
aleatorio del modelo. Para el supuesto de independencia, asuma que los experimentos se
ejecutaron en el orden en el que se reportan en la tabla de resultados, empezando por el
realizado con partculas de dcat = 12.4 nm y 493 K.
108
4. En el artculo: Adsorption Equilibrium of Methane, Carbon Dioxide, and Nitrogen on Zeolite 13X at
High Pressures (J. Chem. Eng. Data 2004, 49, 1095-1101), Cavenati et al. investigaron la adsorcin
a alta presin de metano sobre una zeolita 13X. El trabajo de los autores tuvo como fin ltimo
disear un proceso de purificacin del gas natural para su uso como combustible vehicular y en
plantas generadoras de energa. Uno de los criterios de calidad del gas natural es el contenido de
impurezas como CO2 y el N2. Los contenidos de estos gases no deberan superar el 2 y el 4%,
respectivamente, para su transporte en tuberas. En particular, el CO2 es responsable de la
corrosin de tuberas y equipos industriales. Como alternativa de purificacin del metano, los
autores realizaron la adsorcin de este gas en adsorbentes tipo zeolitas. La Tabla a continuacin
(tomada del artculo original) muestra datos experimentales de la adsorcin de metano en
equilibrio para una zeolita 13X a 298, 308 y 323K.
109
CAPTULO VI
DISEO DE EXPERIMENTOS DE UN FACTOR CON
1
BLOQUEO DE UNA VARIABLE INTERFERENCIA: A[ B ]
La tcnica del bloqueo en el diseo de experimentos
niveles de la variable principal, el exponente 1 se refiere a una variable principal y [B] se refiere
al nmero de niveles; i.e. bloques, de la variable interferencia del diseo. En general, un diseo
A[1B ] representa un experimento o proceso cuyo diagrama de flujo es:
Experimento o Variable(s)respuesta
Variableprincipal, proceso
a niveles
Variableinterferencia,
b niveles
Como sugiere Montgomery, un experimento A[1B ] puede verse como un arreglo donde cada
110
los resultados obtenidos entre bloques sea grande, la variabilidad dentro de los resultados de
cada bloque, i.e., la generada por los cambios de nivel de la variable de entrada principal, puede
ser relativamente baja. De hecho, es esta ltima variabilidad la que interesa desde el punto de
vista del anlisis de resultados puesto que se refiere al cambio que puede inducir la variable de
entrada principal del experimento sobre la variable respuesta. En contraste, la variabilidad
inducida por la variable interferencia bloqueada desea removerse del anlisis de resultados.
Un diseo A[1B ] se puede considerar anlogo a uno A1, donde cada nivel de la variable
interferencia o bloque es una rplica de este ltimo. Por esta razn, se puede generar una
restriccin en la aleatorizacin del experimento y ello limita el alcance del anlisis estadstico
realizado sobre la variable respuesta considerada. Esta restriccin concierne, de manera especial,
el uso formal del estadstico de prueba F calculado para los bloques durante el ANOVA.
Donde, yi,,j representa la variable respuesta a analizar, m es la media poblacional del proceso,
i es el efecto de los cambios de nivel de la variable principal, j es el efecto de los bloques
hechos con la variable interferencia y i, j es el error aleatorio del proceso estudiado.
Importante: al comparar el modelo anterior con el del diseo A1, el lector podr notar que el
del A[1B ] es una expansin lineal del ltimo. Visto de otro modo, y como se mencion antes,
se est sustrayendo el efecto de la variable interferencia bloqueada del error aleatorio del
experimento. 111
Totales y y
*Tratamientos = niveles de la variable de entrada principal
b a a n a b
En la Tabla, y i y ij ; y j y ij ; y y ij = y i y j ; y i y i b ;
i 1 i 1 i 1 j 1 i 1 j 1
y j y j a y y N
112
y 2
4. Calcular FV = (paso igual al realizado para el diseo A1)
N
5. Calcular las sumas de cuadrados del diseo:
Siguiendo el principio que la variabilidad aportada por la variable interferencia se puede
sustraer de la del error aleatorio se tiene la igualdad: SST = SSVar-E + SSVar-Int + SSError.
Donde, SSVar-Int es la suma de cuadrados de la variable interferencia o bloques.
Las expresiones correspondientes son:
a n a
1 a 2 1
SS T y i2, j FV ; SSVar E
2
y i FV ; SSVar Int y j FV .
i 1 j 1 b i 1 a j 1
a a
El lector puede notar que los denominadores delante de las sumatorias y 2
i
y y 2
j
i 1 i 1
total de niveles de la variable menos uno: a 1; Var Int (grados de libertad de la variable
interferencia) equivale al total de bloques menos uno: b 1; y, Error (grados de libertad del
113
expresin:
MS Var E
FVar E , Error .
MS Error
9. Calcular el valor-p asociado a FVar E , Error o fijar un valor para el error tipo I y con l evaluar
10. Concluir sobre la hiptesis postulada para la variable principal y escribir el modelo
estadstico de acuerdo a esta conclusin. Si no se puede rechazar H 0 , se tiene el modelo:
yi , j m j i , j Si se acepta H 1 , se tiene: y i , j m i j i , j .
11. Aunque el efecto de una variable interferencia de un modelo A[1B ] no se juzga a travs de
una prueba de hiptesis, s es muy recomendable calcular la relacin MS Var Int durante el
MS Error
ANOVA. Si esta relacin es grande; podra ser incluso ms grande que FVar E , Error , el
114
Antes de presentar un ejemplo ilustrativo del anlisis de datos obtenidos mediante un diseo
experimental A[1B ] es necesario advertir al lector de la importancia de la aleatorizacin en la toma
de muestras del experimento. Primero, todos los experimentos deben planeados y programados
antes de su ejecucin. Durante esta ltima, se requiere que cada bloque experimental se ejecute
de manera independiente. Esto implica, por ejemplo, que, si un mismo instrumento de medida
se emplea para todos los experimentos, este se use siempre bajo las mismas condiciones.
Suponer, por ejemplo, que en los experimentos interviene un horno; si para el primer
experimento el horno se emple llevndolo desde temperatura ambiente a la temperatura
experimental, siempre se debera seguir el protocolo para todos los ensayos; i.e. arrancar la
operacin del horno desde la temperatura ambiente.
115
A 79.02 90.76
B 146.94 127.26
C 134.87 132.61
D 131.79 148.74
Analice los resultados del experimento realizado por Shi et al. y determine si las estrategias
de suministro de nitrgeno implementadas tuvieron un efecto en la cantidad de nitrgeno
retenida por los cultivos de arroz.
Respuesta
El diseo planteado tiene cuatro niveles para la variable de entrada principal (a = 4) y dos
para la variable interferencia (b = 2), es por tanto un diseo 41[ 2] . Para resolver la pregunta
planteada, se realizar el procedimiento para el ANOVA expuesto en las pginas 112-114.
1. El modelo de efectos fijos para este diseo experimental est dado por:
yi , j m Nret iESN VA
j i, j .
116
Variedaddearroz(VA)
Estrategiade
suministrode Sumas Promedios
Longjing31 Longjing21 tratamientos tratamientos
nitrgeno(ESN)
Cantidad de nitrgeno retenida (kg/ha)
992.00 2
4. Con los resultados de arriba, FV 123005.52
8
SSESN 4121.24;
1
SSVA
1 b 2
a j 1
2 2
y j FV = 492.62 499.37 123005.52
4
SSVA 5.70;
SSError. = SST - SSESN - SSVA 4530.01 4121.24 5.70 403.07.
6. Los grados de libertad son:
T = N 1 = 8 1 = 7; ESN = a 1 = 3; VA = b 1 = 1; y Error = 7 3 1 = 3.
117
SS ESN 4121.24
MSESN = 1373.75
ESN 3
SS Error 403.07
MSError = 134.36
Error 3
10. De acuerdo al valor-p obtenido, se dira que se tiene evidencia suficiente para rechazar la
hiptesis nula para valores del error tipo mayores a = 0.04, i.e. confiabilidad del 96%. Es
decir, si la prueba requiere una confiabilidad del 99%, no se podra concluir que el tipo de
tratamiento usado para incorporar nitrgeno a los cultivos tiene un efecto significativo sobre
la cantidad de nitrgeno que las plantas de arroz retienen. De esta manera, aunque la evidencia
apunta hacia la existencia de tal efecto, la conclusin estadstica no es tan slida como se
deseara. Lo recomendado sera realizar ms experimentacin antes de dar una conclusin
categrica.
11. Se puede calcular la relacin MS VA 1.90 0.01 . El valor obtenido muestra que la
MS Error 134 .36
118
Ejercicios
Fraccinmolar 1105TOF[s-1]
Ga/(Ga+Cu) 240K 280K
0,00 1,00 4,0
0,19 22,5 30,4
0,30 40,7 42,0
0,46 44,9 47,5
0,72 20,3 22,8
Determine el modelo estadstico apropiado para el efecto del galio en el TOF considerando que
estos datos corresponden a un diseo 51[ 2] . Igualmente, verifique que si este modelo cumple los
supuestos fundamentales sobre los cuales se construy.
119
La alternativa ms comn para la valorizacin del residuo es el proceso conocido como Craqueo
Cataltico en fase Fluida (FCC, por sus siglas en ingls Fluid Catalytic Cracking). En el FCC,
la corriente de residuo ingresa a un reactor de lecho fluidizado que contiene un catalizador cuya
fase activa es una zeolita y bajo las condiciones de temperatura y presin empleadas se produce
un rompimiento de los enlaces de las molculas que lo componen. As, el residuo puede
convertirse en cortes ms livianos que constituyen combustibles como: disel, gasolina y gas
licuado del petrleo (GLP). Adems de estos combustibles, se producen en la unidad: gas seco;
compuesto principalmente de etano y metano, y coque. K. Xiong et al. (Fuel 161 (2015) 113)
plantean un estudio cintico sobre la conversin de un residuo en un reactor de FCC y se centran
en analizar el desarrollo de las rutas de reaccin de ste. Los autores plantean el siguiente
esquema para la transformacin del residuo:
120
Rutade A0[m3kg-1h-1]
reaccin Cat-1 Cat-2 Cat-3 Cat-4 Cat-5 Cat-6
r1 37912,2 62829,2 52025,0 36667,5 31328,5 35613,7
r2 118476,1 108625,1 88239,7 96803,1 52064,7 62217,9
r3 10827,9 8388,1 6743,2 3161,0 6560,4 5951,5
r4 350,8 403,5 305,9 102,9 175,6 200,6
r5 1109,6 1069,8 904,2 931,0 574,4 727,6
r6 31247,4 31074,8 20141,1 23411,4 14683,7 16972,7
r7 19090,6 12576,3 19096,1 21340,7 40140,4 33662,9
r8 20357,2 7297,2 5863,2 11182,1 18604,8 14100,4
r9 41648,2 28539,4 28965,6 30701,7 46291,9 38645,0
r10 341252,2 268393,7 286124,1 224734,2 494068,4 381703,2
r11 217843,2 73849,0 73403,1 93808,3 245194,8 193931,7
r12 140712,5 137970,7 154937,7 127619,1 241931,9 206496,5
121
Halle un modelo estadstico que describa el efecto de las diferentes rutas de reaccin sobre la
constante cintica de velocidad de reaccin. Compruebe los supuestos fundamentales del mismo.
experimentos para identificar nuevos agentes infecciosos en aves. En este ejercicio, se adaptan
los datos reportados por los autores a un diseo 51[ 4] donde la variable respuesta del estudio fue
Pesodegallinas[g]
Tratamiento Ensayo
1 2 3 4
A 188,1 197,1 175,8 165,8
B 156,2 157,1 150,2 137,7
A+C 191,6 180,3 154,8 166,5
A+D 175,3 143,9 173 162,8
A+C+D+E+F+G 164,4 194,3 173,1 164,0
Halle el modelo estadstico que describe estos datos y comprelo con el que se obtiene
122
Carga Resistenciaalatraccin
No.experimento Tipodebarra
[kN] [Kips] [Mpa] [ksi]
32 3 130 29 1025 149
6 3 119 27 938 136
27 3 129 29 1015 147
14 4 121 27 953 138
13 3 125 28 983 143
12 3 107 24 843 122
2 1 119 27 939 136
20 3 133 30 1053 153
7 1 124 28 976 142
10 4 119 27 941 136
4 3 131 30 1038 150
19 4 114 26 902 131
26 4 114 26 899 130
9 2 113 25 890 129
5 2 129 29 1022 148
24 4 136 31 1071 155
18 1 130 29 1025 149
29 4 126 28 997 145
3 2 121 27 959 139
23 3 119 27 938 136
28 1 131 29 1034 150
15 2 131 29 1031 149
30 1 129 29 1015 147
1 4 126 28 992 144
17 2 131 30 1036 150
31 2 122 27 962 140
22 2 109 24 859 125
21 1 129 29 1015 147
25 2 126 28 997 145
11 1 129 29 1022 148
8 4 130 29 1025 149
16 1 103 23 815 118
123
CAPTULO VII
DISEO DE EXPERIMENTOS MULTINIVELES DE UN
FACTOR CON MLTIPLES VARIABLES INTERFERENCIA
Cmo manejar la presencia de ms de una variable interferencia?
Como se dijo en el captulo anterior, la tcnica del bloqueo es una de las ms importantes en el
diseo estadstico de experimentos. Una de las razones para ello es que puede expandirse a ms
de una variable interferencia. En el ejemplo anterior, se puede disear un experimento de
Cuadro Latino donde se bloqueen las dos variables interferencia mencionadas. Ms an, si
hubiera tres o cuatro variables interferencia se podran plantear diseos de Cuadros Greco-
Latino e Hipercuadro Latino como alternativas para eliminar la variabilidad producida por la
interferencia de estas variables en los resultados. Este captulo se encarga de discutir estos
diseos, empezando con los Cuadros Latinos y siguiendo con los Cuadros Greco-Latino e
Hipercuadro Latino.
1
Qu es un diseo de Cuadro Latino: A[L] ?
1
Un diseo A[L] es aquel realizado para eliminar la variabilidad generada por dos variables
interferencia sobre el anlisis del efecto de una variable principal sobre la variable respuesta de
124
Como se puede notar en los cuadros arriba presentados, los niveles de la variable designada con
las letras latinas no deben repetirse ni en las filas, ni en las columnas del cuadro.
Aunque pareciera simple, saber el nmero de Cuadros Latinos que pueden generarse a partir de
los a niveles de las variables de entrada en un Cuadro Latino es un problema de extrema
complejidad matemtica (Jacobson & Matthews 1996)(Shao & Wei 1992). De hecho, el nmero
de Cuadros Latinos posibles solamente se ha podido definir para n 10. Para n > 10 solamente
se conocen los lmites en el nmero de cuadros que pueden generarse (Jacobson & Matthews
1996). Un artculo en Wikipedia (Wikipedia contributors 2017) muestra que: para n = 3, el
nmero de Cuadros Latinos (NCL) = 12, NCL(n = 4) = 576; NCL(n = 5) = 161280; NCL(n
125
Experimento o Variable(s)respuesta
Variableprincipal, proceso
a niveles
Variableinterferencia#1 Variableinterferencia#2
a niveles a niveles
Como se afirm antes, todas las variables de entrada tienen el mismo nmero de niveles.
1
El modelo estadstico para los resultados de un diseo A[L] es lineal; tal como lo es para los
1
diseos A1 y A[B ] . Siguiendo la mecnica planteada para estos ltimos, la variacin en los
resultados de los experimentos generada por la segunda variable interferencia se puede sustraer
del error aleatorio. De esta manera, se plantea el siguiente procedimiento para el ANOVA:
1
Procedimiento para el anlisis estadstico de resultados de experimentos A[L]
usando ANOVA.
1
El procedimiento para realizar un ANOVA de los resultados de un diseo A[L] es anlogo
1
al descrito para los diseos A1 (Pginas 93 94) y A[ B] (Pginas 111 114):
1. Extender el modelo estadstico de efectos del diseo A1; incluyendo el efecto de las dos
Donde, yijk representa la variable respuesta a analizar, m es la media poblacional del proceso,
i , j y k son los efectos de los cambios de nivel de la variable principal y de las dos variables
interferencia, respectivamente, y ijk es el error aleatorio del proceso estudiado. En este
caso, i = j = k = a.
126
1
Procedimiento para el anlisis estadstico de resultados de experimentos A[L]
usando ANOVA.
2. Plantear las hiptesis nula y alternativa del modelo postulado.
H 0 : 1 2 ... a 0 ; H 1 : i 0 , para algn i. Recordar que no se plantean
1
escogeremos un cuadro latino de cuatro niveles A[ L4] de los 576 posibles para a = 4:
Totales y y
*Para las letras, A = 1; B = 2; C = 3; y, D = 4.
a a a
1
En general, las sumas de A[L] son: yi yijk ; y j yijk ; yk yijk ;
j 1 i 1 k 1
a a a
y yijk ; y i yi a ; y j y j a ; y k yk a ; y y N
i 1 j 1 k 1
127
1
Procedimiento para el anlisis estadstico de resultados de experimentos A[L ]
usando ANOVA.
y2
4. FV =
N
5. Calcular las sumas de cuadrados del diseo:
La variabilidad aportada por las dos variables interferencia se sustrae de la del error aleatorio.
As: SST = SSVar-E + SSVar-Int#1 + SSVar-Int#2 + SSError. Donde, SSVar-Int#1 y SSVar-Int#2 son las
sumas de cuadrados de las dos variables interferencia contempladas.
Las expresiones correspondientes son:
a a a
2 1 a 2 1 a
SST yijk FV ; SSVar E yi FV ; SSVar Int #1 y2j FV (asumiendo
i 1 j 1 k 1 a i 1 a j 1
que Var-Int#1 corresponde a las columnas de la tabla de contingencia);
1 a 2
SSVar Int #2 yk FV (asumiendo que Var-Int#2 corresponde a las Letras Latinas de
a k 1
la tabla de contingencia). En realidad, la asignacin aqu propuesta es igual de arbitraria a la
de otros autores (Montgomery 2001) que designan a la variable de entrada principal del
diseo con las Letras Latinas. Al final, el resultado del ANOVA producir las mismas
conclusiones sin importar estas asignaciones.
Finalmente, para la suma de cuadrados del error, SSError = SST - SSVar-E - SSVar-Int#1. - SSVar-
.
Int#2
128
1
Procedimiento para el anlisis estadstico de resultados de experimentos A[L ]
usando ANOVA.
8. Calcular el valor del estadstico F para la variable principal: FVarE ,Error mediante la
expresin:
MSVarE
FVarE ,Error .
MSError
9. Calcular el valor-p asociado a FVarE ,Error o fijar un valor para el error tipo I y con l
evaluar Fcrt.= F ,VarE ,Error .
10. Concluir sobre la hiptesis postulada para la variable principal y escribir el modelo
estadstico de acuerdo a esta conclusin. Si no se puede rechazar H 0 , se tiene el modelo:
yijk m j k ijk . Si se acepta H 1 , se tiene: yijk m i j k ijk .
1
11. De la misma manera que para el diseo A[B ] , los efectos de las variables interferencia
1
sobre los resultados de un diseo A[L ] no se juzgan mediante pruebas de hiptesis, pero,
MS Var Int #1
sigue siendo es muy recomendable observar los valores de las relaciones y
MS Error
MSVar Int # 2
para verificar que se haya hecho una escogencia apropiada de las variables de
MS Error
entrada.
12. Para comprobar los supuestos del modelo, se pueden elaborar los grficos de los
residuales: zk vs. eijk (supuesto de normalidad), eijk vs. Orden de ejecucin de los
129
1
Como se puede apreciar, el ANOVA de un diseo A[L] es una extensin del anlisis efectuado
para un diseo de bloques. Aunque la intencin primaria y recomendada es emplear estos diseos
para eliminar los efectos de variables interferencia en los resultados del experimento, lo cierto es
que no se reporta un argumento matemtico riguroso que impida el uso de un Cuadro Latino
para variables que no sean interferencia. La desventaja prctica es la restriccin en la
aleatorizacin de los bloques; condicin que, como se dijo antes, impide la prueba rigurosa
de hiptesis sobre los efectos de ms de una de las variables implicadas en el diseo. Por otra
parte, est el asunto de las interacciones. Desde el punto de vista del modelo matemtico,
stas representan trminos no lineales; circunstancia que no hace parte del modelo planteado de
los diseos de una variable discutidos hasta ahora. A pesar de las desventajas nombradas arriba,
1
el diseo A[L] es una gran herramienta para el estudio de problemas de investigacin donde se
tenga un bajo conocimiento fundamental de los factores que controlan un fenmeno dado. La
razn es que es un diseo relativamente econmico y fcil de implementar que puede dar
informacin rpida sobre hacia dnde se deben orientar esfuerzos en la experimentacin. Es una
lstima que, de hecho, sean poco empleados en la literatura.
1
Ejemplo: anlisis de resultados de un diseo A[L]
Uno de los doce principios de la qumica verde es la catlisis (ver: Nature 469, 18-20 (2011))
que a su vez es un negocio multimillonario. Por tanto, existe una enorme competencia en
producir mejores catalizadores; i.e. ms activos y selectivos. Una estrategia para alcanzar este
objetivo es la llamada experimentacin de alto rendimiento (high throughput) en la que se
analizan los efectos de mltiples factores en un proceso dado en el menor tiempo posible.
En el caso especfico de la preparacin de catalizadores, dos factores que influencian las
propiedades finales del material son: la naturaleza del metal activo y el solvente empleado
para la sntesis. En 2003, JN Cawse (Patente: US 20030083824) patent un mtodo de
preparacin de catalizadores por experimentacin de alto rendimiento basado en un cuadro
latino.
130
1
Ejemplo: anlisis de resultados de un diseo A[L]
El mtodo consider dos grupos de metales: M1 = Fe, Cu, Ni, Pb y Re, y M2 = V, W, Ce,
La y Sn, y el siguiente conjunto de solventes: dimetilformamida (DMFA), dimetilacetamida
(DMAA), tetrahidrofurano (THF), ter de etilenglicol (DiGly, por sus siglas en ingls) y
dietilacetamida (DEAA). Para analizar las propiedades de los catalizadores preparados con
la metodologa seleccionada, Cawse decidi probar su desempeo en la reaccin de sntesis
de diaril carbonatos; e.g. difenil carbonato. La variable respuesta del experimento fue la
actividad cataltica expresada mediante el llamado nmero de frecuencia del ciclo cataltico
(TON -Turnover Number- por sus siglas en ingls). En su trabajo, el autor reporta los
siguientes resultados:
131
1
Ejemplo: anlisis de resultados de un diseo A[L]
declara como la primera variable interferencia: Var-Int#1; y, ksolv es el efecto del tipo de
solvente empleado en la preparacin de los catalizadores; i.e., la segunda variable
interferencia del diseo: Var-Int#2.
2. Las hiptesis a probar son:
M1 M1 M1 M1 M1
H0 : Fe Cu Ni Pb Ru 0 ; H1 : iM1 0 , para algn i.
3. Con los datos suministrados, se construye la siguiente Tabla de Contingencia:
TON
Niveles de M1, M2; j = 1, 2, 3, 4, 5 trat. Prom.trat.
i = 1, 2, 3, 4, 5
1=V 2=W 3 = Ce 4 = La 5 = Sn
1 = Fe A = 645 B = 606 C = 607 D = 710 E = 665 3233 646.6
2 = Cu E = 686 A = 599 B = 683 C = 831 D = 686 3485 697.0
3 = Ni D = 629 E = 663 A = 616 B = 816 C = 831 3555 711.0
4 = Pb C = 766 D = 652 E = 593 A = 868 B = 695 3574 714.8
5 = Re B = 991 C = 982 D = 873 E = 1040 A = 867 4753 960.6
Cols. 3717 3502 3372 4265 3744
Prom.cols. 734.4 700.4 674.4 853.0 748.8
Letr.Lat* 3595 3791 4017 3550 3647
Prom.Letr.Lat. 719.0 758.2 803.4 710.0 724.9
Totales 18600 744.0
*A = DEAA; B = DMFA; C = DMAA; D = THF; E = DiGly. Colores usados para resaltar los niveles.
y2 186002
4. Factor de variacin: FV = 13'838.400
N 25
5. Sumas de cuadrados
5 5 5
2
SST yijk FV (645) 2 (606) 2 ... (1040) 2 (867) 2 13'838.400
i 1 j 1 k 1
SS T 429542
132
1
Ejemplo: anlisis de resultados de un diseo A[L]
1 5 2 1
SSM 1 yi FV (32332 34852 35552 35742 47532 ) 13'838.400
5 i1 5
SS M 1 281604.8
1 5 2 1
SS M 2 y j FV (37172 35022 33722 42652 37442 ) 13'838.400
5 j 1 5
SS M 2 93247.6
1 5 2 1
SSSolv yk FV (35952 37912 40172 35502 36472 ) 13'838.400
5 k 1 5
SSSolv 28620.8
SSError = SST - SSM1 - SSM2. - SSSolv = 429542 281604.8 93247.6 28620.8 = 26068.8.
10. El valor-p obtenido indica que hay suficiente evidencia para rechazar la hiptesis nula.
M1 M2 solv
Por tanto, el modelo debe quedar de la forma: yijk m i j k ijk .
133
1
Ejemplo: anlisis de resultados de un diseo A[L]
12. Para comprobar los supuestos del modelo planteado, hay que definir la manera en que se
calculan los valores que este predice. Tal como para otros diseos de una variable, los
M1 M2 solv
parmetros del modelo yijk m i j k ijk se pueden estimar as:
2,0
1,5
1,0
0,5
zl
0,0
-0,5
-1,0
-1,5
-2,0
-2,5
-80 -60 -40 -20 0 20 40 60 80
ijk
134
1
Ejemplo: anlisis de resultados de un diseo A[L]
correspondientes son:
80,0
60,0
40,0
20,0
ijk
0,0
-20,0
-40,0
-60,0
-80,0
600 650 700 750 800 850 900 950 1000
i..
Residuales en funcin de los promedios de los niveles de la variable principal: tipo de metal de M2.
80,0
60,0
40,0
20,0
ijk
0,0
-20,0
-40,0
-60,0
-80,0
600 650 700 750 800 850 900
.j.
Residuales en funcin de los promedios de los niveles de la variable interferencia: tipo de metal de M1.
135
1
Ejemplo: anlisis de resultados de un diseo A[L]
Los grficos anteriores no evidencian nada en particular y por lo tanto se puede concluir
que se cumple el supuesto de varianza constante.
Finalmente, para comprobar la posible existencia de interacciones, se elabora un grfico
de los residuales en funcin de los valores predichos por el modelo:
80,0
60,0
40,0
20,0
ijk
0,0
-20,0
-40,0
-60,0
-80,0
600 700 800 900 1000 1100
ijk
Residuales en funcin de predicciones del modelo.
Este grfico presenta un aspecto ms compacto para los valores ms bajos de yijk , con lo
Los resultados son similares a los obtenidos aqu, aunque hay diferencias atribuibles al
136
1
Ejemplo: anlisis de resultados de un diseo A[L]
Los resultados son similares a los obtenidos aqu, aunque hay diferencias atribuibles al
redondeo. Lo importante es que Cawse hizo una prueba de hiptesis para cada una de las
variables del diseo. Si bien nada impide que las tres variables implicadas sean principales, la
restriccin de aleatorizacin de los bloques debe tenerse en cuenta y en consecuencia el
resultado de Cawse pierde rigurosidad. A la vez, se evidencia un uso del DdE poco
fundamentado en bases estadsticas. De esta manera, se puede especular que es probable que
la tabla presentada por el autor corresponda directamente a lo arrojado por un programa
estadstico; en cuyo caso, el autor no habra aplicado los criterios de anlisis aqu presentados.
Lastimosamente, este es un error muy frecuente tanto en publicaciones cientficas como en
la realizacin de trabajos de investigacin de estudiantes de pregrado y posgrado.
Ejercicios
1. En un intento por ofrecer un nuevo producto, una compaa petrolera decide estudiar la
eficiencia de cuatro mezclas diferentes de gasolina. Para las pruebas, selecciona a cuatro
conductores que recorrern una distancia determinada empleando cuatro modelos de automvil
diferentes. Se hace el diseo de experimentos apropiado y se toma como variable respuesta la
eficiencia medida en kilmetros por litro (km/l). La tabla siguiente muestra los resultados
obtenidos fueron:
Conductor
Mezcladegasolina
1 2 3 4
A (IV)27.7 (III)18.9 (II)33.0 (I)14.7
B (II)29.3 (I)18.5 (IV)33.0 (III)21.4
C (III)12.8 (II)26.6 (I)11.2 (IV)20.1
D (I)16.6 (IV)23.8 (III)17.9 (II)35.0
*I, II, III y IV se refieren al modelo de automvil.
137
Considerando la informacin suministrada, halle un modelo estadstico que describa los datos
presentados. Compruebe los supuestos de este modelo.
2. Perry et al. (Ecological Entomology 5 (1980) 385) revisaron el empleo de cuadros latinos
en el diseo de experimentos de campo para atraer insectos hacia trampas mediante el uso de
compuestos qumicos considerados como atrayentes de los mismos. Para demostrar las ventajas
de este tipo de diseo experimental, los autores redisearon los experimentos de un estudio en
el que el propsito era analizar la eficacia de trampas para un tipo especfico de polilla. Plantearon
un diseo de cuadro latino 44. La variable principal del estudio fue el tipo de sustancia qumica
empleada en la trampa y se decidi bloquear el lugar y el da en que se colocaron las trampas
como factores que interfieren en los experimentos. La Tabla presentada a continuacin muestra
los resultados obtenidos:
Determine si el tipo de qumico usado en las trampas influye sobre el nmero de insectos
atrapados.
138
(i) Determine si los tratamientos empleados tienen efecto significativo el rendimiento del cultivo
mediante un anlisis de estadstica descriptiva apoyado por un ANOVA. (ii) Haciendo un anlisis
de posibles variables interferencia que pueden intervenir en el cultivo de papas, determine si
estas podran haber afectado los resultados obtenidos. (iii) Haga un anlisis de residuales para
comprobar la rigurosidad de sus conclusiones.
4. Frutos et al. (Analyst 119 (1994) 1547) estudiaron curvas de anlisis termogravimtrico (TGA)
para la fusin de la erucamida; compuesto usado como aditivo en la sntesis de pelculas de
poliolefinas, en funcin de los siguientes parmetros: peso y tasas de calentamiento y
enfriamiento de la muestra. Los autores planificaron sus experimentos usando un cuadro latino
y concluyeron que la tasa de calentamiento de la muestra influye significativamente en el
resultado de la prueba. Usando los datos reportados por ellos (Tablas 1 y 2), verifique la
conclusin alcanzada. La variable respuesta usada por los autores fue el punto de fusin de la
erucamida derivado de la curva TGA.
En la Tabla 1, A = Tasa de calentamiento [=] K/min; B = Peso de la muestra [=] mg; C = Tasa de enfriamiento
[=] K/min.
139
140
Para ello, se emplean los diseos de Cuadro Greco-Latino: A[1G L ] . Un Cuadro Greco-Latino
es un arreglo de dos Cuadros Latinos ortogonales. Es decir, se trata de dos Cuadros Latinos
en los cuales cada letra del primer cuadro ocurre en la misma posicin que cada letra del segundo
cuadro exactamente una vez (Bailey 2008). Considere la superposicin de los siguientes Cuadros
Latinos 44 ortogonales:
A B C D A B C D
B A D C U B A D C
C D A B C D A B
D C B A D C B A
En el segundo cuadro, las letras griegas designan los cuatro niveles de una nueva variable
interferencia. Para poder realizar un ANOVA sobre los resultados de un diseo A[1G L ] se
requiere que cada variable tenga al menos cuatro niveles. Esta restriccin est ligada a los grados
de libertad que tiene el Error Aleatorio del diseo. De otro modo, se pueden realizar estos
diseos para tres niveles, pero el anlisis de resultados no puede hacerse mediante ANOVA. Por
otro lado, y parece una curiosidad, pero, no existe el Cuadro Greco-Latino de seis niveles!
(Horner 2016). Para otros diseos A[1G L ] , el ANOVA procede de manera similar a lo ya
presentado para los diseos de una variable, pero con las modificaciones que se presentan a
continuacin.
141
poblacional del proceso, i , j , k y l son los efectos de la variable principal y las tres
variables interferencia, respectivamente, y ijkl es el error aleatorio.
Totales y y
*Para las letras latinas, A = 1; B = 2; C = 3; y, D = 4.**Para las letras griegas, = 1; = 2; = 3; y, = 4
142
a a a a
y yijkl ; y i yi a ; y j y j a ; y k y k a ; y l yl a ;
i 1 j 1 k 1 l 1
y y N
SST = SSVar-E + SSVar-Int#1 + SSVar-Int#2 + SSVar-Int#3 + SSError.
Donde, SSVar-Int#1, SSVar-Int#2 y SSVar-Int#3 son las sumas de cuadrados de las tres variables
interferencia contempladas.
a a a a
2 1 a 2 1 a 2
SST yijkl FV ; SSVar E i
y FV ; SSVar Int #1 y j FV ;
i 1 j 1 k 1 l 1 a i1 a j 1
1 a 2 1 a 2
SSVar Int # 2 k
a k 1
y FV ; SS Var Int # 3 yl FV .
a l 1
; l yl y .
En teora, es posible extender sin lmites el nmero de variables para los diseos basados en
Cuadros Latinos. Tales diseos se denominan Hipercuadros Latinos y consisten en seguir
superponiendo Cuadros Latinos Ortogonales. Sin embargo, en DdE, esto no es aconsejable
porque la existencia de interacciones entre variables experimentales es comn. De este modo,
incluso el empleo de diseos A[1G L ] debe hacerse con prudencia y de preferencia para
143
Niveles
Variable
1 2 3 4 5
T: Temperatura (C) 240 265 290 315 340
G: Tipo de atmsfera Vaco#1 N2 He Ar Vaco#2
S: [-S-O-H], (mmolm-2) 4.5 6.0 7.5 9.0 10.5
Z: Tiempo de reaccin (h) 3 4 5 6 7
Respuesta
144
Porcentajedecarbono(%C)
NivelesdeT,
i = 1, 2, 3, 4, 5
Prom.T
Gas atmsfera de reaccin; j = 1, 2, 3, 4, 5
1 = Vac.#1 2 = N2 3 = He 4 = Ar 5 = Vac.#2
1 = 240 11,61 11,70 11,80 12,00 12,38 59,49 11,90
2 = 265 12,00 12,17 11,97 12,17 12,32 60,63 12,13
3 = 290 11,49 12,50 12,38 11,51 11,70 59,58 11,92
4 = 315 12,01 11,78 11,73 11,65 11,71 58,88 11,78
5 = 340 11,04 11,77 12,09 12,06 11,70 58,66 11,73
G 58,15 59,92 59,97 59,39 59,81
Prom.G 11,63 11,98 11,99 11,88 11,96
S* 58,94 59,14 59,23 60,18 59,75
Prom.S 11,79 11,83 11,85 12,04 11,95
59,12 59,86 58,79 60,16 59,31
Prom.Z 11,82 11,97 11,76 12,03 11,86
Totales 297,24 11,89
*CdigosS **CdigosZ
1 1
2 2
3 3
4 4
5 5
FV 3534,06
Variable SS MS F* valor-p
T 0,47 4 0,12 0,74 0,593
G 0,46 4 0,12 0,72
S 0,21 4 0,05 0,32
Z 0,25 4 0,06 0,39
Error 1,28 8 0,16
Total 2,67 24
145
Los resultados del ANOVA muestran que la temperatura no tiene un efecto significativo
sobre la eficiencia del proceso de funcionalizacin reflejada en el porcentaje de carbono en
las muestras de los materiales funcionalizados. En adicin, los valores de las relaciones F*
calculadas muestran que las condiciones escogidas para las variables seleccionadas en el
estudio no tendran influencia en los resultados del experimento. Queda como ejercicio para
el lector escribir el modelo estadstico correspondiente y realizar los anlisis de residuales
respectivos.
Ejercicios
1. El reporte de Boksnyi et al. (Boksnyi et al. 1976) muestra resultados sobre la influencia de
la temperatura (C), la presencia de diversos gases en la atmsfera de reaccin, la concentracin
de grupos silanol (-Si-O-H) y el tiempo de reaccin (h) sobre la eficiencia en la funcionalizacin
de muestras de slice. Los investigadores usaron un Cuadro Greco-Latino 55: A[1G L 5] de
acuerdo a la siguiente Tabla:
Niveles
Variable
1 2 3 4 5
T: Temperatura (C) 240 265 290 315 340
G: Tipo de atmsfera Vaco#1 N2 He Ar Vaco#2
S: [-S-O-H], (mmolm-2) 4.5 6.0 7.5 9.0 10.5
Z: Tiempo de reaccin (h) 3 4 5 6 7
146
c) Halle los modelos estadsticos que describen los resultados de los experimentos realizados.
Constate los supuestos de estos modelos.
2. Sinha y Seward (Sinha & Seward 1969) investigaron la hiptesis que el suministro de ciertos
medicamentos en ratones de laboratorio modifica su capacidad de eleccin en pruebas donde
los animales deben escoger entre ir a la derecha o a la izquierda en laberintos. Con este propsito,
escogieron como variable respuesta de sus experimentos; diseados como A[1GL4] , el porcentaje
de alteracin de la respuesta observada. La variable principal del experimento fue el tipo de
medicamento. Los medicamentos usados fueron: GABA cido gamma aminobutrico ,
Metrazol y dos controles: una solucin salina y ningn medicamento. Las pruebas de escogencia
se hicieron en cuatro diferentes modalidades llamadas: 1, 2, 4 y 8. Los ratones se dividieron en
cuatro grupos y esto se consider como una segunda variable interferencia. Finalmente, los
147
tratamientos se aplicaron en cuatro das diferentes; usando este parmetro como el ltimo factor
a bloquear. Los autores presentan la siguiente Tabla de resultados:
En su artculo, los autores no proveen cdigos para las combinaciones de los factores
bloqueados: grupos de ratones y das de los tratamientos.
a) Compare los modelos estadsticos derivados de este experimento cuando se codifican los
resultados en tres modalidades diferentes de Cuadro Greco-Latino. Recuerde que para un
diseo experimental de este tipo hay cientos de arreglos posibles.
148
CAPTULO VIII
DISEOS DE EXPERIMENTOS CON MLTIPLES
n ;r
VARIABLES PRINCIPALES: FACTORIALES ( ik ) j
i 1; j 1
Los diseos discutidos en los Captulos VI y VII involucran mltiples variables interferencia,
pero solamente una variable principal. Sin embargo, lo ms comn en una investigacin es la
intervencin de ms de una variable principal. En consecuencia, se hace indispensable desarrollar
diseos estadsticos de experimentos factoriales; los cuales manejan mltiples variables
principales. Las variables seleccionadas para el diseo no necesariamente deben tener el mismo
nmero de niveles; esta es una diferencia importante frente a los diseos de Cuadro Latino,
Greco Latino e Hiper Cuadros. Los experimentos en los cuales se aplican los Diseos
Factoriales se pueden representar mediante el siguiente diagrama de flujo:
Var.ppal #1
a niveles
Var.ppal #2
b niveles Experimento o proceso
Variable(s)respuesta
Var.ppal #n
n niveles
Adems de manejar mltiples variables principales y niveles para cada una de ellas, los
Diseos Factoriales estn particularmente concebidos para reflejar la existencia de
interacciones entre las variables de entrada estudiadas. En consecuencia, un Diseo Factorial
permite evaluar la pertinencia de los modelos lineales obtenidos para los diseos de un factor:
yijkl m efectos ijkl . De esta manera, estos diseos permiten obtener modelos no
149
Las interacciones entre variables principales son comunes. Un caso particularmente sencillo es
la relacin entre la temperatura, la presin, el volumen y el nmero de moles en un gas. Por
ejemplo, para un gas monoatmico ideal: PV nRT ; que es un modelo no lineal. En general,
una interaccin refleja una interdependencia entre las variables de entrada a la hora de determinar
la magnitud de su efecto sobre la respuesta del experimento. De esta manera, la deteccin de
la existencia de interacciones alerta sobre la existencia de fenmenos y variables
subyacentes detrs de los resultados obtenidos. Por ejemplo, para toda sustancia, se sabe
que la temperatura, la presin y el volumen son variables macroscpicas medibles que reflejan el
movimiento global de los electrones y tomos o molculas que la componen y rodean.
Globo CalentamientohastaT2
Globocon
conn1 a volumen:V2>V1
T1,p1 Alavezp2>p1!
y V1
p2
Globo Compresinhastap2
conn1 a V2 < V1
T1,p1 T2 < T1!
y V1
150
En captulos anteriores se ha planteado que un grfico de los residuales del modelo estadstico
en funcin de los valores predichos por tal modelo; i.e., eij vs. y ij sirve para evaluar a priori
residuales en funcin de los valores predichos por el modelo (pg. 137). Corroborar este
resultado mediante una grfica de la variable respuesta (TON) en funcin de las variables
respuesta de los tipos de metal M1 y M2.
Respuesta
De manera arbitraria, se escoge aqu representar la variable de entrada M1; cuyos niveles son:
Fe, Cu, Ni, Pb y Re en el eje de las abscisas, mientras que se trazarn lneas para los niveles
de la variable respuesta M2; V, W, Ce, La y Sn. De esta manera, la tabla de resultados
reportada por el autor (pg. 131) se puede mostrar as:
Lneas M2 V W Ce La Sn
Abscisa: M1 Ordenada: TON
Fe 645 606 607 710 665
Cu 686 599 683 831 686
Ni 629 663 616 816 831
Pb 766 652 593 868 695
Re 991 982 873 1040 867
151
1200
1000
800
TON
600
V
400
W
Ce
200
La
Sn
0
Fe Cu Ni Pb Re
Metal M1
aplicado al diseo A[1L 5] postulado llevan a conclusiones incorrectas sobre los efectos de las
variables de entrada. Una comprobacin similar se puede hacer para las combinaciones entre
otras parejas de variables. Para el caso de los diseos: A[1B ] , A[1L ] , A[1G L ] e Hiper Cuadros,
existen mtodos para tener en cuenta los efectos de interacciones en los modelos derivados
de estos diseos bajo ciertas suposiciones y restricciones. Estos mtodos se discuten en el
Captulo X.
Ejercicio
Corroborar la posible presencia de interacciones entre las variables implicadas en los diseos
A[1B ] , A[1L ] y A[1G L ] presentados en los ejercicios de los Captulos VI (pgs. 119-123) y VII
pgs. 137-140 y 146-148).
152
n ;r kj
Diseos Factoriales (
i 1; j 1
i )
kj
n ;r
Nota: En este libro, se usa la notacin i para designar los Diseos Factoriales.
i 1; j 1
Donde, i es un smbolo general que encierra los niveles de las variables principales del
diseo con i = 1,2,..;n indicando el nmero de niveles; kj representa las variables del diseo
con j = 1,2,,r. Como ejemplo, un diseo que comprehenda tres variables principales: A,
B y C, la primera con dos niveles, la segunda con tres y la ltima con cuatro, se denotar:
n;r
de esta notacin es: ik j 21 31 41 2 3 4 . Por otro lado, si A y B tienen dos
i 1; j 1
n; r kj
niveles y C cuatro, esto se representa como: i 21 21 41 2 2 4 . Esta notacin
i 1; j 1
da el nmero total de una rplica del experimento. As, para este ltimo ejemplo, una
rplica consta de diecisis (16) pruebas
153
Diseo de tres factores: A, B y C, con dos niveles para A, tres para B y cuatro para C, i.e.,
[ A 2 B 3 C 4 ] , cada rplica del experimento comprende: 234 = 24 ensayos. Lo anterior
Para simplificar la presentacin de los procedimientos que se desarrollan para llevar a cabo los
Anlisis de Varianza de los diseos factoriales, se estudiarn primero los diseos de dos
factores, seguido de los de tres factores y finalmente se comentar el diseo Factorial General.
2. En un Diseo Factorial, se postulan hiptesis sobre el efecto de cada una de las variables
principales y de su interaccin. De esta manera, para el diseo de dos factores se tienen tres
grupos de hiptesis sobre el modelo:
(i) Efecto de la variable A:
Hiptesis nula: H 0 : 1 2 ... a 0 ; i.e., los cambios en los niveles de A no tienen
efecto sobre la variable respuesta.
Hiptesis alternativa: H 1 : i 0 , para algn i; i.e., por lo menos un cambio en los
niveles de A tiene efecto sobre la variable respuesta.
154
hiptesis puesto que en los Diseos Factoriales Completos no existe una restriccin de
aleatorizacin como la que tienen los diseos de una variable.
3. La tabla de contingencia se realiza de acuerdo a:
Prom. B y 1 y 2 y b
Rplicas* y11. y12. yab.
Prom. Rplicas** y 11 y 12 y ab
Totales y y
*,**Notar que para las rplicas se hace una sumatoria por cada casilla. Por tanto, surgen: ab sumas
de rplicas.
Las ecuaciones correspondientes a las sumas mostradas son:
b n a n n a b n
yi yijk ; y j y ijk ; y ij y ijk ; y y ijk ; y i yi a
j 1 k 1 i 1 k 1 k 1 i 1 j 1 k 1
155
y j y j b ; y ij yij n ; y y N .
y 2 y2
4. El factor de variacin es: FV
abn N
5. Las propiedades de la varianza se siguen cumpliendo para el modelo formulado. Por tanto:
SST = SSA + SSB + SSAB + SSError.
Las siguientes ecuaciones se emplean para calcular estas sumas de cuadrados. El lector puede
constatar que estas ecuaciones guardan un gran parecido a las empleadas para los Cuadros
Latinos (de hecho, son equivalentes a las de un Cuadro Latino Replicado -ver Captulo
X-:
a b n
2 1 a 2 1 b 2
SS T y ijk FV ; SS A y i FV ; SS B yi FV . Para la suma de
i 1 j 1 k 1 bn i 1 an j 1
cuadrados de las interacciones, SSAB, se puede razonar que esta corresponde a la diferencia
entre la contribucin de las rplicas del experimento (SSRep-) y las sumas de cuadrados de las
variables principales. SSRep- se calcula con una ecuacin de naturaleza igual a las de SSA y SSB:
1 a b 2
SS Rp yij FV . Visto de otro modo, esta suma de cuadrados tiene en cuenta el
n i 1 j 1
aporte de las sumas asociadas a las rplicas de cada una de las casillas de la Tabla de
Contingencia. Con base en lo anunciado antes, se tiene que: SSAB = SSRp- - SSA - SSB. Esta
ecuacin enfatiza el hecho que los planteamientos realizados hasta este punto permiten la
evaluacin de interacciones en los Diseos Experimentales solamente en los casos donde se
lleve a cabo ms de una rplica del conjunto de experimentos que lo componen. Finalmente,
SSError.se calcula por diferencia: SSError = = SST - SSRp
6. Los grados de libertad siguen el mismo principio aditivo que las sumas de cuadrados.
T A B AB Error .
Donde, T abn 1 ; A a 1 ; A b 1 ; AB (a 1)(b 1) . Se puede demostrar que:
Error ab(n 1) . La expresin para los grados de libertad del error muestra nuevamente
que, en los Diseos Factoriales Completos, el anlisis de los resultados va ANOVA
requiere n 2.
156
8. Se calculan tres estadsticos F; uno para la variable A; FAA , Error , otro para B; FBB , Error , y
9. Calcular los valores-p asociados a los estadsticos FAA , Error , FBB , Error y FAB
AB , Error
o fijar un
A A B B
valor para el error tipo I y con l calcular los valores FCrt = F , A , Error ; FCrt = F , B , Error
AB AB
; y, FCrt = F , AB , Error .
10. Concluir sobre las hiptesis postuladas para las variables principales y las interacciones
entre estas y escribir el modelo estadstico de acuerdo a las conclusiones respectivas.
11. Comprobar los supuestos del modelo mediante la elaboracin de grficos basados en los
residuales del modelo: zk vs. eijk (supuesto de normalidad), eijk vs. Orden de ejecucin de
los experimentos (supuesto de independencia), eijk vs. yi , eijk vs. y j y. eijk vs. y ij
tendencias generales de los residuales respecto al modelo; tales como, por ejemplo, la
variabilidad de los residuales a medida que aumentan o disminuyen los valores predichos por
el modelo. Como es habitual, para calcular los residuales es necesario estimar los parmetros
del modelo. Para el diseo A a B b , se demuestra (Montgomery 2001) que:
m y ; i yi y ; j y j y ; ( ) ij y ij y y i y j . Reemplazando
manifiesta que las predicciones del modelo corresponden a los promedios de cada casilla de
la Tabla de Contingencia. De este modo, el aumento en el nmero de rplicas tender a
mejorar las predicciones del modelo por tratarse de los promedios de cada experimento
realizado.
157
En lo que sigue, se ilustra el procedimiento arriba indicado mediante dos ejemplos. El primero
tiene como propsito para responder a la pregunta: qu sucede cundo se hace una sola
rplica de un diseo factorial completo? El segundo corresponde a un caso de estudio como
los presentados en captulos anteriores.
rplica, se tomar como base el experimento A[1L 5] de Casew (Cawse 2003) -pgs. 130
137-. Para este caso, se asumir que el experimento ejecutado corresponde a un Diseo
Factorial Completo de cinco niveles para cada variable principal: 5 2 . Se asumir adems
que los tipos de metales; M1 y M2, son las dos nicas variables del experimento y ambas son
principales. Con estos supuestos, los resultados del experimento se pueden resumir en la
Tabla siguiente:
M2
M1
V W Ce La Sn
Fe 645 606 607 710 665
Cu 686 599 683 831 686
Ni 629 663 616 816 831
Pb 766 652 593 868 695
Re 991 982 873 1040 867
Para el propsito del ejemplo, no es necesario desarrollar los once pasos de la metodologa
mostrada en una seccin anterior. En su lugar, nos limitaremos al planteamiento de la
Tabla de Contingencia y al clculo de las sumas de cuadrados para el experimento; pasos
tres (3), cuatro (4) y cinco (5). La Tabla de contingencia se encuentra abajo. El factor de
variacin es el mismo reportado en el ejemplo original: 13838.400. De la misma manera, la
suma total de cuadrados tambin es la misma: 429.542. Por su parte, las sumas de
1 a 2 1 b 2
cuadrados para M1 y M2 son: SS M 1
an i 1
y i FV y SS M 2 y j FV , pero,
bn j 1
como en este caso: a = b = 5 y n = 1, estas sumas tambin resultan en los mismos valores
reportados antes: 281604.8 y 93247.6, respectivamente (pg. 133). De otro lado, la suma de
1 a b 2
cuadrados de las rplicas es: SS Rp yij FV .
n i 1 j 1
158
Se puede observar que los valores y ij , son: y11 645; y12 606;...; y 55 867 , i.e., son los
mismos valores de la nica rplica del experimento. Adems, recordando que n = 1. Por lo
1 a b 2
tanto, SS Rp yij FV SS T . En consecuencia, al reemplazar en la expresin
n i 1 j 1
general: SSError = SST - SSRp- = SST - SST = 0. Lo que ilustra el hecho que el mtodo
convencional de anlisis de varianza no conduce a resultados de inters en Diseos
Factoriales Completos de una rplica. Para hacerlo, se debe o combinar el desarrollo
matemtico del ANOVA con una expresin que estime el aporte de las interacciones o
eliminar este trmino del modelo matemtico. En esta ltima instancia se tendr un modelo
igual al ya planteado para los diseos A[1B ] . Mientras tanto, en el Captulo X se discutir el
mtodo de Tukey (Tukey 1949)(Montgomery 2001) que provee una alternativa para estos
casos.
159
escogieron: 180, 200 y 220C, mientras que para NBD se trabaj con valores de 0.2; 0.3; y,
0.4 mm. La Tabla que se presenta a continuacin se deriva de los grficos de resultados
presentados por los autores. Para ello, se us el software: PlotDigitizer_2.6.8_Windows.
T (C) NBD (mm) SW (mm) T (C) NBD (mm) SW (mm) T (C) NBD (mm) SW (mm)
879.6 859.1 990.5
0.20 844.5 0.20 810.2 0.20 922.6
835.8 778.1 911.7
627.7 695.6 661.3
180 0.30 604.4 200 0.30 695.6 220 0.30 654.7
608.0 651.1 632.8
521.2 536.5 570.1
0.40 502.2 0.40 526.3 0.40 556.2
530.7 500.7 514.8
Realizar un anlisis estadstico de estos resultados. Adems, comparar los resultados que
resulten de hacer un ANOVA de solamente dos rplicas del experimento contra el
ANOVA de las tres rplicas de la Tabla.
160
Como siempre, se recomienda inspeccionar los datos mediante la realizacin de grficas que
relacionen las variables de entrada con la variable respuesta. En primer lugar, se pueden hacer
diagramas de caja y bigote para SW en funcin de T y de NBD. Seguidamente, se pueden
grficos de interacciones. Los diagramas de caja y bigote (usando el complemento de Excel:
RealStistics -disponible en: http://www.real-statistics.com/free-download/real-statistics-
resource-pack/) para los datos de Ravi et al. (Ravi et al. 2017) son:
1200
1000
800
SW (m m)
600
400
200
0
180 200 220
Temperatura (C)
1200
1000
800
SW (m m)
600
400
200
0
0,20 0,30 0,40
NBD (mm)
Los diagramas obtenidos sugieren que: (i) La temperatura parece no ejercer una influencia
en la variable respuesta; (ii) NBD cambia significativamente el ancho de los puntales; (iii)
161
(iii) Los cambios en la variable respuesta tienen una mayor variabilidad dentro de los niveles
de temperatura estudiados en comparacin con los resultados en funcin de la distancia entre
la boquilla y el molde ya que los diagramas de caja y bigote obtenidos para la temperatura
son mucho ms anchos que los de los ltimos; (iv) se encontr un dato atpico para el grupo
de datos referidos a NBD = 0.40. Sin embargo, dada la baja anchura de los diagramas para
esta variable, se spresume que esto puede no ser relevante para el anlisis.
Por otro lado, la grfica de interacciones; elaborada con base en los promedios de SW para
cada nivel de las variables del experimento y en donde las barras de error se refieren a la
desviacin estndar de los promedios calculados, resulta en:
1200
1000
800
SW (m m)
600
400
NBD=0.20
200 NBD=0.30
NBD=0.40
0
170 180 190 200 210 220 230
Temperatura (C)
Las inflexiones en las curvas realizadas sugieren la existencia de interacciones entre las dos
variables principales. Nuevamente, los resultados muestran que el aumento de la variable
NBD disminuye SW.
162
1. El modelo para este experimento es: SWijk m iT NBD ( T NBD ) ij ijk . Donde, i =
j
j = k = 1,2,3; iT , NBD , ( T NBD ) ij y ijk son los efectos de los cambios de nivel en la
j
NBD
H 0 : 0NBD NBD NBD
.20 mm 0.30 mm 0.40 mm 0 ; H 1 : j 0 , para alguna de las tres distancias entre la
3. Tabla de contingencia:
SW (m m)
T (C) NBD (mm)
0,20 0,30 0,40 T Prom. T
180 879,6 844,5 835,8 627,7 604,4 608,0 521,2 502,2 530,7 5954,0 661,6
200 859,1 810,2 778,1 695,6 695,6 651,1 536,5 526,3 500,7 6053,3 672,6
220 990,5 922,6 911,7 661,3 654,7 632,8 570,1 556,2 514,8 6414,8 712,8
NBD 7832,1 5831,4 4758,6
Prom. NBD 870,2 647,9 528,7
2559,9 1840,1 1554,0
Rplicas 2447,4 2042,3 1563,5
2824,8 1948,9 1641,1
853,3 613,4 518,0
Prom. Rplicas 815,8 680,8 521,2
941,6 649,6 547,0 Sumas Promedios
Totales 18422,1 682,3
Las sumas y promedios se calcularon de acuerdo a las ecuaciones de las pginas 155-156.
e.g., para las rplicas: y11 879.6 844.5 835.8; y12 859.1 810.2 778.1
2
4. Factor de variacin: FV 18422.1 12'569.397.9 .
3 3 3
5. Sumas de cuadrados:
163
1
SST (5954.0 2 6053.3 2 6414.8 2 ) FV 13069.3 ;
33
1
SS NBD (7832.12 5831.4 2 4758.6 2 ) FV 540753.1 ;
3 3
1
SS Rp (2559.9 2 1840.12 1554.0 2 2447.4 2 2042.32 1563.5 2 ...) FV 574128.4 ;
3
6. Grados de libertad:
12885.6
MS Error 715.9 .
18
8. Estadsticos F:
MS T MS NBD MS T NBD
FTT , Error 9.13 ; FNBD
NBD , Error
377.69 ; FTT NBD
NBD
, Error 7.09
MS Error MS Error MS Error
9. Valores-p:
Estos valores indican que se tiene evidencia suficiente para rechazar las tres hiptesis nulas
del modelo estadstico. En consecuencia, la temperatura y la distancia entre la boquilla y el
molde y su interaccin tienen un efecto significativo el espesor de los puntales de los
prototipos. Es costumbre poner los resultados de un ANOVA mediante una Tabla como
la mostrada a continuacin:
164
A pesar que los resultados del ANOVA y las grficas realizadas para los datos experimentales
coinciden en evidenciar la existencia de interacciones entre las variables principales del
experimento realizado, es importante discutir la interpretacin estadstica de estas
interacciones. En este sentido, Loftus (Loftus 1978) describi la existencia de dos tipos
principales de interacciones entre variables; propiamente, interacciones interpretables e
interacciones no interpretables. Al primer grupo pertenecen aquellas interacciones cuyo
grfico de interacciones resulta en dos curvas que se interceptan. Estas interacciones
son inherentes a una interrelacin no lineal entre las variables que intervienen en el fenmeno
estudiado. En cuanto a las interacciones no interpretables, estas evidencian curvas que
no se interceptan pero que presentan inflexiones o pendientes distintas. Se han
publicado interesantes anlisis al respecto de las interacciones no interpretables (Loftus
1978)(Rosnow & Rosenthal 1995)(Wagenmakers et al. 2012)(Bogartz 1976)(Garcia-Marques
et al. 2014). Las principales conclusiones al respecto de la deteccin de stas son: (i) la posible
existencia de relaciones cuadrticas (o de otro orden) entre alguna(s) de la(s) variables
principales del experimento y la variable respuesta. En este sentido, cabe recordar que el
modelo estadstico del ANOVA aqu mostrado presenta una relacin lineal de orden uno
entre las variables principales y la variable respuesta. (ii) La influencia de otras variables no
tomadas en cuenta en la planeacin del experimento; i.e., variables utilizadas en valores fijos.
Cuando hay interacciones no interpretables los resultados del ANOVA resultan
ambiguos y se aconseja reevaluar con detalle la planeacin experimental en su conjunto y
prestar la mayor atencin al conocimiento terico del fenmeno o proceso estudiado junto
al contexto de los experimentos realizados.
165
Recordando que cuando los efectos de las variables principales y de las interacciones son
significativas, las predicciones del modelo estadstico del diseo factorial de dos factores
estn dadas por: y ijk y ij ; i.e. los promedios de las rplicas de cada celda del experimento,
se puede elaborar la siguiente tabla de residuales que incluye los valores yijk :
Con los residuales, se elabora el grfico de normalidad respectivo (ver pgina siguiente) que
no muestra una desviacin del supuesto de normalidad. Sin embargo, s se evidencia la
presencia de un dato atpico ( eijk 37.7 ); el cual corresponde al atpico encontrado en el
diagrama de caja y bigotes de NBD vs. SW (pg. 161). En una grfica de normalidad, un
dato atpico se aquel que ms se aleja de la recta de ajuste. Tpicamente, se encuentran en los
extremos del grfico. Como se dijo antes, aunque el dato sea atpico, su impacto en los
anlisis efectuados no es considerable y por ello no se omite, pero tampoco se considera
relevante.
166
2,0
1,5
1,0
0,5
zl 0,0
-0,5
-1,0
-1,5
-2,0
Dato atpico
-2,5
-80,0 -60,0 -40,0 -20,0 0,0 20,0 40,0 60,0 80,0
ijk
Grfico de normalidad para datos reportados por Ravi et al. (Ravi et al. 2017)
Los grficos del supuesto de varianza constante para cada factor son:
60,0 60,0
50,0 50,0
40,0 40,0
30,0 30,0
20,0 20,0
10,0 10,0
ijk
ijk
0,0 0,0
-10,0 -10,0
-20,0 -20,0
-30,0 -30,0
-40,0 -40,0
-50,0 -50,0
660,0 670,0 680,0 690,0 700,0 710,0 720,0 500,0 550,0 600,0 650,0 700,0 750,0 800,0 850,0 900,0
i.. .j.
60,0
50,0
40,0
30,0
20,0
10,0
ijk
0,0
-10,0
-20,0
-30,0
-40,0
-50,0
500,0 600,0 700,0 800,0 900,0 1000,0
ij.= ijk
167
168
Ejercicios
(i) Analice los resultados de este experimento para ambas variables respuesta, incluyendo
un estudio de las posibles interacciones presentes.
(ii) Desarrolle modelos estadsticos para los resultados basndose en los resultados de los
Anlisis de Varianza respectivos.
169
(iii) Haga un anlisis de los residuales del modelo y compruebe los supuestos de
normalidad y varianza constante. Defina si existen datos atpicos y discuta su posible
influencia en los resultados obtenidos.
Datos para las dimensiones de los canales de dispositivos microfludicos (Eusner et al. 2010). *Valor sustrado del
promedio de altura de la herramienta = 39.7 mm; **Valor sustrado del promedio del ancho de la herramienta =
52.7 mm.
2. Jacob y Anjaneyulu (Jacob & Anjaneyulu 2013) estudiaron el trnsito de vehculos pesados en
vas terrestres de la India. En aras de mejorar la seguridad vial, los autores buscaron disear
modelos para predecir las velocidades efectivas de los vehculos y la reduccin de esta velocidad
frente a carreteras con curvas. En su reporte, muestran datos de la diferencia mxima de
velocidad en funcin del radio (R) y la longitud de las curvas (CL):
CL [m]
R [m]
50 100 150 200 250 300
50 6.77 6.57 7.19 8.89 10.59 12.29
100 6.18 5.98 5.78 7.24 8.94 10.64
150 5.99 5.79 5.59 6.70 8.40 10.10
200 5.89 5.69 5.69 6.42 8.12 9.82
400 5.75 5.55 5.55 6.01 7.71 9.41
600 5.70 5.50 5.50 5.87 7.57 9.27
800 5.67 5.47 5.47 5.81 7.51 9.21
1000 5.66 5.46 5.46 5.76 7.46 9.16
(i) Desarrolle un modelo estadstico para los datos presentados agrupando los niveles de
CL en las categoras: 50 100 m; 150 200 m; y, 250 300 m.
(ii) Compare las predicciones del modelo del diseo factorial 83 del inciso (i) con las
que producen los modelos de diseos A[1B ] cuyas variables principales seran R y CL.
170