Você está na página 1de 171

JULIO3,2017

DISEODEEXPERIMENTOS:
UNAINTRODUCCINPRAGMTICA

VICTOR GABRIEL BALDOVINO MEDRANO (@vigabalme)


PROF.ASISTENTE,ESCUELADEINGENIERAQUMICACENTRODEINVESTIGACIONESENCATLISIS-
UNIVERSIDADINDUSTRIALDESANTANDER
Bucaramanga,Colombia
CAPTULO I
INTRODUCCIN AL DISEO DE EXPERIMENTOS
Definicin Bsica y Filosofa

El Diseo de Experimentos y el Mtodo Cientfico

El diseo de experimentos (DdE) es parte esencial del mtodo cientfico. Su esencia es la


formulacin de estrategias de medicin experimentales que permitan obtener la mxima
informacin posible sobre un proceso al menor costo operacional; i.e. tiempo, dinero, uso de
equipos, entre otros. Apropiar este conocimiento es de extrema utilidad en Ingeniera Qumica,
y en general, en cualquier campo del conocimiento donde el mtodo cientfico se aplique.

Es importante recordar la manera en que se aplica el mtodo cientfico:

REALIDAD
FENMENO
?

HIPTESIS

MODELODELAREALIDAD

DESCRIPCINYEVALUACIN
S DISEODEEXPERIMENTOS
DELOSRESULTADOSDEL
PARAPROBARLAHIPOTESIS
EXPERIMENTO

AJUSTEDELMODELO? CONCLUSIONES

NO

NUEVASPREGUNTAS EXPLICACIN

Este esquema explica que el mtodo cientfico exige la presentacin de evidencia experimental
para validar hiptesis formuladas al respecto de un fenmeno natural, proceso o problema que
se busca solucionar. Ms especficamente, el mtodo cientfico est basado en la recoleccin de
datos fiables y reproducibles que puedan ser contrastados con hiptesis postuladas sobre
determinado fenmeno natural o a la solucin de un problema dado. A diferencia de los
enfoques dogmticos, la prctica del mtodo cientfico siempre lleva a nuevas preguntas ms
profundas y refinadas sobre la naturaleza. Es decir, el mtodo cientfico es una herramienta de
perfeccionamiento del conocimiento. En ingeniera, esto se traduce en el mejoramiento continuo
y optimizacin de un proceso, una tcnica, un diseo; en innovacin.

Diseo de Experimentos: Definicin y Caractersticas Principales

En este contexto, el Diseo de Experimentos es una herramienta que permite realizar el


contraste entre realidad e hiptesis. Bajo esta consideracin, el conocimiento de tcnicas para
disear experimentos que aporten evidencia slida es muy importante. Las caractersticas
fundamentales de un buen diseo de experimentos son: (i) Sistematicidad: los experimentos
deben tener propsitos y alcances claros; (ii) Control: las condiciones experimentales deben estar
circunscritas a parmetros conocidos y controlables. Las variables a estudiar deben estar
claramente identificadas y el modo de medirlas debe definirse de manera precisa; (iii)
Repetibilidad y reproducibilidad: las medidas experimentales deben poderse replicar varias
veces por el investigador mediante las tcnicas empleadas y a las condiciones adoptadas
(repetibilidad). Adems, las medidas deben poder replicarse por otros investigadores con
instrumentos semejantes y a las condiciones reportadas por el investigador que las reporta
(reproducibilidad). (iv) Objetividad: la evaluacin de los datos experimentales debe hacerse con
herramientas de anlisis que permitan la mxima objetividad posible en las conclusiones
alcanzadas. Estas herramientas deben estar basadas en mtodos rigurosos y modelos
matemticos libres de prejuzgamientos sobre los datos. Nunca debe anteponerse la visin
personal sobre la evidencia experimental! (v) Refinamiento y optimizacin: un buen diseo
de experimentos siempre debe abrir nuevas preguntas y posibilidades de investigacin que lleven
a la perfeccin del conocimiento.

Existen dos maneras principales de disear buenos experimentos cumpliendo los postulados
presentados arriba. La primera es la metodologa clsica de diseo de experimentos, en la cual el
investigador elige las variables de inters e investiga sus efectos sobre el problema abordado uno
a la vez. Esta ha sido muy exitosa en la historia de la ciencia y en el desarrollo de nuevas
tecnologas y procesos. Sin embargo, es un mtodo muy intuitivo y que requiere muchsima
experiencia por parte del investigador para lograr resultados de mxima confiabilidad. En
contraste, la segunda metodologa; que constituye el objeto de este curso, se basa en una serie
de tcnicas donde la combinacin de diversas condiciones experimentales permite la generacin
de datos que pueden ser analizados por mtodos estadsticos. Estos mtodos tienen la fortaleza
de brindar una mayor objetividad a la hora de evaluar tanto las hiptesis planteadas al inicio del
estudio como la calidad misma de la informacin recolectada. Adems, los datos generados
pueden ser sujetos tambin a los mismos mtodos de anlisis que se usan en la metodologa
clsica de diseo de experimentos. Comparativamente entonces, las tcnicas estadsticas de
diseo de experimentos ofrecen la informacin ms rica posible al menor costo (o esfuerzo)
experimental. En este curso, el trmino DdE se aplicar exclusivamente a esta de manera realizar
experimentos y se mostrarn al estudiante sus fundamentos y aplicacin en el anlisis y solucin
de problemas de ingeniera qumica.

Metodologa Bsica para Realizar Diseos de Experimentos

Para realizar diseos de experimentos es necesario saber leer. Leer aqu se entiende en dos
sentidos: (i) la capacidad de delimitar un problema a partir del conocimiento previo de principios

y conceptos cientficos apropiados y (ii) la capacidad de interpretar adecuadamente un texto de


modo que se identifiquen en l las ideas principales y secundarias. En este caso, las ideas
principales son las que guan la solucin del problema a resolver mientras que las secundarias
sirven para argumentar al respecto de las ideas principales adems de aportar informacin
adicional que generalmente sirve para contextualizar el problema abordado. El estudiante debe
ser consciente que saber leer es la clave para resolver los problemas que se plantean en este curso
y en su carrera profesional.
Una lectura bien hecha siempre conduce a identificar las variables involucradas en un fenmeno
o problema determinado.
Qu es una variable?
Rta/ En DdE, una variable es una caracterstica o propiedad medible.
Qu tipos de variables hay en DdE?
La principal clasificacin de las variables en DdE corresponde a: variables de entrada y
variables respuesta. Se entiende por variable de entrada aquella cuyo efecto sobre el
fenmeno o proceso se desea evaluar. Una variable respuesta es, por otro lado, aquella que
puede ser cambiada debido a la accin de la variable de entrada. En otras palabras, una variable
de entrada es normalmente controlada y cambiada por el investigador mientras que la variable
respuesta es aquella sobre la cual el investigador ha planteado su hiptesis.

Ejemplo cotidiano
Hiptesis: Si subo la temperatura de llama del fogn (variable de entrada) hervir ms
rpido el sancocho (variable respuesta: tiempo para alcanzar el punto de ebullicin del
sancocho).

Por otro lado, es importante aprender a hacer las siguientes distinciones sobre la naturaleza de
las variables. Primero, las variables; de entrada o de respuesta, pueden ser cuantitativas o
cualitativas. Una variable cuantitativa es aquella que puede medirse con una escala numrica
estandarizada. Una variable cualitativa es aquella que est sujeta a una clasificacin que puede o
no estar asociada a una escala numrica. Tanto las variables cuantitativas como las cualitativas
pueden ser de carcter aleatorizable o no aleatorizable. Las variables cuantitativas son
comnmente de carcter aleatorizable pues pueden asumir cualquier valor numrico en el
conjunto de los nmeros reales. As, variables como temperatura, presin, concentracin de un
compuesto o elemento en una mezcla son muy frecuentemente aleatorizables. Sin embargo, el
lector debe que el principal factor que define si una variable es aleatorizable es la posibilidad de
seleccionar valores de esta de entre una poblacin determinada. De la identificacin adecuada

de los tipos de variable que intervienen en un fenmeno o problema ingenieril depende


directamente la comprensin, anlisis y conclusiones que se plantean sobre los mismos.

Ejemplo conceptual
Como ingeniero responsable de la operacin de la unidad de
hidrotratamiento (HDT) cataltico de una refinera, la
gerencia le solicita hacer un plan experimental para
determinar las condiciones de temperatura, flujo y presin
necesarias para operar el proceso con la ms alta eficiencia
posible. A continuacin, se presenta un diagrama de la unidad
de hidrotratamiento:

Imagen adaptada de: L. Duarte, propuesta de trabajo de investigacin de


Maestra (2016)
El objetivo del HDT es eliminar contaminantes presentes en
los cortes de refinera, tales como: azufre, nitrgeno y
metales. Para su propuesta, usted debe considerar que las
reacciones de eliminacin de estos contaminantes ocurren en
los dos reactores del diagrama.

Identifique en esta situacin las variables que intervienen y su naturaleza.

Solucin

Dividiremos la solucin en una serie de pasos bsicos.

Paso 1: Comprensin de lectura

El primer paso para la solucin del problema es la identificacin de la informacin clave


en el enunciado. Para ello, se desglosa ste frase a frase. Abajo, se resaltan las ideas
importantes que sirven para plantear la solucin. Por otro lado, aquellas frases y palabras
de menor importancia aparecen tachadas.
Como ingeniero responsable de la operacin de la unidad de
hidrotratamiento (HDT) cataltico de una refinera, la
gerencia le solicita hacer un plan experimental para
determinar las condiciones de temperatura, flujo y presin
necesarias para operar el proceso con la ms alta eficiencia
posible.

En este prrafo est encerrada gran parte de la informacin clave en la solucin del
problema. Se presenta el sistema a estudiar: la unidad de hidrotratamiento.

Se describe el objetivo del ejercicio: hacer un plan experimental.

Se enuncian las variables de entrada del sistema: temperatura, flujo y


presin, y la variable de salida: eficiencia.

La temperatura, el flujo y la presin son variables cuantitativas y aleatorizables. Por tanto,


desde el punto del diseo de experimentos, se podra a priori considerar un diseo donde
se puedan evaluar sus efectos sobre la variable de salida: eficiencia. A continuacin, se
contina desglosando el enunciado:
A continuacin se presenta un diagrama de la unidad de
hidrotratamiento:

Imagen adaptada de: L. Duarte, propuesta de trabajo de investigacin de


Maestra (2016)

El diagrama del sistema es otra pieza clave en la solucin del problema ya que seala
condiciones necesarias para plantear un diseo experimental apropiado. En particular,
un acercamiento al diagrama permite ver que la unidad est compuesta de dos
reactores. La entrada del alimento al sistema se hace por el Reactor 1 y es nica. El
producto de este reactor es enviado al Reactor 2; de donde sale la corriente de producto
final. Es importante notar aqu que, en el contexto del diseo experimental, tendramos
una nueva variable cualitativa no aleatorizable: el reactor donde se realiza el proceso. En
principio, la variable reactor tendra dos niveles y sera otra variable de entrada en el
diseo experimental.

Despus de lo anterior, seguimos con la interpretacin del enunciado:

El objetivo del HDT es eliminar contaminantes presentes en


los cortes de refinera, tales como: azufre, nitrgeno y
metales. Para su propuesta, usted debe considerar que las
reacciones de eliminacin de estos contaminantes ocurren en
los dos reactores del diagrama.

Este prrafo da ms informacin sobre el proceso. Del texto, aparecen resaltadas pero
tachadas: objetivo del HDT, eliminar y azufre, nitrgeno y
metales. La razn para tachar esta informacin es porque no debe olvidarse que la
eliminacin de azufre, nitrgeno y metales son expresiones de la variable respuesta a
estudiar: Eficiencia. Por otra parte, el hecho que se solicite considerar los dos reactores
indica que se deben tomar como niveles de la variable interferencia: reactor.

Paso 2: Resumen de la informacin clave


Es muy recomendable resumir la informacin obtenida en el paso 1, as:

Variables de entrada identificadas


Tipo Descripcin Niveles*
Temperatura (T) A definir
Cuantitativas aleatorizables Flujo () A definir
Presin (p) A definir
Cuantitativas no aleatorizables ---- ----
Cualitativas aleatorizables ---- ----
Cualitativas no aleatorizables Reactor Reactor 1 (R1) y Reactor 2 (R2)
Variables de salida identificadas
Descripcin general Descripcin especfica
Eficiencia para eliminar:
Azufre (ES)
Eficiencia (E)
Nitrgeno (EN)
Metales (EM)
*Valoresquepuedeasumirlavariableduranteelexperimento.

Ejercicios

1. Identifique y clasifique (elabore una tabla como la del ejemplo) de manera adecuada las
variables implicadas en los siguientes enunciados. En adicin, prepare un informe donde
presente los fundamentos de ingeniera de los procesos estudiados.

(i). La verde promesa de los biocombustibles se ha ido tornando cada vez ms gris
(http://spectrum.ieee.org/energy/renewables/biofuels-arent-really-green). Las causas de ello
estn ligadas a que grandes extensiones de tierras han sido taladas o estn en riesgo de serlo para
el monocultivo intensivo de plantas como la caa de azcar. Tambin, estudios sobre el ciclo de
vida de algunos de los productos derivados de la biomasa (Green Chem., 2015,17, 343-355)
muestran que su impacto ambiental puede ser mayor al que tienen los combustibles fsiles. En
adicin, los biocombustibles presentan una composicin qumica; alta concentracin de
insaturados, que los hace susceptibles a una rpida degradacin de su poder calorfico. Para tratar
de reducir el efecto negativo de la oxidacin de insaturados, se deben agregar antioxidantes al
biodiesel.

La escogencia de un antioxidante apropiado es un asunto crtico para la calidad del biodiesel.


Orives et al (J Am Oil Chem Soc (2014) 91:18051811) trataron de optimizar la relacin costo
de antioxidante calidad del biodiesel (CQ-Index) en funcin de la naturaleza del antioxidante:
butilhidroxianisol (BHA), butilhidroxitolueno (BHT) y tert-butilhidroquinona (TBHQ) y de su
concentracin relativa en mezclas de biodiesel. Para sus experimentos, prepararon mezclas: (i)
sin antioxidante; (ii) con un solo antioxidante; (iii) con dos antioxidantes en partes iguales; y, (iv)
con los tres antioxidantes en partes iguales. Como restriccin en sus experimentos, solamente
pudieron usar biodiesel de aceite de soya y de cebo de cerdo.

(ii). De acuerdo a Aprem et al (J Elastomers Plastics 35 (2003) 29), la vulcanizacin del caucho
es un proceso qumico de alta complejidad donde ocurren reacciones entre el caucho natural,
azufre mineral y ciertos aditivos qumicos; como, por ejemplo, los aceleradores. Gracias a las
reacciones qumicas que se llevan a cabo se produce un entrecruzamiento de las cadenas
polimricas del caucho natural y ste se transforma de un material suave y fcilmente deformable
a uno muy fuerte y elstico.

Figura: Entrecruzamiento de cadenas polimricas en el caucho vulcanizado (Tomado de


Wikipedia)

Se ha podido determinar que las propiedades del caucho vulcanizado


dependen del tipo de acelerador, la estructura polimrica del caucho natural
y la temperatura de vulcanizacin. En el estudio de Aprem et al, se sintetiz un nuevo acelerador
llamado DBT y se busc probar su efecto sobre el mdulo elstico, temperatura de transicin
vtrea y el grado de entrecruzamiento de la estructura polimrica del caucho vulcanizado. Los
autores analizaron el efecto de tres temperaturas y de otros tres aceleradores de vulcanizacin;
DCBS, MBS y TBBS, sobre las propiedades arriba mencionadas. Los experimentos se hicieron
con un solo tipo de caucho natural. En el artculo, se usa la clsica metodologa de variar un
factor a la vez.

(iii). Un muy interesante proyecto UIS corresponde a la obtencin de aceites esenciales (AAEE)
por parte del CENIVAM (https://www.youtube.com/watch?v=jsrfmssbvFg). El CENIVAM
busca mejorar la extraccin de estos aceites a partir de plantas como la palmarrosa (tambin
conocida como limoncillo, en la Costa Caribe).

Tomado de: http://aromaticasparatodo.blogspot.com.co/2012/11/el-


limoncillo.html

Un aceite esencial es una mezcla de diversos compuestos orgnicos


oxigenados entre los cuales los alcoholes le confieren olores
caractersticos. Para el caso del AAEE de palmarrosa, el geraniol es el principal compuesto de
inters para la fabricacin de fragancias y otros productos. Sin embargo, durante el proceso de
extraccin de AAEE de palmarrosa, el geraniol est acompaado por una fraccin importante
de acetato de geranilo de menor valor comercial. Este ltimo podra convertirse en geraniol
mediante un proceso cataltico. Con este objetivo, el CENIVAM desarroll un proyecto de
investigacin que busca implementar un proceso cataltico continuo para convertir el acetato de
geranilo en geraniol. Se decidi analizar el efecto de diferentes slidos como: almina (Al2O3),
slice (SiO2), xido de calcio (CaO), y lquidos como HCl y KOH en la reaccin. Estas sustancias
se prueban como catalizadores y dado que se trata de una reaccin en fase lquida, los slidos se
consideran catalizadores heterogneos y los lquidos catalizadores homogneos. Una restriccin
del estudio es que los catalizadores se usaron por su disponibilidad inmediata y no por seleccin
aleatoria. Adems de lo anterior, se analiz el efecto de la temperatura en la reaccin.

(iv). Con el despertar de la consciencia global respecto a las consecuencias negativas del cambio
climtico, tanto la comunidad acadmica como la industria han hecho inversiones importantes
en el desarrollo de tecnologas para la reduccin y aprovechamiento de emisiones de gases de
invernadero. En el caso particular de los pozos y refineras petroleras, estos estn obligados a
eliminar excedentes de gases combustibles livianos como metano, etano, propano y butano,
denominados VOCs (Volatile Organic Compounds), mediante su combustin a altas
temperaturas debido a normas ambientales respecto a su emisin y a que stos tienen un mucho
ms alto potencial de invernadero comparados con el CO2. Sin embargo, esta solucin
tradicional es slo un paliativo al problema principal y demanda una solucin tecnolgica que
permita eliminar los VOCs a baja temperatura y alta selectividad hacia CO2 (hidrocarburos como
el metano tienen un potencial de gas de invernadero muy superior al del CO2). En respuesta a
esta problemtica, se plantea un proyecto para el desarrollo de una alternativa que permita
realizar la combustin cataltica de VOCs.


Modelo tpico de un reactor cataltico de combustin. Tomado de:
http://pdf.directindustry.com/pdf/ecochimica-system/catalytic-combustion-plant/90121-601969.html

La evidencia en la literatura permite postular la hiptesis de que el objetivo del proyecto se puede
lograr mediante el desarrollo de materiales catalticos basados en xidos mixtos. La sintonizacin
de tres de las propiedades clave de estos materiales: especficamente, el rea especfica, la
capacidad xido-reductora, y el tamao de partcula, permitir obtener los mejores valores de las
variables respuesta del problema en trminos de desarrollar un proceso de alta eficiencia.

(v). Las zeolitas son materiales cristalinos con un altsimo nivel de organizacin. Gracias a ello,
poseen redes porosas con tamaos que pueden llegar a la escala molecular (dimetros entre 0.3
y 1.0 nm). Adems, su estructura qumica; basada en combinaciones de tomos de silicio y
aluminio, les confieren una excelente reactividad frente a la conversin de mltiples compuestos
qumicos; como por ejemplo, los hidrocarburos de la industria petrolera. Las principales
aplicaciones de las zeolitas se encuentran entonces en los campos de la adsorcin y la catlisis
heterognea. De acuerdo a datos de Wikipedia, al ao se producen en el mundo tres millones de
toneladas de zeolitas que se destinan principalmente a aplicaciones en las industrias:
petroqumica, nuclear y del biogs, as como para usos cotidianos como: diseo de sistemas de
calefaccin o aire acondicionado, aditivo en detergentes y construccin, entre otros.

La sntesis tradicional de zeolitas se realiza por la denominada ruta hidrotrmica y comprende


una serie de etapas bsicas que se caracterizan por el uso de grandes cantidades de solventes,
surfactantes txicos, sales precursoras de aluminio y silicio de alto costo, as como la aplicacin
de etapas de alto consumo energtico y tiempo. En adicin, una vez completada la sntesis, se
deben eliminar los surfactantes mediante un proceso de combustin a alta temperatura que
produce emisiones de NOx y COx; compuestos estos problemticos desde el punto de vista
ambiental. Como alternativa, se ha planteado el uso de la denominada sntesis mecanoqumica

10

cuyas ventajas seran: la reduccin drstica o eliminacin total del solvente y una reduccin
significativa del tiempo de produccin de la zeolita. El siguiente diagrama es una comparacin
entre los dos mtodos:

Tomado de: G. Majano, L Borchardt, S Mitchell, V Valtchev, J Prez-Ramrez, Microporous


and Mesoporous Materials 194 (2014) 106114

De acuerdo a la figura, la propiedad de mayor inters de las zeolitas obtenidas en ambos casos
es la porosidad: ms precisamente, la distribucin de tamao de poro y el rea superficial.

(vi). Las arenas feldespticas; que constituyen aproximadamente 60% de la corteza terrestre y
cuya produccin anual supera los 18 millones de toneladas, son muy importantes para la
manufactura de vidrios y cermicos. Para la manufactura de estos productos, variables como la
temperatura y concentracin de impurezas son cruciales para las propiedades mecnicas y
estticas de los materiales.

La composicin de una arena feldesptica; purificada anteriormente por medios magnticos, es


presentada en el trabajo de investigacin de Argelles et al. (Dyna 183 (2014) 132): Microclina
(KAlSi3O8) = 35.7%; Albita (NaAlSi3O8) = 10.4%; Cuarzo (SiO2) = 53.9%. De estos tres
componentes, el feldespato es la fraccin que no contiene cuarzo. Para la industria de los
cermicos, el inters es entonces obtener la mayor cantidad posible de feldespato de las arenas
usadas como materia prima. En particular, se han diseado procesos de flotacin para separar el
feldespato del cuarzo desde 1930. La siguiente imagen ilustra un proceso clsico de separacin
de feldespato por flotacin:

11

Proceso de recuperacin de feldespato. Tomado de: https://www.911metallurgist.com/blog/tag/feldspar

El mejoramiento de este proceso a lo largo de los aos ha implicado el desarrollo de mejores


equipos y la formulacin de reactivos qumicos que conlleven mayores tasas de recuperacin. El
mecanismo fisicoqumico del proceso de flotacin envuelve fenmenos de ciencia de superficies
y est dominado por una serie de equilibrios interfaciales entre las partculas de los minerales de
la arena feldesptica y los agentes qumicos que actan como tensoactivos.

En el artculo de Argelles et al., los autores buscaron optimizar el rendimiento del proceso de
recuperacin de feldespato mediante el anlisis del efecto de las siguientes variables de proceso:
la concentracin de una amina y de cido hidrofluorhdico y el pH. Por otro lado, los autores
tambin estudiaron la velocidad de rotacin del motor mezclador y el tiempo en el proceso de
pre-acondicionamiento del feldespato en suspensin. En general, estas dos ltimas variables
estuvieron restringidas a condiciones ya establecidas en estudios anteriores. En adicin, en el
pre-acondicionamiento los autores decidieron emplear varios tamaos de partcula del mineral
con el objeto de analizar su efecto.

Teniendo en cuenta la informacin presentada, determine:

(A) Los procesos a los que se hace referencia en el texto. Seale cul(es) de ellos en especfico
se estudi(aron)
Respecto al (los) proceso(s) estudiado(s), identifique:
(B) Las variables de entrada y respuesta

12

(C) Las variables interferencia

(vii). Una de las principales causas del deterioro de las carreteras es la accin del agua sobre las
propiedades fisicoqumicas del material con que se construyen. En el caso de aquellas construidas
con asfaltos; que son las ms comunes en el mundo, el agua ataca la cohesin interna de este
material. Con el tiempo, el asfalto presenta entonces baches, peladuras y hasta desprendimiento
del suelo. Los asfaltos se elaboran a partir de mezclas que consisten normalmente en: (i) un
conglomerado mineral compuesto de tres fracciones de partculas de tamaos (Dp) diferentes:
(1) Dp > 2mm; (2); 0.063mm < Dp < 2mm; y, (3) Dp < 0.063mm. (ii) un bitumen o un derivado
de ste que acta como agente ligante y cuya funcin es darle cohesin al conglomerado mineral.
(3) Aditivos como: fibras, ceras, entre otros, que se usan para mejorar las propiedades mecnicas
del material. En particular, la plasticidad y la resistencia a la fatiga suelen ser objeto de estudio
en este sentido.

Antes de usar un asfalto en la construccin de una carretera, ste debe pasar una serie de pruebas
de laboratorio que certifiquen su calidad. Para poder llegar a mitigar el efecto negativo del agua,
mencionado antes, se requiere, de antemano, el diseo de pruebas de laboratorio que permitan
formular modelos para predecir el potencial efecto de la humedad en la vida media de los asfaltos.
Para ello, los mtodos deben ser capaces de tener en cuenta los efectos de la composicin de la
mezcla asfltica, la temperatura, la carga vehicular a la que estar sometida la carretera (la cual
viene dada por regulaciones gubernamentales) y las condiciones ambientales que estn fuera del
control del experimentador. De esta manera, no existe una nica prueba de laboratorio que
conduzca a la formulacin de modelos sobre el efecto de la humedad en asfaltos, sino que cada
una aporta al conocimiento global del problema dentro unas condiciones dadas.

Moreno-Navarro et al. (Dyna 183 (2014) 49) describen un estudio en el que se compararon dos
mtodos que evalan el efecto del agua en asfaltos. Los mtodos fueron: Inmersin-Compresin
(siglas: NTL-162) y Sensibilidad al agua (siglas: UNE-EN 12697-12). A travs de ellos, los
autores midieron el efecto del agua en la resistencia de los asfaltos a esfuerzos de compresin (
[=] kPa) y tensin ( [=] kPa). La cantidad de agua en las mezclas de asfalto preparadas se

expres en trminos de la fraccin de burbujas de aire (Air-void [=] %) que stas contenan. Los
autores probaron 33 muestras de asfaltos provenientes de dos lotes de preparacin diferentes
por cada uno de los mtodos seleccionados. Es seguro asumir que los investigadores no posean

13

control de los lotes empleados en sus anlisis y que adems su laboratorio solamente tena acceso
a los dos tipos de pruebas de laboratorio mencionados antes. En cambio, s podan cambiar
libremente la temperatura y la cantidad de agua adicionada a las muestras de asfalto agua
estudiadas.

2. Consulte los artculos siguientes e identifique las variables implicadas en los estudios
presentados:

(i). Operando XAS and NAP-XPS studies of preferential CO oxidation on Co3O4 and
CeO2-Co3O4 catalysts, L. Lukashuk et al., Journal of Catalysis 344 (2016) 115.

(ii). Identifying and Tackling Emergent Vulnerability in Drug-Resistant Mycobacteria,


J Padiadpu et al., ACS Infectious Diseases 2 (2016) 592607.

(iii). High-quality graphene via microwave reduction of solution-exfoliated graphene


oxide, D. Voiry et al., Science 353 (2016) 1413-1416.

(iv). The Manufacture of Gelatine, L.A. Thiele, Ind. Eng. Chem. 4 (1912) 446451.

3. Describa un fenmeno cotidiano y analice las variables que estaran implicadas en un diseo
experimental que lo describa.

4. Realice una definicin del problema de los malos olores en la ciudad de Bucaramanga y
describa las variables a tener en cuenta para plantear una solucin.

14

CAPTULO II
HERRAMIENTAS DE ESTADSTICA DESCRIPTIVA PARA
DISEO DE EXPERIMENTOS
Una vez se define la metodologa adecuada para la realizacin de un experimento (o proyecto),
se procede a la ejecucin de los mismos y a la consiguiente recoleccin de datos. Los datos son
el corazn de la experimentacin y el sujeto de anlisis que llevar a concluir y tomar decisiones
al respecto de lo que se est investigando. Este captulo se centra en el primer paso hacia el
anlisis de datos; su descripcin. Para ello, expondremos herramientas bsicas de estadstica
descriptiva que permiten una evaluacin preliminar pero bastante diciente sobre los
experimentos llevados a cabo.

Dentro de este contexto, es necesario dar una serie de definiciones que se deben tener presentes
en el mbito del uso de la estadstica en ingeniera y ciencias, en general.

Definiciones generales muy bsicas

Precisin: Para una serie de experimentos, se refiere a qu tan cerca se encuentra una medida
experimental de otra.

Exactitud: Est ligada a la aceptacin y uso de un patrn de medida previamente definido. As,
se refiere a qu tan cerca est el valor de una medida experimental de aquel aceptado como real.

Cifras significativas: Es el nmero de cifras en una medida experimental que tiene significado
fsico. El nmero de cifras significativas est ligado directamente al instrumento de medida
empleado. De este modo, si un termmetro tiene una escala de lectura de un decimal, reportar
un valor de 50,09876C es irrealista, falso y en consecuencia sin sentido fsico.

Definiciones estadsticas esenciales

Poblacin: En estadstica, una poblacin se refiere a todas las posibles medidas u observaciones
experimentales que pueden llevarse a cabo en el marco de una investigacin. En este sentido,
para una variable cuantitativa, es frecuente que una poblacin contenga un nmero infinito de
valores. Las poblaciones son sujeto de muestreo de parte del investigador quien busca predecir
sus propiedades a travs del muestreo estadstico.

Muestra: Es una fraccin de una poblacin. En un experimento, corresponde a un conjunto de


datos seleccionados a partir de la poblacin objeto de estudio.

Estadstico: Se refiere a un valor numrico de resume alguna propiedad bsica de una muestra.

Parmetro: Es un valor numrico que resume una propiedad bsica para una poblacin.

15

Ejemplos conceptuales
Este semestre, la poblacin de estudiantes del curso de Anlisis de Variables de Proceso
de la Escuela de Ingeniera Qumica es de 150. El grupo O1 de la materia tiene 37 estudiantes
que son una muestra de la poblacin. Los estudiantes de estos cursos hacen parte de la
poblacin de estudiantes de Ingeniera Qumica y son una muestra de los mismos.
Un ingeniero investiga la influencia de la temperatura en un proceso de produccin de
azcar. Decide hacer experimentos a 80, 95 y 112C. Estos valores se encuentran dentro del
intervalo: 70 130C que se consideran seguros para el proceso. Definir la poblacin y la
muestra. Cul es el tamao de la poblacin? Cuntas muestras se pueden tomar?
Rta/ En este caso, la poblacin son los valores de temperatura en el intervalo 70 130C.
La muestra tomada por el ingeniero corresponde a los valores de 80, 95 y 112C.
Considerando que la temperatura es una variable cuantitativa continua, es posible
tericamente medirla en todo el intervalo planteado. El nmero de valores en este intervalo
es infinito y por tanto la poblacin tiene, en principio, tamao infinito. Desde el punto de
vista experimental, el tamao de esta poblacin depende del nmero de cifras significativas
que da el instrumento de medida empleado. Por ejemplo, si el ingeniero posee un
termmetro para sus experimentos, las cifras significativas estn ligadas a la escala de un
decimal. Por tanto, la poblacin tendr un tamao de: (130 70)10 = 600. Es posible
entonces tomar 600 muestras de esta poblacin sin considerar un proceso de combinatoria
(!).

Herramientas de estadstica descriptiva para DdE

Esta rama de la estadstica se usa para describir las caractersticas bsicas de un conjunto de
datos. En general, las herramientas de estadstica descriptiva sirven para mostrar y resumir datos
de una manera sistemtica y para que se puedan sacar conclusiones sustanciales de los mismos.
Estas herramientas son de dos tipos bsicos: sumariales y grficas. Las sumariales se refieren a
valores numricos que describen los datos a travs de un nico valor numrico. Entre estas
tenemos: el mximo, el mnimo, el rango, la media, la mediana y los cuartiles, la moda, la varianza,
la desviacin estndar y el coeficiente de variacin. A continuacin se presentan sus definiciones:

Mximo y mnimo: Como lo indica su nombre, son los valores mximo (Mx) y mnimo (Mn)
de un conjunto de datos.

Rango de un conjunto de datos: Se define como la diferencia entre los valores mximo y
mnimo del conjunto de datos.

Media: Su definicin se da tanto para una poblacin y como para una muestra. En el caso de
una poblacin, se denomina: media poblacional (m). Desde el punto de vista matemtico, la
media poblacional representa el valor esperado o Esperanza matemtica de una variable
aleatoria Se simboliza usualmente: E(Y), donde E representa la Esperanza matemtica e Y es
una variable aleatoria. El concepto de Esperanza Matemtica es muy importante en estadstica y
de l se derivan importantes teoremas. Lo ms usual en el campo del diseo de experimentos es

16

que se desconozca la media poblacional, razn por la cual cobra muchsima relevancia el
muestreo estadstico y la estadstica inferencial pues a travs de ellos se pueden lanzar y probar
hiptesis sobre m a partir de muestras aleatorizadas y la media muestral de la respectiva
poblacin. La media muestral se define como la suma de todos los valores de los datos de la
muestra (yi) dividida por el nmero total de datos recolectados, n:
n

y
i 1
i
y
n

Mediana: En una serie de datos, es justo aquel que se encuentra en la mitad del rango que los
contiene. En este sentido, los datos se dividen en dos partes iguales. El valor de la mediana es
automtico cuando el nmero de datos de la muestra es impar. Cuando el nmero de datos es
par, se deben encontrar los dos datos que se encuentran en la mitad del rango y se calcula la
mediana como la media de ellos.

Tanto la media como la media como la mediana son parmetros que describen tendencias
centrales. Desde un punto de vista prctico, la media representa un punto de equilibrio entre los
datos de la serie. Este punto de equilibrio no se encuentra necesariamente en la mitad del rango
de los datos. Por lo tanto, puede o no coincidir con la mediana.

Ligado al concepto de la mediana se encuentran los cuartiles. Un cuartil surge de dividir una
serie de datos en cuatro partes iguales. Los cuartiles se designan ordenando los datos de menor
a mayor. As, el lmite del primer cuartil cubre el 25% de los datos incluyendo el mnimo, el
lmite del segundo cuartil cubre el 50% de los datos (numricamente, es la misma mediana),
el tercer cuartil se refiere a los datos entre la mediana y el 75% de los datos y el cuarto cuartil
cubre el 25% de los datos restantes y su lmite es el mximo registrado.

Moda: Es el valor que ms se repite en una serie de datos. Puede darse el caso que una serie de
datos no posea moda cuando ningn valor se repita. Si se tiene ms de una moda, entonces el
conjunto de datos es Multimodal. Sin embargo, la moda general sera igual a un conjunto vaco
porque de todas formas no va a haber un dato que prevalezca sobre otro.

Varianza: Junto con la media, la varianza es un concepto fundamental en estadstica. La varianza


describe qu tan alejado se encuentra un conjunto de datos de su media. Se define tanto para
una poblacin como para una muestra. La varianza poblacional (2) se calcula con la siguiente
expresin:
N

(Y i m)2
2 i 1
. En ella, N es el nmero total de datos de la poblacin. Se emplea Yi (en
N
mayscula) para hacer referencia a la poblacin. Se usar en adelante este tipo de representacin
para distinguir entre poblacin y muestra.

17

Para una muestra de una poblacin, la varianza muestral (s2) se calcula a partir de:
N

(y i y) 2
s2 i 1
.
n 1

En estas ecuaciones, es importante identificar que la varianza consta de un numerador que es


una suma de cuadrados y un denominador (n-1) que se conoce como los grados de libertad.
Estos dos trminos son esenciales al momento de desarrollar los anlisis de varianza que sirven
para analizar los resultados de los diseos de experimentos que se tratarn ms adelante.

Desviacin estndar: Es una medida directa de la dispersin de los datos pues tiene sus mismas
unidades pues es la raz cuadrada de la varianza. As, la desviacin estndar poblacional es:
2 y la muestral es: s s 2

Coeficiente de variacin: Si bien la varianza y la desviacin estndar son los descriptores de la


dispersin de los datos ms empleados, a menudo su interpretacin no es tan directa como se
deseara. Por ello, es aconsejable usar el llamado coeficiente de variacin (%CV) que expresa
la relacin entre la desviacin estndar y la media como el cociente de ambas en porcentaje. De
esta manera, se evidencia de manera ms diciente la dispersin de los datos respecto a la media.
A continuacin, se presenta un ejemplo ilustrativo de los conceptos presentados hasta aqu.

El segundo tipo de herramientas de estadstica descriptiva usada en DdE son las grficas. De
las mltiples representaciones grficas posibles, aquellas que ms se emplean en DdE son:
diagramas de dispersin, diagramas de caja y bigote y los histogramas.

Diagramas de dispersin: Es el grfico convencional representado en ejes cartesianos. As, un


conjunto de valores se designa como la variable a representar en el eje de las abscisas (eje x)
mientras que el otro conjunto de valores se asigna al eje de las ordenadas (eje y). En estadstica,
este tipo de diagramas ayuda a revelar si existe una relacin funcional entre los dos conjuntos de
valores.

Diagramas de caja y bigote: Es un tipo de diagrama donde se representan la mediana, el primer


y el tercer cuartil y cualquier dato atpico de la muestra medida. Estos diagramas son una
representacin estadstica ms robusta de los datos registrados en una muestra. Son ms
aconsejables que los diagramas de dispersin para hacer comparaciones mltiples. Una
informacin adicional que se puede derivar de un diagrama de caja y bigotes es la deteccin de
datos atpicos. Estos son aquellos que se desvan significativamente del conjunto de datos de
la muestra. Partiendo del principio que las mediciones experimentales se hicieron de manera
correcta, los datos atpicos no deben rechazarse de manera tajante en una investigacin pues
pueden advertir de situaciones eventualmente problemticas o cambios de paradigma. Para
determinar si un valor experimental es atpico, se usa el siguiente procedimiento: (1) Calcular el
rango inter-cuartil (RIC): RIC = Lmite del tercer cuartil Lmite del primer cuartil. (2) Comprobar

18

las desigualdades: Valor atpico leve del lmite inferior de los datos < Lmite del primer cuartil
1,5*RIC; Valor atpico leve del lmite superior de los datos > Lmite del tercer cuartil +
1,5*RIC; Valor atpico extremo del lmite inferior de los datos < Lmite del primer cuartil
3,0*RIC; Valor atpico extremo del lmite superior de los datos > Lmite del tercer cuartil
+ 3,0*RIC.

Ejemplo
Resuma mediante el uso de las herramientas de estadstica descriptiva, presentadas en esta
seccin, la siguiente serie de datos que corresponde a los tiempos empleados (en segundos)
en una carrera de 100 m planos disputada por algunos estudiantes del primer semestre de
2016 del curso de Anlisis de Variables de Proceso: 12,65; 12,43; 12,63; 13,19; 13,60; 13,13;
14,60; 16,06; 16,17; 16,32; 16,93; 18,42; 17,65; 17,77; 18,5; 18,23; 19,60; 17,98; 19,34; 18,50;
19,53; 19,93; 20,16; 19,44; 20,14; 23,00.
Rta/ Las herramientas de estadstica descriptiva presentadas hasta ahora son: mximo,
mnimo, rango, media, mediana, cuartiles, moda, varianza, desviacin estndar y coeficiente
de variacin. Antes de hacer los clculos correspondientes es clave leer que en el enunciado
se habla de algunos estudiantes; lo cual indica que vamos a analizar una muestra y no una
poblacin. El tamao de esta muestra es n = 26 datos.
Mximo = 23,00 s; Mnimo = 12,43 s; Rango = Mx. Mn = 23,00 12,43 = 10,57 s;
Media, y = (1/26)(12,65 + 12,43 + 12,63 + 13,19 + 13,60 + + 19,44 + 20,14 + 23,00)
= 17,50 s.
Para la mediana se deben primero ordenar los datos en forma ascendente o descendente. En
forma ascendente, estos quedan as: 12,43; 12,63; 12,65; 13,13; 13,19; 13,60; 14,60; 16,06;
16,17; 16,32; 16,93; 17,65; 17,77; 17,98; 18,23; 18,42; 18,50; 18,50; 19,34; 19,44; 19,53; 19,60;
19,93; 20,14; 20,16 y 23,00. Los datos en la mitad de la serie son: 17,77 s y 17,98 s.
Por tanto, Mediana = (17,77 + 17,98)/2 = 17,88 s. Cuartiles: Primer cuartil lmite =
(13,60 + 14,60)/2 = 14,10 s; Segundo cuartil lmite = Mediana = 17,88 s; Tercer cuartil
lmite = (19,34 + 19,44)/2 = 19,39 s; Cuarto cuartil lmite = Mximo = 23,00 s. Moda
= 18,50 s que se repite dos veces. Varianza muestral, s2 = 1/25[(12,65 - 17,50)2 + (12,43 -
17,50)2 + (12,63 - 17,50)2 + (13,19 - 17,50)2 + (13,60 - 17,50)2 + + (19,44 - 17,50)2 + (20,14
- 17,50)2 + (23,00 - 17,50)2] = 8,25 s2 ; Desviacin estndar, s = s2 = 8,25 = 2,87 s.
Coeficiente de variacin, %CV = (2,87/17,50) 100 = 16,7%.
(ii) Elabore grficos de dispersin y de caja y bigote para representar los datos obtenidos y
comente.

19

Rta/ Para elaborar el diagrama de dispersin, se toman los datos ordenados de manera
ascendente y se grafican en funcin de un contador numrico que representa el orden de llegada
de los estudiantes. El grfico que se obtiene no puede interpretarse en el mismo sentido que un
clsico grfico de una funcin pues en este caso no hay sino una variable: el tiempo obtenido
en la carrera de 100 m. A continuacin, se presenta este grfico:

Grfico de dispersin para la carrera de 100 m disputada por un grupo de estudiantes del curso Anlisis de
Variables de Proceso (primer semestre de 2016).
Se pueden resaltar las siguientes caractersticas: (a) Los estudiantes se distribuyen claramente en
tres grandes grupos en funcin de sus tiempos. Los puntos de la grfica donde se presenta un
quiebre evidente (cambio notable de pendiente) sirven para clasificarlos cualitativamente. De
este modo, La mayora hizo un tiempo entre 16.06 s y 18,50 s. Este intervalo encierra la media
del grupo ( y = 17,50 s). Los mejores estudiantes tienen tiempos entre: 12.43 s y 13,60 s y los
de menor desempeo deportivo obtuvieron tiempos entre 19.34 s y 23,00 s. Considerando las
tendencias de la grfica, se puede pensar que el resultado obtenido por el estudiante que ocup
el ltimo lugar de la carrera sera atpico.
Aunque las observaciones realizadas a partir del grfico de dispersin son vlidas, un grfico de
caja y bigotes provee informacin adicional de mucho inters. La grfica se presenta en la pgina
siguiente.
El ancho de las cajas en este grfico muestra la amplitud de cada cuarta fraccin de los datos.
As, se ve que el primer cuartil es ms ancho que el tercero. Esto indica que hay una mayor
densidad de resultados all. En trminos de los datos que se estn analizados, significa que hubo
ms estudiantes que registraron tiempos en el primer cuartil. Por otro lado, dado que las
anchuras de los cuartiles uno y tres difieren se puede inferir que la mediana y la media de los
datos tienen valores diferentes. Ms precisamente, comparando lo anterior con la anchura de
los cuartiles se puede afirmar (sin clculos adicionales) que la media es menor que la mediana.
Esta afirmacin se demuestra fcilmente pues Mediana = 17,88 s > y = 17,50 s. Por otra
parte, se puede calcular el RIC = 19,39 14,10 = 5,29 s y a partir de l determinar si existen
valores atpicos en la muestra. Valor atpico leve del lmite inferior de los datos < 14,10
1,5*5,29 6,17 s y Valor atpico leve del lmite superior de los datos > 19,39 + 1,5*5,29
27,33 s.

20

Grfico de cajas y bigotes para la carrera de 100 m disputada por un grupo de estudiantes del curso Anlisis de
Variables de Proceso (primer semestre de 2016)
De acuerdo a estos resultados, la muestra no posee datos atpicos pues el mnimo y el mximo
son mayor y menor que los lmites calculados.
Pasos para la construccin de un diagrama de caja y bigotes
(Adaptado de: Statistics for Engineers & Scientists, W. Navidi, 4th Ed., McGraw-Hill,
2015)
1. Calcular la mediana y los cuartiles primero y tercero de la muestra. Sealar lo anterior con lneas
horizontales para luego conectarlas verticalmente.
2. Encontrar el valor ms grande de la muestra que no exceda 1,5*RIC por encima del tercer
cuartil e igualmente hallar el valor ms pequeo que no sea menor a 1,5*RIC por debajo del primer
cuartil. Trazar lneas verticales desde los cuartiles hasta estos valores (bigotes). En la grfica de
arriba, se trazaron los bigotes hasta los valores mximo y mnimo registrados para la muestra ya
que estos estn dentro de los lmites asignados para datos atpicos leves.
3. Los puntos que excedan 1,5*RIC son atpicos y se grafican de manera individual.
4. El procedimiento anterior se repite tantas veces sea necesario cuando se desean comparar series
de datos.
Ejemplo conceptual interactivo sobre diagramas de caja y bigote
Los diagramas de caja y bigote para las series de datos: GrupoA = [7, 7, 7, 7, 7, 7, 7]; GrupoB =[1,
2, 7, 7, 7, 7, 7]; GrupoC = [7, 7, 7, 7, 9, 10,12]; GrupoD = [1, 2,7, 7, 9, 10, 12]; GrupoE = [0, 7,
7, 7, 8, 9,22] se presentan en la siguiente grfica:

21

En la grfica:
(1) Marcar los valores de las medias, varianzas y desviaciones estndar para las series representadas.
Dnde se ubica en cada caso?
(2) Comparar los valores numricos series GrupoA, GrupoB, GrupoC y GrupoD con los
diagramas de caja y bigotes respectivos. Qu se observa respecto a la anchura de las cajas? Qu
se puede concluir respecto a la relacin entre la dispersin de los datos y la anchura de estas cajas?
De manera ms general, qu representa un diagrama de cajas y bigotes?
(3) Para la serie E: Cules son los valores marcados como atpicos?, son extremos o leves? Cul
son los valores lmite de los bigotes?, de qu manera se construy el diagrama en este caso?

22

Diagramas de frecuencia o histogramas: otro tipo de grfico importante en estadstica


descriptiva es el histograma o diagrama de frecuencia cuyo principio es simple: registrar el
nmero de veces que se repite un dato o conjunto de datos en una muestra. Un histograma da
entonces una imagen de la forma en que los datos se distribuyen dentro de la muestra. As, un
histograma ensea dnde los datos estn ms concentrados o dispersos. Muy interesante resulta
el hecho que los histogramas son el puente entre la Estadstica Descriptiva y la Estadstica
Inferencial; tema que se tratar en el siguiente captulo.

Cmo se construye un histograma? Por su naturaleza, la elaboracin de un histograma es un


ejercicio de clasificacin de datos. As, los datos se asignan sistemticamente a las categoras
definidas por quien hace la clasificacin; es decir, usted. Las categoras son siempre de naturaleza
cualitativa, aunque pueden corresponder a intervalos numricos. Los pasos para construir un
histograma se pueden resumir as:

1. Definir los intervalos de clase a emplear. En el caso de intervalos numricos, se define un


intervalo de datos de acuerdo a un criterio que se crea conveniente incluyendo los puntos inicial
y final de los intervalos de clase. Por costumbre, los intervalos de clase numricos tienen ancho
constante.

2. Determinar el nmero de datos que pertenecen a las categoras definidas; a esto se le llama
frecuencia.

3. Calcular el cociente de las frecuencias al nmero total de datos de la muestra (n); a esto se le
llama frecuencia relativa. Aqu, se debe notar que la suma de las frecuencias relativas es igual a
1. Si el ancho de las categoras es el mismo, este paso es opcional.

4. Para categoras numricas, calcular las densidades relativas de las categoras de datos. La
densidad relativa = frecuencia relativa/ancho de la categora. Este paso tambin es
opcional cuando se define un ancho de categora constante.

5. Los clculos anteriores se presentan en una tabla y se grafican en forma de barras cuya base
es el ancho del intervalo y cuya altura es la frecuencia, frecuencia relativa o densidad relativa,
segn convenga.

23


Ejemplo: anlisis de datos a travs de un histograma
Ms del 80% de los procesos qumicos industriales implican el uso de un catalizador. Los llamados
catalizadores heterogneos son normalmente slidos que actan sobre reactivos en fase lquida o
gas. Existen dos tipos principales de catalizadores heterogneos; los msicos y los soportados. Un
tipo comn de catalizador soportado consiste en nanopartculas metlicas dispersas en un xido
inorgnico. Usualmente, el porcentaje en peso de las nanopartculas metlicas del material no
supera el 5%. Los metales ms empleados son: platino, paladio, nquel, cobalto, hierro, molibdeno,
entre otros. Mientras que, entre los xidos, los ms frecuentes son: almina (Al2O3), titania (TiO2),
slice (TiO2), etc. En el trabajo titulado: Synergetic behavior of TiO2-supported Pd(z)Pt(1-z)
catalysts in the green synthesis of methyl formate (ChemCatChem 8 (2016) 1157-1166), los
autores analizaron el comportamiento de catalizadores soportados Pd-Pt en la reaccin de
oxidacin parcial de metanol a metil-formato. Este ltimo es una importante molcula plataforma
para la produccin de compuestos de alto valor agregado (Ver detalles aqu).

Graphical Abstract: V.G. Baldovino-Medrano et al., Synergetic behavior of TiO2-supported Pd(z)Pt(1-


z) catalysts in the green synthesis of methyl formate, ChemCatChem 8 (2016) 1157-1166
Los autores encontraron que la eficacia de estos catalizadores en la reaccin (expresada en
trminos de la conversin de metanol y de la selectividad a metil-formato; la reaccin produce
tambin indeseables como CO y CO2) est ligada a la distribucin de tamao de partcula de los
metales en la superficie del catalizador. A continuacin, se presentan los datos de tamao de
partcula (nm) correspondientes a uno de los catalizadores preparados en el trabajo aqu citado:
7,5; 2,6; 2,2; 2,5; 2,0; 1,8; 3,1; 1,6; 9,2; 9,0; 9,8; 10,4; 10,5; 5,5; 6,6; 11,2; 11,7; 7,7; 3,5; 3,0; 2,7; 2,7;
9,8; 16,5; 13,4; 4,0; 11,0; 7,0; 14,6; 16,3; 19,1; 7,9; 6,6; 6,0; 5,2; 5,2; 3,7; 3,2; 3,4; 3,9; 3,6; 3,6; 20,2;
14,5; 7,2; 5,2; 11,1; 8,2; 7,9; 6,6; 5,7; 9,3; 13,6; 5,7; 6,6; 9,1; 5,5; 4,0; 15,9; 7,9; 6,8; 7,9; 9,5; 9,2; 6,2;
8,1; 5,2; 2,3; 2,9; 2,6; 3,4; 3,0; 6,2; 3,4; 2,9; 2,4; 2,8; 4,0; 5,9; 13,9; 10,5; 7,2 ;12,9; 9,1; 7,2; 5,5; 3,3;
8,3; 7,7; 6,2; 3,8; 1,6; 1,7; 1,4; 15,8; 13,6; 8,7; 4,6; 6,8; 10,7; 6,2; 6,6; 5,5; 2,4; 2,0; 5,1; 5,2; 7,3; 7,2;
12,1; 5,8; 7,8; 4,6; 4,3; 5,9; 12,5; 6,7; 8,9; 7,4; 9,2; 10,3; 10,9; 6,0; 8,8; 4,6; 6,8; 2,2; 2,1; 3,0; 6,5; 2,7;
3,9; 4,5; 3,7; 2,9; 13,3; 9,5; 9,1; 4,8; 10,5; 4,1; 1,5; 10,5; 8,8; 10,0; 9,1; 4,5; 3,8; 5,3; 5,4; 7,2; 8,0; 7,4;
12,5; 18,2; 10,6; 9,2; 14,7; 5,7; 5,3; 8,7; 5,6; 5,8; 5,1; 10,7; 11,4; 5,9; 15,3; 9,7; 10,0; 3,4; 3,8; 5,5; 5,5;
7,7; 7,7; 6,3; 5,7; 6,5; 4,9; 4,6; 6,5; 5,3; 4,3; 5,3; 7,8; 8,2; 5,2; 5,4; 5,5; 11,5; 17,1; 10,0; 5,2; 8,2; 7,2;
6,1; 11,0; 15,4; 10,1; 14,3; 15,4.
Construir histogramas para los datos presentados y discutir el efecto de la seleccin del ancho de
los intervalos de clase de los mismos.
24

Rta/Los pasos para construir un histograma son:


(I) Definir el ancho de los intervalos de clase. Dado que el ejercicio pide que se investigue el
efecto de este parmetro, se mostrarn cuatro posibilidades entre las que existen (ver: Wikipedia)
y se proceder a comparar los resultados que se obtengan.
En todos los casos, lo primero que se debe hacer es una caracterizacin estadstica bsica de la
muestra tomada. As, se calcula: tamao de la muestra n = 202. Mx. = 20,2 nm; Mn. = 1,4 nm;
Rango = 20,2 1,4 = 18,8 nm. A continuacin, se hallan los anchos de los intervalos de clase de
acuerdo a cuatro criterios diferentes:
1. El primer criterio que se usar para definir el ancho de los intervalos de clase (en ingls: Bins)
consiste en escoger a priori un nmero de terminado de Bins. Si, en el ejemplo actual se escogen
Mx Mn
k = 7 bins, el ancho respectivo de estos ser: h , h = [20,2 1,4]/7 = 2,7 nm.
k
2. Usando la regla de la raz cuadrada: El nmero de bins es k = n = 202 14,2. Para efectos
de la elaboracin del histograma, k debe ser un nmero entero. Por tanto, se acostumbra
aproximar el valor que resulte del clculo propuesto al entero mayor. En este caso, k = 15. Usando
este valor, h = [20,2 1,4]/15 1,3 nm.
3. Si los datos se distribuyen de manera normal (ver Captulo 3), se puede usar la frmula de
Sturges: k = 1 log 2 n = 1 + log2(202) = 1 + 7,7 8,7. De aqu, se escoge k = 9. Con lo cual, h
= [20,2 1,4]/9 2,1 nm.
2 RIC
4. Usando la frmula de Freedman y Diaconis se calcula primero el ancho de los bins, h 3
n
. Aqu, es necesario calcular el rango intercuartil de los datos; el lector puede comprobar que RIC
2 2,8 Mx Mn
4,8 nm. De esta manera, h 3 1,6 nm. Por tanto, k 12.
202 h
(II) Con los valores de k y h calculados en (I), se elaboran las tablas de frecuencia respectivas.
As:
1.

25

2.

3.

4.

26

(III). Con las tablas de frecuencia, se elaboran grficos de barras que resultan en:
1.

2.

27

3.

4.


28

Ejercicios

1. El trgico caso del Challenger (Adaptado de: D.C. Montgomery & G.C. Runger, Applied
Statistics & Probability for Engineers, 3ra Ed., Jhon Wiley & Sons, p. 195).

En 1986, el mundo mir consternado la explosin del transbordador espacial Challenger


momentos despus de su despegue en la base de Cabo Caaveral. El gobierno norteamericano
orden una investigacin que estuvo liderada por el Premio Nobel de Fsica: Richard Feynman.
En el curso de su investigacin, Feynman y su equipo prestaron especial atencin a las pruebas
de resiliencia de los O-rings empleados para sellar una seccin de los cohetes propulsores del
transbordador espacial. Los siguientes datos corresponden a la temperatura (F) de las junturas
de estos O-rings alcanzadas durante cada prueba de encendido o lanzamiento del cohete del
transbordador espacial (datos tomados de: Presidential Commission on the Space Shuttle
Challenger Accident, Vol. 1, pp. 129131): 84, 49, 61, 40, 83, 67, 45, 66, 70, 69, 80, 58, 68, 60,
67, 72, 73, 70, 57, 63, 70, 78, 52, 67, 53, 67, 75, 61, 70, 81, 76, 79, 75, 76, 58, 31. Elabore un
informe de estadstica descriptiva sobre los datos presentados. Qu puede destacar de especial?,
tiene evidencia que estos datos podran estar relacionados con el accidente?

Tomados de: Presidential Commission on the Space Shuttle Challenger Accident

2. La produccin mundial de propileno (propeno: C3H6) se estima en 80 MTon


(http://www.essentialchemicalindustry.org/chemicals/propene.html). El propileno hace parte
de las llamadas molculas plataforma; aquellas que sirven como intermediario en la sntesis de
productos de alto valor agregado, y es esencial para la produccin de numerosos plsticos y

29

resinas. El propileno se puede producir a partir de dos procesos catalticos principales: la


deshidrogenacin directa de propano y la deshidrogenacin oxidativa del propano (DHP). El
segundo proceso tiene la ventaja de consumir menor energa y de tener un menor costo gracias
a un ms largo tiempo de vida del catalizador. Sin embargo, en la reaccin de DHP se presenta
una fuerte competencia entre reacciones que producen monxido y dixido de carbono (COx) y
la de produccin de propileno. Por ello, se requiere disear nuevos materiales catalticos con
mejor selectividad hacia propileno. Un estudio publicado en ACS Catalysis compara el
desempeo de dos tipos de materiales catalticos en la reaccin de DHP efectuada a dos
temperaturas (723 K y 748 K) y presin atmosfrica. A continuacin se presentan los resultados
de este estudio en trminos de: (1) el catalizador empleado, (2) La conversin de propano (%C
C3H8); (3) La actividad especfica de propano (aC3H8); (3) La conversin de oxgeno (%CO2); (4) La
actividad especfica de oxgeno (aO2); (5) la relacin aC3H8/aO2; (6) los rendimientos intrnsecos a
propileno (yiC H ) y a productos de combustin (yiCO ); y, (7) la selectividad hacia propileno (SC H ):
3 8 x 3 8

Tomado de: V.G. Baldovino-Medrano et al., Establishing the Role of Graphite as a Shaping Agent of VanadiumAluminum
Mixed (Hydr)oxides and Their Physicochemical Properties and Catalytic Functionalities, ACS Catal. 2 (2012) 322336.

Describa estadsticamente los datos anteriores. Presente un anlisis de los mismos.

3. Uno de los principales retos de las refineras actuales es el manejo y transformacin de crudos
pesados. Los crudos pesados tienen problemas para su transporte, producen depsitos
indeseables en las tuberas y equipos de las refineras, causan prdidas econmicas por
desactivacin rpida de los catalizadores empleados en diferentes procesos de refinacin, entre
otras. Una caracterstica de los crudos pesados es su alto contenido en metales como el vanadio.
A continuacin, se presentan histricos del contenido de vanadio en crudos pesados procesados
en cierta refinera:

30

Fecha Vanadio,ppm
nov-02 5,2 feb-05 3,65 ene-08 5,432 oct-10 11,9
dic-02 8 mar-05 6,93 feb-08 5,073 jun-12 6,704
mar-03 8,3 abr-05 5,87 jul-08 8,564 ago-12 5,85
abr-03 6,6 may-05 4,19 sep-08 7,09 abr-13 13,4
jul-03 6,04 jul-05 9,55 oct-08 10,47 jul-13 4,065
ago-03 5,1 sep-05 7,01 ene-09 6,845 ago-13 7,843
sep-03 8,282 nov-05 3,7 mar-09 9,153 oct-13 5,149
feb-04 4,94 feb-06 3,282 may-09 6,488 feb-14 4,689
mar-04 8,54 mar-06 3,266 jul-09 6,264 may-14 4,689
may-04 1,85 jun-06 5,153 sep-09 5,54 oct-14 3,115
sep-04 5,45 mar-07 7,26 nov-09 5,777 dic-14 2,115
oct-04 3,96 ago-07 8,675 mar-10 8,569 jun-15 4,478
nov-04 7,59 sep-07 4,276 sep-10 10,24 may-13 5,357

Describa estadsticamente y analice los datos presentados. Qu observa?

4. Uno de los procesos que ha contribuido a aminorar el impacto negativo de la quema de


combustibles fsiles al ambiente es la hidrodesulfurizacin (HDS) que hace parte de las
reacciones que ocurren en la unidad de hidrotratamiento (HDT) de una refinera. La HDS
consiste en la eliminacin del azufre presente en diversos cortes de combustible por
hidrogenacin de las molculas que contienen este heterotomo. La reaccin se realiza en
presencia de un catalizador; normalmente, ste consiste en nanopartculas sulfuradas de cobalto
(o nquel) molibdeno dispersas en una matriz de un xido inorgnico como la almina (Al2O3).
A continuacin se ilustra un diagrama del proceso:

31

El CICAT UIS ha trabajado diversos proyectos en esta temtica (ver: Appl Catal A: Gen 197
(2000) 6168; Appl Catal A: Gen 302 (2006) 118126; Fuel 89 (2010) 10121018; J Catal 267
(2009) 129139). Recientemente, un joven investigador del grupo de investigacin; trabajando
en esta temtica, obtuvo resultados catalticos que a su juicio eran extraos. En particular, el
investigador plante la hiptesis que se estaba perdiendo una cantidad significativa de catalizador
en la corriente de salida del reactor. Para demostrar su hiptesis, el investigador registr el peso
de catalizador utilizado para reaccin y el peso de catalizador despus de la reaccin. Los datos
correspondientes son: (i) peso de catalizador inicial (g): 3.0673; 3.0728; 3.0409; 3.0262; 3.0349;
3.0835; 3.0820; 3.0442; 3.0977; 3.0350; 3.0845; 3.0722; 3.0558; 3.0815; 3.0402; 3.1673; 3.0077;
3.2350; 2.9350; 3.0834; 2.6080; 3.1785; 3.0409; 3.1958; 3.1223; 3.1409. (ii) peso de catalizador
final (g): 2.2635; 2.3258; 2.6798; 2.4796; 2.6420; 2.5510; 2.7931; 2.3725; 2.3638; 2.6535; 2.7988;
2.8580; 2.3916; 2.8502; 2.2350; 2.5510; 2.3725; 2.6385; 2.1510; 2.6754; 2.0006; 2.4796; 2.8580;
2.5478; 2.0988; 2.3638.
El anlisis de los datos obtenidos consiste entonces en estudiar la prdida de peso obtenida
durante los experimentos. Normalmente, debido a limitaciones experimentales, no se puede
recuperar un promedio de 20% del catalizador inicial.
Teniendo en cuenta la informacin anterior, elabore un informe que permita validar o rechazar
la hiptesis del estudiante. Emplee en su informe las herramientas de estadstica descriptiva
tratadas en clase. Organice su informe de la manera siguiente: (1) Introduccin; (2) metodologa
de anlisis; (3) resultados y anlisis; (4) conclusiones; (5) referencias.

32

CAPTULO III
HERRAMIENTAS DE ESTADSTICA INFERENCIAL PARA
DISEO DE EXPERIMENTOS
De histogramas a predicciones
La interpretacin de histogramas como distribuciones de densidad permite tender un puente
entre los anlisis de datos de una muestra y un modelo de poblacin. Estos modelos se
denominan distribuciones de probabilidad y son la herramienta requerida para adelantar estudios
de estadstica inferencial.
De qu se trata la estadstica inferencial?
La estadstica inferencial investiga las propiedades de las poblaciones mediante el anlisis de
datos muestrales. Para ello, se desarrollan modelos predictivos probabilsticos. Estos modelos
estn sujetos a supuestos que siempre deben comprobarse para garantizar que los anlisis
presentados sean confiables; dentro de los lmites de probabilidad empleados. A pesar de lo
amplio e interesante del tema, nos limitaremos aqu a discutir modelos de estadstica inferencial
para variables aleatorias continuas ya que estos son los que se aplican directamente en diseo de
experimentos.
Qu es una variable aleatoria continua?
Es aquella cuyo valor puede ser cualquiera i.e. hay infinitas posibilidades de escogencia dentro
de un intervalo con la condicin que este haya sido seleccionado al azar. En la vida del
experimentador, las posibilidades se restringen a la capacidad de medida que posean los
instrumentos de medida empleados. Por ejemplo, en un laboratorio que emplee termmetros
convencionales no se puede medir una temperatura de 83,697895C (!).
Una variable aleatoria continua puede representarse en estadstica mediante una funcin de
densidad de probabilidad continua.
Qu es una funcin de densidad de probabilidad continua?
Es aquella que describe los valores que una variable continua puede tomar en todo su dominio.
En consecuencia, estas funciones describen poblaciones. Las funciones de densidad de
probabilidad continua, representadas aqu por f(x), tienen las siguientes propiedades:
1. f(x) 0. Dicho en palabras, la funcin no posee valores negativos.

33


2. f ( x )dx 1 . En otras palabras, la funcin no predice valores de probabilidad mayores

al 100%.
b
3. P ( a X b) f ( x )dx . Aqu, quiere decir: la probabilidad (P) de que la variable
a

aleatoria continua (X) adquiera un valor entre a y b { P(a X b) } es igual al rea bajo
la curva de la funcin de densidad de probabilidad comprendida entre a y b1.
La integral de una funcin de densidad de probabilidad corresponde a la funcin de distribucin.
En muchas ocasiones es de inters conocer la denominada funcin de distribucin acumulada.
Qu es una funcin de distribucin acumulada -F(X)-?
Es aquella que da el valor de probabilidad que alcanza la variable aleatoria continua desde -
hasta un lmite especfico (x). As, la siguiente definicin matemtica se aplica:
b
F ( X ) P( X x ) f (u)du . En la expresin, u se usa simplemente para diferenciar la

variable aleatoria del valor indeterminado x.


Ejercicios sobre distribuciones de probabilidad continua
Seleccionados y adaptados de: Montgomery & Runger, Applied Statistics and Probability for Engineers,
6th Ed., Wiley; Ross, Introduction to probability and statistics for engineers and scientists, Elsevier Academic
Press, 2009; W. Navidi, Statistics for Engineers & Scientists, 4th Ed. McGraw Hill, 2015

1. Demuestre si las funciones siguientes son funciones de distribucin de probabilidad:


a) f ( x ) e ( x 4 ) , x 4

b) f ( x ) 5.56 10 4 5.56 106 x 100 x 500; 4.44 10 3 4.44 10 6 x 500 < x


1000; y 0 para todos los otros valores.
2. Una distribucin usualmente empleada para modelar los valores ms grandes de una muestra
es la llamada distribucin del valor extremo; que tiene la siguiente funcin de probabilidad acumulada:
x
F ( x ) e e . Sea X una variable aleatoria con esta distribucin, determine:
(i) P(X 0); (ii) P(X > ln 2).

1
Recordar que una integral definida es una Suma de Riemman.

34

3. Una distribucin usada para modelar los niveles de tolerancia de sustancias txicas en
bioensayos es la distribucin logstica que est parametrizada respecto a y . La funcin de
( x ) 1

probabilidad acumulada de la distribucin logstica es: F ( x ) 1 e

El parmetro puede ser cualquier nmero real y puede ser cualquier nmero positivo. Sea
X una variable aleatoria con esta distribucin:
(a) Hallar la funcin de densidad de probabilidad fX(x).
(b) Demuestre que fX(- x) = fX(+ x); es decir, fX(x) es simtrica respecto a para todo
x.
4. Considerando que la media (mX) y la varianza (X2) de una variable aleatoria continua X se

2 2
definen como: m X xf ( x )dx y
X x f ( x ) dx m X2 , respectivamente. Determine la

media y la varianza de las variables aleatorias presentadas en los puntos anteriores.



5. La mediana de X es un punto tal que: F ( X ) P ( X xm ) f ( x )dx 0.5 . Usando esta

definicin, calcule la mediana de las variables aleatorias presentadas en los puntos 1 y 2.


6. Considerando la definicin dada en 5, calcule los cuartiles primero y tercero de las variables
aleatorias de los puntos 1 y 2.

35

La Distribucin Normal de Probabilidad


Existen muchas funciones de densidad de probabilidad. De entre ellas, es central la denominada
Distribucin Normal.
Qu es una Distribucin Normal?
Una distribucin normal de probabilidad es aquella que se comporta de acuerdo a la funcin de
( x m )2
1 2 2
densidad de probabilidad: f ( x ) e
2
2
Aqu, y 2 son la media y varianza poblacionales. El dominio de la funcin es [-, ].
( x m )2
1 2 2
En consecuencia, la Distribucin Normal de Probabilidad es: e dx
2 2
La integral arriba mencionada no puede resolverse analticamente, por tanto, su uso prctico
implica la utilizacin de mtodos numricos de integracin.
Es importante destacar que la forma de la Distribucin Normal est sujeta a dos parmetros
estadsticos fundamentales: la media () y la varianza (2). Por tanto, es comn representar a la
Distribucin Normal como N(,2).
La grfica de la funcin de densidad de probabilidad normal y de la correspondiente densidad
de probabilidad acumulada ((N(,2))) es:


En la grfica se evidencia que el centro de la distribucin corresponde a la media y que la curva
es simtrica respecto a este parmetro.

36

Qu propiedades interesantes tiene la Distribucin Normal?


En particular, es posible demostrar para cualquier N(,2) que:
P( m X m ) 0,6827
P( m 2 X m 2 ) 0,9545
P( m 3 X m 3 ) 0,9973
Lo anterior implica que sin importar los valores que tomen la media y la desviacin estndar, las
probabilidades entre valores enteros de la desviacin estndar son siempre iguales. De forma
grfica:

P ( m X m ) 0,6827

P ( m 2 X m 2 ) 0 ,9545

P ( m 3 X m 3 ) 0 , 9973
- 3 - 2 - x= + + 2 + 3 x

De la misma manera, se evidencia que: P( X m ) P( X m ) 0,5


Gracias a las propiedades arriba mencionadas, es posible emplear una Distribucin Normal
Estandarizada para inferir probabilidades de N(,2).
Qu es una Distribucin Normal Estandarizada?
Es aquella cuyas media y desviacin estndar son cero y uno. En consecuencia, se representa
como N(0,1). Para esta distribucin es conveniente definir la variable aleatoria normal
estandarizada Z. Es posible relacionar Z con X (una variable aleatoria cualquiera) mediante la
X m
relacin: Z .

Para qu sirve una Distribucin Normal Estandarizada?
Dadas las propiedades de N(,2), se puede demostrar que P( X x ) P( Z z ) ( Z ) . La
relacin anterior se cumple para toda distribucin normal. Es muy afortunado que en estadstica
se pueda demostrar (aunque la demostracin no sea nada sencilla) que a medida que se repite

37

una medida, las medias de cada medida tienden a distribuirse de manera normal. Aunque una
discusin rigurosa de este teorema escapa del presente manual, debe decirse que el mismo
constituye el cimiento de la estadstica inferencial. Desde el punto de vista prctico, la
consecuencia ms importante del teorema del lmite central es que a partir de un muestreo
aleatorio se puede describir una poblacin usando las herramientas desarrolladas a partir de la
distribucin normal de probabilidad. Sin embargo, en situaciones reales, es siempre importante
verificar si un conjunto de datos se comporta de acuerdo a una distribucin normal.
Ejercicios de aplicacin de N(0,1)
Cules de las siguientes distribuciones podran representarse por una distribucin normal?
(a) La distribucin de medidas entre el pulgar y el meique?
(b) Los salarios anuales de los empleados de Coca-Cola?
Los ejercicios a continuacin son para una distribucin normal.
1. Determine las siguientes probabilidades para una distribucin normal estandarizada:
P(Z < 1,32)
P(Z > -2,15)
P(Z < 3.0)
P(-2,34 < Z < 1,76)
P(-1 < Z < 1)
P(0 < Z < 1)
P(Z > 1,87)
P(Z > -1,09)
P(Z > 1,32)
P(Z < -2,15)
P(-2,34 < Z < 1,45)
2. Determine el valor z de la variable estndar normalizada en los siguientes casos:
P(Z < z) = 1,09
P(Z < z) = 0,5
P(Z > z) = 0,1
P(Z > z) = -1,09
P(-1,24 < Z < z) = 0,8
P(-z < Z < z) = 0,95
P(-z < Z < z) = 0,68
P(-z < Z < z) = 0,95
P(-z < Z < z) = 0,9973

38

3. Suponga que X se distribuye de manera normal con una media de 10 y una desviacin estndar
de 2. Determine lo siguiente:

P(X < 13)


P(X > 9)
P(6 < X < 14)
P(2 < X < 4)
P(-2 < X < 8)
Valor de x que cumple las relaciones:
P(X > x) = 0,5
P(X > x) = 0,95
P(x < X < 10) = 0,2
P(-x < X-10 < x) = 0,95
P(-x < X-10 < x) = 0,99

4. Considerando una distribucin normal, resuelva los siguientes ejercicios:


(i) La resistencia a la tensin del papel se modela mediante una distribucin normal con una
media de 16 kg/cm2 y una desviacin estndar de 1,6 kg/cm2: cul es la probabilidad de que la
resistencia a la tensin de una muestra sea menor que 23 kg/cm2? Si las especificaciones
requieren que la resistencia a la tensin exceda 14,5 kg/cm2, qu proporcin de las muestras se
desecha?
(ii) La vida de un lser de semiconductores con una alimentacin de energa constante tiene una
distribucin normal con una media de 7000 h con una desviacin estndar de 600 h. Cul es la
probabilidad de que un lser falle antes de 5000 h?, cul es la vida en horas que exceden el
93,8% de los lseres?, si se usan tres lseres en un producto y se supone que fallan, de manera
independiente, cul es la probabilidad de que los tres sigan funcionando despus de 7000 h?
(iii) Un banco le presta a sus clientes en funcin de su historial de deudas. La deuda promedio
de todos sus clientes es de $ 4.375.820 y la desviacin estndar es de $ 383.265. Cul es la
probabilidad de un cliente de recibir un prstamo si su deuda actual es de $ 1.208.650?
(iv) Una mquina automtica empleada en el llenado de gaseosas funciona de tal manera que el
volumen de llenado se distribuye de manera normal alrededor de una media de 342 mL con una
desviacin estndar de 2,8 mL. (15%) Cul es la probabilidad de que el volumen de llenado sea
menor a 336 mL?; (15%) Si todas las botellas con llenado menor a 338 mL o mayor a 345 mL
se rechazan durante el proceso, cul porcentaje de las botellas se rechazara?

39

Prueba de normalidad

Una condicin necesaria para validar las inferencias estadsticas que se hagan sobre una
poblacin determinada es que los datos de las muestras aleatorias tomadas de dicha poblacin
se comporten de acuerdo a una distribucin normal. A esta condicin se le denomina: supuesto
de normalidad.

Cmo se comprueba el supuesto de normalidad?

Para comprobar si un conjunto de datos se puede describir a partir de una distribucin normal,
se hacen los siguientes pasos:

1. Se ordenan los datos de menor a mayor.

2. A los datos ordenados se les asigna un contador (j).

( j 0,5)
3. Se determina la probabilidad de cada dato de acuerdo a la expresin: . Aqu, n es el
n
nmero total de datos.

4. Calcular los valores de la distribucin normal estandarizada (zj) correspondientes a las


probabilidades determinadas en (3). Este clculo est basado en la relacin:
( j 0,5)
P ( Z z j ) ( z j ) que expresa, literalmente, el supuesto que se desea comprobar,
n
i.e. los datos pueden obedecen una distribucin normal de probabilidad.

5. Elaborar un grfico de zj en funcin de xj. Si el supuesto de normalidad se cumple, la grfica


resultante debe producir una lnea recta.

40

Ejemplo de comprobacin del supuesto de normalidad


Un joven investigador del CICAT-UIS obtuvo tres resultados, a su juicio extraos, en sus
ensayos catalticos. Sorprendido, empez a cuestionar la fiabilidad de los experimentos
realizados. Como primera medida de la confiabilidad de sus datos, decidi consultar sus notas
de laboratorio y analizar si las observaciones realizadas podan describirse a travs de una
distribucin normal de probabilidad. En particular, decidi comprobar el supuesto de
normalidad para sus medidas del peso de catalizador (wcat [=] g) empleado en las reacciones.
Los datos consignados en su cuaderno de laboratorio se resumen en la tabla siguiente:

wca t[=]g
3,0673 3,0835 3,0845
3,0728 3,0820 3,0722
3,0409 3,0442 3,0558
3,0262 3,0977 3,0815
3,0349 3,0350
Para comprobar si se cumple el supuesto de normalidad, se elabora la tabla siguiente:
n 14
j xj (j-0,5)/n zj
1 3,026 0,03571 -1,8027
2 3,035 0,10714 -1,2419
3 3,035 0,17857 -0,9208
4 3,041 0,25000 -0,6745
5 3,044 0,32143 -0,4637
6 3,056 0,39286 -0,2719
7 3,067 0,46429 -0,0896
8 3,072 0,53571 0,0896
9 3,073 0,60714 0,2719
10 3,082 0,67857 0,4637
11 3,082 0,75000 0,6745
12 3,084 0,82143 0,9208
13 3,085 0,89286 1,2419
14 3,098 0,96429 1,8027

De esta tabla, se obtiene el grfico siguiente:

41

Ejemplo de comprobacin del supuesto de normalidad

Grfica de comprobacin del supuesto de normalidad


2,00

1,50
R = 0,9346

1,00

0,50

0,00
zj

3,00 3,02 3,04 3,06 3,08 3,10


xj
-0,50

-1,00

-1,50

-2,00

Aunque se esperara que la correlacin entre los datos analizados y la variable normal
estandarizada (zj) fuera R2 = 1, esto es muy difcil, pues para alcanzar tales niveles de
correlacin se requiere una cantidad importante de datos experimentales. Normalmente,
muestras aleatorias de tamao menor a treinta se consideran pequeas y exhiben
comportamientos como el aqu ilustrado. As las cosas, desde el punto de vista prctico, uno
considera la prueba satisfactoria pues la correlacin R2 es mayor de 0,9. Adems, se puede
notar que no hay desviaciones particularmente grandes de la tendencia central lo cual refuerza
la conclusin obtenida. Cuando los datos no se comportan de acuerdo a una distribucin
normal se debe emplear otra distribucin probabilstica que s se adece a los mismos. Para
los alcances del presente curso, se limitarn los anlisis a datos que se comporten de acuerdo
a la distribucin normal. Se deja al lector la potestad de consultar otros textos que revisan
este interesante tema.

Algunos conceptos a no olvidar


Muestreo aleatorio
La aleatoriedad del muestreo en diseo de experimentos es condicin obligatoria para poder
someter los datos recolectados a las tcnicas estadsticas de anlisis. Por limitaciones propias de

42

la experimentacin, es casi siempre imposible realizar todas las mediciones posibles en una
poblacin.2
Estadstico
Se define como cualquier funcin de las observaciones de una muestra que no contiene
parmetros desconocidos. Los parmetros ms importantes en estadstica con la media y la
varianza.
Estimadores puntuales
Casi nunca se pueden conocer la media y varianza de una poblacin. En consecuencia, en
estadstica se recurre a los denominados estimadores puntuales construidos a partir de las
mediciones que se hagan en las muestras aleatorias tomadas. Como es natural, los estimadores
de m y 2se derivan de la media y varianza muestrales.
Vale la pena recordar que:
Sea una muestra con valores experimentales: y1, y2, , yn, la media muestral se define como:
n

y
i 1
i
y .
n
Mientras que la varianza muestral se define como:
n

(y i y)2
s2 i 1
. En esta ecuacin, es importante resaltar que n-1 son los grados de libertad
n 1
n
y que el numerador ( y i y)2 es una suma de cuadrados. Los grados de libertad representan
i 1

el nmero de elementos independientes en la suma de cuadrados.

Una expansin posterior de estos conceptos nos llevar al denominado anlisis de varianza
(ANOVA).

Distribuciones construidas a partir de la Distribucin Normal

2
ParaunapoblacincontamaoN,elnmeroposibledemuestrascontamaonconigualprobabilidades
N!

( N n)!n!
43

A partir de la Distribucin Normal Estandarizada ha sido posible desarrollar otras distribuciones


de probabilidad de gran utilidad estadstica. Aquellas que son cruciales para el diseo de
experimentos se presentan a continuacin.
Distribucin 2

La distribucin 2 (lase ji-cuadrado) se define a partir de la definicin de una nueva variable

aleatoria 2 que corresponde a la suma de los cuadrados de un conjunto de variables aleatorias


k
2 2
normales independientes estandarizadas, as: zk
i 1

Esta variable sigue una distribucin 2 con k grados de libertad. La funcin de densidad de
2 1 k ( 2 )
1
probabilidad correspondiente es: f ( )
2
2 e 2
, 2 > 0
k k
2 2
2
Tal como sucede con la distribucin de probabilidad normal, la distribucin 2 es compleja
analticamente y los clculos de probabilidades que de ella se derivan se hacen por medio de
mtodos numricos. El resultado ms relevante que se obtiene a partir de la distribucin 2
concierne la distribucin de probabilidad que sigue la varianza puesto que el cociente
n

( y i y)2
SS i 1
sigue una distribucin 2 con n-1 grados de libertad, i.e. n21 . Este resultado
2 2
es sumamente importante pues sirve para hacer un puente matemtico que permite estimar la
varianza poblacional con la varianza muestral. Las inferencias logradas se aprovechan para
revelar relaciones entre variables aleatorias que se comportan de acuerdo a una distribucin
normal dada.
Distribucin t de Student
Una de las primeras distribuciones que se derivan de la distribucin 2 es la denominada
distribucin t de Student. La distribucin se define para dos variables independientes; una
normal estandarizada z y otra k2 (donde, k seala los grados de libertad de la segunda) las

z
cuales definen la nueva variable aleatoria tk . La variable tk sigue entonces una
k2
k

44

distribucin de probabilidad t de Student con k grados de libertad, la cual se comporta de


acuerdo a la funcin de densidad de probabilidad:

k 1
2 1
f (t ) k 1 2
, - < t < .

2

k t2
k
k
1

La media y varianza poblacionales de la distribucin t son my 2k/(k-2), k > 2,


respectivamente.
La relacin entre la distribucin t de Student y una muestra aleatoria: y1, y2, , yn con
ym
distribucin de probabilidad N(m,2) se establece a travs de la transformada: t que
s2
n
se distribuye de acuerdo a la distribucin t de Student con n-1 grados de libertad.
Distribucin F de Fisher
La distribucin F de Fisher relaciona dos variables aleatorias independientes del tipo 2 con u
u2
y v grados de libertad: u2 y v2 . A partir de estas variables, se define la variable F u .
2
v
v
Dada la conexin entre una distribucin k2 y la varianza, la nueva variable F ser una
herramienta esencial para comparar varianzas en el diseo de experimentos (prueba ANOVA).
La funcin de densidad de probabilidad, h(F), de una variable F es:
u

u v F 2
u 2 u 1
2 v
h(F ) , 0 < F < .
u v u
F 1
2 2 v
El uso de la distribucin F para hacer inferencias sobre las varianzas de dos poblaciones en
relacin a las varianzas muestrales; de muestras aleatorias de tamao n1 y n2, respectivamente,
s12
obtenidas en un experimento dado est basado en que el cociente 2 se distribuye de acuerdo
s2
a una distribucin F con n1-1 y n2-1 grados de libertad ( F n 1, n
1 2 1
).

45

Las distribuciones presentadas en esta seccin tienen una utilidad similar a la Normal
Estandarizada pues sirven para modelar o predecir el comportamiento de poblaciones a partir
de la toma de muestras.

Ejercicios sobre distribuciones k2 , t n y Fn 1, n


1 2 1

1. Si X es una variable aleatoria que se puede modelar con una distribucin k2 con seis grados
de libertad, calcular:
(a) P(X 6); (b) P(3 X 9).
2. Repita los clculos anteriores si la distribucin tiene cero, uno, tres, ocho, diecisis y cuarenta
grados de libertad.
3. Si T obedece una distribucin t-Student con ocho grados de libertad, calcule:
(a) P(T 1); (b) P(T 2) ; (c) P(1 < T < 1).
4. Repita los clculos anteriores si la distribucin tiene cero, uno, tres, ocho, diecisis y cuarenta
grados de libertad.
5. Repita los incisos 2 y 4 para una distribucin Fn1 1,n2 1 , considerando que las variables

aleatorias de los puntos 1 y 3 se distribuyen de acuerdo a funciones de densidad de probabilidad


k2 .

46

CAPTULO IV
DISEO DE EXPERIMENTOS DE UNA VARIABLE: CASOS
11 Y 21
Qu es un diseo experimental 11?
Un diseo 11 es aquel en el que se estudia el comportamiento de una variable (o factor)
comparado a su comportamiento a lo largo del tiempo o al nmero de muestras tomadas. Para
ello se requiere entonces poseer informacin previa sobre el sistema estudiado. Por ejemplo,
registros histricos del comportamiento de la variable. Tales registros deben llevar a valores
identificados de la media y la varianza poblacional. Los diseos 11 son de particular inters en
sistemas donde se desee controlar el desempeo de un proceso a lo largo del tiempo. As, este
tipo de diseo es muy comn en el control de calidad. Otra manera comn en libros de estadstica
y diseos de experimentos de llamar a los diseos 11 es referirse a ellos como pruebas de
hiptesis. En este manual, haremos una primera aproximacin a este tipo de experimentos
mediante la construccin de los llamados intervalos de confianza.
Qu es un intervalo de confianza?
En la vida diaria, ingenieril y cientfica es supremamente difcil conocer los parmetros de una
poblacin. En particular, es muy raro que se conozcan la media y la varianza de una poblacin;
a menos que esta sea muy modesta. e.g el triste caso de las especies en vas de extincin. En vista
de lo anterior, el investigador se ve abocado a emplear herramientas de estadstica inferencial
para estimar estos parmetros. Como se discuti en pginas anteriores, lo usual es tomar
muestras aleatorias de la poblacin objeto de estudio, calcular los estadsticos que se derivan de
tal estudio; la media y la varianza muestral, y emplear las distribuciones de probabilidad como
puente entre los estadsticos y los parmetros. Un intervalo de confianza es entonces un intervalo
de valores calculado a partir de los estadsticos de las muestras estudiadas y contrastados con
una expresin ligada a una distribucin de probabilidad adecuada en el cual se estima que se
encuentra un cierto parmetro estadstico. Existen as, dos tipos principales de intervalos de
confianza; los que se refieren a la media poblacional y los que se refieren a la varianza muestral.
A continuacin, analizaremos los intervalos de confianza para la media poblacional.
Intervalos de confianza para la media poblacional
Un intervalo de confianza para la media poblacional (m) define los valores entre los cuales esta
se encontrara a partir de los valores la media muestral ( y ) y asumiendo que la poblacin se

47

comporta de acuerdo a una determinada funcin de probabilidad. Lo ms comn es que esta


funcin de probabilidad sea la Distribucin Normal Estandarizada (z) o una de aquellas que
de ella se deriva como la t-Student.
Cmo se construye un intervalo de confianza para m
De acuerdo al teorema del lmite central, si el nmero de muestras aleatorizadas que se toman
de una poblacin aumenta, sta se comportar de acuerdo a N(m,2). Ya que los experimentos
solamente nos proveen de la media muestral ( y ), el trabajo del investigador consiste en usar las
propiedades de N(m,2) para estimar una regin donde pueda estar mbasndose en y .

Teniendo en cuenta las propiedades que comparten N(m,2) y N(0, 1), esta ltima es la
herramienta indicada para construir un intervalo de confianza para la media; dadas ciertas
condiciones. En tal instancia, se debe, de entrada, determinar si los datos de las muestras
recolectadas se ajustan bien a una curva de normalidad; zj vs. yj usando el procedimiento descrito
en la pgina 39. Sin embargo, tal como se comprob en el ejemplo citado en esa pgina, para
muestras con un nmero de datos modesto la curva de normalidad no tiene un ajuste
satisfactorio. De manera emprica, se ha observado que lo anterior sucede cuando n < 30. Por
tanto, se aconseja emplear N(, 1) solamente para experimentos con n 30 mientras que para
n < 30 es ms apropiado emplear la distribucin tn. Teniendo en cuenta esto, el procedimiento
para construir un intervalo de confianza para ma partir deN(, 1) para n 30 est basado en
ym
asociar m, y y z . Esto se logra aplicando la definicin de z a la media muestral: z . Si
y

en esta ecuacin se despeja m, se encuentra: m y y z . As, si se conocen y y z, se puede

determinar el valor de m. Sin embargo, hay que tener presente que, por un lado, y tambin es

0
un parmetro de la poblacin; calculado como y , donde es el valor de la desviacin
n
estndar poblacional; posiblemente conocido a travs de registros histricos, que en la mayora
de los casos tambin es desconocido, y que, por otro lado, z solamente puede conocerse cuando
se asocia a un determinado valor de probabilidad. Para el caso que nos compete actualmente, n
sy
30, se tiene que y . Respecto a z es indispensable definir una cierta probabilidad
n
asociada para poder tener su valor. A esta probabilidad se le llamar nivel de confiabilidad y al

48

resto de la probabilidad con la que se alcanza el 100% del nivel de confiabilidad se le denominar
o error tipo-I. Por definicin, el nivel de confiabilidad es entonces: 1 . Grficamente, un
intervalo de confianza para mbasado en N(,1) y tomando un nivel de confiabilidad de 1 -
se ve as cuando se asocia a los valores posibles de la media muestral:

2 1- 2

y
m z y
1- m m z y y
2 2

y z y y z y
2 2
1-
y z y y z y
2 2
y est dentro en el intervalo limitado por
1 - , entonces contiene a m
y est en alguno de los intervalos limitados por 2,
entonces no contiene a m se comete un error tipo-I

El grfico ilustra los siguientes hechos:


(i) y corresponde a uno de los valores de la poblacin estudiada, mientras que mse desconoce,
pero est en el centro de la distribucin normal que describe la poblacin.
(ii) Como el intervalo de confianza se construye a partir de la muestra, el intervalo construido en
el eje que representa los valores de las muestras tiene una amplitud similar al de la poblacin.
(iii) Si el valor de la media muestral cae dentro del intervalo definido por el nivel de confianza
(probabilidad) 1 ; la media poblacional se encuentra dentro de este intervalo. La estimacin
de la media poblacional es entonces exitosa.
(iv) Si el valor de la media muestral se encuentra dentro de alguno de los intervalos definidos por
la probabilidad , la media poblacional no estar en el intervalo construido y se cometer un
error tipo-I.

49

La manera matemtica de expresar los conceptos anteriores es:

P( y z y m y z y ) 1
2 2

Que es la definicin de un intervalo de confianza para la media poblacional de una poblacin


que puede modelarse a travs de la Distribucin Normal de Probabilidad. Como observacin,

se expresa z2 en trminos de su valor absoluto z para evitar cambios de signo en la


2

desigualdad. Esto adems est de acuerdo con el concepto de distancia entre m y y .

Ejemplo de construccin de intervalos de confianza para m


Construir intervalos de confianza para la media poblacional de los datos del ejemplo en la
pgina 39, los cuales cumplen el supuesto de normalidad:

wca t[=]g
3,0673 3,0835 3,0845
3,0728 3,0820 3,0722
3,0409 3,0442 3,0558
3,0262 3,0977 3,0815
3,0349 3,0350
(i) Intervalo de confianza del 99.99%.
Para este caso, = 1 0.9999 = 0.0001.
Dado este valor, /2 = 0.0001/2 = 0.00005.

Con este valor, se calcula el valor z/2 -3,8910 y z 3,8910. (Funcin Excel:
2

DISTR.NORM.ESTAND.INV(probabilidad); donde, probabilidad = /2.)


sy
La varianza poblacional se aproxima a partir de: y . Para, estos datos: s y
n
0,0229 g; n = 14 3,7417. As, y 0,00612 g. Por otro lado, y 3,0628 g.

El intervalo de confianza del 99.99% para mwcat queda entonces:


3,0628 3,8910 0,00612 mwcat 3,0628 3,8910 0,00612 3,0390 mwcat 3,0865.
El lector puede notar que el ancho de un nuevo intervalo de confianza estar dado por el
valor z/2, solamente. Por otro lado, es de resaltarse que en este ejemplo violamos el
precepto emprico de no emplear N(0,1) para n < 30. A continuacin se explica entonces
un mtodo apropiado para hacer un intervalo de confianza para men las condiciones
actuales.

50

Cmo construir un intervalo de confianza para m si n < 30?


Como se dijo antes, lo mejor en estos casos es emplear la distribucin tn. Hay tres justificaciones
claves para usar la Distribucin t de Student (tn-1) en lugar de N(0,1): (i) La muestras con
tamaos menores a 30 tienden a no ajustarse lo suficientemente bien a una distribucin N(0,1).
El valor de ajuste, R2, de su grfico de normalidad tiende a ser menor a 0,95. (ii) La varianza
poblacional y la varianza muestral tienden a estar demasiado alejadas. De este modo, la
ym ym
estimacin del valor z a travs de la expresin: z redunda en un error
y sy
n
demasiado alto. Lo cual tambin expresa el hecho que los datos estn alejados de poder ser
ym
modelados a travs de una Distribucin Normal. (iii) Se puede demostrar 3 que se
sy
n
distribuye de acuerdo a una Distribucin t de Student, con n 1 grados de libertad (tn-1).
Los grados de libertad son como la expresin lo indica iguales al nmero de datos de la muestra
menos 1. En el clculo de intervalos de confianza, se sustituyen simplemente z/2 y y :

P( y t ,n 1
sy m y t ,n 1
sy ) 1
2 n 2 n

Ejemplo de construccin de intervalos de confianza para m


Repetir el clculo del intervalo de confianza del 99.99% de ejemplo anterior considerando esta vez
la Distribucin t de Student.

(i) Los datos y el intervalo a construir no cambian. /2 = 0.0001/2 = 0.00005.

Con este valor, se calcula el valor t/2, n-1 = t0.00005, 13 -5,928 y t , n -1


5,928. (Funcin Excel:
2

INV.T.2C(probabilidad; grados de libertad). Excel devuelve t , n -1


por defecto)
2

Ni la estimacin de la varianza poblacional, y 0,00612 g ni y 3,0628 g cambian.

El intervalo de confianza del 99.99% para mwcat queda entonces: 3,0265 mwcat 3,0990 .
Compare este resultado con el anterior. Qu opina?

3
VerelartculooriginaldeStudentsobresudistribucin:On the error of counting with hmacytometer".
Biometrika. 5 (3): 351360. February 1907. doi:10.1093/biomet/5.3.351ylainteresantehistoriadel
Estudianteen:https://en.wikipedia.org/wiki/William_Sealy_Gosset.

51

Ejercicios

1. Construya intervalos de confianza del 35, 43, 57, 68, 87, 90, 95, 99 y 99,99999% para m usando
los datos de los ejercicios en las pginas 27 30 del manual. Qu tendencia observa en cuanto
al nivel de confianza y la amplitud de los intervalos?
2. Para el ejemplo de pgina 39, elabore un grfico de probabilidad usando la Distribucin t-
Student en lugar de N(0,1). Describa paso a paso la metodologa empleada.
3. De acuerdo a Navidi (Statistics for Engineers & Scientists, 4th Ed. McGraw Hill, 2015, p 347),
la Distribucin t-Student no debe usarse si la muestra contiene datos atpicos. Analice los
siguientes problemas determinando primero si s es posible aplicar t/2, n-1 para construir
intervalos de confianza del 93,8 y 97,6%.

3.1. Una de los principales efluentes de las refineras (entre ellas, la Refinera de Barrancabermeja)
y campos petroleros es el fenol. Existen serios indicios de los nocivos efectos de este compuesto
en la salud y el ambiente (http://www.eoearth.org/view/article/153418/). En particular, la
presencia de este compuesto en ros y lagunas induce graves efectos sobre las poblaciones de
peces; donde se ha reportado que produce problemas de infertilidad y mutaciones genticas.
Adems, el fenol puede acumularse en estos mismos peces que son, en muchas ocasiones,
consumidos por la poblacin. La eliminacin de fenol de efluentes es entonces objeto de
investigacin. En el caso de la Escuela de Ingeniera Qumica de la UIS, un estudio reciente por
parte del grupo de investigacin Interfase buscaba comparar el potencial uso de dos carbones
activados como adsorbentes en un proceso de absorcin de fenol de efluentes (J.J. Carreo M
& C.J. Schotborgh C. - 2014). Los carbones activados probados fueron un carbn activado
comercial (CC) y uno producido a partir de llantas (CL). Los resultados de las pruebas de
adsorcin para cada carbn fueron:

52

3.2. La produccin mundial de propileno (propeno: C3H6) se estima en 80 MTon


(http://www.essentialchemicalindustry.org/chemicals/propene.html). El propileno hace parte
de las llamadas molculas plataforma; aquellas que sirven como intermediarios en la sntesis de
compuestos de alto valor agregado, y es esencial para la produccin de numerosos plsticos y
resinas. El propileno se puede producir a partir de dos procesos catalticos principales: la
deshidrogenacin directa de propano y la deshidrogenacin oxidativa del propano (DHP). El
segundo proceso tiene la ventaja de consumir menos energa y extender el tiempo de vida til
del catalizador. Sin embargo, en la reaccin de DHP se presenta una fuerte competencia entre
reacciones que producen monxido (CO) y dixido de carbono (CO2) y la de produccin de
propileno. Por ello, se requiere disear nuevos catalizadores con mejor selectividad hacia
propileno. Un estudio publicado en ACS Catalysis
(http://pubs.acs.org/doi/abs/10.1021/cs200465h) compara el desempeo de dos tipos de
materiales catalticos en la reaccin de DHP efectuada a dos temperaturas (723 K y 748 K) y
presin atmosfrica. A continuacin, se presentan los resultados de este estudio en trminos de
la selectividad a propileno obtenida:


Construya los intervalos de confianza antes indicados cada temperatura sin tener en cuenta el
tipo de catalizador. Haga lo mismo, pero ahora teniendo en cuenta el tipo de catalizador.
Finalmente, repita los procedimientos contando solo con el nmero del ensayo como variable.

53

Sobre las pruebas de hiptesis de experimentos 11

Todo experimento conlleva siempre una nocin preconcebida del resultado que puede dar. A tal
nocin se le llama hiptesis. En consecuencia, una definicin apropiada de hiptesis es que es
una idea que necesita ser demostrada experimentalmente. Desde el punto de vista de la
estadstica, las hiptesis que se postulan se refieren usualmente a parmetros estadsticos como
la media y la varianza poblacional. Bsicamente, una prueba de hiptesis estadstica juzga si un
grupo de datos pertenece a una misma poblacin. Para el DdE probar hiptesis sobre la media
y la varianza poblacional se constituye en la herramienta principal para decidir si una variable
de entrada ejerce un efecto estadsticamente significativo sobre la(s) variable(s) respuesta
del proceso estudiado. De manera general, una prueba de hiptesis para un experimento 11
consiste en comparar un determinado valor de un estadstico como la media o la varianza
muestral contra la informacin que se tenga sobre el parmetro estadstico correspondiente. Se
est entonces en el terreno de tratar de sacar conclusiones sobre poblaciones a partir de un
muestreo aleatorio. La prueba de hiptesis produce entonces un valor de probabilidad (que,
por supuesto, se encuentra entre 0 y 1) que nos describe el grado de certeza que se tiene sobre
la veracidad de la hiptesis postulada para el parmetro estadstico investigado. Para obtener tal
valor, se requerir entonces el uso de una distribucin de probabilidad adecuada al DdE
efectuado. El clculo de este valor de probabilidad est directamente ligado a la determinacin
de un estadstico de prueba como z, t, 2. As, un estadstico de prueba es el valor que

asume la variable aleatoria ligada a la distribucin de probabilidad usada como puente entre la
muestra y la poblacin; e.g. z para muestras grandes que siguen una distribucin normal. El
estadstico de prueba se usa entonces para sopesar la fortaleza de la evidencia en contra de H0.
La evidencia a la que nos referimos es la informacin recolectada en el nuevo experimento.

En estadstica es costumbre formular dos tipos de hiptesis; la denominada hiptesis nula ( H 0


) que es en esencia una declaracin de que el experimento o proceso est produciendo resultados
similares a los de un registro histrico o que los cambios de la(s) variable(s) respuesta observadas
al modificar la(s) variable(s) de entrada son el resultado de las variaciones aleatorias entre la
muestra tomada y la poblacin. As, H 0 es una manera de decir que los cambios efectuados en
un proceso no han cambiado sus productos.

54

La hiptesis contraria a H 0 se denomina hiptesis alternativa ( H 1 ) y expresa el hecho que ha


habido un cambio estadsticamente significativo en el experimento o proceso realizado gracias a
las modificaciones de la(s) variable(s) de entrada.

Procedimiento para enunciar una prueba de hiptesis de un experimento 11

Para enunciar una prueba de hiptesis para un experimento 11 se escoge el parmetro estadstico
adecuado para describir los cambios que el proceso pueda experimentar. La prctica corriente es
postular hiptesis que contrasten los valores histricos m0 o 2 de m o 2 en trminos de
desigualdades respecto a sus valores tericos (my ; los cuales siempre se van a desconocer).
Como se dijo antes, los estadsticos: y y s y representan la evidencia recolectada para evaluar el
contraste planteado en la prueba de hiptesis.

Enunciacin formal de pruebas de hiptesis para my 2 en un experimento 11

Las hiptesis sobre my 2 pueden enunciarse as:


H 0 : mm; mm; mm. De manera anloga, H 0 : 22; 2 2; 22.

H 1 : mm; m<m; m>m. H 1 : 2 2; 2< 2; 2>2.

Mtodo general para hacer una prueba de hiptesis

Conceptualmente, la realizacin de una prueba de hiptesis es anloga a la construccin de un


intervalo de confianza. El concepto del mtodo de prueba se puede representar por el siguiente
diagrama:

55

Puesto en palabras, la prueba de hiptesis se postula para la media y varianza poblacional y se


construye a partir del conocimiento de valores de los estadsticos tendiendo un enlace entre stos
y los parmetros histricos (ojo: mno es m) mediante una distribucin de probabilidad adecuada.

Pasos generales para hacer una prueba de hiptesis 11

1. Definir H0 y H1 al respecto a los parmetros estadsticos de la variable respuesta a analizar y


de los cules se tenga un registro histrico; i.e. valores my 2.

2. Asumir que H0 se cumple; i.e. asumir que no hay evidencia suficiente para afirmar que la
variable de entrada manipulada altera significativamente a la variable respuesta.

3. Calcular el valor del estadstico de prueba apropiado.

4. Calcular el valor de la probabilidad que corresponde al estadstico de prueba. Este valor se


denomina valor-p. El valor-p tambin es llamado nivel de significancia observado. El valor-
p es la probabilidad ligada a que una variable respuesta sea alterada significativamente dentro de
los lmites del intervalo de valores donde se encontrara el parmetro estadstico probado (i.e. un
intervalo de confianza para el parmetro definido a partir del valor-p). Entre menor sea el valor-
p, mayor ser la certidumbre de poder rechazar H0. Esto est relacionado con el mismo concepto
detrs de la construccin de intervalos de confianza puesto que el valor-p es el valor del error
tipo-I () inherente a la prueba de hiptesis realizada.

5. Sacar una conclusin sobre la fortaleza existente al momento de asumir que la variable de
entrada estudiada modific a la variable respuesta.

Nota clave: Es muy importante recordar que aunque una comparacin directa entre
my y puede dar la impresin que se tiene una respuesta inmediata a la prueba de
hiptesis; e.g. si y > muno tendra la impresin que es muy poco probable que H0:
mm no pueda rechazarse, lo cierto es que las pruebas de hiptesis se postulan
sobre la media poblacional mque es un parmetro con valor desconocido y del cual
solamente se puede determinar un probable intervalo en el que puede hallarse. Por
tanto, lo que la hiptesis mide es si bajo la nueva experimentacin hay una
probabilidad de que mya no se encuentre en el intervalo de valores (~ intervalo de
confianza) en que se pensaba que estaba. En otras palabras, se evala si el proceso
ha sido alterado por el cambio efectuado en una de sus variables de entrada de modo
que la variable respuesta ha cambiado significativamente en comparacin con lo que
saba de ella.

56

Casos particulares de pruebas de hiptesis sobre men experimentos

En muchos experimentos del tipo 11 es usual conocer o tener una estimacin razonable del valor
de la varianza poblacional. En particular, cuando se usan instrumentos estandarizados para los
cuales los fabricantes realizan mltiples pruebas que garanticen la precisin de las medidas que
el aparato otorga. En los casos donde 2 se conoce (2 = 2), las pruebas de hiptesis sobre
mse pueden efectuar de acuerdo al siguiente procedimiento provisto por Navidi:

1. Definir la hiptesis a probar; H 0 : mm; mmo mm

2. Dado que se conoce 2, es seguro asumir que N(m,2) es la distribucin apropiada para la
poblacin de datos de la variable respuesta analizada. Por tanto, se calcula el estadstico de prueba
y m0
como: z .
y

3. Se calcula el valor-p correspondiente al z del paso anterior. Este valor-p es un rea bajo la
curva de la distribucin normal estandarizada el cual depende de H1 de acuerdo a:

H 1 : m>m valor-p = rea a la derecha de z.

H 1 : m<m valor-p = rea a la izquierda de z.

H 1 : mm valor-p = suma del rea de las colas cortadas por z y -z.

57

Ejemplos de pruebas de hiptesis sobre mpara experimentos cuando2 es


conocida
Para el caso del peso del catalizador descrito en la pgina 48, el fabricante de la balanza
garantiza una varianza 02 0,0025 g2 en las medidas del instrumento. Adems,
histricamente, el peso de catalizador para estos ensayos ha sido mwcat 3,1501 g. Con esta
informacin, determine el nivel de significancia observado (valor-p) frente a la posibilidad
de que la media de las medidas hechas por el estudiante sea significativamente diferente a la
media mwcat. en los siguientes sentidos: (a) mayor; (b) menor; (c) completamente diferente.
Rta/ Las hiptesis a probar son:
Para el caso a), el enunciado plantea que se haga la comparacin en funcin de si m es
mayor que mwcat 3,1501 g. La negacin de esta hiptesis es que mes menor que mwcat. Esta
negacin es H 0 . En consecuencia, las hiptesis a probar son:

H 0 : m 3,1501 g y H 1 : m> 3,1501 g.


El caso b) es contrario al a):
H 0 : m 3,1501 g y H 1 : m< 3,1501 g.
Finalmente, para el caso c) se tiene:
H 0 : m=3,1501 g y H 1 : m 3,1501 g.
Procedemos ahora a probar cada una de estas hiptesis.
(a) H 0 : m 3,1501 g y H 1 : m > 3,1501 g.
La distribucin de probabilidad para el histrico de la poblacin corresponde a N(3,1501,
0,0025).
y m0
(ii) Se calcula el estadstico de prueba para la distribucin anterior: z ;
y
3,0628 3,1501
z -6,533. Recordar que y 3,0628 g.
0,05
14
(iii) Con el valor del estadstico de prueba z se halla el valor-p que para este caso ( H 1 :
m>m) es el rea a la derecha del valor de z. Este valor es: 1- P(z<-6,533) = 1 3,2210-11
1,0. Por tanto, valor-p 1,0.
Con estos resultados es posible construir una grfica que representa la prueba de hiptesis
realizada. La misma se presenta a continuacin:

58

Ejemplos de pruebas de hiptesis sobre mpara experimentos cuando 2 es


conocida

Grfico correspondiente a la prueba de hiptesis para H 0 : m 3,1501 g.

La interpretacin prctica de la prueba obtenida es que no existe evidencia (valor-p 1,0)


para asegurar que bajo las condiciones del experimento ejecutado hubo un cambio
estadsticamente significativo en el peso del catalizador empleado. Aunque la conclusin
obtenida pueda parecer contra-intuitiva de acuerdo al grfico presentado, el lector debe
recordar que en una prueba de hiptesis, entre ms pequeo sea el valor-p existe ms certeza
de la validez de H1 puesto que el valor-p es equivalente al error tipo-I de la prueba.
(b) H 0 : m 3,1501 g y H 1 : m< 3,1501 g.
En este caso, la distribucin de probabilidad asociada sigue siendo la misma: N(3,1501,
0,0025). El valor numrico z -6,533 no cambia. Como H 1 : m< 3,1501 g, el valor-p es el
rea a la izquierda de z; i.e. valor-p = P(z<-6,533) 3,2210-11.
El grfico correspondiente a la prueba de hiptesis para el caso (b) es:

59

Ejemplos de pruebas de hiptesis sobre mpara experimentos cuando 2 es


conocida


Dado el valor-p obtenido, se concluye que existe evidencia suficiente para considerar veraz
la hiptesis alternativa: i.e. hubo un cambio significativo en el peso del catalizador medido
por el estudiante en sus experimentos.
(c) H 0 : m= 3,1501 g y H 1 : m 3,1501 g.
Lo nico que cambia aqu respecto a los casos (a) y (b) es la definicin del valor-p, que ahora
corresponde a: valor-p = 2P(z<-6,533) = 23,2210-11 6,4410-11. Esto lleva a concluir
que la evidencia es suficiente para decir que hubo un cambio significativo en la variable
respuesta. El grfico de esta prueba es:

60

Mtodo alternativo para las pruebas de hiptesis

Una alternativa frente a las pruebas de hiptesis basadas en el clculo del valor-p consiste en
asumir un determinado valor del error tipo-I y calcular con base en ste el valor del estadstico
de prueba (zcrt) comparndolo con aquel obtenido mediante los valores de y , m y 0
correspondientes al experimento cuyo efecto se desea determinar. En este mtodo, se suele fijar
un valor del error tipo-I, 0,05. Escoger 0,05 como valor del error tipo tipo-I corresponde
a postular que la probabilidad de equivocarse en la decisin tomada es una en veinte (1/20). Sin
embargo, no existe ninguna justificacin terica para escoger un valor determinado de ; su
escogencia es entonces producto de las costumbres del experimentador. Un inconveniente
bastante frecuente respecto al mtodo de escoger a priori es saber qu hacer cuando se obtiene
un valor-p muy cercano a e.g. para una prueba dada se obtienen los valores-p de: 0,046 y
0,052. Cul de estos resultados se puede considerar como fiable para = 0,05? La respuesta es
que ambos o cualquiera de los dos; dependiendo de lo que decida el experimentador. Para evitar
ambivalencias u otro tipo de confusin con este mtodo, la mejor costumbre es siempre reportar
el valor-p para dejar en evidencia la robustez de la conclusin declarada.

El valor-p no es la probabilidad de que H0 sea verdadera

De acuerdo a lo desarrollado en las pginas anteriores, se podra pensar que el valor-p es la


probabilidad de que H0 sea verdadera puesto que entre ms grande ste sea menor es la certeza
de poder rechazar la hiptesis nula. Este no es el caso. De acuerdo a Navidi, el valor-p debe
interpretarse como la probabilidad de observar un valor extremo de un estadstico como y ,
dado que el mismo puede cambiar cuando se realiza un experimento varias veces. Por su parte,
H0 es una declaracin que siempre puede o no rechazarse independientemente de que el
experimento se repita las veces que se desee.

Caso II: Se desconoce la varianza poblacional

Tal como se hace para los intervalos de confianza, cuando no se conoce la varianza poblacional
se puede hacer una estimacin de sta por medio de la varianza muestral. Aqu tambin se debe
considerar el tamao de la muestra. Si se trata de una muestra grande, se recurre a la distribucin

61

N(1,0) para calcular el estadstico de prueba (z) y si la muestra es pequea se emplea la


distribucin t-Student y se usa tn-1 como estadstico de prueba. A continuacin, un ejemplo.

Ejemplos de pruebas de hiptesis sobre mpara experimentos cuando 2 es


desconocida
Ejemplo 1: Para el caso del peso del catalizador descrito en la pgina 48, se perdi el manual
del fabricante del instrumento. Por tanto, no existe informacin sobre la varianza. Se cuenta,
sin embargo, con el registro histrico del peso de catalizador: mwcat 3,1501 g. Probar la
hiptesis de si las medidas recolectadas por el estudiante en sus experimentos difieren
significativamente del histrico del laboratorio.
Rta/ Dado que se pregunta si las medidas difieren significativamente del histrico, las
hiptesis a probar son:
H 0 : m= 3,1501 g No difieren significativamente.

y H 1 : m 3,1501 g Difieren significativamente


Los pasos para la prueba son:
(i) Se sabe que: y 3,0628 g; s y 0,0229 g; y, n = 14. Como n < 30, la muestra es
pequea y por tanto el estadstico de prueba debe ser tn-1.
(ii) Se estima el valor de la desviacin estndar a partir de los datos de la muestra:
sy 0,0229
y = 0,00612.
n 14
(iii) Se calcula el valor del estadstico de prueba, tn-1:
y m0 3,0628 3,1501
t13 -14,264.
0 0,00612
Usando la funcin de Excel: DISTR.T.CD(14,264;13), se obtiene P(t13 > 14,264)
1,2810-9. De lo que se desprende: valor-p 21,2810-9 3,5610-9. Si se usa:
DISTR.T.2C(14,264;13) se obtiene directamente el valor-p para la prueba planteada. Este
valor indica que se puede rechazar con comodidad la hiptesis nula. En conclusin, s hubo
un cambio significativo en la medida del peso del catalizador para los ensayos realizados por
el estudiante.

62

Ejemplo 2:
Para los datos correspondientes al tamao de partculas metlicas en un catalizador
PdPt/TiO2 presentados en el ejemplo de la pgina 22, pruebe la hiptesis que una partcula
de 18,2 nm es significativamente diferente a la media poblacional construida a partir de un
intervalo de confianza del 95.
Rta/ Antes de construir el intervalo de confianza, lo ms conveniente es determinar la
posible existencia de datos atpicos en la medida realizada. Para esto, se elabora un
diagrama de caja y bigotes con los 202 datos de la muestra tomada:

Rta/ El grfico indica que existen cuatro datos atpicos: 17,1; 18,2; 19,1; 20,2 nm. Dado que
estos valores se desvan mucho de la distribucin normal, se descartarn para la construccin
del intervalo de confianza. Por tanto, el nmero de datos pasa de 202 a 198.
El intervalo de confianza se construye usando el procedimiento descrito en las pginas 46-
49. La muestra es grande: n = 198; = 0,05; dado que es un intervalo de dos colas, se usa
/2= 0,025, para el cual |z21,96. Los estadsticos de inters dan: y 7,0 nm; s y
3,5 nm. La desviacin estndar poblacional se estima en y 0,25 nm.
Con estos datos, se determina el I.C. del 95% en:

y z y m y z y = 6,5 nm m 7,5 nm
2 2

Una vez construido este intervalo de confianza, se procede a realizar la prueba de hiptesis
pedida. Como el valor a probar es mayor que el lmite superior del I.C., se tomar este
lmite como el valor mcontra el que se probar el nuevo resultado. Adems, lo ms
razonable es hacer la prueba de hiptesis considerando la alternativa que la media
poblacional sea mayor al valor m. La prueba queda formalmente as:
H 0 : mm 7,5 nm
H 1 : m 7,5 nm
Se asume que el valor a probar corresponde a una media de la muestra.

63

Ejemplos de pruebas de hiptesis sobre mpara experimentos cuando 2 es


desconocida
Por tanto, y = 18,2. De esta manera, el estadstico de prueba da:
y m 0 18,2 7,5
z 42,32. Aplicando la funcin de Excel correspondiente, valor-p
y 0,25
0. Lo cual indica que es seguro rechazar H0. La razn de este resultado es esperada dado
que el dato examinado se catalog como atpico; lo cual implica que representa un cambio
fuerte en la variable respuesta del experimento. En las medidas realizadas conviene revisar el
origen de tal dato.

Ejercicios de pruebas de hiptesis sobre la media poblacional de experimentos 11

1. Para el ejercicio del Challenger (pgina 27), considere la media de una muestra adicional con
los valores: 31, 33, 35, 32, 30, 31. Considerando los valores reportados originalmente como el
histrico de las medidas realizadas, prueba la hiptesis de que los valores de la muestra aqu
presentada son significativamente diferentes al histrico.

2. Para el ejercicio de los contenidos de metales pesados en crudos pesados (pp. 28-29), si
histricamente el costo de procesamiento del crudo en la refinera es directamente proporcional
al contenido de nquel en el crudo; cul es la probabilidad de que este costo aumente si
histricamente la media de contenido de nquel ha sido de 3,6 ppm con un coeficiente de
variacin del 15%.

3. Resuelva los ejercicios del inciso 4, pp. 37-38, aplicando la metodologa de las pruebas de
hiptesis.

64

Pruebas de hiptesis sobre la varianza


As como se analizan diseos 11 desde las pruebas de hiptesis sobre la media poblacional,
tambin es posible hacer pruebas de hiptesis sobre la varianza poblacional. Las hiptesis son
de la misma naturaleza en ambos casos, pero debe advertirse que sus pruebas son fuertemente
dependientes de la normalidad de los datos. Muy pequeas desviaciones pueden producir
resultados muy imprecisos. Por este motivo, no se recomienda, en general, usar estas pruebas de
hiptesis a menos que se tengan muestras de tamao muy importante (quiz n > 150) cuyo
comportamiento se ajuste muy bien a una distribucin normal de probabilidad (R2 > 0,97 en el
grfico de normalidad)4. En consideracin de lo anterior, Navidi no recomienda emplear este
tipo de pruebas de hiptesis para comprobar el supuesto de varianza constante en diseos 11
(ver seccin siguiente).
Sobre la varianza es posible formular las siguientes hiptesis:
H 0 : 2 02

H1 : 2 02 o (prueba de dos colas); H1 : 2 02 (prueba de cola derecha); o H1 : 2 02


(prueba de cola izquierda)
En estas hiptesis, 2 representa la varianza poblacional que ser estimada a partir de los
resultados obtenidos en la muestra objeto de estudio y 02 es la varianza poblacional derivada
del registro histrico de datos del experimento.
Una vez definidas la hiptesis nula y la alternativa, se debe disear un procedimiento matemtico
estadstico para probar la validez de una o de la otra. Los procedimientos existentes recurren al
anlisis de la validez de la hiptesis nula por razones de simplicidad en la matemtica empleada.
Cul es el procedimiento para probar la veracidad de la hiptesis nula?
El estadstico para las pruebas de hiptesis de la varianza est basado en la distribucin de
probabilidad para una variable aleatoria tipo n21 , donde n-1 representa los grados de libertad
de la varianza.
La varianza poblacional histrica ( 02 ) est relacionada con la varianza muestral ( s 2 ) a travs

del estadstico n21 ; que en este caso denominaremos 02 , de acuerdo a la expresin:

4
Las recomendaciones dadas estn basadas en la experiencia y no tienen un sustento terico. Por tanto,
debentomarsecomounaguaynocomoleyesoprincipiosestadsticos.Enestainstancia,eselinvestigador
quiendecideladecisinapropiadaapartirdeunanlisisrigurosodesusdatos.Siempreesobligatorioreportar
losalcancesysupuestosdetrsdeladecisintomada.

65

2 n 1s 2

0 2
. 02 tendr una probabilidad asociada (valor-p) que se puede calcular
0

numricamente a partir de la distribucin de probabilidad de la variable n21 . Grficamente, esto


se representa de la manera siguiente en el caso que la hiptesis alternativa sea de cola derecha
H1 : 2 02 :

2 2
Representacin de las regiones correspondientes a las hiptesis: nula H 0 : 0 y alternativa
H1 : 2 02 sobre la varianza en experimentos 11.

En la figura, la probabilidad asociada al valor 02 corresponder al lmite mximo de


confiabilidad con el cual no se puede rechazar la hiptesis nula.

Normalmente, se acostumbra fijar un lmite mnimo de probabilidad bajo el cual es vlido


rechazar H0 . Esta probabilidad se designa con la letra griega y corresponde al llamado error
tipo I de la prueba estadstica. El error tipo I representa, en consecuencia, el riesgo que corre el
experimentador en rechazar H0 cuando sta es verdadera. Otro enfoque comn para hacer esta
prueba consiste entonces en asignar un valor al error tipo I y a partir de all y considerando los
grados de libertad del estadstico, calcular el valor correspondiente de la variable 2 (i.e. 2 *,n 1
2
); denominado valor crtico de la prueba ( crt ), y comparar este valor con el valor 02 . Para este

caso, y dado que el total de la probabilidad es 1, la confiabilidad en rechazar H0 ser

precisamente 1 - . Los grficos siguientes ilustran esta prueba para las tres posibles hiptesis
alternativas:

66

Representacin de las pruebas de las posibles pruebas de hiptesis sobre la varianza en


experimentos 11. H 0 : 2 02 y a) H1 : 2 02 ; b) H1 : 2 02 ; c) H1 : 2 02 .

67

Ejemplo (Adaptado de (Montgomery & Runger 2014))

Determine cules son los valores crticos del estadstico 02 para los siguientes niveles de
significacin, tamaos de muestra e hiptesis.
(a) = 0,01; n = 20; H 0 : 2 7 y H 1 : 2 7 ;
Rta/ Dadas las hiptesis planteadas, se trata de una prueba de dos colas (Figura 2c). Por
tanto, el error tipo I debe dividirse en dos zonas de probabilidad /2 = 0,01/2 = 0,005. Los

grados de libertad son: n-1 = = 20 -1 = 19. Existen entonces dos valores crticos de 02
ledos en la cola izquierda:
2 2
(i) crt 2 / 2, 02,005,19 . El valor de crt buscado puede obtenerse de manera directa en
una Tabla para la distribucin 2 , de cola izquierda. Las entradas de la Tabla se sealan en
2
la Figura 3 y resultan en el valor crt 2 / 2 , 02, 005,19 6,89 . Usando un procedimiento
2
similar, se obtiene un valor crt 12 / 2, 02,995,19 38,6

Figura 3. Lectura del valor 02, 005,19 en una Tabla de distribucin para la distribucin de
probabilidad 2 de cola izquierda. Tomado de (M.R. Spiegel & Stephens 2009).

68

Ejemplo (Adaptado de (Montgomery & Runger 2014))


El lector deber ser cuidadoso cuando emplee Tablas de distribucin de probabilidad pues
algunas usan la cola izquierda y otras la derecha. Por ejemplo, la Tabla original para la
distribucin de la variable aleatoria 2 (Thompson 1941) fue desarrollada en base a la cola
derecha de la distribucin usando la integral:

P P ( 2 ) f (
2
)d 2
2

Por tanto, para el valor 02, 005,19 en esta tabla corresponde a 38,5822 (ver Figura 4) mientras

que 02, 995,19 6,84398 .

Figura 4. Lectura del valor 02, 005,19 en una Tabla de distribucin para la distribucin de
probabilidad 2 de cola derecha. Tomado de (Thompson 1941).

69

Ejemplo (Adaptado de (Montgomery & Runger 2014))


Finalmente, el grfico que representa la distribucin de probabilidad en este caso es:

n-1 = 19
f(2)

H1 H0
H1
/2 = 0,005 /2 = 0,005
2 2
crt 6,84 crt 38,58 2

2
Como ejercicio, el lector puede calcular los valores crt para los casos siguientes:

(b) = 0,05; n = 12; H 0 : 2 7 y H 1 : 2 7 ;

(c) = 0,10; n = 15; H 0 : 2 7 y H 1 : 2 7

70

Cmo se hace un diseo 11? Anlisis desde el punto de vista del DdE
Dada su naturaleza, el diseo 11 no implica grandes esfuerzos de planificacin para ejecutarse.
Sin embargo, su planeacin y ejecucin deben atenerse a los principios fundamentales del diseo
de experimentos. En particular:
1. Garantizar la confiabilidad de los instrumentos de medicin que se vayan a emplear.5
2. Realizar el muestreo de manera aleatoria. En este caso, aquellas medidas de control de calidad
que se hacen de manera rutinaria; por ejemplo, a la misma hora, el mismo da, el mismo operador,
el mismo lugar, etc, no cumplen el supuesto de aleatoriedad y por tanto los anlisis de estadstica
inferencial que se deseen aplicar carecen de rigurosidad y no pueden emplearse para elaborar
conclusiones slidas.
3. Formulacin de un modelo estadstico y de hiptesis sobre el modelo. Dado el objetivo de
este tipo de diseo experimental, el modelo estadstico a formular es: yi m0 i . En palabras,

este modelo enuncia que cada medida experimental ( yi ) se puede expresar en funcin de la

media poblacional ( m0 ); conocida por registros histricos, y un error experimental ( i ).


Considerando este modelo, se formularan hiptesis sobre la media. Tales hiptesis deben
cumplir dos supuestos fundamentales: (i) supuesto de normalidad de los datos correspondientes
a la muestra recolectada. (ii) Supuesto de varianza constante para el error.
4. Comprobacin de las hiptesis formuladas.
5. Elaboracin de un reporte estadstico adecuado con conclusiones y recomendaciones.
De especial nfasis es el anlisis de los datos adquiridos. Por tanto, a continuacin, se presentarn
los mtodos estadsticos empleados en el anlisis de resultados obtenidos en un diseo 11. Se
empieza por la comprobacin de supuestos del modelo.
Cmo se comprueba el supuesto de normalidad?
Se emplea la distribucin normal estandarizada y su variable aleatoria Z. El supuesto de
normalidad se comprueba elaborando un grfico de zj en funcin de yj tal como se explic
anteriormente. La grfica debe presentar una tendencia lineal.

5
Enestetextoseentiendecomoinstrumentodemedicintodoaquelmedioqueseempleeparala
recoleccindedatos.As,unabalanzayunaencuestaseconsiderancomoinstrumentosdemedicinpor
igual.Ellectordebetenerpresentequeunaencuestadebeestarmuybiendiseadaantesdeaplicarse.

71

Cmo se comprueba el supuesto de varianza constante?


En este caso, es necesario disponer de los registros histricos pues es imperativo comparar las
curvas de normalidad del histrico con la del nuevo grupo de datos muestrales. Una vez hecho
esto, se determina si las pendientes de las curvas de normalidad son similares. Si stas lo son, se
puede decir que se cumple el supuesto. Como se dijo antes, no es aconsejable emplear pruebas
de hiptesis sobre la varianza para comprobar este supuesto. Sin embargo, cuando no es posible
obtener el registro histrico de las medidas instrumentales se puede usar la alternativa de realizar
una prueba de hiptesis sobre la varianza advirtiendo claramente de las limitaciones que este tipo
de pruebas acarrean.
Ejercicios de comprobacin de los supuestos fundamentales para diseos 11

1. Determine si los datos de tamao de partcula (nm) correspondientes al catalizador del ejemplo
ilustrativo sobre histogramas (pg. 22) cumple con el supuesto de normalidad. Adems,
compruebe cul sera el valor del error tipo I que habra que asumir para aceptar el supuesto de
varianza constante. Asumir que la varianza de una muestra de mil datos para este catalizador;
s10002 = 18.7 nm2, representa la varianza poblacional (02).
Repita este mismo de comprobaciones para los siguientes puntos.
2. Una refinera convencional recibe crudos de diferente calidad con base en la procedencia de los
mismos. La calidad de los crudos puede definirse de diversas maneras. Una de las ms comunes
es en cuanto a la denominada gravedad API (API). As, cuando un crudo tiene API menor de
20 se considera pesado mientras que si API es mayor que 40 se considera liviano. A
continuacin, se presentan datos de API para la produccin de un determinado pozo petrolero
colombiano recin descubierto:

La varianza histrica para esta situacin es 02 = 30,8API2. Repita los clculos para 02 =
70,3API2 y 02 = 15,4API2 qu observa?
72

3. Los estudiantes del curso de Diseo de Experimentos del primer semestre de 2016 probaron
sus habilidades atlticas en una carrera de 100 m planos. Los siguientes fueron los tiempos
obtenidos por cada estudiante en la prueba:

Tiemposencarrerade100mplanos(s)
23,56 12,42 21,08 13,11 13,26 18,80
12,26 13,44 22,74 19,05 13,53 18,91
17,85 13,81 28,92 17,83 19,16 13,11
17,94 12,64 14,44 17,85 17,32 16,87
18,27 13,11 14,30 17,94 22,30 18,21
17,99 13,26 17,50 23,56 19,49 17,14
18,60 13,53 13,35 12,26 18,27 16,40
18,60 17,85 16,65 17,99 17,94 15,46

La varianza histrica para esta situacin es 02 = 9,9 s2.

73

Sobre los diseos 21 o las comparaciones entre dos poblaciones

Un diseo experimental 21 involucra una variable (exponente = 1) que se mide en dos niveles
(base = 2) y tiene por objeto comparar las dos poblaciones se considera que cada nivel de la
variable genera una poblacin de las cuales se hayan tomado dos muestras aleatorias. Para cada
nivel de la variable habr entonces valores propios de los parmetros y estadsticos respectivos.
El objeto del experimento es establecer si existe una diferencia significativa entre los parmetros
estadsticos de los dos niveles de la variable que se est estudiando. Dos supuestos fundamentales
para la comparacin a realizarse son: (i) las observaciones entre los dos niveles de la variable son
totalmente independientes; (ii) las poblaciones de cada nivel de la variable se pueden modelar a
travs del mismo tipo de Distribucin de Probabilidad. Esquemticamente, la comparacin se
puede ver como lo plantea Montgomery para distribuciones normales:

Modelo para los diseos 21

De manera anloga a lo que se plante para el diseo 11, el modelo a probar en un diseo 21 es:

yij mi ij ; i = 1,2; j = 1, 2, , ni.

Aqu, yij representa las observaciones experimentales. mi es la media poblacional de cada

nivel de la variable, ij son los valores del error aleatorio inherente a cada medicin, i son los

niveles de la variable y j son las observaciones correspondientes a cada nivel i. Dentro del ij se

encierran efectos posibles de variables de entrada no consideradas en el diseo, as como la

74

variacin aleatoria de las medidas experimentales. En prximos captulos usaremos este hecho
para expandir el diseo de experimentos a multivariables y multiniveles.

El modelo predice que cada dato medido se puede representar por la media poblacional de cada
nivel de la variable ms un error aleatorio ligado a cada medicin. Un supuesto fundamental del
modelo es que ij obedece una distribucin normal N (0, i2 ) . Las hiptesis estadsticas a

probar se refieren por tanto a este modelo.

Hiptesis a probar en diseos 21

La naturaleza de las hiptesis a probar para un diseo 21 es la misma que para los diseos 11
discutidos antes. La siguiente tabla las resume:

En todos los casos, el concepto detrs de la hiptesis nula es que la variable respuesta no se ve
afectada por el cambio de nivel en la variable de entrada del proceso. En cuanto a la hiptesis
alternativa, sta puede adaptarse a tres casos que se deseen investigar: (i) m1 m 2 la variable

respuesta sufri una alteracin significativa; (ii) m1 m2 la variable respuesta aument con el
cambio del nivel 1 al nivel 2; y, (iii) m1 m2 la variable respuesta disminuy con el cambio del
nivel 1 al nivel 2. En general, (i) sirve para preguntar si un determinado proceso cambia con la
variable de entrada, (ii) y (iii) sirven para comparaciones comunes en procesos industriales de
control de calidad.

En general, los requerimientos y pasos para analizar los resultados de un diseo 21 son similares
a los de un diseo 11. Para las pruebas de hiptesis, el siguiente procedimiento general aplica:

(1) Identificar y formular las hiptesis a probar estadsticamente.

75

(2) Si se conocen las varianzas (12 y 22) de las poblaciones de las cuales se tomaron las muestras,
se emplea el estadstico z para probar las hiptesis sobre las medias poblacionales. En este caso,
y1 y 2 m1 m2
z0 (i.e. el valor z para los datos del experimento) se define como: z0 . En
12 22

n1 n2

esta ecuacin, es importante resaltar las siguientes implicaciones: (i) Si H0 es: m1 = m2,
y1 y 2
m1 m 2 0 y la ecuacin se simplifica a: z0 . (ii) Si por algn motivo, se sabe o
12 22

n1 n2

presume m1 m2, H0 se puede expresar en los siguientes trminos: m1 - m2 = 0 y

z0
y1 y2 0
. (iii) Ntese que este procedimiento sirve para obtener un nico valor de
12 22

n1 n2
z0, lo cual es consecuente con haber supuesto que ambas poblaciones pueden modelarse con el
mismo tipo de distribucin estadstica.

(3) Una vez determinado z0, se calcula el valor-p respectivo y se concluye sobre la significancia
estadstica de la diferencia entre las medias poblacionales. Cuando impera tomar una decisin se
opta por establecer a priori un valor del error tipo-I para rechazar H0.

(4) Si se desconocen 12 y 22, es necesario emplear estadstico t para los clculos. Existen dos
y1 y 2 0
instancias: (i) 12 = 22. Aqu, t , donde Sp es una varianza ponderada que se
1 1
Sp
n1 n2

(n1 1) S12 (n2 1) S 22


calcula con la ecuacin: S p . De aqu, es fcil ver los grados de
n 1 n2 2

libertad para el estadstico t, son = n1 + n2 2. (ii) Si, 12 22, el estadstico se calcula con

76

y1 y 2 0
la expresin: t . Los grados de libertad, se calculan usando:
S12 S 22

n1 n2
2
S12 S 22

n1 n2
2 2 .
S12 S 22
n n
1

2

n1 1 n2 1

Para determinar si se aplica 4.i o 4.ii, se hace con anterioridad la prueba de normalidad
comparando las pendientes de las curvas para saber si la varianza es constante o no. Una vez
calculado el valor del estadstico, se halla el valor-p y se concluye de acuerdo a lo que se halla
establecido como estadsticamente significativo. A continuacin, se presenta un ejemplo
ilustrativo de lo arriba expuesto.

Ejemplo de anlisis de resultados de experimentos 21


El trabajo de investigacin titulado: Sntesis y evaluacin de recubrimientos base fluoruro empleando
fuentes alternativas al HF sobre la aleacin Elektron 21 para la fabricacin de implantes ortopdicos
biodegradables de L. A. Rojas Flrez et al. (Ion 28 (2015) 7 21) estudia la resistencia a la
corrosin de materiales biocompatibles basados en aleaciones de Mg y modificados con
mezclas de HF-NaF (Mezclas Tipo-I) y H3PO4-NaF (Mezclas Tipo-II). Los
investigadores emplearon medidas electroqumicas para evaluar la resistencia a la corrosin.
En particular, se hicieron ensayos de polarizacin andica que sirvieron de base para extraer
la densidad de corriente de corrosin (icorr [=] A/cm2); uno de los parmetros que sirve de
base para evaluar la resistencia a la corrosin. En general, a mayores valores de icorr, ms
susceptible es el material a la corrosin. La siguiente tabla resume los resultados obtenidos
en el estudio citado:

77

Ejemplo de anlisis de resultados de experimentos 21


Los resultados de la Tabla demuestran claramente que el uso de las mezclas propuestas
aumenta la resistencia a la corrosin del material final. Sin embargo, se desea saber si las
mezclas Tipo-II; que estn elaboradas con compuestos menos peligrosos, presentan una
mejor resistencia a la corrosin.
Rta/Dadas las condiciones del problema, la variable de entrada estudiada fue el tipo de
Mezcla para recubrir el material base y la variable respuesta fue icorr . Las hiptesis a probar
son:
H 0 : micorr ,I micorr ,II y; H 1 : m icorr , II m icorr , I . Donde, micorr ,I y micorr ,II son las medias de los
tratamientos de los materiales con las mezclas Tipo-I y Tipo-II, respectivamente.
No se conocen las varianzas poblacionales. Por tanto, el estadstico de prueba a emplear es
t. Se debe determinar si es vlido asumir 12 = 22 (Caso 4.i). Para ello, se hacen las grficas
de normalidad de los datos correspondientes (ver pgina siguiente). A partir de estas curvas,
se puede concluir con seguridad que las varianzas de ambos grupos de datos no son iguales.
El lector no debe preocuparse por el pobre ajuste lineal que tengan las curvas presentadas,
ya que se trata de muestras muy pequeas (n1 = n2 = 4).

Curvas de normalidad para los datos reportados en el trabajo.


Considerando este resultado, se asume el Caso 4.ii (12 22) para la prueba de hiptesis
sobre la diferencia entre las medias.

78

Ejemplo de anlisis de resultados de experimentos 21

Los estadsticos de las muestras son: y1 1,46110-7 A/cm2; y 2 2,17810-7 A/cm2; S12

0,96510-14 A2/cm4 y S 22 3,00810-14 A2/cm4. Con estos valores, se calculan los grados
de libertad del estadstico de prueba t:
2
0,965 1014 3,008 1014

4 4
2 2 4,75. La costumbre en estos casos es
0,965 1014 3,008 1014
4 4

4 1 4 1
siempre redondear este valor al entero menor. De esta manera, 4.

El valor del estadstico de prueba (aqu, 0 = 0) t4


1,461 10 7
2,178 10 7
-
0,965 10 14 3,008 10 14

4 4
0,719. Por tanto, t -0,719. El valor-p se determina considerando la hiptesis alternativa:
H 1 : m icorr , II m icorr , I . De acuerdo a esto, se tiene una prueba de hiptesis de cola izquierda
que se representa esquemticamente as:

Prueba de hiptesis: H 0 : micorr ,I micorr , II ; y, H 1 : m icorr , II m icorr , I

Dado el valor-p obtenido, no se puede rechazar la hiptesis de que las mezclas Tipo-I
tienen mayor resistencia a la corrosin hasta valores del error tipo-I del 26%. Si el estndar
de aceptacin fijado para la hiptesis nula es 0,05, sta no puede rechazarse por ninguna
circunstancia.

79

Ejercicios sobre diseos 21


1. Las emisiones de CO2 por parte de vehculos automotores son vigiladas continuamente en
Europa. La Tabla siguiente muestra datos estadsticos anuales de emisiones de CO2 producidas
por automviles de las marcas ms exitosas del mercado.

Fuente: EEA Technical report No 19/2014, ISSN 1725-2237.


Teniendo en cuenta la informacin anterior, pruebe las siguientes hiptesis con base en la
construccin de diagramas de caja y bigotes:
(a) Las emisiones de CO2 estn aumentando anualmente.
(b) Todos los fabricantes de automviles producen autos con los mismos niveles de emisin
de CO2.
(c) Los fabricantes alemanes de automviles producen autos con menos emisiones de CO2
en comparacin con los fabricantes franceses y japoneses.
Pruebe las siguientes hiptesis conforme a los mtodos para diseos 21:
(d) Las emisiones de CO2 de todos los fabricantes disminuyeron entre 2012 y 2013.
(e) Las emisiones anuales de CO2 de Renault son superiores a las de Peugeot.
(f) En trminos de emisiones, da igual comprar un Audi que un Kia.
(g) Habra sido mejor comprar cualquiera de estos automviles en 2010 que en 2011.
2. Giraldo y Centeno (Catalysis Today 133135 (2008) 255260) estudiaron el efecto de la
adicin de boro a catalizadores bimetlicos Ni-MoS2 y Co- MoS2 soportados en almina (i.e.

80

sobre sus propiedades fisicoqumicas. En particular, los autores muestran datos de reas
superficiales de los materiales preparados, los cuales se presentan a continuacin:

(a) Probar la hiptesis que el boro afecta por igual ambos tipos de catalizadores.
(b) Si se requiere que la diferencia entre las medias poblacionales de las reas superficiales
de ambos tipos de catalizadores no sobrepase los 12 m2/g para su uso en reacciones de
hidropurificacin de combustibles fsiles; se pueden utilizar los catalizadores
preparados en la reaccin propuesta?

3. El trabajo de grado de Bermdez & Gonzlez (CICAT, 2017) presenta un primer estudio para
el diseo de un proceso de sntesis de nanopartculas Janus. Estas se definen como partculas
slidas funcionalizadas en su superficie de modo que poseen propiedades qumicas diferentes en
sus caras. El nombre Janus fue dado en honor al dios Romano de las puertas. El grfico a
continuacin es un esquema para representar a este tipo de partculas:


Tomadode:Tolosa, L. Emulsiones estabilizadas con partculas (emulsiones pickering), Escuela de ingeneria
quimica. Mrida: Universidad de los Andes. 2016, pg. 27.

Las autoras sintetizaron este tipo de nanopartculas usando slice funcionalizado con 3-Amino-
propil-tri-etoxi-silano -APTES- y analizaron su comportamiento como agente estabilizador de
emulsiones hexano-agua. Para la sntesis, debieron garantizar un tamao de las nanopartculas

81

de slice de ca. 50 nm. En sus ensayos, obtuvieron partculas con los siguientes tamaos (nm):
51,3; 51,3; 51,3; 51,2; 51,2; 50,5; 50,5; 50,5; 50,5; 49,9; 50,4; 50,4; 49,9; 49,9; 48,8; 48,8; 48,8;
48,8; 48,8; 48,8; 46,8; 46,8; 46,2; 45,7; 45,7. Determine si las autoras cumplieron con su
objetivo.

82

Construccin de intervalos de confianza en diseos 21


Tal como para los experimentos 11, los intervalos de confianza para experimentos 21 se
construyen respecto al postulado planteado con la hiptesis nula. Las reglas para su construccin
son las mismas, pero en este caso se considerar la diferencia entre las medias poblacionales. La

expresin correspondiente es: P ( y1 y 2 ) t y m1 m 2 ( y1 y 2 ) t y 1 .

Dependiendo del conocimiento que se tenga sobre las varianzas de las poblaciones estudiadas
(12 y 22) se calcula el intervalo de confianza respectivo. As, existen los mismos tres casos que
se describieron para las pruebas de hiptesis planteadas para este tipo de diseo experimental.

Diseos 21 con datos pareados (21D)

Un diseo 21D es una alternativa empleada cuando se desea evaluar un experimento que est en
correspondencia con otro. De esta manera, los datos recolectados se combinan en parejas y se
realizan pruebas de hiptesis sobre las diferencias entre estas parejas.

Procedimiento general para probar hiptesis en diseos 21D

En el anlisis estadstico de este tipo de diseos se considera un muestra constituida por pares
de datos ordenados (y11, y21), ,(y1j, y2j) con diferencias aritmticas: dj = y1j - y2j que se
distribuyen de acuerdo a una distribucin normal con media md. Las diferencias dj tienen una
1 n
media muestral: d d j .y una desviacin estndar muestral
n j 1
2
n n
d 2 1 d
j j
n j 1
Sd j 1 .
n 1

Se puede demostrar que md = m1 - m2. En consecuencia, la evaluacin estadstica de hiptesis


sobre la diferencia entre las medias poblacionales m1 y m2 se puede realizar de la siguiente manera:
H 0 : m d m 0 ; H 0 : m d m 0 ; o H 0 : m d m 0 . Donde, m0 puede ser un valor histrico (o
proveniente de un patrn) o simplemente cero. Los valores-p de las pruebas de hiptesis se
definen de la manera habitual (pg. 55).

Si la muestra recolectada es grande, las hiptesis pueden evaluarse con el estadstico de prueba:

83

d m0
z . Como es costumbre, a partir del valor del estadstico de prueba se calcula el valor-
Sd
n
d m0
p. Si la muestra es pequea, se usa: t ; donde, = n 1. Aqu, se puede notar que en
Sd
n
el diseo 21D se tienen solamente n 1 grados de libertad a partir de los 2n datos iniciales del
experimento. Esto hace que este tipo de diseo experimental sea menos sensible a detectar
cambios en la variable. Por otra parte, se puede considerar que el diseo 21D es un caso especial
de los diseos de una variable bloqueados. Esto debido a que al computar las diferencias entre
los datos pareados se puede estar bloqueando el efecto de una variable interferencia de modo
que su posible impacto en la variable respuesta se sustraiga del efecto de la variable respuesta
que se est investigando. A continuacin, se presenta un ejemplo ilustrativo.

Ejemplo de anlisis de resultados de experimentos 2D1 (Vuelve el caso del


investigador del CICAT)
Un joven investigador del CICAT-UIS obtuvo tres resultados, a su juicio, extraos, en sus
ensayos catalticos. Sorprendido, empez a cuestionar la fiabilidad de los experimentos
realizados. Una de las hiptesis que se plante fue que el catalizador; un slido con una
distribucin de tamao de grano entre 200 350 mm, estaba siendo arrastrado por la corriente
de productos lquidos a la salida del reactor de lecho fijo que empleaba. El lecho fijo del
reactor estaba compuesto del catalizador y de arena de cuarzo usada como diluyente para
garantizar flujo pistn y condiciones isotrmicas en el volumen del lecho. El investigador se
bas en las siguientes observaciones: (1) encontr un residuo negro en el lquido recuperado
de la reaccin; (2) la reduccin del tamao de grano del catalizador por compresin es muy
probable bajo las condiciones de sus experimentos; presin entre 25 45 atm, T = 200
260 C. Sin embargo, antes de investigar estas hiptesis, se le sugiri que determinara de
manera sistemtica la prdida de peso (g) de sus catalizadores durante cada uno de los ensayos
catalticos realizados y que analizara si de verdad haba habido un cambio estadstico
significativo en las medias de los ensayos. Para ello, consult en sus notas de laboratorio el
peso de catalizador inicial (wcati) y despus separ con cuidado la masa de los catalizadores
usados en la reaccin de la arena de cuarzo obteniendo as el pes los catalizadores gastados
en las reacciones (wcatf).

84

Ejemplo de anlisis de resultados de experimentos 2D1 (Vuelve el caso del


investigador del CICAT)
Los datos que obtuvo se resumen en la tabla siguiente:

Con base en los datos recopilados, determine si el cambio en el peso de los catalizadores
durante la reaccin est relacionado con las observaciones extraas del estudiante.

Rta/ La interrogante planteada se puede resolver mediante una prueba de hiptesis de


datos pareados. As, H 0 : m d 0 ; que implica que no ha habido un cambio significativo

en la media del cambio de peso del catalizador y H 1 : m d 0 que implica lo contrario. La


prueba de hiptesis es de dos colas. Dado que n < 30 y que no se conoce la varianza
poblacional, se emplea el estadstico de prueba t. La tabla siguiente recopila los valores dj
obtenidos a partir de: dj = wcat, ji - wcat, jf

Los estadsticos relevantes son:

1 n 1
d dj 8.038 ... 2.313 4.897 g.
n j 1 14

2
n n
d 2 1 d

j 1 j n j 1
j

Sd 1 8.038
2
... 2.3132
1
8.038 ... 2 2.119
n 1 13 14
g.
85

Ejemplo de anlisis de resultados de experimentos 2D1 (Vuelve el caso del


investigador del CICAT)

Con los valores anteriores, se calcula el estadstico de prueba, t, para el cual: = n 1


= 13.

d 4.897
t13 8.65.
Sd 2.119
n 14

Con este valor, usando la funcin de Excel: DISTR.T.2C(8.65, 13), se obtiene valor-p
9.4510-7. Con este valor-p, se puede aseverar con propiedad que la causa de los
resultados raros obtenidos por el investigador bien puede estar asociada a una prdida de
masa durante sus ensayos puesto que hay suficiente evidencia para rechazar la hiptesis
nula.

Ejercicios sobre diseos 2D1

1. Considere de nuevo los resultados del trabajo de investigacin titulado: Sntesis y evaluacin de
recubrimientos base fluoruro empleando fuentes alternativas al HF sobre la aleacin Elektron 21 para la
fabricacin de implantes ortopdicos biodegradables de L. A. Rojas Flrez et al. (Ion 28 (2015) 7 21)
analizados en el ejemplo ilustrativo de la pgina 74. En este caso, los autores analizaron la
diferencia entre los potenciales de corrosin por picadura (Epic [V]) y pasivacin (Ecorr [V])
como parmetro para evaluar la calidad de materiales preparados. Los resultados obtenidos
fueron:

Determine si los materiales preparados son una buena alternativa frente a la corrosin por
picadura sabiendo que entre ms baja sea la diferencia entre los potenciales medidos mucho ms
resistentes son a sta.

86

2. (Adaptado de: R.L. Manson et al., Statistical Design & Analysis of Experiments, 2nd
Ed., Wiley, 2003, pg. 101) Se quiere saber si existen diferencias significativas en las medidas
hematolgicas de un laboratorio en funcin del profesional que las realiza con el nimo de evitar
una posible interferencia en los resultados entregados a los pacientes. Durante el experimento,
se entregaron siete muestras de sangre a cada profesional para que las analizaran. Los resultados
obtenidos fueron:

Determine si los resultados del laboratorio son confiables o dependen de quin hace el anlisis.

87

CAPTULO V
DISEO DE EXPERIMENTOS DE UN FACTOR CON
MLTIPLES NIVELES: A 1
Qu es un Diseo de Experimentos de una variable multiniveles: A1?

En estudios cientficos y de ingeniera es usualmente de mayor inters conocer el efecto de una


variable evaluada a partir de ms de dos cambios en su valor. Cuando la variable de entrada
estudiada asume ms de dos valores durante una investigacin, se est frente a un diseo de
experimentos multiniveles; que en adelante denominaremos A1. Donde, A representa los niveles
(valores) que puede asumir la variable de entrada del diseo experimental. Formalmente, este
tipo de experimentacin s se denomina diseo experimental puesto que a diferencia de los casos
11 y 21 aqu el experimentador deliberadamente impone una serie de tratamientos; i.e. los niveles
de la variable de entrada, sobre el objeto o proceso estudiado, en lugar de solamente observar
los cambios de la variable respuesta. De all que los diseos 11 y 21 se consideren como estudios
observacionales.

Qu modelo estadstico se emplea para probar hiptesis en un Diseo A1?

Existen dos tipos principales de modelos estadsticos para Diseos A1. El primero es el llamado
modelo de medias. En l, las observaciones experimentales ( y i , j ) pueden describirse como la

suma de la media poblacional de la variable respuesta para cada nivel de la variable de entrada
(mi) ms el error aleatorio del experimento ( i, j ):

yi, j m i i, j .

Este modelo no se emplea usualmente. Se prefiere con mucha frecuencia el empleo del modelo
de efectos. En este, la media poblacional del experimento (m) se expresa como la suma de la
media poblacional de cada nivel de la variable de entrada ms el efecto de cada nivel sobre la
media poblacional del experimento (i), as: m m i i . De este modo, si un nivel i de la variable

de entrada no tiene efecto i 0 sobre la variable respuesta su media poblacional corresponde

a la media poblacional del experimento: m m i . El modelo de efectos corresponde entonces a:

yi, j m i i, j .

88

La base conceptual detrs de las pruebas de hiptesis de estos modelos se refiere a realizar
comparaciones de modo que se establezca si los grupos de datos estudiados pertenecen a una
misma poblacin. En este caso, los efectos de los cambios de nivel sobre la variable respuesta
son nulos y es por ello que todo el experimento se asocia a una nica poblacin con media m y

varianza 2 . Esta ltima es precisamente el error aleatorio.

Qu hiptesis se prueban en un Diseo A1?

De manera anloga a lo que se hizo para los diseos 21, se postulan una hiptesis nula y una
alternativa. Para un modelo de efectos fijos, estas corresponden a:

H 0 : 1 2 ... a 0

H 1 : i 0 , para algn nivel i.

En la prctica, estas hiptesis implican: Si H 0 no puede rechazarse: los cambios en los niveles
de la variable de entrada no ejercieron un efecto significativo en los resultados del experimento.
Si H 1 se cumple: algn cambio de nivel en la variable de entrada gener un efecto significativo
sobre la variable respuesta estudiada.

Estas hiptesis tambin son equivalentes a verificar si las respuestas generadas por los cambios
en la variable de entrada pertenecen a una nica poblacin.

Cmo analizar el efecto de la variable de entrada sobre la variable respuesta en Diseos


A1?

Para los diseos 21, se plante el uso de pruebas estadsticas con los estadsticos z y t para probar
hiptesis sobre el efecto de la variable de entrada sobre los resultados del experimento realizado.
Cuando se hacen experimentos multiniveles, estas pruebas dejan de ser convenientes porque: (i)
a!
habra que realizar pruebas z o t para probar las hiptesis que se generan al comparar
2!(a 2)!
3!
los a niveles de la variable. As, para un diseo 31, se deben hacer = = 3 pruebas de
2!(3 2)!
hiptesis sobre las diferencias entre cada nivel. (ii) Como consecuencia del aumento en el nmero
de pruebas de hiptesis a realizar, se incrementa la probabilidad de cometer un error tipo I. Por
ejemplo, para el mismo diseo 31 citado en (i), la probabilidad del error tipo I se incrementara

89

de un valor fijado = 0.05 a uno de acuerdo a la relacin = 1 0.953 = 1 0.857375 0.14.


Por lo anterior, se hace necesario el empleo de una herramienta diferente para el anlisis
estadstico de los resultados obtenidos en los diseos A1. Esta herramienta es el Anlisis de
Varianza o ANOVA; por su nombre en ingls Analysis of Variance.

Qu es el Anlisis de Varianza?

El Anlisis de Varianza es un procedimiento matemtico que permite probar hiptesis


estadsticas sobre el efecto de determinadas variables de entrada principales sobre una variable
respuesta determinada. Un ANOVA puede entonces considerarse como un detector de
efectos. Conceptualmente, el ANOVA compara el error aleatorio presente en las mediciones
experimentales con las variaciones de la variable respuesta producidas al cambiar los valores
(niveles) de la variable respuesta estudiada. El ANOVA posee un carcter general y en adelante
analizaremos su aplicacin no slo a diseos A1 sino tambin a diseos en los que intervienen
variables interferencia y mltiples variables de entrada. El grfico siguiente presenta el proceso
conceptual asociado a la comprobacin de hiptesis postuladas en una investigacin por medio
del Anlisis de Varianza.

Anlisis de
Varianza
Diseo
estadstico de
experimentos

Hiptesis Comparaciones estadsticas


< > ( )

Pregunta(s) de
investigacin

Respuestas a
hiptesis postuladas

Qu distribucin estadstica se emplea para un Anlisis de Varianza?

Como se dijo antes, el principio bsico para la realizacin de un ANOVA es que, si una variable
de entrada ejerce un efecto significativo sobre la variable respuesta estudiada, las variaciones
generadas por los cambios de nivel de la primera deben sobrepasar las variaciones generadas por

90

el error aleatorio del experimento. La definicin de cunto debe ser la diferencia entre los dos
trminos mencionados arriba depende del criterio del investigador. En la prctica, la medida de
estas variaciones corresponde al clculo de la varianza de los datos experimentales asociada a los
cambios de nivel de la variable de entrada dividido por la varianza generada por el error
experimental. Se puede demostrar matemticamente (ver, por ejemplo: (Montgomery & Runger
2014)) que el cociente anterior se distribuye de acuerdo a una funcin de distribucin de
probabilidad F de Fisher. Para una variable de entrada dada, se denotar a la varianza en
cuestin: MSVar-E mientras que la varianza del error experimental se representa como MSError.
Aqu, MS es la sigla en ingls para la denominada Media de la Suma de Cuadrados. Los MS
son los cocientes entre las sumas de cuadrados y los grados de libertad respectivos a la variable
SSVar E SS
de entrada y el error aleatorio: MSVar E y MS Error Error . El valor F derivado de
uVar E Error
MSVar E
los MS arriba descritos; Fu Var E , Error
, se calcula de acuerdo a la expresin: FuVar E , Error
MS Error
. Para el anlisis de varianza, se calcula entonces el valor del estadstico Fu Var E , Error y se compara

con la distribucin de probabilidad F de Fisher ya sea mediante el clculo de un valor F


equivalente asociado a un valor de probabilidad dado por el error tipo I que se asuma para la
prueba estadstica; Fu Var E , Error , , o calculando el valor-p que corresponde al estadstico Fu Var E , Error

. En el caso de las pruebas ANOVA, siempre se considera la cola derecha de distribucin de


probabilidad. En consideracin de lo anterior, para realizar un ANOVA hay que desarrollar
procedimientos para el clculo de los MS. Las ecuaciones derivadas de estos procedimientos
dependen directamente del diseo experimental implementado.

Cmo se calculan los MS para un diseo A1?

El clculo de los MS est fundamentado en un anlisis de las expresiones con las que se estima
la varianza muestral del diseo de experimentos realizados. En general, para todo diseo
experimental, siempre se puede calcular la variabilidad de los datos recolectados de acuerdo a
una suma total de cuadrados; SST, que mida la magnitud de la desviacin de cada valor de la
variable respuesta obtenido; yij (donde, i representa el nivel de la variable de entrada y j las
rplicas del diseo experimental), respecto al promedio de todas las medidas realizadas; y De
manera anloga a como se define la varianza muestral, SST se calcula con la expresin:

91

a n
SS T y ij y 2
. Donde, a es el nmero de niveles de la variable de entrada. Es decir,
i 1 j 1

se calcula la suma de cuadrados de la desviacin de cada punto experimental respecto al


promedio de todos los resultados experimentales. El punto clave del ANOVA radica en que SST
engloba todas las variaciones generadas durante el experimento y que estas variaciones son
aditivas (!). En consecuencia, SST puede descomponerse de acuerdo a las contribuciones de
la(s) variable(s) de entrada; SSVar-E, y la del error; SSError. De esta manera, para un diseo A1, SST
= SSVar-E + SSError. El desarrollo algebraico de la expresin para SST lleva a:
a n a a n 2

SS T yij y 2

n y i y y
2
ij
y . Aqu, el primer trmino es la
i 1 j 1 i 1 i 1 j 1

suma de cuadrados asociada a los cambios de nivel de la variable entrada. Donde, y i es el


promedio de los datos de cada nivel estudiado de la variable entrada y n es el nmero de rplicas
del diseo experimental. El segundo trmino es la suma de cuadrados asociada al error aleatorio
del experimento. Para la construccin del ANOVA se requiere desarrollar expresiones para
calcular estos dos trminos. Por otro lado, los grados de libertad asociados a cada suma de
cuadrados son:

Para SST, T N 1 , Donde, N es el nmero total de datos experimentales (ntese que esta
expresin es la misma que se tiene en la ecuacin para el clculo de la varianza muestral!).

Para SSVar-E, Var E a 1 .

Para SSError, Error N a . Note que: N a an 1

Es importante destacar que las definiciones de arriba llevan a la equivalencia:

a n 2 a n 2
a
y y
2
ij y n y i y ij y
i 1 j 1 i 1 i 1 j 1
, i.e. la varianza total del diseo
N 1 a 1 N a
experimental es la suma de la varianza de los cambios de nivel de la variable entrada ms la
varianza del error aleatorio.

Un desarrollo algebraico de las expresiones anteriores lleva a obtener expresiones simplificadas


para las sumas de cuadrados, as:

92

a n
y 2
SS T y i2, j . Aqu, y 2 es el cuadrado de la suma total de todas las observaciones
i 1 j 1 N

y 2
del diseo experimental. Al trmino: se le llamar en adelante Factor de Variacin (FV).
N

1 a 2
SSVar E yi , FV
n i 1

Finalmente, SSError. = SST - SSVar-E

Nota importante: Con excepcin de experimentos donde estn involucrados nmeros


complejos, las sumas de cuadrados no pueden dar valores negativos (!).

Procedimiento para el anlisis estadstico de resultados de experimentos A1 usando


ANOVA.
Una vez se planee y ejecute un diseo experimental A1, el procedimiento para analizar los datos
experimentales (valores de la variable respuesta) que de l resultan consiste en:
1. Escribir la expresin que corresponde al modelo estadstico sobre el cual se va a evaluar la
hiptesis que se est investigando. Se recomienda utilizar un modelo de efectos fijos.

yi, j m i i, j .
Donde, yi,j son los valores de la variable respuesta del experimento llevado a cabo; m es la media
poblacional del proceso; i es el efecto de los cambios de nivel de la variable principal; y, i, j

es el error aleatorio del experimento.


2. Plantear las hiptesis nula y alternativa del modelo postulado.
H 0 : 1 2 ... a 0 ; H 1 : i 0 , para algn i. La hiptesis nula implica que los cambios

hecho en la variable de entrada no afectaron la respuesta del experimento.


3. Organizar los resultados del experimento mediante una tabla de contingencia. A
continuacin, se presenta este tipo de Tabla:

93

Procedimiento para el anlisis estadstico de resultados de experimentos A1 usando


ANOVA.
Tabla de contingencia para los resultados de un diseo experimental A1.
Valores de la variable respuesta
(Observaciones experimentales) Sumas
Niveles de la variable de Promedios
entrada, i = 1, 2, ... , a Rplicas; j = 1, 2, ,n totales
1ra 2da nsima

1 y11 y12 y1n y1. y 1

2 y21 y22 y2n y2. y 2


a ya1 ya2 yan ya. y a

y y

n a n a
En la Tabla, y i y ij ; y y ij yi ; y i y i n ; y y N
j 1 i 1 j 1 i 1

y 2
4. Calcular FV =
N
5. Calcular las sumas de cuadrados: SST, SSVar-E y SSError.
6. Calcular los grados de libertad: T , Var E y Error
7. Calcular las medias de las sumas de cuadrados: MSVar-E y MSError
8. Calcular el valor F Var E , Error
.

9. En este punto, hay dos alternativas para juzgar estadsticamente la existencia de un efecto.
9.1 Calcular el valor-p asociado al valor F Var E , Error
obtenido. Para ello, se puede usar una Tabla

estadstica para la distribucin F de Fisher. En Excel, se puede usar la funcin:


DISTR.F.CD( F Var E , Error
; Var E ; Error ).

94

Procedimiento para el anlisis estadstico de resultados de experimentos A1 usando


ANOVA.
9.2 Fijar un valor para el error tipo I y con l determinar un valor de la funcin de distribucin
de probabilidad F; F crtico (Fcrt.= F ,u Var E , Error ). La prctica usual es emplear un = 0.05 (lo

que es equivalente a decir que existe una probabilidad de 1/20 de que la conclusin obtenida sea
incorrecta). En Excel, F ,u Var E , Error se calcula con la funcin INV.F.CD(, Var E , Error ). Para

llegar a una conclusin, se comparan Fu Var E , Error y Fcrt , si Fu Var E , Error > Fcrt, se acepta H 1 (i.e. los

cambios en la variable de entrada tienen un efecto estadsticamente significativo sobre la variable


respuesta). Caso contrario, Fu Var E , Error < Fcrt, no se puede rechazar H 0 .

De los dos procedimientos enunciados arriba, se recomienda usar el 9.1 debido a que el valor-p
calculado se puede emplear directamente como criterio de decisin. De hecho, este valor-p es el
error tipo I mximo que se podra usar para juzgar la existencia de un efecto de la variable de
entrada sobre la variable respuesta.

10. Concluir sobre la hiptesis postulada y escribir el modelo estadstico de acuerdo a esta
conclusin. Si no se puede rechazar H 0 , se tiene el modelo: y i , j m i , j . Si se acepta H 1 , se

tiene: y i , j m i i , j . Ntese que estos modelos son del tipo matricial.

95

Ejemplo: Anlisis de los resultados de un diseo A1


Los taninos son compuestos orgnicos que originalmente se emplearon en curtiembre de
pieles animales gracias a su alto poder oxidante. Esto ltimo se debe a que poseen mltiples
grupos hidroxilo:

Tomado de: http://naturalchemistry.utu.fi/research/tannin-and-polyphenol-chemistry/tannin-definition-and-structures/

A lo largo de los aos, los taninos han encontrado muchos otros usos como, por ejemplo: en
la manufactura de baldosas y tejas, la extraccin de petrleo y la fabricacin de dispersantes y
floculantes. Comnmente, los taninos se extraen de la corteza de los rboles. En el proceso
de extraccin se emplean solventes y otros agentes qumicos que se ponen en contacto con
las cortezas. En su bsqueda por nuevas oportunidades, un joven ingeniero de la UIS decidi
disear un proceso de extraccin de taninos cuyo diagrama de flujo se ilustra a continuacin:

En este diagrama, la corteza del rbol (F1) se pone en contacto con un solvente (F2) a
contracorriente de lo que resulta un residuo (F3) y un extracto de taninos (F4). La
concentracin de las corrientes viene dada en % peso. La composicin del residuo est en
base seca. La capacidad de la unidad es de 100 kg. De los compuestos presentes en la corteza,
la lignina se considera un inerte. Los datos suministrados en el diagrama se obtuvieron para
una primera demostracin de la unidad hecha con una corteza de pino. Para este ensayo, se
puede demostrar; haciendo un balance masa, que el porcentaje de recuperacin de taninos es
del 94.6%.
Ante los buenos resultados, el joven emprendedor decidi repetir el ensayo con la corteza de
pino y adems emplear cortezas de Caracol y Roble para evaluar el comportamiento del
proceso ante el cambio de materia prima. En general, se asumi que las composiciones de las
cortezas son similares.

96

Ejemplo: Anlisis de los resultados de un diseo A1


La siguiente tabla resume los resultados obtenidos en trminos del porcentaje de taninos del
residuo:

Tipo de corteza
Pino Caracol Roble
% taninos en residuos
0.92 0.82 0.97
0.90 0.87 0.95
0.91 0.83 0.93
0.89 0.85 0.96

Determine si hay un efecto significativo del tipo de corteza en el porcentaje de recuperacin


de taninos referidos a F4.
Rta/De manera estricta, se requiere transformar los datos presentados en la tabla para que
correspondan a la corriente donde sale el extracto de taninos: F4. Para esto, se usa el hecho
que la masa total procesada por la unidad es 100 kg; i.e., F1 = 100 kg. De all, se deriva que
entran a la unidad 12.6 kg de taninos. Tambin, de esta corriente se sabe que la masa de lignina
que entra a la unidad es de 73.3 kg. La lignina se recupera en su totalidad en el residuo;
corriente F3. La composicin de F3 en base seca se conoce y se sabe que los 73.3 kg de lignina
que contiene corresponden al 98.63% de la misma. Por tanto, la masa total en la corriente F3
es: 73.3 kg/0.9863 = 74.32 kg. De all, se sabe que en este caso la masa de taninos en el residuo
es 0.70 kg. Por diferencia, entonces, la masa de taninos recuperada en el extracto F4 = 12.6 kg
0.70 kg = 11.9 kg. Esto corresponde a un porcentaje de recuperacin = 100(11.9/12.9) =
94.6%. El procedimiento anterior se puede resumir en la siguiente Tabla:

Baseseca
Componente F3(composicin%) F1 (masa,kg) F3(masa,kg) F4(masa,kg) %Recuperacin
Solubles 0,45 8,3 0,3
Taninos 0,92 12,6 0,7 11,90 94,60
Humedad 5,8 ---
Lignina 98,63 73,3 73,3
Total:74,3
La anterior tabla se hace en programa en Excel para transformar todos los datos suministrados
as:

97

Ejemplo: Anlisis de los resultados de un diseo A1


La siguiente tabla resume los resultados obtenidos en trminos del porcentaje de taninos del
residuo:
Tipodecorteza
%Recuperacindetaninos
Pino Caracol Roble
94,6 95,2 94,3
94,7 94,9 94,4
94,6 95,1 94,5
94,8 95,0 94,3
Respuesta: Antes de proceder a realizar un ANOVA sobre este conjunto de datos, es
recomendable hacer un diagrama de Caja y Bigotes para tener una idea de los cambios entre
ellos. El diagrama correspondiente es:
95,4

95,2
%Recuperacin de taninos (F4)

95,0

94,8

94,6

94,4

94,2

94,0

93,8
Pino Caracol Roble
Tipo de corteza

A partir de la figura, se aprecia que usar corteza de Caracol resulta en un mayor porcentaje
de recuperacin de taninos en el proceso. Adems, la corteza de Roble conlleva a un menor
porcentaje de recuperacin de taninos. Adems, la uniformidad de las cajas del diagrama
sugiere fuertemente que las diferencias observadas son estadsticamente significativas. Por
tanto, se esperara que una prueba ANOVA de este conjunto de datos produzca un valor-p
indicativo de la existencia de diferencias significativas entre los porcentajes de recuperacin
de taninos a partir de los tres tipos de corteza estudiados. A continuacin, se presenta el
desarrollo de la prueba ANOVA.

98

Ejemplo: Anlisis de los resultados de un diseo A1


Los pasos para llevar a cabo la prueba ANOVA son:

1. Escribir un modelo estadstico de los datos a estudiar.

y i , j m % R tan icorteza i , j
El modelo expresa que el porcentaje de recuperacin de taninos puede representarse mediante
la media poblacional del porcentaje de recuperacin: m % R tan , ms la contribucin de los
posibles efectos generados por el cambio del tipo de corteza de rbol usado en el proceso:
icorteza , ms el error aleatorio inherente a las medidas realizadas: i, j . Sobre este ltimo, se
har necesario comprobar el supuesto de varianza constante.
2. Las hiptesis nula y alternativa del modelo son respectivamente:
H 0 : 1Pino 2Caracol 3Roble 0 ;

H 1 : iCorteza 0 , para algn i.

La hiptesis nula expresa entonces que el tipo de corteza empleada no afecta el porcentaje
de recuperacin de taninos, mientras que la alternativa postula que por lo menos un tipo de
corteza cambia la variable respuesta.
3. Se elabora la siguiente tabla de contingencia:
%Recuperacin de taninos Sumas
Tipo de Rplicas Promedios
corteza 1ra 2da 3ra 4ta totales

Pino y11 = 94.6 y12 = 94.7 y13 = 94.6 y14 = 94.8 y1. = 378.7 y 1 =94.7

Caracol y21 = 95.2 y22 = 94.9 y23 = 95.1 y24 = 95.0 y2. = 380.1 y 2 = 95.0

Roble y31 = 94.3 y32 = 94.4 y33 = 94.5 y34 = 94.3 y2. = 377.5 y 2 = 94.4

Totales y = 1136.3 y = 94.7

y 2
4. FV = = (1136.3)2/12 107600.03.
N

99

Ejemplo: Anlisis de los resultados de un diseo A1


5. Sumas de cuadrados:
a n
SS T y i2, j FV = (94.6) 2 (94.7) 2 (94.6) 2 (94.8) 2 ... (94.3) 2 107600.03
i 1 j 1

SST 0.963;
1
SSVar E
1 a 2

n i 1 4
2
2
2
y i , FV = 378.7 380.1 377.5 107600.03 0.862.

En consecuencia:
SSError. SST - SSVar E 0.963 - 0.862 0.101.
6. Los grados de libertad son:
T = N 1 = 12 1 = 11; Var E = a 1 = 2; y Error = T Var E = 11 2 = 9.
7. Las medias de las sumas de cuadrados son:
SSVar E 0.862
MSVar-E = 0.431
Var E 2

SS Error 0.101
MSError = 0.011
Error 9

8. El valor F Var E , Error


.es:

MS Var E 0.431
FVar E , Error 38.45
MS Error 0.011

El valor-p asociado a FVar E , Error es: 3.9 10-5. Este valor es mucho menor que, por ejemplo,

= 0.01 y por tanto se concluye que existe suficiente evidencia para rechazar H0. Desde el
punto de vista prctico, se concluye que el tipo de corteza s tiene un efecto significativo sobre
el porcentaje de recuperacin de taninos del proceso desarrollado por el joven investigador.
Nota: Un anlisis de varianza aplicado a los datos originales debe llevar a la misma
conclusin. Se recomienda al lector comprobarlo.

100

Qu pasa si el nmero de rplicas del diseo A1 no es homogneo?


En caso que el nmero de rplicas de un diseo A1 no sea homogneo; i.e. no todos los niveles
del diseo tienen el mismo nmero de rplicas, las expresiones para el ANOVA siguen siendo
vlidas y solamente se altera aquella que corresponde a la suma de cuadrados de la variable de
entrada estudiada:

a y i2,
SSVar E FV
i 1 ni

Anlisis adicionales de datos derivados de diseos A1: comprobacin de los supuestos


de normalidad y varianza constante
El Anlisis de Varianza de un diseo experimental prueba las hiptesis hechas sobre el modelo
estadstico que representa los datos obtenidos durante el experimento: y i , j m i i , j . La

formulacin formal de este modelo asume dos supuestos fundamentales sobre los errores: i, j .

Se supone que los errores se distribuyen de manera independiente y de acuerdo a una


distribucin normal de probabilidad y que esta distribucin tiene media cero y varianza
constante; aunque desconocida, N(m = 0, 2 = constante). El cumplimiento de estos dos
supuestos garantiza que el Anlisis de Varianza sea una prueba exacta de la hiptesis nula
formulada para el experimento. Debido a lo anterior, es muy prudente siempre verificar la
veracidad de estos supuestos.

Una de las mejores alternativas para comprobar los supuestos de normalidad, independencia
y varianza constante de los errores del modelo es el anlisis de los residuales del modelo
(ei,j). Estos ltimos se definen como la diferencia entre las observaciones experimentales ( y i , j )

y las predicciones de estas observaciones obtenidas a partir del modelo estadstico ( y i , j ). i.e.,

ei , j y i , j y i , j .

Ntese que, dada esta definicin, los residuales pueden ser positivos o negativos y
que hay un valor por cada dato experimental que se obtenga en el experimento.

Los valores de las predicciones del modelo se pueden calcular asumiendo que la media
poblacional del modelo se puede estimar a partir del promedio global de los datos; as,

m m y . Por otro lado, los efectos sobre la variable respuesta de los experimentos debidos

101

a los cambios de nivel de la variable de entrada se estiman como la diferencia entre los promedios

de cada nivel y el promedio global, i.e., i , j i , j y i y . Teniendo en cuenta estas dos

expresiones, se asume que las predicciones de modelo corresponden a las contribuciones de los

estimadores de la media global y los efectos: y i , j m i , j . Sustituyendo en esta expresin los

valores de los promedios asociados a los estimadores de los parmetros estadsticos se llega a la
conclusin que el modelo estadstico de un diseo A1 predice que los valores de la variable
respuesta estn dados por el promedio de cada nivel de la variable de entrada al que pertenece,

i.e., y i , j y i . En consecuencia, los valores de los residuales para un diseo A1 se calculan con

la expresin: ei , j y i , j y i .

Existen varios mtodos para comprobar los supuestos de normalidad, independencia y varianza
constante de los errores del modelo. Entre ellos, los ms empleados son de tipo grfico.

Por un lado, los supuestos de normalidad y varianza constante de los errores se pueden verificar
haciendo un histograma de los residuales. Si los residuales se ajustan a una distribucin N(0,2),
el histograma debe parecerse a uno obtenido a partir de una muestra de una distribucin normal
centrada en m = 0. La desventaja de este mtodo es que es poco aplicable a muestras pequeas.
Como alternativa, se puede elaborar un grfico de normalidad de los residuales de acuerdo
a los procedimientos descritos antes (Ver pginas 40-42). En este caso, se graficaran los valores
de zi,j en funcin de ei,j y se esperara observar un comportamiento lineal si se cumple el supuesto
de normalidad.

Por otro lado, el mtodo ms rpido para determinar si se cumple el supuesto de


independencia de los errores es graficar los residuales en funcin del tiempo; tomando el
tiempo como el orden en el que se ejecutaron los experimentos. La grfica obtenida no debe
tener una estructura definida. Por ejemplo, si se encuentra una evolucin de los valores de los
residuales de valores negativos a positivos o viceversa o si todos los residuales tienen el mismo
signo o si hay zonas de la grfica donde se nota una mayor dispersin de los puntos graficados,
hay serias indicaciones de una violacin del supuesto de independencia de los errores. En general,
esta grfica debe tener aspecto aleatorio.

Los comportamientos descritos como anmalos para la grfica de comprobacin del supuesto
de independencia de los errores tambin son una primera indicacin de la violacin del

102

supuesto de varianza constante de los errores. Para asegurar el cumplimento del supuesto de
varianza constante, se puede elaborar un grfico de los residuales en funcin de los valores

predichos por el modelo estadstico: ei , j vs. y i , j . Recordar que: y i , j y i . Como en el caso de

la comprobacin del supuesto de independencia de los errores, esta grfica no debe tener una
tendencia definida y los puntos representados deben distribuirse de manera aleatoria.

Ejemplo de comprobacin de supuestos del modelo de un diseo A1


Analice el cumplimiento de los supuestos de normalidad, independencia y varianza constante
para los datos del diseo A1 presentado en la pgina 96:

Tipo de corteza
Pino Caracol Roble
% Recuperacin de taninos
94.57 95.17 94.28
94.69 94.87 94.39
94.63 95.11 94.51
94.75 94.99 94.34
Respuesta:
El modelo estadstico de los datos presentados corresponde a: yi , j m% R tan icorteza i , j .
Los resultados del ANOVA mostraron que icorteza 0 . Por tanto, el trmino ligado al efecto
del tipo de corteza en el porcentaje de recuperacin de taninos debe tenerse en cuenta para el
clculo de los residuales. Los residuales se pueden calcular de acuerdo a la expresin:
ei , j y i , j y i . Los valores y i , j corresponden a los resultados del experimento, mientras
que y i representa el promedio de los resultados de cada nivel del experimento. De este
modo, los residuales son:
e11 = 94.57 94.66 = -0.09; e12 = 94.69 94.66 = 0.03; e13 = 94.63 94.66 = -0.03; e14 = 94.75
94.66 = 0.09;
e21 = 95.17 95.04 = 0.13; e22 = 94.87 95.04 = -0.17; e23 = 95.11 95.04 = 0.07; e24 = 94.99
95.04 = -0.05.
e31 = 94.28 94.38 = -0.10; e32 = 94.39 94.38 = 0.01; e33 = 94.51 94.38 = 0.13; e34 = 94.34
94.38 = -0.04.

103

Ejemplo de comprobacin de supuestos del modelo de un diseo A1


Con estos datos, se prepara una tabla para una prueba de normalidad de acuerdo a los
procedimientos presentados en la Pgina 41. La tabla se presenta a continuacin:

La grfica de normalidad correspondiente es:

2,00

1,50

1,00

0,50
zk

0,00

-0,50

-1,00

-1,50

-2,00
-0,20 -0,15 -0,10 -0,05 0,00 0,05 0,10 0,15
Residuales: eij
Para comprobar el supuesto de independencia del error aleatorio, se debe conocer el orden
de ejecucin de los experimentos. De esta manera, se plantea la siguiente tabla reportada por
el experimentados:

104

Ejemplo de comprobacin de supuestos del modelo de un diseo A1


La grfica correspondiente es:
0,15

0,10

0,05

0,00
eij

-0,05

-0,10

-0,15

-0,20
0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00
Orden ejecucin de experimentos
En la grfica no se observa alguna tendencia particular, por lo cual se concluye que se
cumple el supuesto de independencia.

Finalmente, para comprobar el supuesto de varianza constante del error aleatorio, se


prepara una grfica de los residuales en funcin de los valores de la variable respuesta
predichos por el modelo. La tabla siguiente presenta los datos a graficar:

Con estos datos, se elabora la grfica correspondiente. La misma se presenta a


continuacin:
0,30

0,15
eij

0,00

-0,15

-0,30
94,20 94,40 94,60 94,80 95,00 95,20

105

Ejemplo de comprobacin de supuestos del modelo de un diseo A1


El grfico obtenido no muestra una tendencia particular (forma de trompeta, por ejemplo)
y en consecuencia se puede concluir que se cumple el supuesto de varianza constante del
error aleatorio del modelo.
En general, se concluye que los datos del diseo experimental cumplen con los
supuestos de normalidad, independencia y varianza constante del error.

Ejercicios

1. El aumento de emisiones de xidos de azufre y nitrgeno a la atmsfera debido a la


combustin de combustibles fsiles conlleva el conocido fenmeno de la lluvia cida. Este
problema fue primero reconocido en los pases desarrollados, pero en las ltimas dcadas se ha
hecho notorio tambin en pases como Colombia y otros considerados en vas de desarrollo.
Una manera (relativamente sencilla) de determinar si se est presentando lluvia cida en una
ciudad determinada consiste en establecer estaciones de recoleccin de agua lluvia en diferentes
zonas de la misma. En un estudio desarrollado en la Universidad de la Salle
(http://repository.lasalle.edu.co/bitstream/handle/10185/14127/T41.08%20C31d.pdf?sequence=1) sobre
la presencia de lluvia cida y su impacto en Bogot, se reportan los siguientes datos de pH de
agua lluvia recolectada en diferentes estaciones del sector de La Candelaria para los meses de
Febrero a Julio de 2008.

Valores mnimos de pH alcanzados por mes


Estacin Febrero Marzo Abril Mayo Junio Julio
A 5.7 4.6 4.8 4.7 6.7 5.3

B 5.6 4.4 5.4 5.0 6.9 5.3


C 6.1 4.5 5.0 4.6 6.6 5.3

D 4.6 4.7 4.8 5.5 6.4 5.7


E 5.5 4.7 4.7 5.1 6.1 5.9
F 4.6 4.4 4.7 4.6 6.1 5.3

Asumiendo que los datos presentados corresponden a un diseo experimental A1; donde las
estaciones pueden considerarse rplicas del experimento, y que el criterio para determinar la
presencia de lluvia cida corresponde a que sta tenga un pH promedio menor a 5.6, decida
sobre el efecto del mes del ao sobre la presencia de lluvia cida.

106

2. Teniendo en cuenta las epidemias de Zika y Chikungunya que se han presentado en el pas,
una compaa de insecticidas decide estudiar la eficiencia de tres nuevos productos para matar
mosquitos. Para ello, el ingeniero encargado, aplica los productos sobre 100 mosquitos durante
seis das y cuenta el nmero total de mosquitos aniquilados expresndolo en porcentaje. El
ingeniero decide esta estrategia experimental considerando la posibilidad que el da puede
interferir en el anlisis de sus resultados y desea, por tanto, aminorar el posible efecto de esta
variable que implica efectos que no puede controlar como: humedad diaria, temperatura,
intensidad del viento. Con las consideraciones arriba mencionadas, obtiene los siguientes
resultados:

No.Derplica(da)
Cdigodeproducto
1 2 3 4 5 6
MMM-01 70 58 66 74 55 68
MMM-02 61 70 59 58 67 50
MMM-03 53 68 69 70 57 53

Considerando la informacin suministrada, realice lo siguiente:


(i) Formule el modelo estadstico del diseo experimental presentado y las hiptesis
a demostrar.
(ii) Evale las hiptesis planteadas y reformule el modelo original considerando sus
conclusiones.
(iii) Pruebe los supuestos de normalidad y varianza constante del modelo.

3. El proceso Fischer-Tropsch (FT) consiste en un conjunto de reacciones qumicas que


transforman una mezcla de CO + H2 en hidrocarburos lquidos. El proceso fue desarrollado en
Alemania en 1925 y fue clave para los Nazis durante la Segunda Guerra Mundial pues lo usaron
para contrarrestar el desabastecimiento de combustibles producto del embargo de los aliados. A
lo largo de la historia, el proceso FT ha recibido atencin intermitente por parte de la industria.
En particular, debido a la abundancia de recursos petroleros. Sin embargo, este proceso sigue
siendo relevante para la industria y la academia (ver: http://www.fischer-tropsch.org/) pues
constituye una alternativa frente a los combustibles fsiles. La sntesis FT se realiza sobre
catalizadores basados en nanopartculas metlicas de cobalto, hierro o rutenio. Una de las
propiedades cruciales de los catalizadores en este caso es el tamao de partcula del metal.

107

Pour et al. reportan (Chin J Catal 36 (2015) 13721378) un estudio sobre el efecto del tamao
de partcula en la cintica de reaccin del proceso Fischer-Tropsch efectuado en catalizadores
de Co. Para ello, los autores realizaron la preparacin de dos grupos de catalizadores de
nanopartculas de Co soportadas en nanotubos de carbono por dos mtodos de preparacin
distintos. Paso seguido, determinaron los tamaos de partcula del Co y procedieron a hacer
pruebas catalticas a 493 K y 508 K, 20 bar, relacin molar H2/CO = 2, y una velocidad espacial
de 2.4 Nl/(gcath). Una seleccin de los resultados del estudio de estos autores se presenta a
continuacin:

Aqu, dcat representa el tamao de partcula del Co y kFTS representa la constate cintica de
reaccin calculada a partir los experimentos catalticos.

Considerando que el objetivo del estudio de Pour et al. fue analizar el efecto del tamao de
partcula en la cintica de la reaccin de FT, realice el siguiente anlisis estadstico de los
resultados presentados por los autores, considerando que los cambios en temperatura del
proceso son una manera de replicar los experimentos:

1. Elabore un diagrama de cajas que ilustre si hay una dependencia de la constante cintica
de reaccin con el tamao de partcula.
2. Formule un modelo correspondiente al posible efecto de dcat sobre kFTS y postule las
hiptesis a probar sobre este modelo.
3. Compruebe la hiptesis de que el dimetro de partcula tiene influencia sobre kFTS
cataltico mediante una prueba ANOVA.
4. Compruebe los supuestos de normalidad, independencia y varianza constante del error
aleatorio del modelo. Para el supuesto de independencia, asuma que los experimentos se
ejecutaron en el orden en el que se reportan en la tabla de resultados, empezando por el
realizado con partculas de dcat = 12.4 nm y 493 K.

108

4. En el artculo: Adsorption Equilibrium of Methane, Carbon Dioxide, and Nitrogen on Zeolite 13X at
High Pressures (J. Chem. Eng. Data 2004, 49, 1095-1101), Cavenati et al. investigaron la adsorcin
a alta presin de metano sobre una zeolita 13X. El trabajo de los autores tuvo como fin ltimo
disear un proceso de purificacin del gas natural para su uso como combustible vehicular y en
plantas generadoras de energa. Uno de los criterios de calidad del gas natural es el contenido de
impurezas como CO2 y el N2. Los contenidos de estos gases no deberan superar el 2 y el 4%,
respectivamente, para su transporte en tuberas. En particular, el CO2 es responsable de la
corrosin de tuberas y equipos industriales. Como alternativa de purificacin del metano, los
autores realizaron la adsorcin de este gas en adsorbentes tipo zeolitas. La Tabla a continuacin
(tomada del artculo original) muestra datos experimentales de la adsorcin de metano en
equilibrio para una zeolita 13X a 298, 308 y 323K.

En la Tabla, q es la cantidad de metano adsorbida. Realice un anlisis estadstico completo de los


datos presentados considerando que se trata de un diseo A1 y determine si la temperatura tiene
una influencia significativa en la cantidad de metano adsorbida por la zeolita. Recuerde verificar
los supuestos del error aleatorio del modelo.

109

CAPTULO VI
DISEO DE EXPERIMENTOS DE UN FACTOR CON
1
BLOQUEO DE UNA VARIABLE INTERFERENCIA: A[ B ]
La tcnica del bloqueo en el diseo de experimentos

Una de las tcnicas ms importantes y tiles del Diseo Estadstico de Experimentos es el


bloqueo. El bloqueo se emplea para eliminar la variabilidad causada por una variable
interferencia en los resultados de la experimentacin llevada a cabo, con la condicin que la
variable interferencia sea conocida y controlable. Normalmente, la variable interferencia
bloqueada es de tipo cualitativo; e.g. lote de produccin y origen de una materia prima, operario
o experimentador, marca de instrumento de medida, etc. Los diseos de experimentos de un
factor (principal) en los cuales se bloquea el efecto de una variable interferencia se denominan
Diseos de Bloques; que aqu llamaremos A[1B ] . En esta notacin, A se refiere al nmero de

niveles de la variable principal, el exponente 1 se refiere a una variable principal y [B] se refiere
al nmero de niveles; i.e. bloques, de la variable interferencia del diseo. En general, un diseo
A[1B ] representa un experimento o proceso cuyo diagrama de flujo es:

Experimento o Variable(s)respuesta
Variableprincipal, proceso
a niveles
Variableinterferencia,
b niveles

Anlisis de experimentos A[1B ]

Como sugiere Montgomery, un experimento A[1B ] puede verse como un arreglo donde cada

nivel de la variable interferencia es un bloque, as:

Bloque 1 Bloque 2 Bloque b

y11 y12 y1b


y21 y22 y2b
. . .
. . .
. . .
ya1 ya2 yab

110

Un diseo de experimentos como el ilustrado arriba se denomina tambin: diseo de bloques


completos al azar (RCBD, por sus siglas en ingls). En l, se ejecuta el mismo nmero de
experimentos en cada bloque. Una ventaja del Diseo A[1B ] es que, aunque la variabilidad entre

los resultados obtenidos entre bloques sea grande, la variabilidad dentro de los resultados de
cada bloque, i.e., la generada por los cambios de nivel de la variable de entrada principal, puede
ser relativamente baja. De hecho, es esta ltima variabilidad la que interesa desde el punto de
vista del anlisis de resultados puesto que se refiere al cambio que puede inducir la variable de
entrada principal del experimento sobre la variable respuesta. En contraste, la variabilidad
inducida por la variable interferencia bloqueada desea removerse del anlisis de resultados.

Un diseo A[1B ] se puede considerar anlogo a uno A1, donde cada nivel de la variable

interferencia o bloque es una rplica de este ltimo. Por esta razn, se puede generar una
restriccin en la aleatorizacin del experimento y ello limita el alcance del anlisis estadstico
realizado sobre la variable respuesta considerada. Esta restriccin concierne, de manera especial,
el uso formal del estadstico de prueba F calculado para los bloques durante el ANOVA.

Procedimiento para el anlisis estadstico de resultados de experimentos A[1B ]


usando ANOVA.

El procedimiento para realizar un ANOVA de los resultados de un diseo A[1B ] es anlogo

al descrito para un diseo A1 (Pginas 93 94), pero incluye la sustraccin de la variabilidad


generada por la variable interferencia del error aleatorio del experimento. Los pasos a seguir
son:
1. Escribir el modelo estadstico del diseo A[1B ] ; que es una extensin del modelo de efectos

fijos formulado para el diseo A1: y i , j m i j i , j .

Donde, yi,,j representa la variable respuesta a analizar, m es la media poblacional del proceso,
i es el efecto de los cambios de nivel de la variable principal, j es el efecto de los bloques
hechos con la variable interferencia y i, j es el error aleatorio del proceso estudiado.

Importante: al comparar el modelo anterior con el del diseo A1, el lector podr notar que el
del A[1B ] es una expansin lineal del ltimo. Visto de otro modo, y como se mencion antes,

se est sustrayendo el efecto de la variable interferencia bloqueada del error aleatorio del
experimento. 111

Procedimiento para el anlisis estadstico de resultados de experimentos A[1B ]


usando ANOVA.
2. Plantear las hiptesis nula y alternativa del modelo postulado.
H 0 : 1 2 ... a 0 ; H 1 : i 0 , para algn i.

Aunque se podran plantear estas mismas hiptesis para la variable interferencia, la


restriccin en la aleatorizacin de los bloques no permite la aplicacin rigurosa del
estadstico F para probarlas y por tanto estas se hacen innecesarias.
3. La tabla de contingencia de un diseo A[1B ] es:

Niveles de la Valores de la variable respuesta (Observaciones


experimentales) Sumas Promedios
variable de entrada
principal, i = 1, 2, ... Bloques; j = 1, 2, ,b tratamientos* tratamientos
,a 1 2 b

1 y11 y12 y1b y1. y 1

2 y21 y22 y2b y2. y 2


a ya1 ya2 yab ya. y a

Sumas de bloques y.1 y.2 y.b



Promedios de
y 1 y 2 y b
bloques

Totales y y
*Tratamientos = niveles de la variable de entrada principal
b a a n a b
En la Tabla, y i y ij ; y j y ij ; y y ij = y i y j ; y i y i b ;
i 1 i 1 i 1 j 1 i 1 j 1

y j y j a y y N

112

Procedimiento para el anlisis estadstico de resultados de experimentos A[1B ]


usando ANOVA.

y 2
4. Calcular FV = (paso igual al realizado para el diseo A1)
N
5. Calcular las sumas de cuadrados del diseo:
Siguiendo el principio que la variabilidad aportada por la variable interferencia se puede
sustraer de la del error aleatorio se tiene la igualdad: SST = SSVar-E + SSVar-Int + SSError.
Donde, SSVar-Int es la suma de cuadrados de la variable interferencia o bloques.
Las expresiones correspondientes son:
a n a
1 a 2 1
SS T y i2, j FV ; SSVar E
2
y i FV ; SSVar Int y j FV .
i 1 j 1 b i 1 a j 1
a a
El lector puede notar que los denominadores delante de las sumatorias y 2
i
y y 2
j
i 1 i 1

de SSVar-E y SSVar-Int , respectivamente, estn intercambiados respecto a los niveles de la


variable principal e interferencia; i.e, a para SSVar-Int y b para SSVar-E.
Finalmente, para la suma de cuadrados del error, SSError = SST - SSVar-E - SSVar-Int.
6. Calcular los grados de libertad: T , Var E , Var Int y Error .
De manera anloga a las sumas de cuadrados, los grados de libertad del diseo experimental
cumplen la igualdad: T Var E Var Int Error .
Donde, T (grados de libertad totales del experimento) equivale al nmero total de datos

menos uno: N 1; Var E (grados de libertad de la variable de entrada principal) equivale al

total de niveles de la variable menos uno: a 1; Var Int (grados de libertad de la variable

interferencia) equivale al total de bloques menos uno: b 1; y, Error (grados de libertad del

error) corresponde a la diferencia: Error T Var E Var Int . Se puede demostrar

fcilmente que esta expresin es igual a: Error (a 1)(b 1) .


7. Calcular los promedios de las sumas de cuadrados: MSVar-E, MSVar-Int y MSError. Donde, las
anteriores son la media de la suma de cuadrados de la variable principal, la suma de cuadrados
de la variable interferencia y la suma de cuadrados del error, respectivamente.

113

Procedimiento para el anlisis estadstico de resultados de experimentos A[1B ]


usando ANOVA.

SSVar E SSVar Int SS Error


En particular, MSVar E , MSVar Int ; y, MS Error .
Var E Var Int Error
Ntese que el promedio de la suma de cuadrados del error aleatorio ser menor dada la
sustraccin del efecto de la variable interferencia!
8. Calcular el valor del estadstico F para la variable principal: FVar E , Error mediante la

expresin:
MS Var E
FVar E , Error .
MS Error

9. Calcular el valor-p asociado a FVar E , Error o fijar un valor para el error tipo I y con l evaluar

Fcrt.= F , Var E , Error


.

10. Concluir sobre la hiptesis postulada para la variable principal y escribir el modelo
estadstico de acuerdo a esta conclusin. Si no se puede rechazar H 0 , se tiene el modelo:

yi , j m j i , j Si se acepta H 1 , se tiene: y i , j m i j i , j .

11. Aunque el efecto de una variable interferencia de un modelo A[1B ] no se juzga a travs de

una prueba de hiptesis, s es muy recomendable calcular la relacin MS Var Int durante el
MS Error

ANOVA. Si esta relacin es grande; podra ser incluso ms grande que FVar E , Error , el

experimentador debe examinar con ms cuidado la naturaleza de la variable interferencia y


buscar estrategias para aminorar su impacto en las medidas experimentales. Este tipo de
problemtica es tpica del desarrollo de protocolos de estandarizacin de pruebas de
laboratorio y controles de calidad.
12. Siempre se deben comprobar los supuestos del modelo estadstico que se prueba
mediante el ANOVA, por tanto, se deben elaborar grficos de los residuales similares a los
propuestos para un diseo A1: z k vs. ei , j (supuesto de normalidad), ei , j vs. Orden de

ejecucin de los experimentos (supuesto de independencia), ei , j vs. yi .y ei , j vs. y j

.(supuesto de varianza constante).

114

Procedimiento para el anlisis estadstico de resultados de experimentos A[1B ]


usando ANOVA.

Por ltimo, es aconsejable hacer un de ei , j vs. y i , j en la cual si se detecta un patrn se

presume la existencia de interacciones entre las variables estudiadas. Los aspectos


relacionados con las interacciones se abordarn en los captulos referentes a los diseos
factoriales. Por el momento, cabe decir que su deteccin llama a reflexionar sobre la
naturaleza de las variables envueltas en el diseo experimental y el planteamiento del
problema de investigacin abordado.

Antes de presentar un ejemplo ilustrativo del anlisis de datos obtenidos mediante un diseo
experimental A[1B ] es necesario advertir al lector de la importancia de la aleatorizacin en la toma

de muestras del experimento. Primero, todos los experimentos deben planeados y programados
antes de su ejecucin. Durante esta ltima, se requiere que cada bloque experimental se ejecute
de manera independiente. Esto implica, por ejemplo, que, si un mismo instrumento de medida
se emplea para todos los experimentos, este se use siempre bajo las mismas condiciones.
Suponer, por ejemplo, que en los experimentos interviene un horno; si para el primer
experimento el horno se emple llevndolo desde temperatura ambiente a la temperatura
experimental, siempre se debera seguir el protocolo para todos los ensayos; i.e. arrancar la
operacin del horno desde la temperatura ambiente.

Ejemplo de ANOVA para un diseo A[1B ]


Uno de los retos de la Ingeniera moderna es el control del ciclo del nitrgeno (ver:
http://www.engineeringchallenges.org/challenges/nitrogen.aspx). La razn para ello es que
el nitrgeno hace parte integral de los ciclos de vida en el planeta y toca directamente las
actividades humanas ligadas a la agricultura y la contaminacin atmosfrica. Por tanto,
diversos investigadores han comenzado en tpicos relacionados con este tema. En el caso
de Shi et al. (Fourth International Conference on Agro-Geoinformatics (Agro-
geoinformatics), 2015, pgs. 261 264, DOI: 10.1109/Agro-Geoinformatics.2015.7248112),
estos investigadores evaluaron los niveles de nitrgeno (kgha) en cultivos de arroz en China
con un sensor denominado Crop Circle ACS-470(CC-470). Los autores emplearon un diseo
A[1B ] donde la variable de entrada principal fue la estrategia de suministro de nitrgeno a dos
variedades de arroz.

115

Ejemplo de ANOVA para un diseo A[1B ]


Se usaron cuatro estrategias de suministro, marcadas aqu como A, B, C y D. La variable
respuesta de los experimentos fue la cantidad de nitrgeno retenida (kg/ha) por los cultivos
en edad madura. Los resultados se presentan a continuacin:

Variedad de arroz (VA)


Estrategia de
suministro de
Longjing31 Longjing21
nitrgeno (ESN)
Cantidad de nitrgeno retenida (kg/ha)

A 79.02 90.76
B 146.94 127.26
C 134.87 132.61
D 131.79 148.74
Analice los resultados del experimento realizado por Shi et al. y determine si las estrategias
de suministro de nitrgeno implementadas tuvieron un efecto en la cantidad de nitrgeno
retenida por los cultivos de arroz.
Respuesta
El diseo planteado tiene cuatro niveles para la variable de entrada principal (a = 4) y dos
para la variable interferencia (b = 2), es por tanto un diseo 41[ 2] . Para resolver la pregunta
planteada, se realizar el procedimiento para el ANOVA expuesto en las pginas 112-114.
1. El modelo de efectos fijos para este diseo experimental est dado por:
yi , j m Nret iESN VA
j i, j .

2. Las hiptesis a comprobar para este modelo son:


H 0 : AESN BESN CESN DESN 0 , i.e. el tratamiento no afecta la retencin de nitrgeno.
H 1 : iESN 0 , para algn i, i.e., por lo menos un tratamiento afecta la variable respuesta.

116

Ejemplo de ANOVA para un diseo A[1B ]


3. La tabla de contingencia es:

Variedaddearroz(VA)
Estrategiade
suministrode Sumas Promedios
Longjing31 Longjing21 tratamientos tratamientos
nitrgeno(ESN)
Cantidad de nitrgeno retenida (kg/ha)

A 79.02 90.76 169.78 84.89


B 146.94 127.26 274.20 137.10
C 134.87 132.61 267.48 133.74
D 131.79 148.74 280.53 140.27
Sumas de
492.62 499.37
bloques
Promedios de
226.56 227.00
bloques
Totales 992.00 124.00

992.00 2
4. Con los resultados de arriba, FV 123005.52
8

5. Las sumas de cuadrados son:


4 2
SS T y ij2 FV = (79.02) 2 (146.94) 2 (134.87) 2 .. (148.47) 2 123005.52
i 1 j 1
SST 4530.01;
1
SS ESN
1 a 2

b i 1 2
2 2 2 2

y i FV = 169.78 274.20 267.48 280.53 123005.52

SSESN 4121.24;
1
SSVA
1 b 2

a j 1
2 2

y j FV = 492.62 499.37 123005.52
4
SSVA 5.70;
SSError. = SST - SSESN - SSVA 4530.01 4121.24 5.70 403.07.
6. Los grados de libertad son:
T = N 1 = 8 1 = 7; ESN = a 1 = 3; VA = b 1 = 1; y Error = 7 3 1 = 3.

117

Ejemplo de ANOVA para un diseo A[1B ]

7. Las medias de las sumas de cuadrados son:

SS ESN 4121.24
MSESN = 1373.75
ESN 3

SS Error 403.07
MSError = 134.36
Error 3

8. El valor F ESN , Error .es:

MS ESN 1373 .75


F ESN , Error 10 .22
MS Error 134 .36
9. valor-p( F ESN , Error ) 0.04.

10. De acuerdo al valor-p obtenido, se dira que se tiene evidencia suficiente para rechazar la
hiptesis nula para valores del error tipo mayores a = 0.04, i.e. confiabilidad del 96%. Es
decir, si la prueba requiere una confiabilidad del 99%, no se podra concluir que el tipo de
tratamiento usado para incorporar nitrgeno a los cultivos tiene un efecto significativo sobre
la cantidad de nitrgeno que las plantas de arroz retienen. De esta manera, aunque la evidencia
apunta hacia la existencia de tal efecto, la conclusin estadstica no es tan slida como se
deseara. Lo recomendado sera realizar ms experimentacin antes de dar una conclusin
categrica.

11. Se puede calcular la relacin MS VA 1.90 0.01 . El valor obtenido muestra que la
MS Error 134 .36

variable interferencia no ejerce una influencia significativa en los resultados obtenidos.


12. La comprobacin de supuestos y su discusin se deja como ejercicio para el lector.
Para los residuales, se debe tener en cuenta que en un diseo A[1B ] , estos se determinan a

travs de la expresin: eij y ij y i y j y . Esta expresin surge de estimar los

parmetros del modelo a travs de: m y ; i yi y ; y, j y j y . Adems, los

valores predichos por el modelo corresponden a: y ij m i j yi y j y .

118

Ejercicios

1. La hidrogenacin de dixido de carbono hacia metanol es un tpico en boga en la literatura


cientfica. Diversos materiales catalticos se han investigado para esta reaccin y se ha encontrado
que el cobre es uno de los metales candidatos para el desarrollo del proceso. Para potenciar la
actividad cataltica del cobre, los catalizadores se suelen preparar a partir de una sal precursora
del metal la cual se deposita (impregna) sobre xidos como la almina o la slice. La preparacin
del catalizador por este mtodo resulta en la formacin de nanopartculas de cobre dispersas en
el xido. Sin embargo, para potenciar an ms la actividad cataltica, se suelen adicionar otros
elementos al sistema Cu/xido. En un trabajo reciente. Medina et al. (Catalysis Science &
Technology, 2016, en revisin) prepararon una serie de catalizadores Cu/SiO2 a los cuales
adicionaron galio en diferentes proporciones. Los investigadores se dedicaron a averiguar la
cintica de la hidrogenacin de dixido de carbono a metanol sobre estos catalizadores y
plantearon un modelo de reaccin basados en experimentos Operando DRIFTS (ver:
https://en.wikipedia.org/wiki/Operando_spectroscopy). Para ello, debieron calcular valores de
velocidad de reaccin por nmero de sitios activos del catalizador o frecuencias de cambio (i.e.,
Turnover Frequencies, TOF [s-1]) a diferentes temperaturas y para las diferentes fracciones de galio
adicionadas al catalizador. La tabla siguiente presenta los datos obtenidos en ensayos realizados
a 240 y 280 K:

Fraccinmolar 1105TOF[s-1]
Ga/(Ga+Cu) 240K 280K
0,00 1,00 4,0
0,19 22,5 30,4
0,30 40,7 42,0
0,46 44,9 47,5
0,72 20,3 22,8

Determine el modelo estadstico apropiado para el efecto del galio en el TOF considerando que
estos datos corresponden a un diseo 51[ 2] . Igualmente, verifique que si este modelo cumple los
supuestos fundamentales sobre los cuales se construy.

119

2. La industria petrolera mundial se enfrenta al reto tecnolgico de procesar crudos extrapesados


y convertirlos en combustibles de calidad similar a aquellos que se obtienen a partir de crudos
livianos. Un crudo extrapesado se caracteriza por tener una altsima concentracin de
contaminantes: azufre, nitrgeno y metales, una alta viscosidad; lo que hace costoso su
transporte, y contener una muy importante fraccin de molculas orgnicas de gran complejidad
como son los asfaltenos; conocidos agentes precursores de coque. El coque es un producto no
deseado pues es muy difcil de valorizar y por tanto conduce a prdidas econmicas.

Por lo general, el procesamiento inicial de los crudos extrapesados; en la torre de destilacin al


vaco de una refinera, lleva a producir una fraccin grande de los denominados residuos; es
decir, una mezcla de compuestos con puntos de ebullicin mayores a 340C. Este residuo,
aunque complicado de manejar, debe procesarse para evitar prdidas.

La alternativa ms comn para la valorizacin del residuo es el proceso conocido como Craqueo
Cataltico en fase Fluida (FCC, por sus siglas en ingls Fluid Catalytic Cracking). En el FCC,
la corriente de residuo ingresa a un reactor de lecho fluidizado que contiene un catalizador cuya
fase activa es una zeolita y bajo las condiciones de temperatura y presin empleadas se produce
un rompimiento de los enlaces de las molculas que lo componen. As, el residuo puede
convertirse en cortes ms livianos que constituyen combustibles como: disel, gasolina y gas
licuado del petrleo (GLP). Adems de estos combustibles, se producen en la unidad: gas seco;
compuesto principalmente de etano y metano, y coque. K. Xiong et al. (Fuel 161 (2015) 113)
plantean un estudio cintico sobre la conversin de un residuo en un reactor de FCC y se centran
en analizar el desarrollo de las rutas de reaccin de ste. Los autores plantean el siguiente
esquema para la transformacin del residuo:

120

En el esquema, ri designa la ruta de reaccin y ki designa la llamada constante cintica de reaccin


que es directamente proporcional a la velocidad de reaccin. El clculo de ki se deriva de la
EA
RT
ecuacin de Arrhenius: k A0e

En esta expresin, A0 es el factor pre-exponencial ([m3kg-1h-1); que representa la frecuencia


de las colisiones de las molculas que reaccionan, EA ([kJmol-1]) es la energa de activacin de
la reaccin (i.e. la barrera energtica que debe superarse para llevar a cabo la reaccin), R es la
constante universal de los gases (0.00831 [kJmol-1K-1]) y T [K] es la temperatura de reaccin
que en este caso puede tomarse como 700 K. Con el fin de obviar el posible efecto de la
naturaleza del catalizador en el estudio, se decide emplear seis de estos: Cat-1, Cat-2, Cat-3, Cat-
4, Cat-5 y Cat-6, dentro del diseo experimental y evaluar los parmetros A0 y EA para calcular
la variable respuesta ki con la ecuacin de Arrhenius. Los valores obtenidos para los parmetros
se presentan a continuacin:
Rutade EA[kJ/mol]
reaccin Cat-1 Cat-2 Cat-3 Cat-4 Cat-5 Cat-6
r1 48,2 51,7 50,8 49,4 47,6 48,9
r2 47,1 45 44,6 47,8 43,4 44,5
r3 37,7 34,9 35,1 29,7 38,5 35,9
r4 29,6 27,5 28,1 25,3 30,2 28,9
r5 29,1 27,6 28,5 30,9 30 29,3
r6 57,2 55,9 54,6 55,7 54,1 54,5
r7 62,3 60,4 60,8 59,1 62,9 61,7
r8 65,8 61,9 63,1 62,5 66,7 64,7
r9 64,6 62,5 63,7 65,3 65 64,3
r10 79,0 75,9 77,2 74,6 80,5 78,7
r11 83,6 79,8 81 77,1 85,2 83,4
r12 77,1 74,8 76 77,6 77,3 76,6

Rutade A0[m3kg-1h-1]
reaccin Cat-1 Cat-2 Cat-3 Cat-4 Cat-5 Cat-6
r1 37912,2 62829,2 52025,0 36667,5 31328,5 35613,7
r2 118476,1 108625,1 88239,7 96803,1 52064,7 62217,9
r3 10827,9 8388,1 6743,2 3161,0 6560,4 5951,5
r4 350,8 403,5 305,9 102,9 175,6 200,6
r5 1109,6 1069,8 904,2 931,0 574,4 727,6
r6 31247,4 31074,8 20141,1 23411,4 14683,7 16972,7
r7 19090,6 12576,3 19096,1 21340,7 40140,4 33662,9
r8 20357,2 7297,2 5863,2 11182,1 18604,8 14100,4
r9 41648,2 28539,4 28965,6 30701,7 46291,9 38645,0
r10 341252,2 268393,7 286124,1 224734,2 494068,4 381703,2
r11 217843,2 73849,0 73403,1 93808,3 245194,8 193931,7
r12 140712,5 137970,7 154937,7 127619,1 241931,9 206496,5

121

Halle un modelo estadstico que describa el efecto de las diferentes rutas de reaccin sobre la
constante cintica de velocidad de reaccin. Compruebe los supuestos fundamentales del mismo.

3. El artculo: An Application of the Augmented Randomized Complete Block Design to


Poultry Research (Boyle & Montgomery Poultry Science 75 (1996) 601-607) presenta una
aplicacin especial de los diseos A[1B ] en la que se busca reducir el tiempo y nmero de

experimentos para identificar nuevos agentes infecciosos en aves. En este ejercicio, se adaptan
los datos reportados por los autores a un diseo 51[ 4] donde la variable respuesta del estudio fue

el peso de gallinas expuestas a diversos tratamientos infecciosos:

Pesodegallinas[g]
Tratamiento Ensayo
1 2 3 4
A 188,1 197,1 175,8 165,8
B 156,2 157,1 150,2 137,7
A+C 191,6 180,3 154,8 166,5
A+D 175,3 143,9 173 162,8
A+C+D+E+F+G 164,4 194,3 173,1 164,0
Halle el modelo estadstico que describe estos datos y comprelo con el que se obtiene

considerando un diseo 51 con cuatro rplicas. Se llega a la misma conclusin?

4. La bsqueda de mejores materiales de construccin es constante dadas las cada vez ms


exigentes demandas ambientales y econmicas que se imponen a los mismos. Los compositos
polimricos generan un creciente inters en este campo dado que poseen una mejor proporcin
peso/resistencia mecnica, y mejores resistencias a la corrosin y a la fatiga. Kocaoz et al.
(Composites: Part B 36 (2005) 127134) desarrollaron un protocolo para estimar
estadsticamente la distribucin de resistencia a la traccin de barras polimricas reforzadas con
fibra de vidrio -GFRP, por sus siglas en ingls-. Para ello, seleccionaron cuatro tipos diferentes
de GFRPs y seleccionaron ocho especmenes de las misma para probarlas de acuerdo a un diseo
RCBD. A partir de los resultados presentados a continuacin compruebe el hecho que las
unidades experimentales de la variable respuesta no cambian las conclusiones del ANOVA del
diseo implementado; i.e., el ANOVA lleva a la misma conclusin sin importar los cuatro modos
en los que se expres la variable respuesta de este estudio. Haga la misma comprobacin para
todos los supuestos de los modelos estadstico que resultan despus del ANOVA.

122

Carga Resistenciaalatraccin
No.experimento Tipodebarra
[kN] [Kips] [Mpa] [ksi]
32 3 130 29 1025 149
6 3 119 27 938 136
27 3 129 29 1015 147
14 4 121 27 953 138
13 3 125 28 983 143
12 3 107 24 843 122
2 1 119 27 939 136
20 3 133 30 1053 153
7 1 124 28 976 142
10 4 119 27 941 136
4 3 131 30 1038 150
19 4 114 26 902 131
26 4 114 26 899 130
9 2 113 25 890 129
5 2 129 29 1022 148
24 4 136 31 1071 155
18 1 130 29 1025 149
29 4 126 28 997 145
3 2 121 27 959 139
23 3 119 27 938 136
28 1 131 29 1034 150
15 2 131 29 1031 149
30 1 129 29 1015 147
1 4 126 28 992 144
17 2 131 30 1036 150
31 2 122 27 962 140
22 2 109 24 859 125
21 1 129 29 1015 147
25 2 126 28 997 145
11 1 129 29 1022 148
8 4 130 29 1025 149
16 1 103 23 815 118

123

CAPTULO VII
DISEO DE EXPERIMENTOS MULTINIVELES DE UN
FACTOR CON MLTIPLES VARIABLES INTERFERENCIA
Cmo manejar la presencia de ms de una variable interferencia?

En investigacin es comn que se presente ms de una variable interferencia durante la


realizacin de experimentos. Por ejemplo, suponga que se desea preparar una serie de materiales,
pero se cuenta con una cantidad limitada de materias primas de modo que nicamente se puede
preparar un primer lote de los materiales a partir de ellas. As, para hacer nuevas preparaciones,
se hara necesario comprar una cantidad adicional de materias primas que corresponderan a
nuevos lotes de fabricacin por parte del proveedor. Suponga, adems, que los materiales se
preparan dentro del marco de un proyecto en el cual varios laboratorios participan; prctica
conocida como benchmarking (ver: https://en.wikipedia.org/wiki/Benchmarking). De este
modo, si el objetivo del proyecto es evaluar el efecto de una cierta modificacin en la sntesis de
los materiales; no ligada a los factores arriba mencionados, sobre sus propiedades fisicoqumicas,
se tendr una situacin en la que se deseara eliminar la interferencia del lote de materias primas
y el lugar de preparacin en el anlisis de los resultados de los experimentos a realizar.

Como se dijo en el captulo anterior, la tcnica del bloqueo es una de las ms importantes en el
diseo estadstico de experimentos. Una de las razones para ello es que puede expandirse a ms
de una variable interferencia. En el ejemplo anterior, se puede disear un experimento de
Cuadro Latino donde se bloqueen las dos variables interferencia mencionadas. Ms an, si
hubiera tres o cuatro variables interferencia se podran plantear diseos de Cuadros Greco-
Latino e Hipercuadro Latino como alternativas para eliminar la variabilidad producida por la
interferencia de estas variables en los resultados. Este captulo se encarga de discutir estos
diseos, empezando con los Cuadros Latinos y siguiendo con los Cuadros Greco-Latino e
Hipercuadro Latino.

1
Qu es un diseo de Cuadro Latino: A[L] ?

1
Un diseo A[L] es aquel realizado para eliminar la variabilidad generada por dos variables

interferencia sobre el anlisis del efecto de una variable principal sobre la variable respuesta de

124

inters en un experimento o proceso dados. En consecuencia, un Cuadro Latino combina los


niveles de tres variables de entrada. Una restriccin a este respecto es que todas las variables de
entrada; la principal y las dos interferencias, deben tener el mismo nmero de niveles.

Cmo se disea un Cuadro Latino?

Disear un Cuadro Latino es similar a completar un Sudoku (Ver: https://www.sudoku-


solutions.com/!). Dada la restriccin que todas las variables deben tener el mismo nmero de
niveles, un Cuadro Latino es un arreglo i j con k implcito al interior del cuadro. i, j y k son
los niveles de las variables interferencia y principal. Es costumbre, pero no obligacin, designar
en el cuadro de diseo la variable principal con letras latinas: A, B, C, D, etc. De all se deriva el
nombre Cuadro Latino. El aspecto de cuadros latinos con i = j = k =3; i = j = k =4 ; i = j =
k =5; e, i = j = k = 6 es:

i=j=k=3 i=j=k=4 i=j=k=5 i=j=k=6


33 44 55 66
A B C A B C D A B C D E A B C D E F
B C A B A D C B C D E A B C D E F A
C A B C D A B C D E A B C D E F A B
D C B A D E A B C D E F A B C
E A B C D E F A B C D
F A B C D E

Como se puede notar en los cuadros arriba presentados, los niveles de la variable designada con
las letras latinas no deben repetirse ni en las filas, ni en las columnas del cuadro.

Aunque pareciera simple, saber el nmero de Cuadros Latinos que pueden generarse a partir de
los a niveles de las variables de entrada en un Cuadro Latino es un problema de extrema
complejidad matemtica (Jacobson & Matthews 1996)(Shao & Wei 1992). De hecho, el nmero
de Cuadros Latinos posibles solamente se ha podido definir para n 10. Para n > 10 solamente
se conocen los lmites en el nmero de cuadros que pueden generarse (Jacobson & Matthews
1996). Un artculo en Wikipedia (Wikipedia contributors 2017) muestra que: para n = 3, el
nmero de Cuadros Latinos (NCL) = 12, NCL(n = 4) = 576; NCL(n = 5) = 161280; NCL(n
125

= 6) = 812851200; NCL(n = 7) = 61479419904000. Esta situacin es muy ventajosa en el


Diseo de Experimentos puesto que la aleatorizacin se ve muy favorecida.

Anlisis de los resultados de experimentos obtenidos a partir de Cuadros Latinos

Los diseos de Cuadro Latino corresponden a diagramas de flujo del tipo:

Experimento o Variable(s)respuesta
Variableprincipal, proceso
a niveles

Variableinterferencia#1 Variableinterferencia#2
a niveles a niveles

Como se afirm antes, todas las variables de entrada tienen el mismo nmero de niveles.

1
El modelo estadstico para los resultados de un diseo A[L] es lineal; tal como lo es para los

1
diseos A1 y A[B ] . Siguiendo la mecnica planteada para estos ltimos, la variacin en los

resultados de los experimentos generada por la segunda variable interferencia se puede sustraer
del error aleatorio. De esta manera, se plantea el siguiente procedimiento para el ANOVA:

1
Procedimiento para el anlisis estadstico de resultados de experimentos A[L]
usando ANOVA.
1
El procedimiento para realizar un ANOVA de los resultados de un diseo A[L] es anlogo

1
al descrito para los diseos A1 (Pginas 93 94) y A[ B] (Pginas 111 114):

1. Extender el modelo estadstico de efectos del diseo A1; incluyendo el efecto de las dos

variables interferencia: yijk m i j k ijk

Donde, yijk representa la variable respuesta a analizar, m es la media poblacional del proceso,
i , j y k son los efectos de los cambios de nivel de la variable principal y de las dos variables
interferencia, respectivamente, y ijk es el error aleatorio del proceso estudiado. En este

caso, i = j = k = a.

126

1
Procedimiento para el anlisis estadstico de resultados de experimentos A[L]
usando ANOVA.
2. Plantear las hiptesis nula y alternativa del modelo postulado.
H 0 : 1 2 ... a 0 ; H 1 : i 0 , para algn i. Recordar que no se plantean

hiptesis para las variables interferencia debido a la restriccin en la aleatorizacin de los


bloques.
1
3. Para ilustrar el planteamiento de una tabla de contingencia de un diseo A[L]

1
escogeremos un cuadro latino de cuatro niveles A[ L4] de los 576 posibles para a = 4:

Niveles de la Valores de la variable respuesta (Observaciones


experimentales) Sumas Promedios
variable de entrada
principal, i = 1, 2, Bloques; j = 1, 2, 3, 4 tratamientos* tratamientos
3, 4 1 2 3 4

1 A = y111 B = y122 C = y133 D = y144 y1.. y 1

2 B = y212 C = y223 D = y234 A = y241 y2.. y 2

3 C = y313 D = y324 A = y331 B = y342 y3.. y 3

4 D = y414 A = y421 B = y432 C = y443 y4.. y 4


Sumas de
y.1. y.2. y.3. y.4.
columnas
Promedios de
y 1 y 2 y 3 y 4
columnas
Sumas Letras
y..1 y..2 y..3 y..4
Latinas*
Promedios
y 1 y 2 y 3 y 4
Letras Latinas

Totales y y
*Para las letras, A = 1; B = 2; C = 3; y, D = 4.
a a a
1
En general, las sumas de A[L] son: yi yijk ; y j yijk ; yk yijk ;
j 1 i 1 k 1

a a a
y yijk ; y i yi a ; y j y j a ; y k yk a ; y y N
i 1 j 1 k 1

127

1
Procedimiento para el anlisis estadstico de resultados de experimentos A[L ]
usando ANOVA.

y2
4. FV =
N
5. Calcular las sumas de cuadrados del diseo:
La variabilidad aportada por las dos variables interferencia se sustrae de la del error aleatorio.
As: SST = SSVar-E + SSVar-Int#1 + SSVar-Int#2 + SSError. Donde, SSVar-Int#1 y SSVar-Int#2 son las
sumas de cuadrados de las dos variables interferencia contempladas.
Las expresiones correspondientes son:
a a a
2 1 a 2 1 a
SST yijk FV ; SSVar E yi FV ; SSVar Int #1 y2j FV (asumiendo
i 1 j 1 k 1 a i 1 a j 1
que Var-Int#1 corresponde a las columnas de la tabla de contingencia);
1 a 2
SSVar Int #2 yk FV (asumiendo que Var-Int#2 corresponde a las Letras Latinas de
a k 1
la tabla de contingencia). En realidad, la asignacin aqu propuesta es igual de arbitraria a la
de otros autores (Montgomery 2001) que designan a la variable de entrada principal del
diseo con las Letras Latinas. Al final, el resultado del ANOVA producir las mismas
conclusiones sin importar estas asignaciones.
Finalmente, para la suma de cuadrados del error, SSError = SST - SSVar-E - SSVar-Int#1. - SSVar-
.
Int#2

6. Calcular los grados de libertad: T , VarE , VarInt#1 , VarInt#2 y Error.


T VarE VarInt#1 VarInt#2 Error.
Donde, T = N 1; VarE VarInt#1 VarInt#2 = a 1; ya que todas las variables de entrada

tienen el mismo nmero de niveles y Error T VarE VarInt#1 VarInt#2 . Se puede


demostrar que Error (a 2)(a 1) . Debido a esta ltima equivalencia, no es posible realizar
un ANOVA para Cuadros Latinos 11 y 22.
7. Calcular los promedios de las sumas de cuadrados: MSVar-E, MSVar-Int#1, MSVar-Int#2 y MSError.
Donde, las anteriores son la media de la suma de cuadrados de la variable principal, la suma
de cuadrados de las variables interferencia #1 y #2 y la suma de cuadrados del error,
respectivamente.

128

1
Procedimiento para el anlisis estadstico de resultados de experimentos A[L ]
usando ANOVA.

SSVarE SSVar Int #1 SSVar Int #2


En particular, MSVarE , MSVar Int #1 ; MSVar Int # 2 ;y,
VarE Var Int #1 Var Int # 2
SSError
MSError .
Error

8. Calcular el valor del estadstico F para la variable principal: FVarE ,Error mediante la
expresin:
MSVarE
FVarE ,Error .
MSError
9. Calcular el valor-p asociado a FVarE ,Error o fijar un valor para el error tipo I y con l
evaluar Fcrt.= F ,VarE ,Error .
10. Concluir sobre la hiptesis postulada para la variable principal y escribir el modelo
estadstico de acuerdo a esta conclusin. Si no se puede rechazar H 0 , se tiene el modelo:
yijk m j k ijk . Si se acepta H 1 , se tiene: yijk m i j k ijk .
1
11. De la misma manera que para el diseo A[B ] , los efectos de las variables interferencia
1
sobre los resultados de un diseo A[L ] no se juzgan mediante pruebas de hiptesis, pero,
MS Var Int #1
sigue siendo es muy recomendable observar los valores de las relaciones y
MS Error
MSVar Int # 2
para verificar que se haya hecho una escogencia apropiada de las variables de
MS Error
entrada.
12. Para comprobar los supuestos del modelo, se pueden elaborar los grficos de los

residuales: zk vs. eijk (supuesto de normalidad), eijk vs. Orden de ejecucin de los

experimentos (supuesto de independencia), eijk vs. yi , eijk vs. y j y. eijk vs. yk



(supuesto de varianza constante). Por ltimo, hacer un grfico de eijk vs. y ijk para

verificar la existencia de interacciones entre las variables estudiadas. Esta ltima


recomendacin est dada por Montgomery (Montgomery 2001).

129

1
Como se puede apreciar, el ANOVA de un diseo A[L] es una extensin del anlisis efectuado

para un diseo de bloques. Aunque la intencin primaria y recomendada es emplear estos diseos
para eliminar los efectos de variables interferencia en los resultados del experimento, lo cierto es
que no se reporta un argumento matemtico riguroso que impida el uso de un Cuadro Latino
para variables que no sean interferencia. La desventaja prctica es la restriccin en la
aleatorizacin de los bloques; condicin que, como se dijo antes, impide la prueba rigurosa
de hiptesis sobre los efectos de ms de una de las variables implicadas en el diseo. Por otra
parte, est el asunto de las interacciones. Desde el punto de vista del modelo matemtico,
stas representan trminos no lineales; circunstancia que no hace parte del modelo planteado de
los diseos de una variable discutidos hasta ahora. A pesar de las desventajas nombradas arriba,
1
el diseo A[L] es una gran herramienta para el estudio de problemas de investigacin donde se

tenga un bajo conocimiento fundamental de los factores que controlan un fenmeno dado. La
razn es que es un diseo relativamente econmico y fcil de implementar que puede dar
informacin rpida sobre hacia dnde se deben orientar esfuerzos en la experimentacin. Es una
lstima que, de hecho, sean poco empleados en la literatura.

A continuacin, se presenta un ejemplo sobre el anlisis de datos obtenidos a partir de un diseo


1
A[L ].

1
Ejemplo: anlisis de resultados de un diseo A[L]

Uno de los doce principios de la qumica verde es la catlisis (ver: Nature 469, 18-20 (2011))
que a su vez es un negocio multimillonario. Por tanto, existe una enorme competencia en
producir mejores catalizadores; i.e. ms activos y selectivos. Una estrategia para alcanzar este
objetivo es la llamada experimentacin de alto rendimiento (high throughput) en la que se
analizan los efectos de mltiples factores en un proceso dado en el menor tiempo posible.
En el caso especfico de la preparacin de catalizadores, dos factores que influencian las
propiedades finales del material son: la naturaleza del metal activo y el solvente empleado
para la sntesis. En 2003, JN Cawse (Patente: US 20030083824) patent un mtodo de
preparacin de catalizadores por experimentacin de alto rendimiento basado en un cuadro
latino.

130

1
Ejemplo: anlisis de resultados de un diseo A[L]

El mtodo consider dos grupos de metales: M1 = Fe, Cu, Ni, Pb y Re, y M2 = V, W, Ce,
La y Sn, y el siguiente conjunto de solventes: dimetilformamida (DMFA), dimetilacetamida
(DMAA), tetrahidrofurano (THF), ter de etilenglicol (DiGly, por sus siglas en ingls) y
dietilacetamida (DEAA). Para analizar las propiedades de los catalizadores preparados con
la metodologa seleccionada, Cawse decidi probar su desempeo en la reaccin de sntesis
de diaril carbonatos; e.g. difenil carbonato. La variable respuesta del experimento fue la
actividad cataltica expresada mediante el llamado nmero de frecuencia del ciclo cataltico
(TON -Turnover Number- por sus siglas en ingls). En su trabajo, el autor reporta los
siguientes resultados:

Tomado de: JN Cawse (Patente: US 20030083824)


Obtenga el modelo estadstico correspondiente a este diseo experimental y determine si
cumple los supuestos fundamentales. Considere que M1 es la variable principal del diseo.
Respuesta
1
1. Dado que es un diseo A[ L5] , empezamos postulando el modelo correspondiente.

131

1
Ejemplo: anlisis de resultados de un diseo A[L]

yijk m iM 1 Mj 2 ksolv ijk . Para este caso, iM 1 , es el efecto de la variable principal,


M2
referida al tipo de metal del grupo M1; j es el efecto del tipo de metal del grupo M2 y se

declara como la primera variable interferencia: Var-Int#1; y, ksolv es el efecto del tipo de
solvente empleado en la preparacin de los catalizadores; i.e., la segunda variable
interferencia del diseo: Var-Int#2.
2. Las hiptesis a probar son:
M1 M1 M1 M1 M1
H0 : Fe Cu Ni Pb Ru 0 ; H1 : iM1 0 , para algn i.
3. Con los datos suministrados, se construye la siguiente Tabla de Contingencia:
TON
Niveles de M1, M2; j = 1, 2, 3, 4, 5 trat. Prom.trat.
i = 1, 2, 3, 4, 5
1=V 2=W 3 = Ce 4 = La 5 = Sn
1 = Fe A = 645 B = 606 C = 607 D = 710 E = 665 3233 646.6
2 = Cu E = 686 A = 599 B = 683 C = 831 D = 686 3485 697.0
3 = Ni D = 629 E = 663 A = 616 B = 816 C = 831 3555 711.0
4 = Pb C = 766 D = 652 E = 593 A = 868 B = 695 3574 714.8
5 = Re B = 991 C = 982 D = 873 E = 1040 A = 867 4753 960.6
Cols. 3717 3502 3372 4265 3744
Prom.cols. 734.4 700.4 674.4 853.0 748.8

Letr.Lat* 3595 3791 4017 3550 3647
Prom.Letr.Lat. 719.0 758.2 803.4 710.0 724.9
Totales 18600 744.0
*A = DEAA; B = DMFA; C = DMAA; D = THF; E = DiGly. Colores usados para resaltar los niveles.

y2 186002
4. Factor de variacin: FV = 13'838.400
N 25
5. Sumas de cuadrados
5 5 5
2
SST yijk FV (645) 2 (606) 2 ... (1040) 2 (867) 2 13'838.400
i 1 j 1 k 1

SS T 429542
132

1
Ejemplo: anlisis de resultados de un diseo A[L]

1 5 2 1
SSM 1 yi FV (32332 34852 35552 35742 47532 ) 13'838.400
5 i1 5

SS M 1 281604.8
1 5 2 1
SS M 2 y j FV (37172 35022 33722 42652 37442 ) 13'838.400
5 j 1 5

SS M 2 93247.6

1 5 2 1
SSSolv yk FV (35952 37912 40172 35502 36472 ) 13'838.400
5 k 1 5
SSSolv 28620.8
SSError = SST - SSM1 - SSM2. - SSSolv = 429542 281604.8 93247.6 28620.8 = 26068.8.

6. Grados de libertad: T N 1 25 1 24 ; M1 M 2 Solv a 1 5 1 4 ;


Error (a 2)(a 1) (5 2)(5 1) 12 24 3M1
7. Promedio de las sumas de cuadrados:
SS M 1 281604.8 SS 93247.6
MSM 1 70401.2 ; MS M 2 M 2 23311.9 ;
M1 4 M 2 4

SS Solv 28620.8 SS 26068.8


MSSolv 7155.2 ; MS Error Error 2174.4 .
Solv 4 Error 12
8. Estadstico F para la variable principal:
MS M 1 70401.2
FM 1 ,Error 32.41
MS Error 2174.4

9. valor-p( FM 1 ,Error ) 2.4010-6

10. El valor-p obtenido indica que hay suficiente evidencia para rechazar la hiptesis nula.
M1 M2 solv
Por tanto, el modelo debe quedar de la forma: yijk m i j k ijk .

11. Los valores de las relaciones MS M 2 23311 .9 10 . 73 y MS Solv 7155 . 2 3 . 30


MS Error 2174 . 4 MS Error 2174 . 4

indican que el grupo de metales M2 puede tener un efecto importante en el TON.

133

1
Ejemplo: anlisis de resultados de un diseo A[L]

12. Para comprobar los supuestos del modelo planteado, hay que definir la manera en que se
calculan los valores que este predice. Tal como para otros diseos de una variable, los
M1 M2 solv
parmetros del modelo yijk m i j k ijk se pueden estimar as:

m y ; M 1 yi y ; Mj 2 y j y ; kSolv yk y . De aqu que:


i

yijk yi y j yk 2y . Los residuales del modelo son, como de costumbre:

eijk yijk yijk


Usando esta ecuacin, los veinticinco residuales se calculan as:
e111 y 111 y 111 645 ( 646 . 6 743 . 4 719 2 744 ) 24 . 0 . Los valores de los
promedios se tomaron de la Tabla de Contingencia.
Los valores de los residuales se resumen en la tabla siguiente:
24,0 -11,2 -29,4 -11,6 28,2
4,2 -29,4 41,4 -34,4 18,2
-47,4 10,2 -0,4 -18,2 55,8
-7,6 14,8 -37,6 69,2 -38,8
26,8 15,6 26,0 -5,0 -63,4

Usando estos valores, se puede comprobar el supuesto de normalidad con un grfico zl


vs. eijk; el cual demuestra cumplimiento del supuesto, as:
2,5

2,0

1,5

1,0

0,5
zl

0,0

-0,5

-1,0

-1,5

-2,0

-2,5
-80 -60 -40 -20 0 20 40 60 80
ijk

134

1
Ejemplo: anlisis de resultados de un diseo A[L]

El supuesto de independencia no se puede verificar en este caso puesto que el autor de


los experimentos no report el orden de ejecucin de los mismos.
Para el supuesto de varianza constante del error, Montgomery (Montgomery 2001)
recomienda hacer grficos de los residuales en funcin de los promedios de cada nivel de
1
cada variable de entrada de los diseos de bloques; incluyendo A[L] . Los grficos

correspondientes son:
80,0

60,0

40,0

20,0
ijk

0,0

-20,0

-40,0

-60,0

-80,0
600 650 700 750 800 850 900 950 1000

i..
Residuales en funcin de los promedios de los niveles de la variable principal: tipo de metal de M2.
80,0

60,0

40,0

20,0
ijk

0,0

-20,0

-40,0

-60,0

-80,0
600 650 700 750 800 850 900

.j.
Residuales en funcin de los promedios de los niveles de la variable interferencia: tipo de metal de M1.

135

1
Ejemplo: anlisis de resultados de un diseo A[L]

Los grficos anteriores no evidencian nada en particular y por lo tanto se puede concluir
que se cumple el supuesto de varianza constante.
Finalmente, para comprobar la posible existencia de interacciones, se elabora un grfico
de los residuales en funcin de los valores predichos por el modelo:
80,0

60,0

40,0

20,0
ijk

0,0

-20,0

-40,0

-60,0

-80,0
600 700 800 900 1000 1100

ijk
Residuales en funcin de predicciones del modelo.

Este grfico presenta un aspecto ms compacto para los valores ms bajos de yijk , con lo

cual se sospecha de la presencia de interacciones entre las variables de entrada


estudiadas. Este hallazgo pone en serias dudas la validez de los anlisis estadsticos
realizados puesto que el modelo estadstico postulado no sera lineal. Una discusin ms
profunda de este tema se presenta en el Captulo VIII.

Es interesante discutir el ANOVA presentado por JN Cawse en su patente:

Los resultados son similares a los obtenidos aqu, aunque hay diferencias atribuibles al

136

1
Ejemplo: anlisis de resultados de un diseo A[L]

Para finalizar, es interesante discutir el ANOVA presentado por JN Cawse en su patente:

Los resultados son similares a los obtenidos aqu, aunque hay diferencias atribuibles al
redondeo. Lo importante es que Cawse hizo una prueba de hiptesis para cada una de las
variables del diseo. Si bien nada impide que las tres variables implicadas sean principales, la
restriccin de aleatorizacin de los bloques debe tenerse en cuenta y en consecuencia el
resultado de Cawse pierde rigurosidad. A la vez, se evidencia un uso del DdE poco
fundamentado en bases estadsticas. De esta manera, se puede especular que es probable que
la tabla presentada por el autor corresponda directamente a lo arrojado por un programa
estadstico; en cuyo caso, el autor no habra aplicado los criterios de anlisis aqu presentados.
Lastimosamente, este es un error muy frecuente tanto en publicaciones cientficas como en
la realizacin de trabajos de investigacin de estudiantes de pregrado y posgrado.

Ejercicios

1. En un intento por ofrecer un nuevo producto, una compaa petrolera decide estudiar la
eficiencia de cuatro mezclas diferentes de gasolina. Para las pruebas, selecciona a cuatro
conductores que recorrern una distancia determinada empleando cuatro modelos de automvil
diferentes. Se hace el diseo de experimentos apropiado y se toma como variable respuesta la
eficiencia medida en kilmetros por litro (km/l). La tabla siguiente muestra los resultados
obtenidos fueron:

Conductor
Mezcladegasolina
1 2 3 4
A (IV)27.7 (III)18.9 (II)33.0 (I)14.7
B (II)29.3 (I)18.5 (IV)33.0 (III)21.4
C (III)12.8 (II)26.6 (I)11.2 (IV)20.1
D (I)16.6 (IV)23.8 (III)17.9 (II)35.0
*I, II, III y IV se refieren al modelo de automvil.

137

Considerando la informacin suministrada, halle un modelo estadstico que describa los datos
presentados. Compruebe los supuestos de este modelo.

2. Perry et al. (Ecological Entomology 5 (1980) 385) revisaron el empleo de cuadros latinos
en el diseo de experimentos de campo para atraer insectos hacia trampas mediante el uso de
compuestos qumicos considerados como atrayentes de los mismos. Para demostrar las ventajas
de este tipo de diseo experimental, los autores redisearon los experimentos de un estudio en
el que el propsito era analizar la eficacia de trampas para un tipo especfico de polilla. Plantearon
un diseo de cuadro latino 44. La variable principal del estudio fue el tipo de sustancia qumica
empleada en la trampa y se decidi bloquear el lugar y el da en que se colocaron las trampas
como factores que interfieren en los experimentos. La Tabla presentada a continuacin muestra
los resultados obtenidos:


Determine si el tipo de qumico usado en las trampas influye sobre el nmero de insectos
atrapados.

3. Las tcnicas de diseo estadstico de experimentos presentadas en esta seccin fueron


desarrolladas en los aos 30 para tecnificar la agricultura. Un experimento sobre el cultivo de
papas referido por Fisher (The Design of Experiments, 2nd Ed., Oliver & Boyd, London,
1937, pp. 97-98) y realizado por Ely en 1932 presenta los efectos de seis tratamientos designados
como A, B, C, D, E y F y que corresponden a diferentes cantidades de fertilizantes nitrogenados
y fosfticos sobre los rendimientos de los cultivos. Los resultados obtenidos se resumen en la
tabla siguiente:

138

(i) Determine si los tratamientos empleados tienen efecto significativo el rendimiento del cultivo
mediante un anlisis de estadstica descriptiva apoyado por un ANOVA. (ii) Haciendo un anlisis
de posibles variables interferencia que pueden intervenir en el cultivo de papas, determine si
estas podran haber afectado los resultados obtenidos. (iii) Haga un anlisis de residuales para
comprobar la rigurosidad de sus conclusiones.

4. Frutos et al. (Analyst 119 (1994) 1547) estudiaron curvas de anlisis termogravimtrico (TGA)
para la fusin de la erucamida; compuesto usado como aditivo en la sntesis de pelculas de
poliolefinas, en funcin de los siguientes parmetros: peso y tasas de calentamiento y
enfriamiento de la muestra. Los autores planificaron sus experimentos usando un cuadro latino
y concluyeron que la tasa de calentamiento de la muestra influye significativamente en el
resultado de la prueba. Usando los datos reportados por ellos (Tablas 1 y 2), verifique la
conclusin alcanzada. La variable respuesta usada por los autores fue el punto de fusin de la
erucamida derivado de la curva TGA.

En la Tabla 1, A = Tasa de calentamiento [=] K/min; B = Peso de la muestra [=] mg; C = Tasa de enfriamiento
[=] K/min.

139

140

Manejo de tres variables interferencia: diseo de Cuadro Greco-Latino A[1G L ]

Mediante el bloqueo, es posible expandir el diseo de experimentos multiniveles de una variable


para sustraer la variabilidad producida por tres variables interferencia en la variable respuesta.

Para ello, se emplean los diseos de Cuadro Greco-Latino: A[1G L ] . Un Cuadro Greco-Latino

es un arreglo de dos Cuadros Latinos ortogonales. Es decir, se trata de dos Cuadros Latinos
en los cuales cada letra del primer cuadro ocurre en la misma posicin que cada letra del segundo
cuadro exactamente una vez (Bailey 2008). Considere la superposicin de los siguientes Cuadros
Latinos 44 ortogonales:

A[1L 4 ] A[1L 4 ] A[1G L4 ]

A B C D A B C D
B A D C U B A D C
C D A B C D A B
D C B A D C B A

En el segundo cuadro, las letras griegas designan los cuatro niveles de una nueva variable

interferencia. Para poder realizar un ANOVA sobre los resultados de un diseo A[1G L ] se

requiere que cada variable tenga al menos cuatro niveles. Esta restriccin est ligada a los grados
de libertad que tiene el Error Aleatorio del diseo. De otro modo, se pueden realizar estos
diseos para tres niveles, pero el anlisis de resultados no puede hacerse mediante ANOVA. Por
otro lado, y parece una curiosidad, pero, no existe el Cuadro Greco-Latino de seis niveles!

(Horner 2016). Para otros diseos A[1G L ] , el ANOVA procede de manera similar a lo ya

presentado para los diseos de una variable, pero con las modificaciones que se presentan a
continuacin.

141

Procedimiento para el anlisis estadstico de resultados de experimentos A[1G L ]


usando ANOVA (niveles: a > 3, excepto a = 6).
Expandir el modelo estadstico de diseos de una variable mediante la sustraccin de
los efectos de tres variables interferencia del error aleatorio:
yijkl m i j k l ijkl . Donde, yijkl es la variable respuesta, m es la media

poblacional del proceso, i , j , k y l son los efectos de la variable principal y las tres
variables interferencia, respectivamente, y ijkl es el error aleatorio.

Una tabla de contingencia de un diseo A[1G L 4] es:

Niveles de la Valores de la variable respuesta (Observaciones


variable de entrada experimentales)
Sumas Promedios
principal, i = 1, 2, Bloques; j = 1, 2, 3, 4
3, 4 1 2 3 4

1 A = y1111 B = y1222 C= y1333 D = y1444 y1... y 1

2 B = y2122 C = y2233 D = y2344 A = y2411 y2... y 2

3 C = y3133 D = y3244 A = y3311 B = y3422 y3 y 3

4 D = y4144 A = y4211 B = y4322 C = y4433 y4... y 4


Sumas de
y.1.. y.2.. y.3.. y.4..
columnas
Promedios de
y 1 y 2 y 3 y 4
columnas
Sumas Letras
y..1. y..2. y..3. y..4.
Latinas*
Promedios
y 1 y 2 y 3 y 4
Letras Latinas
Sumas Letras
y1 y2 y3 y4
Griegas**
Promedios
y 1 y 2 y 3 y 4
Letras Griegas

Totales y y
*Para las letras latinas, A = 1; B = 2; C = 3; y, D = 4.**Para las letras griegas, = 1; = 2; = 3; y, = 4

142

Procedimiento para el anlisis estadstico de resultados de experimentos A[1G L ]


usando ANOVA (niveles: a > 3, excepto a = 6).
a a a a
Las sumas respectivas son: yi yijkl ; y j yijkl ; y k yijkl ; yl yijkl
j 1 i 1 k 1 l 1

a a a a
y yijkl ; y i yi a ; y j y j a ; y k y k a ; y l yl a ;
i 1 j 1 k 1 l 1

y y N
SST = SSVar-E + SSVar-Int#1 + SSVar-Int#2 + SSVar-Int#3 + SSError.
Donde, SSVar-Int#1, SSVar-Int#2 y SSVar-Int#3 son las sumas de cuadrados de las tres variables
interferencia contempladas.
a a a a
2 1 a 2 1 a 2
SST yijkl FV ; SSVar E i
y FV ; SSVar Int #1 y j FV ;
i 1 j 1 k 1 l 1 a i1 a j 1

1 a 2 1 a 2
SSVar Int # 2 k
a k 1
y FV ; SS Var Int # 3 yl FV .
a l 1

T VarE VarInt#1 VarInt#2 Error


T = N 1;

Var E Var Int #1 Var Int #2 Var Int #3 a 1


Error T Var E Var Int #1 Var Int # 2 Var Int #3 (a 3)(a 1)

Para los residuales, m y ; i yi y ; j y j y ; k y k y

; l yl y .

Se demuestra que: y ijkl yi y j y k yl 3 y .

En teora, es posible extender sin lmites el nmero de variables para los diseos basados en
Cuadros Latinos. Tales diseos se denominan Hipercuadros Latinos y consisten en seguir
superponiendo Cuadros Latinos Ortogonales. Sin embargo, en DdE, esto no es aconsejable
porque la existencia de interacciones entre variables experimentales es comn. De este modo,

incluso el empleo de diseos A[1G L ] debe hacerse con prudencia y de preferencia para

bloquear variables interferencia de las cuales no se sospeche ninguna interdependencia.

143

Ejemplo: ANOVA para diseo A[1G L 5]

Boksnyi et al. (Boksnyi et al. 1976) estudiaron la modificacin de la superficie de dixido


de silicio (slice: SiO2) mediante diversos agentes qumicos y bajo la posible influencia de la
temperatura (C), la presencia de diversos gases en la atmsfera de reaccin, la concentracin
de grupos silanol (-Si-O-H) y el tiempo de reaccin. Los autores planearon y ejecutaron un
diseo experimental basado en un Cuadro Greco-Latino de cinco niveles: 55: A[1G L 5] .
La siguiente Tabla presenta los niveles de cada variable implicada en el diseo:

Niveles
Variable
1 2 3 4 5
T: Temperatura (C) 240 265 290 315 340
G: Tipo de atmsfera Vaco#1 N2 He Ar Vaco#2
S: [-S-O-H], (mmolm-2) 4.5 6.0 7.5 9.0 10.5
Z: Tiempo de reaccin (h) 3 4 5 6 7

Una de las maneras de evaluar la eficiencia de las condiciones experimentales empleadas en


el proceso de funcionalizacin de la slice fue medir el porcentaje de carbono en las muestras
sintetizadas. Los autores codificaron sus experimentos usando la notacin: (TGSZ) y
designando cada posicin al nivel correspondiente. Por ejemplo, un experimento marcado
(3133) quiere decir: T = 290C; G = Vaco#1; S = 7.5 mmolm-2; y, Z = 5 h. La Tabla a
continuacin muestra los resultados de una rplica del diseo A[1G L 5] ejecutado:

Porcentaje de carbono (%C)


11.61 (1111) 12.00 (2122) 11.49 (3133) 12.01 (4144) 11.04 (5155)
11.70 (1223) 12.17 (2234) 12.50 (3245) 11.78 (4251) 11.77 (5212)
11.80 (1335) 11.97 (23.41) 12.38 (3352) 11.73 (4313) 12.09 (5324)
12.00 (1442) 12.17 (2453) 11.51 (3414) 11.65 (4425) 12.06 (5431)
12.38 (1554) 12.32 (2515) 11.70 (3521) 11.71 (4532) 6.30 (5543)

Determinar si la temperatura tiene un efecto significativo sobre los resultados mostrados.

Respuesta

1. El modelo del diseo A[1G L 5] mostrado es: y ijkl m Ti Gj kS lZ ijkl

144

Ejemplo: ANOVA para diseo A[1G L 5]

2. Las hiptesis a probar se refieren solamente a la temperatura:


T T T T T
H 0 : 240 265 290 315 340 0 ; H 1 : iT 0 , para algn i.

3. La Tabla de Contingencia; que se obtiene ordenando los experimentos de acuerdo a los


cdigos presentados, respectiva es:

Porcentajedecarbono(%C)
NivelesdeT,
i = 1, 2, 3, 4, 5
Prom.T
Gas atmsfera de reaccin; j = 1, 2, 3, 4, 5
1 = Vac.#1 2 = N2 3 = He 4 = Ar 5 = Vac.#2
1 = 240 11,61 11,70 11,80 12,00 12,38 59,49 11,90
2 = 265 12,00 12,17 11,97 12,17 12,32 60,63 12,13
3 = 290 11,49 12,50 12,38 11,51 11,70 59,58 11,92
4 = 315 12,01 11,78 11,73 11,65 11,71 58,88 11,78
5 = 340 11,04 11,77 12,09 12,06 11,70 58,66 11,73
G 58,15 59,92 59,97 59,39 59,81
Prom.G 11,63 11,98 11,99 11,88 11,96
S* 58,94 59,14 59,23 60,18 59,75
Prom.S 11,79 11,83 11,85 12,04 11,95
59,12 59,86 58,79 60,16 59,31
Prom.Z 11,82 11,97 11,76 12,03 11,86
Totales 297,24 11,89

*CdigosS **CdigosZ
1 1
2 2
3 3
4 4
5 5

4. Aplicando el procedimiento descrito en la pgina 142, se llega a la siguiente Tabla:

FV 3534,06
Variable SS MS F* valor-p
T 0,47 4 0,12 0,74 0,593
G 0,46 4 0,12 0,72
S 0,21 4 0,05 0,32
Z 0,25 4 0,06 0,39
Error 1,28 8 0,16
Total 2,67 24

T = Temperatura, G = Tipo de gas en la atmsfera de reaccin, S = concentracin de grupos silanol, Z =


tiempo de reaccin. SS = Sumas de Cuadrados; = Grados de Libertad; MS = Promedios de las Sumas de
Cuadrados; F* = Relaciones F.

145

Ejemplo: ANOVA para diseo A[1G L 5]

Los resultados del ANOVA muestran que la temperatura no tiene un efecto significativo
sobre la eficiencia del proceso de funcionalizacin reflejada en el porcentaje de carbono en
las muestras de los materiales funcionalizados. En adicin, los valores de las relaciones F*
calculadas muestran que las condiciones escogidas para las variables seleccionadas en el
estudio no tendran influencia en los resultados del experimento. Queda como ejercicio para
el lector escribir el modelo estadstico correspondiente y realizar los anlisis de residuales
respectivos.

Ejercicios

1. El reporte de Boksnyi et al. (Boksnyi et al. 1976) muestra resultados sobre la influencia de
la temperatura (C), la presencia de diversos gases en la atmsfera de reaccin, la concentracin
de grupos silanol (-Si-O-H) y el tiempo de reaccin (h) sobre la eficiencia en la funcionalizacin
de muestras de slice. Los investigadores usaron un Cuadro Greco-Latino 55: A[1G L 5] de
acuerdo a la siguiente Tabla:

Niveles
Variable
1 2 3 4 5
T: Temperatura (C) 240 265 290 315 340
G: Tipo de atmsfera Vaco#1 N2 He Ar Vaco#2
S: [-S-O-H], (mmolm-2) 4.5 6.0 7.5 9.0 10.5
Z: Tiempo de reaccin (h) 3 4 5 6 7

Una manera de determinar la eficiencia de la funcionalizacin fue medir los porcentajes de


carbono (PC) e hidrgeno (PH). Los resultados se codificaron de acuerdo a la nomenclatura:
(TGSZ) donde se designa a cada posicin del vector enunciado el nivel correspondiente de cada
variable. Por ejemplo, un experimento marcado (3133) quiere decir: T = 290C; G = Vaco#1;
S = 7.5 mmolm-2; y, Z = 5 h. Los autores presentan sus resultados para dos Cuadros Greco-
Latinos realizados para dos agentes de funcionalizacin diferentes. En el primero, se trat del
compuesto Octadecil-(1)-dimetilsiloxi-cabosil y en el segundo de 5,8-dioxanonil-(1)dimetilsiloxi-
cabosil. La Tabla abajo presenta los resultados:

146

Tomado de: (Boksnyi et al. 1976)

Haga un anlisis de los resultados presentados de acuerdo a lo siguiente:

a) Determine para cada Cuadro Greco-Latino si la temperatura tiene un efecto significativo


sobre los porcentajes de carbono e hidrgeno medidos.

b) Evale si el agente de funcionalizacin influye en los resultados usando los procedimientos


presentados para diseos A[1B ] donde las rplicas (TGSZ) designan los bloques del experimento.
e.g. los resultados de PC: 11.61% y 5.48% hacen parte del bloque (1111) en este anlisis.

c) Halle los modelos estadsticos que describen los resultados de los experimentos realizados.
Constate los supuestos de estos modelos.

2. Sinha y Seward (Sinha & Seward 1969) investigaron la hiptesis que el suministro de ciertos
medicamentos en ratones de laboratorio modifica su capacidad de eleccin en pruebas donde
los animales deben escoger entre ir a la derecha o a la izquierda en laberintos. Con este propsito,
escogieron como variable respuesta de sus experimentos; diseados como A[1GL4] , el porcentaje
de alteracin de la respuesta observada. La variable principal del experimento fue el tipo de
medicamento. Los medicamentos usados fueron: GABA cido gamma aminobutrico ,
Metrazol y dos controles: una solucin salina y ningn medicamento. Las pruebas de escogencia
se hicieron en cuatro diferentes modalidades llamadas: 1, 2, 4 y 8. Los ratones se dividieron en
cuatro grupos y esto se consider como una segunda variable interferencia. Finalmente, los

147

tratamientos se aplicaron en cuatro das diferentes; usando este parmetro como el ltimo factor
a bloquear. Los autores presentan la siguiente Tabla de resultados:

Tomado de: Sinha y Seward (Sinha & Seward 1969)

En su artculo, los autores no proveen cdigos para las combinaciones de los factores
bloqueados: grupos de ratones y das de los tratamientos.

a) Compare los modelos estadsticos derivados de este experimento cuando se codifican los
resultados en tres modalidades diferentes de Cuadro Greco-Latino. Recuerde que para un
diseo experimental de este tipo hay cientos de arreglos posibles.

148

CAPTULO VIII
DISEOS DE EXPERIMENTOS CON MLTIPLES
n ;r
VARIABLES PRINCIPALES: FACTORIALES ( ik ) j

i 1; j 1

Los diseos discutidos en los Captulos VI y VII involucran mltiples variables interferencia,
pero solamente una variable principal. Sin embargo, lo ms comn en una investigacin es la
intervencin de ms de una variable principal. En consecuencia, se hace indispensable desarrollar
diseos estadsticos de experimentos factoriales; los cuales manejan mltiples variables
principales. Las variables seleccionadas para el diseo no necesariamente deben tener el mismo
nmero de niveles; esta es una diferencia importante frente a los diseos de Cuadro Latino,
Greco Latino e Hiper Cuadros. Los experimentos en los cuales se aplican los Diseos
Factoriales se pueden representar mediante el siguiente diagrama de flujo:

Var.ppal #1
a niveles
Var.ppal #2
b niveles Experimento o proceso
Variable(s)respuesta
Var.ppal #n
n niveles

Adems de manejar mltiples variables principales y niveles para cada una de ellas, los
Diseos Factoriales estn particularmente concebidos para reflejar la existencia de
interacciones entre las variables de entrada estudiadas. En consecuencia, un Diseo Factorial
permite evaluar la pertinencia de los modelos lineales obtenidos para los diseos de un factor:
yijkl m efectos ijkl . De esta manera, estos diseos permiten obtener modelos no

lineales del tipo: yijkl m efectos interacciones + ijkl . Donde, el trmino

interacciones representa un trmino del tipo: ( ) ijkl . De acuerdo a Quinn y Keough


(Quinn & Keough 2002), el trmino lineal en un modelo matemtico se refiere a la combinacin
de sus parmetros; no a la forma matemtica de estos. De esta manera, un modelo polinmico
puede considerarse lineal mientras que no haya parmetros multiplicndose entre s.

149

Cules son el sentido fsico de las interacciones?

Las interacciones entre variables principales son comunes. Un caso particularmente sencillo es
la relacin entre la temperatura, la presin, el volumen y el nmero de moles en un gas. Por
ejemplo, para un gas monoatmico ideal: PV nRT ; que es un modelo no lineal. En general,
una interaccin refleja una interdependencia entre las variables de entrada a la hora de determinar
la magnitud de su efecto sobre la respuesta del experimento. De esta manera, la deteccin de
la existencia de interacciones alerta sobre la existencia de fenmenos y variables
subyacentes detrs de los resultados obtenidos. Por ejemplo, para toda sustancia, se sabe
que la temperatura, la presin y el volumen son variables macroscpicas medibles que reflejan el
movimiento global de los electrones y tomos o molculas que la componen y rodean.

Cul es la importancia de las interacciones en el diseo de experimentos?

La presencia de interacciones en un experimento invalida el uso de un modelo estadstico lineal.


Por tanto, bajo tales condiciones, se debe tener muchsima prudencia en interpretar los efectos
individuales de las variables principales; tambin llamados: efectos principales. La razn para
ello fue expuesta en el prrafo anterior y se refiere a la interrelacin entre las variables que
conlleva a que la combinacin de niveles entre estas sea preponderante sobre sus cambios
individuales. As, por ejemplo, si se decide estudiar el efecto de la temperatura y la presin sobre
el volumen de un globo que contiene una cierta cantidad de gas ideal en su interior, se ver que
cambiar la temperatura desde un valor hipottico T1 a uno T2 producir un volumen diferente
para una presin p1 o p2 para cada temperatura contemplada y viceversa. El esquema siguiente
ilustra la situacin:

Globo CalentamientohastaT2
Globocon
conn1 a volumen:V2>V1
T1,p1 Alavezp2>p1!
y V1

p2
Globo Compresinhastap2
conn1 a V2 < V1
T1,p1 T2 < T1!
y V1

150

Cmo se detecta la presencia de interacciones?

En captulos anteriores se ha planteado que un grfico de los residuales del modelo estadstico
en funcin de los valores predichos por tal modelo; i.e., eij vs. y ij sirve para evaluar a priori

la posible existencia de interacciones en un experimento multivariables. Sin embargo, este


mtodo requiere una experiencia relativamente alta para definir la existencia de patrones grficos
que indiquen interacciones. Una alternativa ms sencilla para detectar la presencia de
interacciones consiste en realizar una grfica cartesiana de dos dimensiones donde el eje de las
ordenadas sea la variable respuesta del experimento, mientras que el eje de las abscisas
corresponda a una de las variables principales del mismo. Paso seguido, se grafican curvas con
los valores experimentales que correspondan a los niveles de una segunda variable de entrada
estudiada. Si las curvas obtenidas presentan inflexiones o se cruzan, se presume la existencia de
interacciones entre las dos variables de entrada representadas. En caso contrario; curvas
paralelas, se descartan las interacciones.

Ejemplo: Deteccin de interacciones en el experimento de Casew (Cawse 2003)


En el Captulo VII (pginas: 130 137) se analizaron los resultados de un experimento

A[1L5] del cual se hall evidencia de la presencia de interacciones mediante un grfico de

residuales en funcin de los valores predichos por el modelo (pg. 137). Corroborar este
resultado mediante una grfica de la variable respuesta (TON) en funcin de las variables
respuesta de los tipos de metal M1 y M2.

Respuesta

De manera arbitraria, se escoge aqu representar la variable de entrada M1; cuyos niveles son:
Fe, Cu, Ni, Pb y Re en el eje de las abscisas, mientras que se trazarn lneas para los niveles
de la variable respuesta M2; V, W, Ce, La y Sn. De esta manera, la tabla de resultados
reportada por el autor (pg. 131) se puede mostrar as:

Lneas M2 V W Ce La Sn
Abscisa: M1 Ordenada: TON
Fe 645 606 607 710 665
Cu 686 599 683 831 686
Ni 629 663 616 816 831
Pb 766 652 593 868 695
Re 991 982 873 1040 867

151

Ejemplo: Deteccin de interacciones en el experimento de Casew (Cawse 2003)


Con los datos organizados de la manera propuesta, se puede elaborar el siguiente grfico:

1200

1000

800
TON

600

V
400
W
Ce
200
La
Sn
0
Fe Cu Ni Pb Re
Metal M1

Los cruces e inflexiones de las curvas representadas corroboran la presencia de interacciones


entre las variables M1 y M2 del experimento. Debido a esto, los resultados del ANOVA

aplicado al diseo A[1L 5] postulado llevan a conclusiones incorrectas sobre los efectos de las

variables de entrada. Una comprobacin similar se puede hacer para las combinaciones entre

otras parejas de variables. Para el caso de los diseos: A[1B ] , A[1L ] , A[1G L ] e Hiper Cuadros,

existen mtodos para tener en cuenta los efectos de interacciones en los modelos derivados
de estos diseos bajo ciertas suposiciones y restricciones. Estos mtodos se discuten en el
Captulo X.

Ejercicio

Corroborar la posible presencia de interacciones entre las variables implicadas en los diseos
A[1B ] , A[1L ] y A[1G L ] presentados en los ejercicios de los Captulos VI (pgs. 119-123) y VII
pgs. 137-140 y 146-148).

152

n ;r kj
Diseos Factoriales (
i 1; j 1
i )

Vista la necesidad de tener en cuenta la presencia de interacciones en los diseos de experimentos


multivariables, se hace indispensable desarrollar una nueva clase de Diseos de Experimentos
que las tenga en cuenta. A estos diseos se les llama Diseos Factoriales. En los Diseos
Factoriales Completos, se combinan todos los niveles de las variables principales en cada
rplica del experimento. De este modo, se asegura que durante el experimento se recolecte
informacin suficiente para luego usarla en la estimacin del efecto de las interacciones entre
las variables. Por defecto, se requerir ms de una rplica del Diseo Factorial Completo
para evaluar este efecto. La restriccin anterior se hace evidente en el clculo de los grados de
libertad del error aleatorio de los Diseos Factoriales Completos. La cuantificacin del efecto de
las interacciones se realiza mediante el Anlisis de Varianza; el cual obedece los mismos
principios ya enunciados para los diseos de una variable principal presentados en los captulos
anteriores.

kj
n ;r
Nota: En este libro, se usa la notacin i para designar los Diseos Factoriales.

i 1; j 1

Donde, i es un smbolo general que encierra los niveles de las variables principales del
diseo con i = 1,2,..;n indicando el nmero de niveles; kj representa las variables del diseo
con j = 1,2,,r. Como ejemplo, un diseo que comprehenda tres variables principales: A,
B y C, la primera con dos niveles, la segunda con tres y la ltima con cuatro, se denotar:
n;r
de esta notacin es: ik j 21 31 41 2 3 4 . Por otro lado, si A y B tienen dos
i 1; j 1
n; r kj
niveles y C cuatro, esto se representa como: i 21 21 41 2 2 4 . Esta notacin
i 1; j 1

da el nmero total de una rplica del experimento. As, para este ltimo ejemplo, una
rplica consta de diecisis (16) pruebas

Un Diseo Factorial puede, en principio, pero no en la prctica, incluir un nmero infinito de


variables principales cualitativas y/o cuantitativas. De la misma manera, el ANOVA puede
adaptarse para incluir el efecto de todas las variables que se incluyan en el diseo ms el efecto
de todas las interacciones posibles entre stas. Sin embargo, debe tenerse en cuenta que en los
Diseos Factoriales Completos el nmero de experimentos por rplica aumenta en
proporcin directa al nmero de niveles de las variables principales consideradas. As, para un

153

Diseo de tres factores: A, B y C, con dos niveles para A, tres para B y cuatro para C, i.e.,

[ A 2 B 3 C 4 ] , cada rplica del experimento comprende: 234 = 24 ensayos. Lo anterior

constituye, de hecho, la mayor desventaja prctica de los Factoriales Completos.

Para simplificar la presentacin de los procedimientos que se desarrollan para llevar a cabo los
Anlisis de Varianza de los diseos factoriales, se estudiarn primero los diseos de dos
factores, seguido de los de tres factores y finalmente se comentar el diseo Factorial General.

Los casos particulares del diseo factorial: 2 k y 3 k sern analizados posteriormente.

Anlisis estadstico de resultados de experimentos de dos factores usando ANOVA


En general, los pasos para el ANOVA de un Diseo Factorial son los mismos que para los
diseos de una variable principal. Los pasos son:
1. El modelo estadstico de un diseo factorial de dos factores es una adaptacin de los
modelos lineales de los diseos de una variable principal, ya discutidos, e incluye el trmino
de las interacciones entre las variables principales. As, y ijk m i j ( ) ij ijk . En

el modelo, i y j designan los niveles de las variables principales; i.e., i = 1, 2, , a y j = 1, 2,


, b; mientras k designa el nmero de rplicas efectuadas para el experimento; i.e., k = 1,
2, , n. Por otro lado, yijk es el valor de la variable respuesta en cada ensayo experimental,
m es la media poblacional del experimento, i, j y ij son los efectos de las variables
principales: A y B, y de la interaccin entre estas variables: AB. Finalmente, ijk es el error
aleatorio.

2. En un Diseo Factorial, se postulan hiptesis sobre el efecto de cada una de las variables
principales y de su interaccin. De esta manera, para el diseo de dos factores se tienen tres
grupos de hiptesis sobre el modelo:
(i) Efecto de la variable A:
Hiptesis nula: H 0 : 1 2 ... a 0 ; i.e., los cambios en los niveles de A no tienen
efecto sobre la variable respuesta.
Hiptesis alternativa: H 1 : i 0 , para algn i; i.e., por lo menos un cambio en los
niveles de A tiene efecto sobre la variable respuesta.

154

Anlisis estadstico de resultados de experimentos de dos factores usando ANOVA

(ii) Efecto de la variable B: H 0 : 1 2 ... b 0 ; H 1 : j 0 , para algn j.

(iii) Efecto de la interaccin entre A y B: H 0 : ( ) ij 0 , para toda combinacin i,j;

H 1 : ( ) ij 0 , para alguna combinacin i,j. Es posible probar estadsticamente todas estas

hiptesis puesto que en los Diseos Factoriales Completos no existe una restriccin de
aleatorizacin como la que tienen los diseos de una variable.
3. La tabla de contingencia se realiza de acuerdo a:

Niveles de la Valores de la variable respuesta


variable principal Niveles de la variable principal B;
j = 1, 2, , b A Prom. A
A,
i = 1, 2,,a 1 2 b
y111; y112;; y121; y122;; y1b1; y1b2;;
1 y1.. y 1
y11n y12n y1bn
y211; y212;; y221; y222;; y2b1; y2b2;;
2 y2.. y 2
y11n y22n y2bn


ya11; ya12;; ya21; ya22;; yab1; yab2;;


a ya.. y a
ya1n ya2n yabn

B y.1. y.2. y.b.

Prom. B y 1 y 2 y b

Rplicas* y11. y12. yab.

Prom. Rplicas** y 11 y 12 y ab

Totales y y
*,**Notar que para las rplicas se hace una sumatoria por cada casilla. Por tanto, surgen: ab sumas
de rplicas.
Las ecuaciones correspondientes a las sumas mostradas son:
b n a n n a b n
yi yijk ; y j y ijk ; y ij y ijk ; y y ijk ; y i yi a
j 1 k 1 i 1 k 1 k 1 i 1 j 1 k 1

155

Anlisis estadstico de resultados de experimentos de dos factores usando ANOVA

y j y j b ; y ij yij n ; y y N .

y 2 y2
4. El factor de variacin es: FV
abn N
5. Las propiedades de la varianza se siguen cumpliendo para el modelo formulado. Por tanto:
SST = SSA + SSB + SSAB + SSError.
Las siguientes ecuaciones se emplean para calcular estas sumas de cuadrados. El lector puede
constatar que estas ecuaciones guardan un gran parecido a las empleadas para los Cuadros
Latinos (de hecho, son equivalentes a las de un Cuadro Latino Replicado -ver Captulo
X-:
a b n
2 1 a 2 1 b 2
SS T y ijk FV ; SS A y i FV ; SS B yi FV . Para la suma de
i 1 j 1 k 1 bn i 1 an j 1
cuadrados de las interacciones, SSAB, se puede razonar que esta corresponde a la diferencia
entre la contribucin de las rplicas del experimento (SSRep-) y las sumas de cuadrados de las
variables principales. SSRep- se calcula con una ecuacin de naturaleza igual a las de SSA y SSB:
1 a b 2
SS Rp yij FV . Visto de otro modo, esta suma de cuadrados tiene en cuenta el
n i 1 j 1
aporte de las sumas asociadas a las rplicas de cada una de las casillas de la Tabla de
Contingencia. Con base en lo anunciado antes, se tiene que: SSAB = SSRp- - SSA - SSB. Esta
ecuacin enfatiza el hecho que los planteamientos realizados hasta este punto permiten la
evaluacin de interacciones en los Diseos Experimentales solamente en los casos donde se
lleve a cabo ms de una rplica del conjunto de experimentos que lo componen. Finalmente,
SSError.se calcula por diferencia: SSError = = SST - SSRp
6. Los grados de libertad siguen el mismo principio aditivo que las sumas de cuadrados.
T A B AB Error .
Donde, T abn 1 ; A a 1 ; A b 1 ; AB (a 1)(b 1) . Se puede demostrar que:
Error ab(n 1) . La expresin para los grados de libertad del error muestra nuevamente
que, en los Diseos Factoriales Completos, el anlisis de los resultados va ANOVA
requiere n 2.

156

Anlisis estadstico de resultados de experimentos de dos factores usando ANOVA


7. El clculo los promedios de las sumas de cuadrados: MSA, MSB, MSAB y MSError se efecta
de la manera acostumbrada:
SS A SS AB
MS A ; MS B SS B ; MS AB ; y, MS Error SS Error
a 1 b 1 ( a 1)(b 1) ab(n 1)

8. Se calculan tres estadsticos F; uno para la variable A; FAA , Error , otro para B; FBB , Error , y

otro para la interaccin AB; FAB


AB , Error
.

9. Calcular los valores-p asociados a los estadsticos FAA , Error , FBB , Error y FAB
AB , Error
o fijar un
A A B B
valor para el error tipo I y con l calcular los valores FCrt = F , A , Error ; FCrt = F , B , Error

AB AB
; y, FCrt = F , AB , Error .

10. Concluir sobre las hiptesis postuladas para las variables principales y las interacciones
entre estas y escribir el modelo estadstico de acuerdo a las conclusiones respectivas.
11. Comprobar los supuestos del modelo mediante la elaboracin de grficos basados en los
residuales del modelo: zk vs. eijk (supuesto de normalidad), eijk vs. Orden de ejecucin de

los experimentos (supuesto de independencia), eijk vs. yi , eijk vs. y j y. eijk vs. y ij

(supuesto de varianza constante). Por ltimo, aunque en estos diseos ya se evala el



posible efecto de interacciones, es bueno graficar y analizar eijk vs. y ijk para verificar

tendencias generales de los residuales respecto al modelo; tales como, por ejemplo, la
variabilidad de los residuales a medida que aumentan o disminuyen los valores predichos por
el modelo. Como es habitual, para calcular los residuales es necesario estimar los parmetros

del modelo. Para el diseo A a B b , se demuestra (Montgomery 2001) que:

m y ; i yi y ; j y j y ; ( ) ij y ij y y i y j . Reemplazando

en el modelo se concluye que: y ijk y ij . Este ltimo resultado es interesante porque

manifiesta que las predicciones del modelo corresponden a los promedios de cada casilla de
la Tabla de Contingencia. De este modo, el aumento en el nmero de rplicas tender a
mejorar las predicciones del modelo por tratarse de los promedios de cada experimento
realizado.

157

En lo que sigue, se ilustra el procedimiento arriba indicado mediante dos ejemplos. El primero
tiene como propsito para responder a la pregunta: qu sucede cundo se hace una sola
rplica de un diseo factorial completo? El segundo corresponde a un caso de estudio como
los presentados en captulos anteriores.

Ejemplo conceptual: ANOVA para Diseo Factorial Completo de una rplica


Para ilustrar lo que sucede con el ANOVA de un Diseo Factorial Completo de una sola

rplica, se tomar como base el experimento A[1L 5] de Casew (Cawse 2003) -pgs. 130

137-. Para este caso, se asumir que el experimento ejecutado corresponde a un Diseo

Factorial Completo de cinco niveles para cada variable principal: 5 2 . Se asumir adems

que los tipos de metales; M1 y M2, son las dos nicas variables del experimento y ambas son
principales. Con estos supuestos, los resultados del experimento se pueden resumir en la
Tabla siguiente:

M2
M1
V W Ce La Sn
Fe 645 606 607 710 665
Cu 686 599 683 831 686
Ni 629 663 616 816 831
Pb 766 652 593 868 695
Re 991 982 873 1040 867

Para el propsito del ejemplo, no es necesario desarrollar los once pasos de la metodologa
mostrada en una seccin anterior. En su lugar, nos limitaremos al planteamiento de la
Tabla de Contingencia y al clculo de las sumas de cuadrados para el experimento; pasos
tres (3), cuatro (4) y cinco (5). La Tabla de contingencia se encuentra abajo. El factor de
variacin es el mismo reportado en el ejemplo original: 13838.400. De la misma manera, la
suma total de cuadrados tambin es la misma: 429.542. Por su parte, las sumas de
1 a 2 1 b 2
cuadrados para M1 y M2 son: SS M 1
an i 1
y i FV y SS M 2 y j FV , pero,
bn j 1
como en este caso: a = b = 5 y n = 1, estas sumas tambin resultan en los mismos valores
reportados antes: 281604.8 y 93247.6, respectivamente (pg. 133). De otro lado, la suma de
1 a b 2
cuadrados de las rplicas es: SS Rp yij FV .
n i 1 j 1

158

Ejemplo conceptual: ANOVA para Diseo Factorial Completo de una rplica


M2
M1
V W Ce La Sn Sumas M1 Prom. M1
Fe 645 606 607 710 665 3233 646,6
Cu 686 599 683 831 686 3485 697,0
Ni 629 663 616 816 831 3555 711,0
Pb 766 652 593 868 695 3574 714,8
Re 991 982 873 1040 867 4753 950,6
Sumas M2 3717 3502 3372 4265 3744
Prom. M2 743,4 700,4 674,4 853,0 748,8
645 606 607 710 665
686 599 683 831 686
Sumas rpli- 629 663 616 816 831
766 652 593 868 695
991 982 873 1040 867
645 606 607 710 665
686 599 683 831 686
Prom. rpli- 629 663 616 816 831
766 652 593 868 695
991 982 873 1040 867 Suma Promedio
Totales 18600 744,0

Tabla de contingencia para experimento hipottico 5 2 derivado de Casew (Cawse 2003)

Se puede observar que los valores y ij , son: y11 645; y12 606;...; y 55 867 , i.e., son los

mismos valores de la nica rplica del experimento. Adems, recordando que n = 1. Por lo
1 a b 2
tanto, SS Rp yij FV SS T . En consecuencia, al reemplazar en la expresin
n i 1 j 1
general: SSError = SST - SSRp- = SST - SST = 0. Lo que ilustra el hecho que el mtodo
convencional de anlisis de varianza no conduce a resultados de inters en Diseos
Factoriales Completos de una rplica. Para hacerlo, se debe o combinar el desarrollo
matemtico del ANOVA con una expresin que estime el aporte de las interacciones o
eliminar este trmino del modelo matemtico. En esta ltima instancia se tendr un modelo

igual al ya planteado para los diseos A[1B ] . Mientras tanto, en el Captulo X se discutir el

mtodo de Tukey (Tukey 1949)(Montgomery 2001) que provee una alternativa para estos
casos.

159

Luego del ejemplo conceptual anterior, se ilustra a continuacin el anlisis completo de un


Diseo Factorial de dos Factores.

Ejemplo: anlisis de un Diseo Factorial Completo de dos Factores


La fabricacin de prototipos es parte fundamental de la industria aeronutica. Estos
prototipos sirven para evaluar el comportamiento de las piezas que componen las aeronaves.
Un prototipo se puede fabricar mediante diversas tcnicas; una de ellas es el llamado
modelado por deposicin fundida (Fused deposition modeling -FDM-). Bsicamente, el
FDM consiste en realizar la fundicin, extrusin y deposicin de un polmero termoplstico
sobre un molde impreso. Las caractersticas fisicoqumicas de las piezas obtenidas dependen
de varios factores involucrados en el proceso. Entre estos factores, Ravi et al. (Ravi et al.
2017) determinaron que la temperatura de la boquilla de la extrusora (T) y la distancia entre
sta y el molde (Nozzle-bed distance: NBD) tienen un impacto importante sobre el ancho
de los puntales (Strut width: SW) de los prototipos fabricados. En consecuencia, los autores
investigaron el efecto de estos factores y de su interaccin sobre el SW mediante la realizacin

de un diseo factorial 3 2 replicado tres veces; i.e., N = 27 ensayos. Para la temperatura, se

escogieron: 180, 200 y 220C, mientras que para NBD se trabaj con valores de 0.2; 0.3; y,
0.4 mm. La Tabla que se presenta a continuacin se deriva de los grficos de resultados
presentados por los autores. Para ello, se us el software: PlotDigitizer_2.6.8_Windows.

T (C) NBD (mm) SW (mm) T (C) NBD (mm) SW (mm) T (C) NBD (mm) SW (mm)
879.6 859.1 990.5
0.20 844.5 0.20 810.2 0.20 922.6
835.8 778.1 911.7
627.7 695.6 661.3
180 0.30 604.4 200 0.30 695.6 220 0.30 654.7
608.0 651.1 632.8
521.2 536.5 570.1
0.40 502.2 0.40 526.3 0.40 556.2
530.7 500.7 514.8

Realizar un anlisis estadstico de estos resultados. Adems, comparar los resultados que
resulten de hacer un ANOVA de solamente dos rplicas del experimento contra el
ANOVA de las tres rplicas de la Tabla.

160

Ejemplo: anlisis de un Diseo Factorial Completo de dos Factores


Respuesta

Como siempre, se recomienda inspeccionar los datos mediante la realizacin de grficas que
relacionen las variables de entrada con la variable respuesta. En primer lugar, se pueden hacer
diagramas de caja y bigote para SW en funcin de T y de NBD. Seguidamente, se pueden
grficos de interacciones. Los diagramas de caja y bigote (usando el complemento de Excel:
RealStistics -disponible en: http://www.real-statistics.com/free-download/real-statistics-
resource-pack/) para los datos de Ravi et al. (Ravi et al. 2017) son:

1200

1000

800
SW (m m)

600

400

200

0
180 200 220
Temperatura (C)

1200

1000

800
SW (m m)

600

400

200

0
0,20 0,30 0,40
NBD (mm)

Los diagramas obtenidos sugieren que: (i) La temperatura parece no ejercer una influencia
en la variable respuesta; (ii) NBD cambia significativamente el ancho de los puntales; (iii)

161

Ejemplo: anlisis de un Diseo Factorial Completo de dos Factores


Respuesta

(iii) Los cambios en la variable respuesta tienen una mayor variabilidad dentro de los niveles
de temperatura estudiados en comparacin con los resultados en funcin de la distancia entre
la boquilla y el molde ya que los diagramas de caja y bigote obtenidos para la temperatura
son mucho ms anchos que los de los ltimos; (iv) se encontr un dato atpico para el grupo
de datos referidos a NBD = 0.40. Sin embargo, dada la baja anchura de los diagramas para
esta variable, se spresume que esto puede no ser relevante para el anlisis.

Por otro lado, la grfica de interacciones; elaborada con base en los promedios de SW para
cada nivel de las variables del experimento y en donde las barras de error se refieren a la
desviacin estndar de los promedios calculados, resulta en:

1200

1000

800
SW (m m)

600

400
NBD=0.20

200 NBD=0.30

NBD=0.40

0
170 180 190 200 210 220 230
Temperatura (C)

Las inflexiones en las curvas realizadas sugieren la existencia de interacciones entre las dos
variables principales. Nuevamente, los resultados muestran que el aumento de la variable
NBD disminuye SW.

En adicin a los anlisis anteriores, es conveniente realizar un ANOVA que; adems de


aportar una base cuantitativa a las tendencias observadas, sirva para establecer un modelo
estadstico de los resultados del experimento. Se seguirn los pasos de las pgs. 155-158.

162

Ejemplo: anlisis de un Diseo Factorial Completo de dos Factores


Respuesta

1. El modelo para este experimento es: SWijk m iT NBD ( T NBD ) ij ijk . Donde, i =
j

j = k = 1,2,3; iT , NBD , ( T NBD ) ij y ijk son los efectos de los cambios de nivel en la
j

temperatura y en la distancia entre la boquilla y el molde, el efecto de las interacciones entre


las variables principales y el error aleatorio, respectivamente.

2. Las hiptesis a probar para este modelo son:


T T T
H 0 : 180 C 200 C 220 C 0 ; H 1 : i 0 , para alguna de las tres temperaturas estudiadas;
T

NBD
H 0 : 0NBD NBD NBD
.20 mm 0.30 mm 0.40 mm 0 ; H 1 : j 0 , para alguna de las tres distancias entre la

boquilla y el molde; y, H 0 : ( T NBD ) ij 0 ; H 1 : ( T NBD ) ij 0 para alguna de las

combinaciones entre la temperatura y la distancia boquilla molde utilizadas.

3. Tabla de contingencia:
SW (m m)
T (C) NBD (mm)
0,20 0,30 0,40 T Prom. T
180 879,6 844,5 835,8 627,7 604,4 608,0 521,2 502,2 530,7 5954,0 661,6
200 859,1 810,2 778,1 695,6 695,6 651,1 536,5 526,3 500,7 6053,3 672,6
220 990,5 922,6 911,7 661,3 654,7 632,8 570,1 556,2 514,8 6414,8 712,8
NBD 7832,1 5831,4 4758,6
Prom. NBD 870,2 647,9 528,7
2559,9 1840,1 1554,0
Rplicas 2447,4 2042,3 1563,5
2824,8 1948,9 1641,1
853,3 613,4 518,0
Prom. Rplicas 815,8 680,8 521,2
941,6 649,6 547,0 Sumas Promedios
Totales 18422,1 682,3

Las sumas y promedios se calcularon de acuerdo a las ecuaciones de las pginas 155-156.
e.g., para las rplicas: y11 879.6 844.5 835.8; y12 859.1 810.2 778.1

2
4. Factor de variacin: FV 18422.1 12'569.397.9 .
3 3 3

5. Sumas de cuadrados:

SST (879.6 2 ...) FV 587013.9 ;

163

Ejemplo: anlisis de un Diseo Factorial Completo de dos Factores

1
SST (5954.0 2 6053.3 2 6414.8 2 ) FV 13069.3 ;
33

1
SS NBD (7832.12 5831.4 2 4758.6 2 ) FV 540753.1 ;
3 3

1
SS Rp (2559.9 2 1840.12 1554.0 2 2447.4 2 2042.32 1563.5 2 ...) FV 574128.4 ;
3

SST NBD SS Rp SS T SS NBD 574128.4 13069.3 540753.1 20306.0 ;

SS Error SST SS Rp 587013.9 574128.4 12885.6 .

6. Grados de libertad:

T 3 3 3 1 26 ; T NBD 2 ; T NBD 2 2 4 ; Error 26 2 2 4 18 .

7. Promedios de las sumas de cuadrados:

13069.3 540753.1 20306.0


MST 6534.6 ; MS NBD 270376.6 ; MST NBD 5076.5 ;
2 2 4

12885.6
MS Error 715.9 .
18
8. Estadsticos F:
MS T MS NBD MS T NBD
FTT , Error 9.13 ; FNBD
NBD , Error
377.69 ; FTT NBD
NBD
, Error 7.09
MS Error MS Error MS Error

9. Valores-p:

valor p ( F2T,18 9.13) 1.83 10 3 ; valor p ( F2NBD


,18 377.69) 2.00 10
15
;

valor p ( F2T,18 NBD 7.09) 1.30 10 3 .

Estos valores indican que se tiene evidencia suficiente para rechazar las tres hiptesis nulas
del modelo estadstico. En consecuencia, la temperatura y la distancia entre la boquilla y el
molde y su interaccin tienen un efecto significativo el espesor de los puntales de los
prototipos. Es costumbre poner los resultados de un ANOVA mediante una Tabla como
la mostrada a continuacin:

164

Ejemplo: anlisis de un Diseo Factorial Completo de dos Factores


Tabla ANOVA tpica para SW:

Factor SS MS F valor-p Sign. ( = 0,05)*


T 13069,3 2 6534,6 9,13 1,83E-03 S
NBD 540753,1 2 270376,6 377,69 2,00E-15 S
TNBD 20306,0 4 5076,5 7,09 1,30E-03 S
Rplicas 574128,4 --- ---
Error 12885,6 18 715,9
Total 587013,9 26

*Significancia estadstica al comparar con el Error tipo sealado.

A pesar que los resultados del ANOVA y las grficas realizadas para los datos experimentales
coinciden en evidenciar la existencia de interacciones entre las variables principales del
experimento realizado, es importante discutir la interpretacin estadstica de estas
interacciones. En este sentido, Loftus (Loftus 1978) describi la existencia de dos tipos
principales de interacciones entre variables; propiamente, interacciones interpretables e
interacciones no interpretables. Al primer grupo pertenecen aquellas interacciones cuyo
grfico de interacciones resulta en dos curvas que se interceptan. Estas interacciones
son inherentes a una interrelacin no lineal entre las variables que intervienen en el fenmeno
estudiado. En cuanto a las interacciones no interpretables, estas evidencian curvas que
no se interceptan pero que presentan inflexiones o pendientes distintas. Se han
publicado interesantes anlisis al respecto de las interacciones no interpretables (Loftus
1978)(Rosnow & Rosenthal 1995)(Wagenmakers et al. 2012)(Bogartz 1976)(Garcia-Marques
et al. 2014). Las principales conclusiones al respecto de la deteccin de stas son: (i) la posible
existencia de relaciones cuadrticas (o de otro orden) entre alguna(s) de la(s) variables
principales del experimento y la variable respuesta. En este sentido, cabe recordar que el
modelo estadstico del ANOVA aqu mostrado presenta una relacin lineal de orden uno
entre las variables principales y la variable respuesta. (ii) La influencia de otras variables no
tomadas en cuenta en la planeacin del experimento; i.e., variables utilizadas en valores fijos.
Cuando hay interacciones no interpretables los resultados del ANOVA resultan
ambiguos y se aconseja reevaluar con detalle la planeacin experimental en su conjunto y
prestar la mayor atencin al conocimiento terico del fenmeno o proceso estudiado junto
al contexto de los experimentos realizados.

165

Ejemplo: anlisis de un Diseo Factorial Completo de dos Factores


Para el ejemplo aqu presentado, vale la pena mencionar que las grficas de interacciones
muestran que estas son del tipo no interpretables (!). Una lectura del manuscrito de Ravi
et al (Ravi et al. 2017) permite saber que los autores decidieron estudiar nicamente la
influencia de la temperatura de la boquilla y la distancia entre la boquilla y el molde sobre el
ancho de los puntales, fijando como constantes variables como: la temperatura de extrusin
y el dimetro de la boquilla; las cuales, los mismos autores reportan se haban reportado
como importantes para el proceso en artculos previos. De esta manera, se puede plantear la
hiptesis que las interacciones no interpretables del experimento estn asociadas a las
variables no estudiadas por los autores. Por otro lado, el hecho que se presenten este tipo de
interacciones en los Diseos Factoriales no implica necesariamente la violacin de los
supuestos del modelo estadstico respectivo. A continuacin, se presentan grficos de los
residuales para los supuestos de normalidad y varianza constante del caso aqu en discusin.

Recordando que cuando los efectos de las variables principales y de las interacciones son
significativas, las predicciones del modelo estadstico del diseo factorial de dos factores
estn dadas por: y ijk y ij ; i.e. los promedios de las rplicas de cada celda del experimento,

se puede elaborar la siguiente tabla de residuales que incluye los valores yijk :

853,3 853,3 853,3 613,4 613,4 613,4 518,0 518,0 518,0


y ijk 815,8 815,8 815,8 680,8 680,8 680,8 521,2 521,2 521,2
941,6 941,6 941,6 649,6 649,6 649,6 547,0 547,0 547,0
26,3 -8,8 -17,5 14,3 -9,0 -5,4 3,2 -15,8 12,7
e ijk 43,3 -5,6 -37,7 14,8 14,8 -29,7 15,3 5,1 -20,4
48,9 -19,0 -29,9 11,7 5,1 -16,8 23,0 9,2 -32,2

Con los residuales, se elabora el grfico de normalidad respectivo (ver pgina siguiente) que
no muestra una desviacin del supuesto de normalidad. Sin embargo, s se evidencia la
presencia de un dato atpico ( eijk 37.7 ); el cual corresponde al atpico encontrado en el

diagrama de caja y bigotes de NBD vs. SW (pg. 161). En una grfica de normalidad, un
dato atpico se aquel que ms se aleja de la recta de ajuste. Tpicamente, se encuentran en los
extremos del grfico. Como se dijo antes, aunque el dato sea atpico, su impacto en los
anlisis efectuados no es considerable y por ello no se omite, pero tampoco se considera
relevante.

166

Ejemplo: anlisis de un Diseo Factorial Completo de dos Factores


2,5

2,0

1,5

1,0

0,5

zl 0,0

-0,5

-1,0

-1,5

-2,0
Dato atpico

-2,5
-80,0 -60,0 -40,0 -20,0 0,0 20,0 40,0 60,0 80,0
ijk
Grfico de normalidad para datos reportados por Ravi et al. (Ravi et al. 2017)

Los grficos del supuesto de varianza constante para cada factor son:
60,0 60,0
50,0 50,0
40,0 40,0
30,0 30,0
20,0 20,0
10,0 10,0
ijk

ijk

0,0 0,0
-10,0 -10,0
-20,0 -20,0
-30,0 -30,0
-40,0 -40,0
-50,0 -50,0
660,0 670,0 680,0 690,0 700,0 710,0 720,0 500,0 550,0 600,0 650,0 700,0 750,0 800,0 850,0 900,0

i.. .j.
60,0
50,0
40,0
30,0
20,0
10,0
ijk

0,0
-10,0
-20,0
-30,0
-40,0
-50,0
500,0 600,0 700,0 800,0 900,0 1000,0

ij.= ijk

167

Ejemplo: anlisis de un Diseo Factorial Completo de dos Factores


Los grficos obtenidos evidencian una cierta tendencia al aumento en la dispersin de los
residuales a medida que se incremente la temperatura de la boquilla. Ello refuerza la hiptesis
de la interferencia de alguna variable no tenida en cuenta por los autores de la investigacin.

Finalmente, se realiza un ANOVA reduciendo artificialmente el nmero de rplicas del


experimento a dos para estudiar la sensibilidad de esta prueba estadstica frente al nmero
de rplicas. En particular, se eliminaron los datos de la tercera rplica. La Tabla respectiva
es:

Factor SS MS F valor-p Sign. ( = 0,05)*


T 11992,5 1 11992,5 35,45 3,52E-05 S
NBD 376842,1 1 376842,1 1113,85 9,56E-15 S
TNBD 13402,7 1 13402,7 39,62 1,97E-05 S
Rplicas 402237,3 --- ---
Error 4736,5 14 338,3
Total 406973,8 17

Como se ve en la Tabla, el ANOVA es sensible frente al nmero de rplicas del experimento.


Especficamente, con las dos rplicas seleccionadas se obtienen valores-p menores que los
encontrados en el experimento original. Esto se debe a la reduccin significativa de los
grados de libertad del error. Sin embargo, puede notarse que el efecto con el valor-p mayor
sigue correspondiendo a la variable NBD, mientras que el que tiene el valor-p menor sigue
siendo la interaccin. Considerando la discusin hecha antes sobre las interacciones,
volveremos sobre este ejemplo en el Captulo X donde se discuten anlisis suplementarios
de los Diseos Experimentales.

En general, el ejemplo desarrollado realza la importancia de nunca prescindir del espritu


crtico que debe tener un investigador frente a su labor puesto que las herramientas
estadsticas deben emplearse siempre bajo estndares rigurosos de anlisis y en el contexto
del proceso estudiado.

168

Ejercicios

1. Eusner et al. (Eusner et al. 2010) investigaron la implementacin de un proceso de produccin


de dispositivos microfludicos (ver imagen); los cuales hacen parte del montaje de sistemas de bolsillo
de alta eficiencia para anlisis qumicos y biolgicos, usando polimetilmetacrilato como sustrato.

Dispositivos microfludico. Tomado de: http://www.medicalplasticsnews.com/news/medical-devices/making-in-


roads-in-microfluidic-devices-for-onsite-sample-analysis/

Los autores emplearon un proceso de manufactura de los dispositivos llamado: grabado en


caliente (hot embossing), para el cual se ha reportado que la calidad de los dispositivos producidos;
i.e., las dimensiones de los micro-canales, puede depender de la temperatura de los calentadores
del aparato de grabado, la presin aplicada, el tiempo entre ciclos de grabado, la alineacin de
las herramientas del aparato y de las propiedades del material a grabar. De entre estos factores,
los autores argumentaron que los principales eran la temperatura y la presin. Con base en esto,
disearon un experimento factorial de dos niveles para cada variable principal y cuyas variables
respuesta fueron la altura y el ancho de los micro-canales de los dispositivos producidos. Para
estas variables, los autores reportaron valores que corresponden a la sustraccin de los valores
medidos experimentales del promedio de las dimensiones de la herramienta de grabado;
promedio de altura de la herramienta = 39.7 mm y promedio del ancho de la herramienta = 52.7
mm. Se hicieron tres rplicas del diseo experimental. Los resultados obtenidos se presentan en
la tabla mostrada abajo.

(i) Analice los resultados de este experimento para ambas variables respuesta, incluyendo
un estudio de las posibles interacciones presentes.

(ii) Desarrolle modelos estadsticos para los resultados basndose en los resultados de los
Anlisis de Varianza respectivos.

169

(iii) Haga un anlisis de los residuales del modelo y compruebe los supuestos de
normalidad y varianza constante. Defina si existen datos atpicos y discuta su posible
influencia en los resultados obtenidos.

Presin Temperatura Altura micro- Ancho micro-


[Mpa] [C] canal* [m m] canal** [m m]
0.50 140 16.59 -20.36
0.50 140 19.49 -17.06
0.50 140 23.26 -13.23
0.50 170 0.58 5.12
0.50 170 0.31 3.56
0.50 170 0.69 4.42
1.45 140 0.74 2.44
1.45 140 0.65 3.06
1.45 140 0.59 1.06
1.45 170 0.48 2.54
1.45 170 0.42 3.02
1.45 170 0.75 3.73

Datos para las dimensiones de los canales de dispositivos microfludicos (Eusner et al. 2010). *Valor sustrado del
promedio de altura de la herramienta = 39.7 mm; **Valor sustrado del promedio del ancho de la herramienta =
52.7 mm.

2. Jacob y Anjaneyulu (Jacob & Anjaneyulu 2013) estudiaron el trnsito de vehculos pesados en
vas terrestres de la India. En aras de mejorar la seguridad vial, los autores buscaron disear
modelos para predecir las velocidades efectivas de los vehculos y la reduccin de esta velocidad
frente a carreteras con curvas. En su reporte, muestran datos de la diferencia mxima de
velocidad en funcin del radio (R) y la longitud de las curvas (CL):

CL [m]
R [m]
50 100 150 200 250 300
50 6.77 6.57 7.19 8.89 10.59 12.29
100 6.18 5.98 5.78 7.24 8.94 10.64
150 5.99 5.79 5.59 6.70 8.40 10.10
200 5.89 5.69 5.69 6.42 8.12 9.82
400 5.75 5.55 5.55 6.01 7.71 9.41
600 5.70 5.50 5.50 5.87 7.57 9.27
800 5.67 5.47 5.47 5.81 7.51 9.21
1000 5.66 5.46 5.46 5.76 7.46 9.16

(i) Desarrolle un modelo estadstico para los datos presentados agrupando los niveles de
CL en las categoras: 50 100 m; 150 200 m; y, 250 300 m.

(ii) Compare las predicciones del modelo del diseo factorial 83 del inciso (i) con las
que producen los modelos de diseos A[1B ] cuyas variables principales seran R y CL.

Discuta los resultados obtenidos respecto a la posible presencia de interacciones.

170

Você também pode gostar