Estadistica

1
Universidad de la Habana
Facultad de Qumica

E
E
s
s
t
t
a
a
d
d
s
s
t
t
i
i
c
c
a
a
y
y
D
D
i
i
s
s
e
e
o
o

d
d
e
e
E
E
x
x
p
p
e
e
r
r
i
i
m
m
e
e
n
n
t
t
o
o
s
s

Dra. Esther Alonso Becerra

__________________________________________________________________________________________
Zapata y G, Vedado, Ciudad de la Habana, Cuba, CP: 10400
: (537) 8703922, 8794734 FAX: (537) 8735774
http://www.fq.uh.cu E-mail: esther@fq.uh.cu
2
ESTADSTICA DESCRIPTIVA

Analiza series de datos (variables) y trata de extraer conclusiones sobre el com-
portamiento de estas variables.

Las variables pueden ser de dos tipos:

Variables cualitativas o atributos: no se pueden medir numricamente.
Variables cuantitativas: tienen valor numrico. Pueden ser discretas o conti-
nuas:
Discretas: slo pueden tomar valores enteros (1, 2, 8, -4, etc.).
Continuas: pueden tomar cualquier valor real dentro de un intervalo.

Las variables tambin se pueden clasificar en:
Unidimensionales: slo recogen informacin sobre una caracterstica.
Bidimensionales: recogen informacin sobre dos caractersticas de la pobla-
cin.
Pluridimensionales: recogen informacin sobre tres o ms caractersticas.
CONCEPTOS IMPORTANTES
Individuo: cualquier elemento que porte informacin sobre el fenmeno que se
estudia.
Poblacin: Es un conjunto homogneo de individuos sobre los que se estudia
una o varias caractersticas que son, de alguna forma, observables o medibles.
Puede ser un conjunto finito o infinito.
Muestra: Es un subconjunto de la poblacin. Debe ser representativo de la po-
blacin. El nmero de elementos de la muestra se denomina tamao mues-
tral.
Parmetro: es cualquier caracterstica medible del Universo o de la Muestra
Estadstico (o estadgrafo): es una funcin de la muestra
3
Medidas de Posicin Central

Informan sobre los valores medios de la serie de datos

Media Aritmtica
n
x
x
n
i
i
=
=
1

Media Aritmtica
Ponderada
=
=
=
N
i
i
N
i
i i
n
x n
x
1
1

Media Geomtrica
n
n
x x x G ) )....( )( (
2 1
=

Media Armnica
=
=
n
i
i
x
n
H
1
1
En el clculo de la media se utilizan todos los valores de la serie, por lo que no
se pierde ninguna informacin. Sin embargo, presenta el problema de que su va-
lor (tanto en el caso de la media aritmtica como geomtrica o armnica) se pue-
de ver muy influido por valores extremos, que se aparten en exceso del resto de
la serie. Estos valores anmalos podran condicionar en gran medida el valor de
la media, perdiendo sta representatividad.
Mediana
Es el valor de la serie de datos que se sita justamente en el centro de la muestra
(un 50% de valores son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores extremos, pero en
cambio no utiliza en su clculo toda la informacin de la serie de datos (no ponde-
ra cada valor por el nmero de veces que se ha repetido).
Moda
Es el valor que ms se repite en la muestra

4
Medidas de posicin no centrales

Las medidas de posicin no centrales permiten conocer otros puntos caractersti-
cos de la distribucin que no son los valores centrales. Entre otros indicadores, se
suelen utilizar una serie de valores que dividen la muestra en tramos iguales.

Cuantiles o medidas de posicin de orden k

Dividen la distribucin en k partes y cada una de ellas con el mismo nmero de
elementos.

i
i
i
i
k
rn
a
n
N
k
rn
L C
1
1
+ =

Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos
concentra el 25% de los resultados.

Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma cre-
ciente o decreciente, en diez tramos iguales, en los que cada uno de ellos con-
centra el 10% de los resultados.

Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos con-
centra el 1% de los resultados.

5
Medidas de dispersin

Estudia la distribucin de los valores de la serie, analizando si estos se encuen-
tran ms o menos concentrados, o ms o menos dispersos.
Existen diversas medidas de dispersin, entre las ms utilizadas podemos
destacar las siguientes:

Rango
Mide la amplitud de los valores de la
muestra y se calcula por diferencia en-
tre el valor ms elevado y el valor ms
bajo
Siempre es positivo, o cero si todos los
valores son iguales

min max
x x R =
( )
1
1
2
2
=
n
x x
S
r
i
i

Varianza
Mide la distancia existente entre los
valores de la serie y la media
La varianza siempre ser mayor que
cero. Mientras ms se aproxima a ce-
ro, ms concentrados estn los valores
de la serie alrededor de la media. Por
el contrario, mientras mayor sea la va-
rianza, ms dispersos estn.
( )
2
x x
i

= SC =Suma de
Cuadrados

(n 1) = Grados de
Libertad
Desviacin
Estndar
Raz cuadrada de la varianza
2
S S + =

Coeficiente
de variacin
de Pearson
Cociente entre la desviacin tpica y la
media
x
S
C
v
=

Error tpico
Cociente entre la Desviacin estndar
y la raz cuadrada del nmero de ob-
servaciones
n
S
S
x
=

Varianza
Media
Ponderada
=
=
=
m
j
j
m
j
j j
f
f S
S
1
1
2
2
*

=
=
=
m
j
j
m
j
j
f
SC
S
1
1
2

6
Medidas de forma

Las medidas de forma permiten conocer que forma tiene la curva que repre-
senta la serie de datos de la muestra. En concreto, podemos estudiar las siguien-
tes caractersticas de la curva:
Concentracin Mide si los valores de la variable estn ms o menos unifor-
memente repartidos a lo largo de la muestra.
Asimetra Mide si la curva tiene una forma simtrica, es decir, si respecto al
centro de la misma (centro de simetra) los segmentos de curva que quedan a de-
recha e izquierda son similares.
Curtosis Mide si los valores de la distribucin estn ms o menos concentra-
dos alrededor de los valores medios de la muestra.

CONCENTRACIN
Para medir el nivel de concentracin de una distribucn de frecuencia se pue-
den utilizar distintos indicadores, entre ellos el Indice de Gini.

pi S
qi pi S
IG
*
) (
=

n
n
pi
n
i
i
=
=
1
1

100
) (
) (
1
1
1
=
n
i
i i
n
i
i i
n x
n x
qi
i toma valores entre 1 y
n-1)

pi mide el pocentaje de indivi-
duos de la muestra que presen-
tan un valor igual o inferior al de
xi.

El Indice Gini (IG) puede tomar valores entre 0 y 1:
IG = 0 : concentracin mnima. La muestra est uniformemente repartida a lo lar-
go de todo su rango.
IG = 1 : concentracin mxima. Un slo valor de la muestra acumula el 100% de
los resultados.
7
COEFICIENTE DE ASIMETRA

El concepto de asimetra se refiere a si la curva que forman los valores de la
serie presenta la misma forma a izquierda y derecha de un valor central (media
aritmtica)

Para medir el nivel de asimetra se utiliza el llamado Coeficiente de Asimetra
de Fisher, que viene definido:

Distribucin simtrica
g1 = 0 Existe la misma concentracin de valores a la derecha y a la izquierda de
la media
Distribucin asimtrica positiva
g1 > 0 Existe mayor concentracin de valores a la derecha de la media que a
su izquierda
Distribucin asimtrica negativa
g1 < 0 Existe mayor concentracin de valores a la izquierda de la media que a
su derecha

8
COEFICIENTE DE CURTOSIS

El Coeficiente de Curtosis analiza el grado de concentracin que presentan
los valores alrededor de la zona central de la distribucin.

g2 = 0 (distribucin mesocrtica).
g2 > 0 (distribucin leptocrtica).
g2 < 0 (distribucin platicrtica).
Distribucin mesocrtica
Presenta un grado de concentracin medio alrededor de los valores centrales de
la variable (el mismo que presenta una distribucin normal).
Distribucin leptocrtica
Presenta un elevado grado de concentracin alrededor de los valores centrales de
la variable.
Distribucin platicrtica
Presenta un reducido grado de concentracin alrededor de los valores centrales
de la variable.

9
Propiedades de los operadores de Varianza, Covarianza y
Valores esperados.

Si y es una variable aleatoria con media y varianza
2
y c es una cte.:

1. E(c) = c 2. E(y) =
3. E(cy) = cE(y) = c 4. E(y
1
+ y
2
) = E(y
1
) + E(y
2
) =
1
+
2

5. V(c) = 0 6. V(y) =
2

7. V(cy) = c
2
V(y) = c
2
2

8. V(y
1
+ y
2
) = V(y
1
) + V(y
2
) + 2Cov(y
1
,y
2
)
9. V(y
1
- y
2
) = V(y
1
) + V(y
2
) - 2Cov(y
1
,y
2
)
10. Cov(y
1
,y
2
) = E[(y
1
-
1
) (y
2

2
)] = la covarianza es una medida de la aso-
ciacin lineal entre y
1
, y
2
,
11. Si y
1
, y
2
son independientes, entonces:
a) Cov(y
1
,y
2
) = 0
b) V(y
1
y
2
) = V(y
1
) + V(y
2
) =
1
2
+
2
2

c) E(y
1
.
y
2
) = E(y
1
)
.
E(y
2
) =
1
.
2

12. En general: E(y
1
/y
2
) E(y
1
)/E(y
2
) sin importar que y
1
,y
2
sean independientes
o no.

Propiedades de los estimadores puntuales

El estimador T de un parmetro debe tener:
1. Una distribucin de muestreo concentrada alrededor de
2. La varianza del estimador debe ser la menor posible
Al buscar el mejor estimador de se usan 2 conceptos importantes:
1. El error cuadrtico medio de T (sesgo del estimador) que es:
ECM(T) = E(T )
2
= Var(T) + [ E(T)]
2

El mejor estimador de es el estadgrafo que posea el menor sesgo.
El sesgo puede ser de T puede ser positivo, negativo o cero.
Cuando el sesgo es cero, la media del estimador es igual a la del parmetro que
se est estimando
2. T = (x1, x2, ....xn) es un estimador insesgado del parmetro si E(T) =
para todos los posibles valores de
Para cualquier estimador insesgado de , la distribucin de muestreo de T se en-
cuentra centrada alrededor de y ECM(T) = Var(T)
+ Ejemplo: S
2
es un estimador insesgado de
2
solo si el divisor es n-1 y S no es
un estimador insesgado de
10
Distribuciones Muestrales

Distribuciones de probabilidad
La estructura probabilstica de una variable aleatoria x se describe por su distribu-
cin de probabilidad. Cuando la variable x es continua, la distribucin de proba-
bilidad f(x) se denomina funcin de probabilidad de x. En una distribucin de pro-
babilidad continua, el rea bajo la curva f(x), asociado con un intervalo dado, re-
presenta la probabilidad.

Fig. 1: Distribucin de probabilidad continua
S x es continua:

F(x) 0
=
b
a
dx x f b x a P ) ( ) (
+

= 1 ) ( dx x f

Distribuciones muestrales

A menudo puede determinarse la distribucin de probabilidad de un estadgrafo
particular s se conoce la distribucin de probabilidad de la poblacin de la cual se
tom la muestra. La distribucin de probabilidad de un estadgrafo se denomina
distribucin muestral

Una distribucin muestral es la distribucin de una variable aleatoria en el caso
particular en que esa variable aleatoria es un estadgrafo evaluado con los datos
obtenidos en un muestreo aleatorio.

A continuacin vamos a analizar brevemente algunas distribuciones muestrales.

Distribucin Normal (o de Gauss) Distribucin t (t de Student)
Distribucin
2
(chi cuadrada) Distribucin F (F de Fisher)

11
Distribucin Normal (o de Gauss)

Si x es una variable aleatoria "normal", entonces su distribucin de probabilidad
esta dada por:
2
2
1
2
1
) (

x
e x f

< < x

< <

es la desviacin estn-
dar

La distribucin normal tiene una funcin primordial en el anlisis de los datos ex-
perimentales, porque las observaciones de una muestra, que difieren entre si a
causa del error experimental, la mayora de las veces estn descritas por una dis-
tribucin normal.

Figura 2: Distribuciones Normales

La posicin y forma de la curva quedan determinados por y .
El mximo de la curva se encuentra en x =
Los puntos de inflexin se encuentran en (x
1
= - ) y (x
2
= + )
Para x = f(x) = 0.
Para x > 3 f(x) es despreciable.
El 68.27% de los valores estn incluidos entre - y +
El 95.45% de los valores estn incluidos entre -2 y +2
El 99.73% de los valores estn incluidos entre -3 y +3

Generalmente se usa la notacin: x ~ N (,
2
) para indicar que x presenta distri-
bucin normal con media y varianza
2
.

12
Ejemplos de Distribuciones Normales

1. Si x es una variable aleatoria que sigue una distribucin Normal con media y
varianza
2
y se toma una muestra aleatoria de tamao n, entonces la media
muestral (
x
) seguir una distribucin normal con media y varianza n
2
(
x
~
N(, n
2
).
2. Cuando se comparan 2 medias muestrales
1
x
y
2
x
, la diferencia entre ellas
tambin sigue una distribucin normal
(
1
x
-
2
x
~ N (
1
-
2
,
2
2
2
1
2
1
n n

+
)

Efecto de la Desviacin Standard
Valor de Distribucin de los datos Desviacin
Pequeo
(0.5)
Los valores de x se agrupan muy cerca de la media Dbil
Medio
(1.0)
Distribucin promedio de los valores de x alrededor de
la media
Normal
Grande
(2.5)
Los valores de x se dispersan ampliamente alrededor
de la media
Fuerte

Figura 3: Efecto de la en la forma de la curva de Distribucin Normal

13
Distribucin Normal Estandarizada

Un caso especial e importante de la distribucin Normal es la Distribucin Nor-
mal Estndar o Estandarizada, en la cual = 0 y = 1.

Si x ~ N (,
2
), entonces la variable aleatoria

=
x
z
tiene una distribucin
Normal estndar indicada por z ~ N (0, 1). A esta operacin se denomina estan-
darizacin.
La distribucin de probabilidad z est dada por:
2
2
1
2
1
) (
z
e z

=

Figura 5: Curva de Distribucin Normal Estandarizada
(Eje Y = (z), Eje x = z)

Los valores de z se encuentran tabulados de la siguiente forma para la distribu-
cin normal estandarizada (segmento de tabla)

Z (z) = Area
..... .....
1.96 0.975
..... .....
2.58 0.995
..... .....
14
Eso indica:

Valor de z Area Valor de z Area
-1.96 < z < + 1.96 95% -1.96 > z > + 1.96 5%
-2.58 < z < +2.58 99% -2.58 > z > +2.58 1%

El valor de x se calcula por: X = + z

Figura 6: Curvas de Distribucin Normal
Curva de Distribucion Normal Estandarizada
El 95% del rea est entre -1.96 y +1.96
x
f
(
x
)
> +1.96 (2.5%) < -1.96 (2.5%)
-4 -2 0 2 4
0
0.1
0.2
0.3
0.4
Si la media poblacional es 10 y la desviacin standard 2
La media muestral estar entre 6.08 y 13.92 con un 95% de probabilidad
x
f
(
x
)
> 13.92 (2.5%) < 6.08 (2.5%)
0 3 6 9 12 15 18
0
0.04
0.08
0.12
0.16
0.2
15
Distribucin "t" de Student

Cuando no se conoce la
2
, aunque
x
sea normal no podemos usar la distri-
bucin normal pues no se puede estandarizar.
S el tamao de la muestra fuera considerablemente grande, se pudiera susti-
tuir
2
por S
2
y utilizar:

n
S
x

en lugar de:

n
x

Pero cuando los tamaos de la muestra son relativamente pequeos, sustituir
por S en la estandarizacin es un error grave.
En la distribucin "t" de Student se evala el estadgrafo:

n
S
x
t

=

con n-1 grados de libertad (f), a partir de una muestra pequea proveniente de
una distribucin normal.
La funcin de probabilidad de t es:

+ < < +
=
+
t
f
t
f
f
t f
f
2
) 1 (
2
) 1 (
)
2
(
)
2
1
(
1
) (

con = 0 y
2
= f (f-2) para f > 2 ( representa la funcin gamma).

16
La distribucin "t"de Student:

Se aplica como distribucin muestral en casos relacionados con medias mues-
trales para muestras pequeas (n 30)
La variable aleatoria t(;f) se encuentra tabulada
t puede tomar cualquier valor desde - hasta +
La distribucin f(t) es simtrica
El nico parmetro de la distribucin f(t) es f = n-1
La curva de f(t) tiene forma acampanada (como la normal) donde la varianza
(S
2
) es siempre > 1
Cuando n la distribucin t de Student se aproxima a la distribucin nor-
mal estandarizada
El valor tabulado de t de Student decrece con el incremento de f

Figura 7: Curvas de f(t) para varios valores de f (grados de libertad)

f
1
2
500
Distribucin "t" de Student
t
f
(
t
)
-8 -4 0 4 8
0
0.1
0.2
0.3
0.4
17

Distribucin
2
(chi cuadrada)

Llamaremos
2
tanto a la variable como a su distribucin probabilstica que se
usa como distribucin muestral de varios estadgrafos.
La funcin de probabilidad
2
viene dada por:

0 ) (
)
2
( 2
1
) (
2
2
1 )
2
(
2
2
2
2
>

x
f
f
e
f
f
donde es la funcin gamma.

Se usa como distribucin muestral de varios estadgrafos, entre ellos S
2

2
(;f) se encuentra tabulado
El nico parmetro de la distribucin f(
2
) es el nmero de grados de libertad f .
f(
2
) 0
La distribucin es asimtrica con = f y
2
= 2f.
Cuanto ms pequeo es el valor de f ms asimtrica es la curva
Para valores muy grandes de f la distribucin f(
2
) adopta formas parecidas a
la normal.

Figura 8: Curvas de f(
2
) para varios valores de f.

18
Distribucin "F" de Fisher

S
2
1
y
2
2
son dos variables aleatorias independientes con distribuciones chi

cuadrada y con f
1
y f
2
grados de libertad, respectivamente, entonces la razn:

1 1
2 2 1 1
2
2
2
1
2
1
2 1
= =
= n f ; n f
f
f
F
f , f

tiene una distribucin F con f
1
grados de libertad en el numerador y f
2
grados de
libertad en el denominador.

La distribucin de probabilidad F es:

< <
+
+
=
+
F
F
f
f f f
F
f
f f f
F f
f f
f f
0
1 ) ( )
2
( )
2
(
) )(
2
(
) (
2
) (
2
1 2 1
1 )
2
(
2
2
1 2 1
2 1
1 1

19
La distribucin F de Fisher:

Se utiliza como distribucin muestral del cociente de 2 dispersiones muestrales

2
2
2
1
2 1
S
S
F
f , f
=

F se encuentra tabulada
F (:f
1
:f
2
) 0
La distribucin f(F) tiene 2 parmetros: f
1
= n
1
1 y f
2
= n
2
1 que son los gra-
dos de libertad del numerador y el denominador, respectivamente.
La distribucin f(F) es asimtrica y la forma de la distribucin cambia notable-
mente de acuerdo con f
1
y f
2
.

Figura 9: Curvas de f(F) para varios valores de f
1
y f
2

(grados de libertad del numerador y el denominador)

20
Intervalo de Confianza de la Media o Error de la Media

Sean y la media y la desviacin estndar poblacional de una muestra Normal
de n elementos cuya media muestral es
x

x ~ N (,
2
) y
x
~ N(,
n
2
)

La probabilidad de que
x
caiga dentro de los siguientes intervalos es:

Intervalo Probabilidad
para
x

%

0.683 68.3
2
0.954 95.4
2
0.997 99.7

Tendremos la siguiente confianza de hallar :

Intervalo Confianza para encontrar %
x

0.683 68.3
x
2
0.954 95.4
x
2
0.997 99.7
Diremos por tanto que existe un 95.4% de confianza de encontrar en el intervalo
comprendido entre
x
+ 2 y
x
- 2
21
De manera general el intervalo de confianza de la media es:

x x

Si decimos:
= + 1 ) ( x x x x P
,

esto se interpreta como que existe una confianza = (1 - ) de encontrar en el
intervalo comprendido entre
x x
y
x x +

En la ecuacin anterior: 1 - = coeficiente de confianza
= nivel de significacin donde (0 < < 1)

Por ejemplo, si decimos:
95 . 0 ) ( = + x x x x P

donde: (1 ) = 0.95 y = 0.05
esto se interpreta como que existe un 95% de confianza de encontrar en el in-
tervalo comprendido entre
x x
y
x x +
.

Cmo se calcula el intervalo de confianza de la media para un nivel de significa-
cin determinado?

Caso 1: Utilizando la distribucin Normal
Caso 2: Utilizando la t de Student

Recordar que la distribucin Normal se puede usar solo si se cumple una de las
siguientes premisas:
Conocemos
2

Si la muestra si lo suficientemente grande como para que S
2

2
.

De lo contrario es necesario utilizar la distribucin t de Student.
22
Clculo del Intervalo de Confianza con la Distribucin Normal

Sea: x ~ N (,
2
) y
x
~ N(,
n
2
), entonces:
n
z x

) 2 / 1 ( =

Segn se puede observar,
x
va a depender de:
+ Nivel de significacin + Desviacin estndar
+ Nmero de puntos
experimentales n

Ejemplo:
= 0.1 /2 = 0.05 (1 - /2) = 0.95
z(0.95) = 1.645

n n
z x

) 645 . 1 ( ) 95 . 0 ( = =

n
x x x

) 645 . 1 ( =

23
Clculo del intervalo de confianza de la media para n 30
Distribucin t de Student

Intervalo de Confianza (
x
): Brinda los lmites (para un nivel de significacin
dado ) dentro de los cuales debe encontrarse el valor de compatible con
x
.

El # de cifras significativas con que debe expresarse la media es precisamente el
intervalo de confianza (
x x
). El valor del intervalo de confianza depende de n
(# de determinaciones)

Clculo:
n
S f t
x

=
) , 2 / (
donde
f
SC
S =
y
n
x
x SC
n
i
i
n
i
i
=
=
=
1
2
1
2
) (

t = valor tabulado de la t de Student
(tabla II)
S = desviacin estndar
= nivel de significacin (0.05 0.01)
f = grados de libertad
= (n-1)
n = # de determinaciones

-10
-5
0
5
10
2 4 6 8
1
0
1
2
1
4
n
I
.
C
.
24
Problema

Se determino la masa molar de un compuesto obtenindose los siguientes resul-
tados.

506 508 499 503 504 510 497 512
514 505 493 496 506 502 509 496

Calcular el intervalo de confianza de la media para = 0.1en los siguientes casos:

Se conoce que = 5
No se conoce el valor de

n
z x

) 2 / 1 ( =

n = 16,
x
= 503.75, = 5
= 1 /2 = 0.5 1 - /2 = 0.95
z(0.95) = 1.645

05 . 2
16
5
645 . 1 = = x

05 . 2 75 . 503 = x x

90 . 0 ) 81 . 505 69 . 501 ( = P

n
S f t
x

=
) , 2 / (

n = 16, f = 15,
x
= 503.75,
S = 6.20
= 1 /2 = 0.5
t(0.5, 15) = 1.753

72 . 2
16
) 20 . 6 )( 753 . 1 (
= = x

72 . 2 75 . 503 = x x

90 . 0 ) 47 . 506 03 . 501 ( = P

Se puede observar que cuando se realiza el clculo utilizando la t de Student el
intervalo es ms amplio.
25
Pruebas de Hiptesis

Una prueba de hiptesis estadstica (contraste, dcima o test de hipte-
sis) es una tcnica de Inferencia Estadstica que permite comprobar si la informa-
cin que proporciona una muestra observada concuerda (o no) con la hiptesis
estadstica formulada sobre el modelo en estudio y, por tanto, se puede aceptar
(o no) la hiptesis formulada.
Una hiptesis estadstica es cualquier conjetura sobre una o varias caracte-
rsticas de inters de una poblacin.
Permiten comparar estadgrafos y decidir si son iguales o diferentes.
Una hiptesis estadstica puede ser:
1. Paramtrica: es una afirmacin sobre los valores de los parmetros pobla-
cionales desconocidos. Las hiptesis paramtricas se clasifican en:
a. Simple: si la hiptesis asigna valores nicos a los parmetros ( = 1.5,
= 10,
x
=
y
).
b. Compuesta: si la hiptesis asigna un rango de valores a los parme-
tros poblacionales desconocidos ( 1.5, 5 < 10,
X

Y
).
2. No Paramtrica: es una afirmacin sobre alguna caracterstica estadstica
de la poblacin en estudio. Por ejemplo, las observaciones son indepen-
dientes, la distribucin de la variable en estudio es normal, la distribucin es
simtrica,...
La hiptesis que se contrasta se denomina hiptesis nula y, normalmente, se
denota por H
0
. Si se rechaza la hiptesis nula es porque se asume como correcta
una hiptesis complementaria que se denomina hiptesis alternativa y se deno-
ta por H
1
.
Procedimiento
1. Formulacin de la hiptesis nula (H
0
) No existen diferencias significativas
entre los estadgrafos que se comparan.
Ejemplos:
2 1 0
: = H

50 :
0
= H

2
2
2
1 0
: = H

2. Eleccin de una prueba estadstica (t de Student, F de Fisher, etc) que se
aproxime mejor a las condiciones de la investigacin.
3. Especificar nivel de significacin (), tamao de la muestra (n) y regin de
rechazo
4. Clculo
26
Hiptesis nula e Hiptesis alternativa
Hiptesis nula no diferencia Ejemplo: 2 1 0
: = H

no existen diferencias significativas entre
1
y
2

Hiptesis alternativa diferencia (se toma cuando se rechaza H
0
)
2 1 0
: H

2 1 1
: < H
2 1 0
: > H

Prueba de 2 colas Prueba de 1 cola Prueba de 1 cola
existen diferencias significativas entre 1
y 2

Eleccin de la prueba estadstica
Para casi todos los propsitos de la investigacin existen pruebas estadsticas
susceptibles de usarse alternativamente para tomar decisiones respecto a una
hiptesis (t de Student, F de Fisher, etc)
Nivel de significacin ()
Decisin H
0
cierta H
0
falsa
H
0
aceptada Decisin correcta
Error tipo 2 ()
H
0
rechazada
Error tipo 1 ()
Decisin correcta

La probabilidad de cometer un error tipo 1 esta dado por . Cuanto mayor sea ,
tanto mayor es la probabilidad de que H
0
sea rechazada incorrectamente.
= P (rechazar H
0
/ H
0
cierta)

Los valores de ms usados son: = 0.05 y = 0.01
= 0.05 Hay un 5% de probabilidad de cometer un error tipo 1 ()
= 0.01 Hay un 1% de probabilidad de cometer un error tipo 1 ()
Hay una probabilidad inversa de cometer ambos tipos de errores.

27
Tamao de la muestra (n)
Uno de los aspectos ms importante de cualquier problema de diseo expe-
rimental es la seleccin del tamao apropiado de la muestra. Dicha selec-
cin y la probabilidad de error tipo II () estn muy relacionados:
Supongamos que se prueban las hiptesis: H
0
:
1
=
2
y H
1
:
1

2

Las medias no son iguales, la diferencia real entre ellas es =
1
-
2

Como H
0
no es cierta, el problema es decidir errneamente no rechazar H
0
.
La probabilidad de cometer un error tipo II () depende de:
la diferencia verdadera que hay entre las medias (),
de la desviacin standard ()
del tamao de la muestra (n)
Para un valor dado de el error disminuye a medida que:
el tamao de la muestra (n) se incrementa (para y fijos) es ms fcil
detectar diferencias entre medias en muestras grandes que pequeas
la diferencia entre medias =
1
-
2
es mayor (para n y fijo)
disminuye la desviacin Standard (para n y fijo)

Determinacin del Tamao de la Muestra
1. Usando el programa Statgraphics Plus 5.1 es posible calcular el tamao
mnimo de muestra n, conociendo (o suponiendo) el valor de la desviacin
Standard , indicando el valor de y la tolerancia deseada (error absoluto de
la media o mnimo valor de =
1
-
2
que se desea diferenciar).
2. Es recomendable, tomar una muestra n algo mayor que la calculada.
3. En la siguiente tabla se muestran 5 resultados de clculos realizados, en
ellos se puede observar que:
a. Para igual tolerancia y nivel de confianza, pero mayor mayor n
b. A igual y nivel de confianza, pero menor tolerancia mayor n

Parmetro a estimar Media Media Media Media Media
Tolerancia deseada () 1.0 0.5 0.5 1.0 2.0
Nivel de confianza (1-)x100 95 % 95 % 95 % 95 % 95 %
asumida 1.0 1.0 2.0 2.0 2.0
Tamao mnimo de muestra 7 18 64 18 7

28
Regin de rechazo
Valores posibles, pero tan extremos que, cuando H
0
es verdadera, la probabilidad
() de que la muestra observada produzca un valor entre ellas es muy pequea.
El tamao de la regin de rechazo queda expresada por .
Ejemplo: Si = 0.05 el tamao de la regin de rechazo es el 5% del rea de la
curva.
Por tanto, resolver una prueba de hiptesis estadstica es calcular la regin de
aceptacin y la regin de rechazo y actuar segn la siguiente regla de decisin:
Se obtiene la muestra X y se calcula un estadgrafo
d
(t de Student, F de Fisher,
etc)
Si
d
Regin de aceptacin
No se rechaza H
0
Si
d
Regin de rechazo
Se rechaza H
0
Segn la forma de la regin de rechazo, una prueba de hiptesis se denomina
Unilateral o de una cola es la prueba de hiptesis cuya regin de rechazo es-
t formada por una cola de la distribucin del estadgrafo, bajo H
0
.
Bilateral o de dos colas es la prueba de hiptesis cuya regin de rechazo es-
t formada por las dos colas de la distribucin del estadgrafo, bajo H
0
.

2 colas 1 cola

29
Pruebas de Hiptesis y regin de rechazo
Comparacin de una media muestral y una poblacional
En una fbrica se envasan productos en sacos de 50 Kg.
Se tiene que garantizar que = 50, pues si > 50 la fbrica se perjudica y si
< 50 puede haber reclamaciones de los compradores del producto.
Hiptesis nula

Hiptesis alternativa
H
0
: =
0
H
1
:
0

Si = 50 Si 50
No rechazar H
0
Correcto Errneo (error )
Rechazar H
0
(aceptar H
1
) Errneo (error ) Correcto

Procedimiento
Se determina el tamao de la muestra
Se escogen aleatoriamente un conjunto de sacos, se pesan y se calcula
x
.

x
es una variable aleatoria y continua la probabilidad de que
x
= 50 es ce-
ro
Resulta necesario establecer un intervalo para el estadgrafo de manera que si
x cae en ese intervalo se acepta H
0
y si cae fuera se rechaza H
0
.
1. Se define ( = 0.05 = 0.01)

95% 99% de confianza

2. Se calcula t
exp

n
S
x
t

=
exp

3. Se compara t
exp
con la t de Student
Si: t
exp
(p:f) t (:f) H
0
: = 50
Si: t
exp
(p:f) > t (:f) H
1
: 50
Si realmente = 50 pero
x
cae en la regin de rechazo, se rechazara H
0
in-
correctamente (error )
Si realmente = 52 pero
x
cae en la regin de aceptacin, se aceptara H
0

incorrectamente (error )
i.exe
30
Comparacin entre 2 medias muestrales

Hiptesis nula Hiptesis alternativa
H
0
:
1 =
2
H
1
:
1
2

1. Comparar las dos dispersiones (H
0
:
2
1
=
2
2
o H
1
:
2
1

2
2
).
2. Comparar las 2 medias (H
0
:
1 =
2
o H
1
:
1
2
)
Se acepta la Hiptesis nula
H
0
:
2
1
=
2
2

No se acepta la Hiptesis nula
H
1
:
2
1

2
2

(procedimiento de Cochran)
1. Se calcula la varianza media ponde-
rada
2
) ( ) (
2 1
2
2
2 1
2
1
2
+
+
=
n n
f S f S
S
p

1. Se calculan las varianzas de las me-
dias
1
2
1 2
1
n
S
S
x
=
y
2
2
2 2
2
n
S
S
x
=

2. Se calcula t
exp

2 1
2 1
2
2 1
exp
n n
n n
S
x x
t
p
+
=

2. Se calcula t() para = 0.05 y =
0.01)

( ) ( )
2 2
2
2
1
2
2 1
2 1
) (
x x
x x
S S
t S t S
t
+
+
=

t
1
= t (:f
1
) y t
2
= t (:f
2
)
3. Se calcula t
exp

2 2
2 1
exp
2 1 x x
S S
x x
t
+
=

3. Se compara t
exp
con la t (:f) de Stu-
dent donde f = n
1
+ n
2
- 2

Si: t
exp
(p, f) t (0.05:f) H
0
:
1 =
2

(p > )

Si: t
exp
> t (0.05:f) H
1
:
1
2

(p < )

4. Se compara t
exp
con la t (:f) de Stu-
dent donde f = n
1
+ n
2
- 2

Si: t
exp
(p, f) t (0.05:f) H
0
:
1 =
2

(p > )

Si: t
exp
> t (0.05:f) H
1
:
1
2

(p < )

31
Comparacin de 2 Varianzas Muestrales

1. Se plantean las Hiptesis nula y alternativa

H
0
:
2
1
=
2
2
H
1
:
2
1

2
2

2. Se calcula F
exp

2
2
2
1
exp
S
S
F =
donde
2
1
S
>
2
2
S

3. Se define (generalmente = 0.05 o = 0.01)

4. Se verifica la Hiptesis nula con ayuda de la distribucin F de Fischer

Si F
exp
F (: f
1
:f
2
)
p
valor
> (generalmente p > 0.05)
H
0
:
2
1
=
2
2
No existen diferencias
significativas entre las
varianzas
Si F
exp
> F (: f
1
:f
2
)
p
valor
< (generalmente p < 0.05)
H
1
:
2
1

2
2
Existen diferencias sig-

nificativas entre las va-
rianzas

32
Comparacin de datos pareados

Cuando las 2 muestras son dependientes, se pueden formar pares de valo-
res y comparar los cambios dentro de cada par de valores. Esto significa que a
cada elemento de la muestra se le hicieron 2 determinaciones diferentes

Elemento Experimento 1 Experimento 2 Diferencia
1 X
11
X
12
X
11
- X
12
= X
D1
2 X
21
X
22
X
21
X
22
= X
D2

n X
n1
X
n2
X
n1
X
n2
= X
Dn

Media =
D
X

Media =
n
x
n
x x
x
n
i
D
n
i
i i
D

= =
=
=
1 1
2 1

H
0
:
D
= 0 H
1
:
D
0

) 1 (
exp
= = n n
SC
x
n
S
x
t
D
D
D
D

=
=

=
n
i
n
i
D
D D
n
x
x SC
1
2
1 2

Se compara la t
exp
con la t(:f) de Student tabulada (o el p
valor
con )

Si t
exp
t (: f)
p
valor
> (generalmente p > 0.05)
H
0
:
D
= 0
No existen diferencias
significativas entre las
medias
Si t
exp
> t (: f)
p
valor
< (generalmente p < 0.05)
H
1
:
D
0
Existen diferencias sig-
nificativas entre las me-
dias

33
Experimentos completamente aleatorizados
con un solo factor. Anlisis de varianza

Ejemplo

El termino dureza del agua se refiere a la cantidad de calcio y magnesio disueltos
en el agua. Cuando el agua es calentada, ellos se precipitan fuera de la solucin
(en forma de carbonatos), y forman una costra dura, de apariencia rocosa. Esta
costra acelera la corrosin (arruinando los calentadores de agua), restringe el flujo
de agua, y reduce la transferencia de calor.

Clasificacin del nivel de dureza del agua Concentracin de Ca
2+
(mg/L)
Agua blanda 0 hasta 17
Agua levemente dura 17 hasta 60
Agua moderadamente dura 60 hasta 120
Agua dura 120 hasta 180
Agua muy dura ms de 180

Experimento: Se tomaron muestras de agua de 4 acueductos (7
muestras en cada uno para un total de 28 muestras) que suministran
agua a una misma ciudad y se determin la concentracin de Ca
2+

(mg/L) para conocer si existen diferencias en la dureza del agua en las
diferentes zonas abastecidas por diferentes acueductos.
Este es un ejemplo de experimento unifactorial con 4 tratamientos y 7 rpli-
cas de cada tratamiento.
En la siguiente tabla se muestran los valores obtenidos para cada muestra X
i,j
as
como el orden aleatorio en que se realiz la medicin de cada una.

Acueducto 1 Acueducto 2 Acueducto 3 Acueducto 4
m
valor x
i,j
valor x
i,j
valor x
i,j
valor x
i,j

1 19.88 x
1,1
26 41.17 x
1,2
17 51.41 x
1,3
9 20.97 x
1,4
27
2 20.58 x
2,1
15 46.19 x
2,2
6 48.99 x
2,3
14 19.11 x
2,4
28
3 15.33 x
3,1
25 42.56 x
3,2
12 50.74 x
3,3
5 20.59 x
3,4
4
4 22.66 x
4,1
16 44.26 x
4,2
11 49.05 x
4,3
22 18.49 x
4,4
7
5 16.80 x
5,1
20 39.13 x
5,2
2 53.83 x
5,3
21 20.24 x
5,4
13
6 17.78 x
6,1
3 37.25 x
6,2
23 52.71 x
6,3
10 23.01 x
6,4
24
7 21.54 x
7,1
8 38.59 x
7,2
18 47.67 x
7,3
1 21.54 x
7,4
19

34
Resumen Estadstico

Frecuencia Media Varianza Desviacin tpica Error estndar
------------------------------------------------------------------------------------------------------------------------
Acueducto 1 7 19.2243 7.09386 2.66343 1.00668
Acueducto 2 7 41.3071 10.4556 3.23351 1.22215
Acueducto 3 7 50.6286 4.85575 2.20358 0.832873
Acueducto 4 7 20.5643 2.27026 1.50674 0.569494
------------------------------------------------------------------------------------------------------------------------
Total 28 32.9311 193.232 13.9008 2.627

Mnimo Mximo Rango Asimetra tipi. Curtosis tpificada
------------------------------------------------------------------------------------------------------------------------
Acueducto 1 15.33 22.66 7.33 -0.27441 -0.710002
Acueducto 2 37.25 46.19 8.94 0.350128 -0.62272
Acueducto 3 47.67 53.83 6.16 0.190271 -0.626499
Acueducto 4 18.49 23.01 4.52 0.264503 0.00336301
------------------------------------------------------------------------------------------------------------------------
Total 15.33 53.83 38.5 0.402699 -1.92319

Esta tabla muestra varios estadsticos para cada una de las 4 columnas de
datos. Para comprobar las diferencias significativas entre las medias de las
columnas, seleccione Anlisis de la Varianza de la lista de Opciones Tabula-
res. Seleccione Grfico de Medias de la lista de Opciones Grficas para
mostrar grficamente las medias.

Grficamente los resultados anteriores se representan como:

Grfico de Cajas y Bigotes
r
e
s
p
u
e
s
t
a
Acueducto 1Acueducto 2Acueducto 3Acueducto 4
15
25
35
45
55

Grfico de Dispersin segn Muestra
r
e
s
p
u
e
s
t
a
Acueducto 1 Acueducto 2 Acueducto 3 Acueducto 4
15
25
35
45
55

Para comprobar si existen diferencias estadsticamente significativas
entre las medias es necesario acudir al Anlisis de Varianza que es
probablemente la tcnica ms til en el campo de la inferencia estads-
tica.

35
Anlisis de Varianza (ANOVA)

Anlisis de Varianza de simple entrada

Cuando se quieren comparar varias muestras entre si (ms de 2) y
su comportamiento difiere a causa de varios factores, no se pueden
aplicar los mtodos estudiados hasta el presente.
Hay que aplicar el Anlisis de Varianza.

Varianza :
f
SC
S =
2

El uso del Anlisis de varianza requiere:

Que el muestreo sea aleatorio
Cumplimiento de la Distribucin Normal
Los datos tienen que ser obtenidos individualmente de manera inde-
pendiente.
Que las dispersiones de las diferentes muestras analizadas sean
homogneas (Se verifica por la prueba de Cochran o por la de Bartlett)

El Anlisis de Varianza permite:

Calcular las dispersiones (varianzas) dentro de cada muestra. Estas
son casuales y debidas a la variabilidad natural del material experimen-
tal.
Calcular las dispersiones (varianzas) entre las muestras. Estas son
debidas al efecto de las condiciones experimentales.

El Anlisis de Varianza de Simple Entrada se utiliza cuando las varian-
tes experimentales resultan de la variacin de un solo tipo de factor.

36
Anova se basa en:
S Si i l la as s m me ed di ia as s d de e d do os s o o m m s s g gr ru up po os s s se e d di if fe er re en nc ci ia an n c co on ns si id de er ra ab bl le em me en nt te e e en nt tr re e s, la
dispersin de los grupos c co om mb bi in na ad do os s e es s m mu uc ch ho o m ma ay yo or r q qu ue e l la as s d di is sp pe er rs si io on ne es s d de e l lo os s
g gr ru up po os s i in nd di iv vi id du ua al le es s

a) Si las medias se diferencian poco

b) Si las medias se diferencian mucho

37
Prueba de homogeneidad de varianzas en Statgraphics

Contraste de Varianza

Contraste C de Cochran: 0.423723 P-valor = 0.361484
Contraste de Bartlett: 1.15362 P-valor = 0.360782
Contraste de Hartley: 4.60544
Test de Levene: 1.51775 P-valor = 0.235376

El StatAdvisor
El cuarto estadstico mostrado en esta tabla, comprueba la
hiptesis nula de que la desviacin tpica dentro de cada una de las 4
columnas es la misma. De particular inters estn los tres p-valores.
Dado que el menor de los p-valores es superior o igual a 0.05, no hay
diferencia estadsticamente significativa entre las desviaciones
tpicas para un nivel de confianza del 95.0%.

38
Problema: De una cantidad r de muestras (en distribucin normal) re-
sultan distintas medias.

Pregunta: Hay diferencias significativas entre estas medias muestra-
les?

Procedimiento: Realizar un anlisis estadstico en 2 pasos:
1. Anlisis de las desviaciones
2. Clculo de las varianzas

1. Anlisis de las desviaciones

j Variantes
i 1 2 3 r
Re 1 X
11
x
12
x
13
x
1r
pli 2 X
21
x
22
x
23
x
2r
cas 3 X
31
x
32
x
33
x
3r

k X
k1
x
k2
x
k3
x
kr
ij
X
1
1
1
k
i
X

2
1
2
k
i
X

1 3
1
3
k
i
X

r
k
ir
X
1

n
j
k
1
k
2
k
3
k
r
j
x
1
x
2
x
3
x

r
x

En este sistema hay 2 tipos de desviaciones:
1. Dentro de cada muestra (columna). Es decir, entre los datos particu-
lares (x
ij
) y su media correspondiente ( j
x
). Son casuales y represen-
tan la variabilidad natural dentro de las muestras.
2. Entre las muestras. Se manifiestan por las diferencias entre las me-
dias muestrales y son debidas a las condiciones experimentales.

39
Procedimiento: Se comparan los 2 tipos de desviaciones
De la tabla anterior se pueden derivar los siguientes datos:
Para cada muestra (columna)

Frmula matemtica Signo simplificado
Suma de datos particulares
j
k
ij
X
1

j
X

Nmero de datos particulares

k
j

k
j
Media muestral
j
k
ij
j
k
x
x
j
=
1

j
x

Para el conjunto total de resultados:

Suma total
r
k
ij
j
X
1 1

X

Cantidad total de datos particulares
r
j
k
1

N

Media Total
r
j
r
k
ij
k
X
j
1
1 1

x

El anlisis de varianza parte tambin de la hiptesis de nulidad. Se su-
pone que todos los datos particulares del ensayo completo pertenecen
a una misma poblacin.
Por tanto, se puede calcular una media total y hallar las desviaciones
entre esta y cada uno de los valores particulares. De estas diferencias
se calcula la suma total de desviaciones cuadradas.
= =
N
X
X x X SC
ij
r
k
ij T
j
2
2
1 1
2
) (
) (

SC
T
= SC
Entre las muestras
+ SC
Dentro de las muestras

40

Anlisis de Varianza Suma de las desviaciones cuadradas

Trmino de correccin

( )
N
X
T
c
2
=

Total

=
N
X
X SC
ij T
2
2
) (

Entre las muestras
( )
N
X
k
X
SC
r
j
k
ij
E
2
1
2
1
=

Dentro de las muestras

SC
D
= SC
T
- SC
E

41

2. Clculo de Varianza
Clculo de Varianza
Variabilidad
Medidas
Estadsticas Total
Entre las
muestras
Dentro de las
muestras
Suma de las
desviaciones
cuadradas

SC
T

SC
E

SC
D

Grado de li-
bertad

N-1

r-1

N-r

Varianza

1
2
=
N
SC
S
T
T
1
2
=
r
SC
S
E
E
r N
SC
S
D
D
=
2

Hiptesis nula H
0
:
2 2
D E
=
Se calcula:
2
2
exp
D
E
S
S
F =

Se compara F
exp
con la F(:r-1:N-r)
F
exp
F(:r-1:N-r)

p> No hay diferencias signi-
ficativas entre las medias
F
exp
> F(:r-1:N-r)

p< Hay diferencias significa-
tivas entre las medias

42
La teora del Anlisis de Varianza (ANOVA) est basada en 2 suposi-
ciones fundamentales:
Que las diferentes muestras se han sacado de poblaciones cuyas
distribuciones son normales.
Cuando se trata de grandes cantidades de datos las muestras por lo
general se aproximan a una distribucin normal y se puede aplicar el
anlisis de varianza. En casos dudosos se puede verificar por una
prueba
2
o por el test de Shapiro-Wilks (W).
Que las poblaciones de dichas muestras cuentan con varianzas igua-
les
Para conocer si las muestras obtenidas de cada variante experimental
cuentan con varianzas (dispersiones) iguales dentro de sus poblaciones
tericas, se aplica la prueba de Bartlett (
2
) o la prueba de Cochran.
Como conclusin final de la Prueba de Bartlett tenemos 2 alternativas
1.
2
no es significativo No hay diferencias significativas entre las va-
rianzas (S
2
) muestrales Las condiciones son adecuadas para em-
plear el anlisis de varianza
2.
2
es significativo Las varianzas (S
2
) muestrales difieren significa-
tivamente Hay que buscar la causa, de lo contrario no se puede
aplicar el anlisis de varianza

Contraste de Varianza en Statgraphics

Contraste C de Cochran: 0.423723 P-valor = 0.361484
Contraste de Bartlett: 1.15362 P-valor = 0.360782
Contraste de Hartley: 4.60544
Test de Levene: 1.51775 P-valor = 0.235376

El StatAdvisor

El cuarto estadstico mostrado en esta tabla, comprueba la hiptesis nu-
la de que la desviacin tpica dentro de cada una de las 4 columnas es
la misma. De particular inters estn los tres p-valores.
Dado que el menor de los p-valores es superior o igual a 0.05, no hay
diferencia estadsticamente significativa entre las desviaciones tpicas
para un nivel de confianza del 95.0%.
43
Tabla ANOVA (Statgraphics)

Anlisis de la Varianza
----------------------------------------------------------------------------------------------------------
Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor
----------------------------------------------------------------------------------------------------------
Entre grupos 5069.21 3 1689.74 273.91 0.0000
Intra grupos 148.053 24 6.16886
----------------------------------------------------------------------------------------------------------
Total (Corr.) 5217.27 27

El StatAdvisor

La tabla ANOVA descompone la varianza de los datos en dos compo-
nentes: un componente entre grupos y un componente dentro de cada
grupo. El F-ratio, que en este caso es igual a 273.914, es el cociente de
la estimacin entre grupos y la estimacin dentro de los grupos. Puesto
que el p-valor del test F es inferior a 0.05, hay diferencia estadstica-
mente significativa entre las medias de las 4 variables a un nivel de
confianza del 95.0%. Para determinar las medias que son significati-
vamente diferentes unas de otras, seleccione los Tests de Rangos Ml-
tiples en la lista de Opciones Tabulares.

44
Estimacin mltiple de medias

Mediante el Anlisis de Varianza (ANOVA), se puede averiguar si hay o
no diferencias significativas entre una serie de medias muestrales, pero
con este mtodo no se puede verificar entre cules medias resultan
significativas las diferencias.

Cuando en un ANOVA rechazamos H
0
Hay que comparar las me-
dias entre si.
Para a medias, hay
( )
2
1 a a
comparaciones posibles entre ellas

Ejemplo: Si comparan 3 muestras y H
0
:
1
=
2
=
3
se rechaza

Cul de las siguientes hiptesis alternativas es la correcta?

H
1
:
1

2
=
3
H
1
:
1
=
2

3
H
1
:
1

2

3

El test t no es vlido para examinar las diferencias entre todos los pa-
res de valores posibles.

Para resolver este problema se deben aplicar otros tipos de pruebas:

Prueba mltiple de t (mnima diferencia significativa) LSD
Prueba de Duncan RP
Prueba de Sheff
Prueba de Tukey T

Los diferentes tipos de pruebas para la comparacin de medias no son
equivalentes.

La prueba de Tukey es el mtodo ms duro
El LSD es el ms flojo
La prueba de Duncan es la ms adecuada y flexible para comparar
medias muestrales.

Por tanto, una diferencia puede resultar significativa al estimarla con el
LSD y perder su significacin cuando se valora con las otras pruebas.
45
Cmo se comparan las medias?

1. Se organizan las medias en orden creciente o decreciente y se calcu-
lan todas las diferencias posibles como se muestra en la siguiente
tabla

Tabla I: Diferencias entre medias tomadas dos a dos
Variante B C D .... X Y Z

x

b c d .... x y z
A a
a-b a-c a-d
....
a-x a-y a-z
B b
b-c b-d
....
b-x b-y b-z
C c
c-d
....
c-x c-y c-z
D d ....
d-x d-y d-z
.... .... .... ....
X x
x-y x-z
Y y
y-z

2. Se calcula el error tpico muestral
x
S

n
S
S
D
x
2
=
en muestras de
igual tamao
2
D
S
: Varianza dentro de las muestras n: cantidad de datos por mues-
tra

3. Se aplica la prueba seleccionada, que puede ser:

Prueba mltiple de t (mnima diferencia significativa) LSD
Prueba de Duncan RP
Prueba de Sheff
Prueba de Tukey T

46
Prueba Mltiple de t o de Mnima Diferencia Significativa (LSD)

1. Se calcula la Mnima Diferencia Significativa (LSD = least significant
difference) a partir de una transformacin de la funcin t(:f) de Stu-
dent donde f = N - r

d
S f t LSD = ) : (

2
x d
S S =

2. Se aplica el siguiente criterio:

LSD x x
j i

Hay diferencias significativas

LSD x x
j i
<
No hay diferencias significativas

Esta medida se encuentra muy divulgada, y se mantiene con bastante
popularidad en nuestros das, pues al comparar entre si ms de dos
medias muestrales, los valores de t resultan demasiado pequeos y
pueden indicar errneamente una diferencia significativa sin que ella
realmente exista.

47
Prueba de Intervalos Mltiples de Duncan

La prueba de Intervalos Mltiples de Duncan (1955) es un procedimien-
to usado ampliamente para comparar todas las parejas de medias. Re-
cordar que para a medias, hay [a(a-1)/2] comparaciones posibles en-
tre ellas
Para aplicar esta prueba las medias de los tratamientos se disponen en
un orden ascendente y se determina el error estndar de cada media .
Se calculan los intervalos mnimos significativos R
p
(que dependen del #
de pasos p = 2, 3, ..., a,) habr a-1 mnimos intervalos significativos
Se comparan las diferencias entre medias, comenzando por el valor ms
alto contra el ms pequeo y comparando esta diferencia con el intervalo
mnimo significativo R
a
.
Luego se calcula la diferencia entre el valor ms alto y el segundo ms
pequeo y se compara con el intervalo significativo mnimo R
a-1
.
Se contina hasta que han sido comparadas todas las medias con la ms
grande.
Luego se calcula la diferencia entre la media ms pequea contra la se-
gunda media ms grande y se compara contra R
a-1
y se contina siguien-
do ese orden hasta que han sido comparadas todas las parejas.
Si una diferencia observada es mayor que el intervalo mnimo significativo
correspondiente R
p
, se concluye que la pareja de medias en cuestin es
significativamente diferente.
Para evitar contradicciones, ninguna diferencia entre una pareja de me-
dias se considera significativa si las dos medias se encuentran entre otras
dos que no difieran significativamente.

a b c d e f
........1........

......1.......
................2............... ................2..............
.........................3.......................

.........................4......................................

Pasos,
p,
entre
medias
..................................5...............................................

48

Prueba de Duncan en Statgraphics

Contraste Mltiple de Rango

--------------------------------------------------------------------------------
Mtodo: 95.0 porcentaje Duncan

Frec. Media Grupos homogneos
--------------------------------------------------------------------------------
Acueducto 1 7 19.2243 X
--------------------------------------------------------------------------------
Contraste Diferencias
--------------------------------------------------------------------------------
Acueducto 1 - Acueducto 2 *-22.0829
Acueducto 1 - Acueducto 4 -1.34
Acueducto 2 - Acueducto 4 *20.7429
Acueducto 3 - Acueducto 4 *30.0643
--------------------------------------------------------------------------------
* indica una diferencia significativa.

Esta tabla aplica un procedimiento de comparacin mltiple para determinar las
medias que son significativamente diferentes unas de otras. La mitad inferior de
la salida muestra la diferencia estimada entre cada para de medias. El asterisco
que se encuentra al lado de los 5 pares, indica que stos muestran diferencias
estadsticamente significativas a un nivel de confianza 95.0%. En la parte supe-
rior de la pgina, se identifican 3 grupos homogneos segn la alineacin del sig-
no X en la columna. Dentro de cada columna, los niveles que tienen signo X for-
man un grupo de medias entre las cuales no hay diferencias estadsticamente sig-
nificativas. El mtodo actualmente utilizado para discernir entre las medias es el
procedimiento de Duncan de comparaciones mltiples. Con este mtodo, hay un
5.0% de riesgo de considerar uno o ms pares como significativamente diferentes
cuando su diferencia real es igual a 0.
49
Comprobacin de la Idoneidad del modelo. Anlisis de residuos

En el modelo de un solo factor completamente aleatorizado es til describir las
observaciones mediante un modelo estadstico lineal, donde:

i = tratamientos
= niveles del factor
= 1, 2, 3, ..... a

y
ij
= +
i
+
ij

y
ij
= observacin del tra-
tamiento i, rplica j
= media global
i
= efecto del tratamiento
ij
= error
j = rplicas
= 1, 2, 3, ..... n

Las observaciones y
ij
son independientes y se encuentran normalmente distri-
budas con media y varianza
2

i
= +
i

Los errores del modelo son variables aleatorias independientes con distribu-
cin normal, media cero y varianza
2

2
es constante para todos los niveles del factor

H
0
:
1
=
2
=
3
= ...... =
a
H
1
:
i

j

H
0
:
1
=
2
=
3
= ...... =
a
= 0 H
1
:
i
0

Las herramientas principales de diagnstico de la idoneidad del modelo estn ba-
sadas en los residuos

.
i ij ij ij ij
y y y y e = =

ij
y
es el valor estimado
. i
y
es la media del tratamiento i

El residuo del i-simo tratamiento se determina restando el promedio del tra-
tamiento . i
y
a cada observacin dentro del tratamiento
Usualmente la comprobacin de idoneidad del modelo se realiza mediante los
grficos de residuos
Esto debe ser un paso de rutina en cada diseo experimental
Los grficos de residuos no deben tener ningn patrn, ni estar relacionados
con ninguna variable
50

Grfico de Residuos
-4.9
-2.9
-0.9
1.1
3.1
5.1
r
e
s
i
d
u
o
0 5 10 15 20 25 30
observacin

Acued 1 Acued 2 Acued 3 Acued 4
Grfico de Residuos
-4.9
-2.9
-0.9
1.1
3.1
5.1
r
e
s
i
d
u
o
muestra

Grfico de Residuos
-4.9
-2.9
-0.9
1.1
3.1
5.1
r
e
s
i
d
u
o
19 29 39 49 59
valor predicho

51
Ejemplo de Experimento Unifactorial Completamente Aleatorizado

Ensayos clnicos de la vacuna sinttica contra el Haemophilus influenzae tipo B

Los ensayos clnicos de medicamentos y vacunas es uno de los ejemplos ms
completos donde se acostumbra a utilizar diseos completamente aleatorizados.
Los mismos se realizan a doble ciego, es decir, ni el mdico, ni el paciente co-
nocen el tratamiento especfico que est recibiendo y las claves permanecen
guardadas hasta que se han realizado los clculos estadsticos.
A continuacin vamos a describir brevemente el ensayo clnico realizado en
Cuba para la vacuna sinttica contra el Haemophilus influenzae tipo b
El ensayo clnico se dividi en 2 fases:

Fase 1: para evaluar seguridad (reacciones adversas, tales como fiebre, febrcula,
inflamacin, induracin, dolor, etc.), aunque tambin se midi inmunogenicidad.
En esta primera fase se utiliza una muestra ms pequea

Fase 2: Para evaluar inmunogenicidad. La muestra es mucho mayor. En esta
vacuna, para obtener inmunogenicidad, es necesario que el ttulo de anticuerpos
sea mayor de 1mg de anticuerpos por ml de sangre.

El ensayo const de 3 partes:

Adultos Nios de 4-5 aos Lactantes
Fase 1 Fase 1 Fase 2 Fase 1 Fase 2
120 nios 1000 nios 120 lactantes 900 lactantes

C En el ensayo en Fase 1 en lactantes se hicieron 4 grupos, a cada grupo se le
aplic un tratamiento diferente, un tratamiento era la vacuna comercial italiana y
los otros 3 tratamientos eran 3 lotes diferentes de la vacuna sinttica cubana.
C a cada nio se le asigna un nmero y se distribuyen de manera completamente
aleatoria entre los 4 grupos, de manera que cada grupo qued constituido por 30
nios
CLas claves se guardan en sobres lacrados individuales y la enfermera que apli-
ca la vacuna no participa en el resto del ensayo
C Se obtienen los resultados y se entregan
C Se abren los cdigos de cada grupo, para poder agrupar los resultados que
pertenecen a cada grupo
Se realiza el clculo estadstico
C Se abre la clave que indica que tratamiento se le aplic a cada grupo
52
Regresin y Correlacin

Muchas veces tenemos informacin acerca de 2 o ms variables rela-
cionadas entre si como por ejemplo:

Variacin de la presin de vapor de un lquido con la temperatura
Variacin de la temperatura de ebullicin con la presin
Variacin de la temperatura de ebullicin o de fusin de una disolu-
cin con la concentracin
Variacin de la conductividad elctrica de una disolucin de un elec-
trolito fuerte con la concentracin
Variacin de la k de una reaccin con la temperatura
Variacin de la velocidad de reaccin con la concentracin de los
reaccionantes.
Desplazamiento del equilibrio a en dependencia de diferentes facto-
res

En estos casos nos interesa:

1. Buscar una funcin matemtica que nos explique de que manera es-
tn relacionadas las variables. Para esto se utiliza el anlisis de
regresin.

2. Saber con que precisin se puede predecir el valor de una variable
conociendo los valores de otras las variables asociadas con ella.
Para esto se utiliza el anlisis de correlacin.

Es decir:

Los mtodos de regresin se usan para determinar la mejor rela-
cin funcional entre las variables
Los mtodos de correlacin se utilizan para medir el grado de aso-
ciacin o dependencia de las distintas variables.

53

Anlisis de regresin

Relaciones funcionales entre las variables. Funcin regresin o respuesta

Representacin general Representacin abreviada

= (
1
...
p
/
1
...
q
)

= (
1
...
p
)

= variable dependiente) = variables independientes
= forma de la funcin = parmetros de la funcin

En cualquier anlisis se espera que la funcin postulada (supuesta) represente
algn mecanismo bsico o causal, asociado con los factores sujetos a la investi-
gacin.
Los mtodos de regresin y correlacin son instrumentos muy tiles para el
anlisis e interpretacin de datos y permiten hacer predicciones sobre el compor-
tamiento del sistema en estudio, pero no sustituyen el conocimiento y la peri-
cia del investigador.

Eleccin de una relacin funcional

Los mtodos empleados son:

Consideraciones tericas del fenmeno en cuestin
Un examen del diagrama grfico de dispersin de los datos experimentales

Grfico de dispersin
0
5
10
15
0 5 10 15
X
Y

54
Ajuste de curvas:

Una vez decidido el tipo de funcin matemtica que mejor se ajusta a los datos
experimentales, es necesario estimar los parmetros de esa ecuacin. Esto se
conoce como ajuste de curvas.
Existen numerosos mtodos grficos y analticos para ajustar curvas. Entre
los mtodos analticos ms utilizados se encuentra el mtodo de los mnimos
cuadrados.

Mtodo de los mnimos cuadrados para el ajuste de lneas rectas

Dada la siguiente recta: y = a + bx

Para cada valor de x existe una diferencia (d
i
) entre el valor experimental de y
i
y
el valor terico de la recta i
y

i i i
y y d
=

Si calculamos:
( )

= =
=
n
i
i i
n
i
i
y y d
1
2
1
2

el valor de esta ser mayor,
mientras peor sea el ajuste.

De todas las posibles rectas que pueden ser trazadas para un conjunto de puntos
experimentales, la que presenta menor valor de esta , es conocida como recta
de ajuste ptimo o recta mnimo cuadrtica.

Clculo de los coeficientes de regresin: pendiente (b) e intercepto (a):

( )

=
2
2
x x n
y x xy n
b

n
x b y
a

=

Los parmetros a y b no se pueden determinar sin error, pues los valores ob-
servados de la variable dependiente (y) rara vez concuerdan con los valores es-
perados (). A partir de los coeficientes de regresin a y b se estiman los coefi-
cientes poblacionales y .

Es posible determinar los errores de a y b como dispersiones o varianzas
(Sa
2
y Sb
2
), desviaciones estndar (Sa y Sb) o como intervalos de confianza
(a a y b b) para un nivel de significacin dado.

55

Clculo de la
Dispersin o
Varianza
( )
2
1
2
2
=
n
y y
So
n
i
i i
)
2
2
2

=

n
xy b y a y
So

n-2 = # de grados de libertad n = total de valores de y

Para el clculo de So
2
no se deben redondear los valores de a y b.

Clculo de las va-
rianzas de la pen-
diente y el inter-
cepto
( )

=
2
2
2
2
x x n
nSo
Sb

n
x Sb
Sa

=
2 2
2

La dispersin de la pendiente (Sb
2
) ser menor mientras mayor sea el interva-
lo de las x.

Clculo de los interva-
los de confianza de a y
b

b = t (:f) Sb

a = t (:f) Sa

Conociendo los intervalos de confianza a a y b b se determina el # de
cifras significativas con que deben reportarse a y b.

Clculo del intervalo de
confianza para el valor
estimado de a
y
)

( )
( )
+ =

2
2
2
2
1
) : (
x x
x x n
n
So f t y
a
a

)

El intervalo de confianza de
a
y
)
(
a
y
)
a
y
)
) depende de la diferencia
( ) x x
a

.
Esto implica que hay que tener mucho cuidado con las extrapolaciones.
Si se necesita extrapolar para x = 0 hay que tener valores de x cercanos a 0
56

Anlisis de Correlacin

Mtodos de correlacin: Miden el grado de asociacin entre variables, es decir,
permiten conocer hasta que punto el modelo de regre-
sin utilizado expresa la relacin entre las variables.

Si todos los pares de valores satisfacen exactamente una ecuacin dada de 2
variables, se dice que las variables estn perfectamente correlacionadas o que
existe una correlacin estricta o rigurosa.

La medida de correlacin se conoce como coeficiente de correlacin(r).

El coeficiente de correlacin (r) mide cuan ceidos (ajustados) quedan los
puntos experimentales respecto a la curva de regresin utilizada

Coeficiente de correlacin lineal (r)
y coeficiente de determinacin (r
2
)

El coeficiente de correlacin (r) es un parmetro adimensional que vara en
la regin 1 r 1.
Si r = +1 existe una correlacin rigurosamente lineal, donde al aumentar la va-
riable x aumenta la variable y
Si r = -1 la correlacin es tambin rigurosamente lineal, pero al aumentar x,
disminuye y.
Si r = 0, se considera que las variables no estn correlacionadas

Clculos:

=
2 2
y x
xy
r

( )
2
2
2
2

=
y x
xy
r

El coeficiente de determinacin (r
2
) se expresa muy frecuentemente en %
(r
2
x 100)
57


Modelo Matemtico Modelo estadstico Ecuacin de regresin
= + x
Y = + x +
Y
= a + b x

= error aleatorio
( )
i i
y y =

Para obtener la ecuacin de regresin (estimacin o prediccin) se usa el m-
todo de los mnimos cuadrados. Este mtodo consiste en encontrar una recta tal
que la suma de los cuadrados de los errores sea mnima:

( )

= =
=
n
i
n
i
i i i
d Y Y
1 1
2
2
Esta es la recta de mejor ajuste

A las diferencias
i i
Y Y
se les llama residuos de la regresin

i i i
Y Y d
=

Por la forma del clculo debe cumplirse que (d
i
)
2
= 0

n
Y
Y
n
i
i
=
=
1

Respecto a la media, los valores de Y
i
tendrn un error total (E
1
)
Si se aplica la regresin, el ajuste es mejor, es decir, que la des-
viacin de las Y
i
respecto a la recta de regresin (E
2
) deben ser
menores que cuando se realiza respecto a la media, ya que la re-
gresin explica o elimina parte del error total respecto a la media.

Error Total

Y Y E
i
=

Error explicado por la Re-
gresin

Y Y E =
1

Error no explicado
Y Y E
i
2
=

( ) ( ) ( )
i i i i
Y Y Y Y Y Y

+ =

58
Se puede demostrar que:

( ) ( ) ( )

= = =
+ =
n
i
i i
n
i
i
n
i
i
Y Y Y Y Y Y
1
2
1
2
1
2

( )
=

n
i
i
Y Y
1
2

( )
=

n
i
i
Y Y
1
2

( )
=

n
i
i i
Y Y
1
2

6 6 6
Suma de cuadrados tota-
les
Suma de cuadrados expli-
cado por la regresin
Suma de cuadrados resi-
duales
6 6 6
n-1 grados de libertad 1 grado de libertad n-2 grados de libertad
6 6 6
( )

=
n
Y
Y SCT
2
2

( )
=
2
2
Re
x
XY
g SC

=
2 2
Re Y Y s SC
6
6 6
Total
Model Error (Residual)

Tabla ANOVA

Fuente de
Variacin
Grados
de Li-
bertad
Suma de Cuadrados Cuadrados
medios
F
exp

Modelo 1
( )
=
2
2
Re
x
XY
g SC

1
eg
eg
SCR
CMR =

s CM
g CM
F
Re
Re
exp
=
Error n-2

=
2 2
Re Y Y s SC

2
=
n
SCR
CMR
es
es

Total n-1
( )

=
n
Y
Y SCT
2
2

59
Prueba de Significacin de la Regresin

Hiptesis Nula
Hiptesis Alternativa
H
0
: = 0 H
1
: 0

Si aceptamos H
0
: = 0

i
Y
no es un estimador mejor que Y

No existe relacin lineal entre x y

b es una variable aleatoria. Si aceptamos H
0
: = 0, y b 0, esto se debe a
factores aleatorios que han determinado una aparente tendencia lineal.

Si = 0 CMReg CMRes
Si 0
CMReg > CMRes
s CM
g CM
F
Re
Re
exp
=

Si F
exp
> F (: f
1
:f
2
)

F
exp
> F (0.01: 1: n-2) Se rechaza H
0
H
1
: 0
(con un nivel de confianza del 99%)

Coeficiente de Determinacin (R
2
)

SCT
g SC
R
Re
2
=

Se acostumbra a dar en %

0 R
2
1

R
2
= 0

Y Y =

La regresin no es necesaria
R
2
= 1

i
Y Y =

Todas las y
i
estn sobre la recta La regre-
sin explica todo el error total

Mientras ms cerca se encuentre R
2
de 1, habr ms calidad en el ajuste
R
2
mide que % de los cambios en la variable y se deben a variaciones en la
variable x
R
2
da una medida de que % del error total est explicado y por ende eliminado
po la regresin
R
2
da una medida de la calidad del ajuste que se ha logrado con la regresin,
es decir, cuan dispersos estn los valores de y
i
alrededor de la recta de regresin.
R
2
da una medida de la linealidad del conjunto de puntos

60
Error estndar
Valor de t
exp

=
2
Re
x
s CM
S
b

b
S
b
t =
exp

Si t
exp
> t (0.01: n-2)
Se rechaza H
0

Intervalos de Confianza y Prediccin
0 2 4 6 8 10
0
20
40
60
80
100
B
Linear Fit of Data1_B
Upper 95% Confidence Limit
Lower 95% Confidence Limit
Upper 95% Prediction Limit
Lower 95% Prediction Limit
Y

A
x
i
s

T
i
t
l
e
X axis title
61
Interpretacion de la informacin que brindan los programas
ORIGIN y Statgraphics.

Origin

Linear Regression for Data1_B:
Y = A + B * X

Parameter Value Error t-Value Prob>|t|
-----------------------------------------------------------------------------------------
A -1.13333 1.62748 -0.69637 0.50592
B 10.11515 0.26229 38.56448 <0.0001
-----------------------------------------------------------------------------------------

R R-Square(COD) Adj. R-Square Root-MSE(SD) N
------------------------------------------------------------------------------------------
0.99732 0.99465 0.99398 2.38238 10
-------------------------------------------------------------------------------------------

ANOVA Table:
--------------------------------------------------------------------------------------------
Degrees of Sum of Mean
Item Freedom Squares Square F Statistic
---------------------------------------------------------------------------------------------
Model 1 8441.09394 8441.09394 1487.2189
Error 8 45.40606 5.67576
Total 9 8486.5
---------------------------------------------------------------------------

Prob>F
---------------------------------------------------------------------------
<0.0001
---------------------------------------------------------------------------

62
Statgraphics

Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: Col_2
Independent variable: Col_1
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept -1.13333 1.62748 -0.696374 0.5059
Slope 10.1152 0.262292 38.5645 0.0000
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 8441.09 1 8441.09 1487.22 0.0000
Residual 45.4061 8 5.67576
-----------------------------------------------------------------------------
Total (Corr.) 8486.5 9
Correlation Coefficient = 0.997321
R-squared = 99.465 percent
Standard Error of Est. = 2.38238
The StatAdvisor
---------------
The output shows the results of fitting a linear model to describe
the relationship between Col_2 and Col_1. The equation of the fitted
model is
Col_2 = -1.13333 + 10.1152*Col_1
Since the P-value in the ANOVA table is less than 0.01, there is a
statistically significant relationship between Col_2 and Col_1 at the
99% confidence level.
The R-Squared statistic indicates that the model as fitted explains
99.465% of the variability in Col_2. The correlation coefficient
equals 0.997321, indicating a relatively strong relationship between
the variables. The standard error of the estimate shows the standard
deviation of the residuals to be 2.38238. This value can be used to
construct prediction limits for new observations by selecting the
Forecasts option from the text menu.
63
Prueba de Falta de Ajuste (o de Bondad de Ajuste)

Cuando seleccionamos un modelo (funcin de regresin) para unos da-
tos experimentales, puede suceder que el modelo escogido no sea el correc-
to.

Para verificar esta cuestin se utiliza la prueba de Bondad de Ajuste del Mo-
delo de Regresin.

H
0
= El modelo se ajusta a los datos H
1
= El modelo no se ajusta

La prueba consiste en descomponer la SUMA DE CUADRADOS DEL ERROR
(o RESIDUAL) en los siguientes componentes:
ERROR: Error total (Residuo)
SC
ERROR
= SC
PE
+ SC
LOF
PE: Error experimental puro
LOF: Error atribuible a la falta de ajuste

Para m valores de X y n repeticiones de Y para cada valor de X:

X
1
Y
11
Y
12
....... Y
1n
X
2
Y
21
Y
22
....... Y
2n
: : : ....... :
X
m
Y
m1
Y
m2
....... Y
mn

ERROR PURO

FALTA DE AJUSTE

F
exp
= =
=
m
i
n
u
i
iu PE
i
Y Y SC
1 1
2
_
) (

PE error LOF
SC SC SC =

2
2
exp
PE
LOF
S
S
F =
N-m grados de libertad m-2 grados de libertad
m N
SC
S
PE
PE
=
2

2
2
=
m
SC
S
LOF
LOF

Si F
exp
> F (: m-2:N-m) Se rechaza H
0
Se debe buscar otro modelo

n
i
= # de repeticiones de Y
para X
i

m = # de valores de X
N = # total de valores de Y

64
Tabla de ANOVA

Fuente de Va-
riacin
Suma de Cua-
drados
Grados de Li-
bertad Varianza
F
exp

Regresin SC
MODEL
1
2
MODEL
S

Residuo (error) SC
ERROR
N-2
2
ERROR
S

2
2
exp
ERROR
MODEL
S
S
F =
(Falta de ajus-
te)
SC
LOF
m-2
2
LOF
S

(Error puro) SC
PE
N-m 2
PE
S

2
2
exp
PE
LOF
S
S
F =

Total SC
TOTAL
N-1
2
TOTAL
S

65

Modelos sin intercepto ( y = bx)

Cuando se aplica el mtodo de los mnimos cuadrados, la probabilidad que a = o
es 0.

Hiptesis nula: Hiptesis alternativa:
H
0
: = 0 H
1
: 0

1. Mtodo de Jouden:

Sa
a
t =
exp

n
x Sb
Sa

=
2 2
2

f = n - 2

Si t
exp
t (0.05: n-2) H
0
: = 0 Si t
exp
> t (0.01: n-2) H
1
: 0
Si t (0.05: n-2) < t
exp
< t (0.01: n-2) No conclusiones

Otra forma:

Se calcula el intervalo de confianza de a (a a) para = 0.05 y = 0.01
a
0.05
= Sa . t (0.05: n-2) a
0.01
= Sa . t (0.01: n-2)

Si el valor 0 est incluido en a a
0.05
H
0
: = 0
Si el valor 0 no est incluido en a a
0.01
H
0
: 0

2. Mtodo basado en el ANOVA

2
0
exp
S
SC C S
F

=

= xy b y a y SC
2

= xy b y SC
2
'

( )

=
2
2
x x n
y x xy n
b

=
2
x
xy
b

Por ltimo se compara F
exp
con F(:1:n-1) de la forma habitual

Coeficiente de determinacin Coeficiente de correlacin
( )
( )( )

=
2 2
2
2
y y
y y
r

2
r r =

66
Parbola

Se minimiza la suma:
Clculo de los parmetros de regresin
( )
2

i i
y y

2
cx bx a y + + =

( ) ( )

= + + y x c x b an
2

( ) ( ) ( )

= + + xy x c x b x a
3 2

( ) ( ) ( )

= + + y x x c x b x a
2 4 3 2

Ecuaciones norma-
les de la parbola
mnimo cuadrtica

Dispersin de y en x:
( )
3 3
Re
3
2 2
2
2
=

n
y x c xy b y a y
n
g SC
n
y y
So
i i

Correlacin para el modelo y = a + bx +cx
2

( )
( )
SCT
g SC
y y
y y
r
i
i i
Re
2
2
2
=

( )

=
n
y
y SCT
2
2

2
r r =
= y x c xy b y a y g SC
2 2
Re

67
Problemas al ajustar un modelo de regresin lineal simple.
Al ajustar un modelo de regresin lineal simple se pueden presentar di-
ferentes problemas bien porque no existe una relacin lineal entre las
variables o porque no se verifican las hiptesis estructurales que se
asumen en el ajuste del modelo. Estos problemas son los siguientes:
Falta de Linealidad, porque la relacin entre las dos variables no es
lineal o porque variables explicativas relevantes no han sido includas
en el modelo.
Existencia de valores atpicos e influyentes, existen datos atpi-
cos que se separan de la nube de datos muestrales e influyen en la es-
timacin del modelo.
Falta de Normalidad, los residuos del modelo no se ajustan a una
distribucin normal.
Heterocedasticidad, la varianza de los residuos no es constante.
Dependencia (autocorrelacin), existe dependencia entre las ob-
servaciones.
Es importante como detectar estos problemas, su influencia en el
clculo del modelo de regresin y las posibles soluciones.
Un primer paso para el estudio de estos problemas es la realizacin
de un estudio descriptivo, analtico y grfico, de la muestra. En particu-
lar el grfico de puntos de la muestra bidimensional permite detectar al-
gunos problemas como se pone de manifiesto en las siguientes figuras
68
Grficos de variable respuesta (y
i
) contra variable prediccin (x
i
)
El ajuste lineal parece adecuado Existe relacin pero no lineal
No existe relacin lineal entre
las dos variables
Claros indicios de
heterocedasticidad
Existen observaciones atpicas. Existe una variable de re-
gresin binaria que se debe
de incluir en el modelo de
regresin.

69

La hiptesis de linealidad. Transformaciones.
La hiptesis bsica del modelo de regresin lineal simple es:
x x x y E
1 0
) / ( + = =

Pero en muchos casos en el grfico de la variable respuesta frente a
la variable de regresin puede verse que la relacin no es de este tipo.
A pesar de ello, el modelo de regresin lineal contina siendo vlido
en muchas situaciones porque la relacin puede convertirse en lineal
por medio de una transformacin simple en la variable respuesta y, o
en la variable de regresin, x, o en ambas.

Ejemplos de transformaciones interesantes Resultados
Modelo Trans. X Trans. Y r R
2

Simple
Y =
0
+
1
X
t(x) = x t(y) = y 0
'
9479 98
'
85%
Expon.
Y = exp (
0
+
1
x )
t(x) = x t(y) = lny 0
'
8756 76
'
67%
Recpr. Y
x
y
1 0
1
+
=

t(x) = x t(y) = 1/y -
0
'
6454
41
'
65%
Recpr. X
Y =
0
+
1
(1/x)
t(x) = 1/x t(y) = y -
0
'
6634
44
'
02%
Rec Doble
x
y
1
0
1
+
=

t(x) = 1/x t(y) = 1/y 0
'
6274 39
'
36%
Logar. X
Y =
0
+
1
ln(x)
t(x) = lnx t(y) = y 0
'
8726 76
'
15%
Multipl
1
0

x y =

t(x) = lnx t(y) = lny 0
'
8734 76
'
29%
Raz C. X
Y =
0
+
1
x
t(x) =
x x

0
'
9307 86
'
61%
Raz C. Y
x y
1 0
+ =

t(x) = x
t(y) = y
0
'
9289 86
'
29%
Curva S
) exp(
1
0
x
y

+ =
t(x) = 1/x t(y) = lny -
0
'
7142
51
'
01%
70
Grficas de las funciones anteriores
Modelo Y = exp
0
+
1
X Modelo Y = 1/
0
+
1
X

Modelo Y =
0
+
1
lg X
Modelo
1
0

x y =

Modelo
1
0

= x y

Modelo Y = exp
0
+
1
/x
En algunos casos transformar las variables del modelo permiten resol-
ver problemas como falta de normalidad o heterocedasticidad. Si en el
anlisis de residuos no se observan estos problemas, se puede intentar
conseguir la linealidad del modelo transformando solamente la variable
de regresin x. Pero si, por el contrario, se observan estos problemas
puede ser necesario transformar las dos variables.
71
Tipos de Residuos

Residuos ordinarios (e
i
): Se define el residuo (ordinario) como la
diferencia entre la observacin y
i
y la prediccin
y
,
)

(
1 0 i i i i i
x y y y e + = =

Residuos estandarizados (r
i
):
CME
e
r
i
i
=
Tienen = 0 y
2
= 1

Dato atpico (outlier): Una observacin con residuo grande se
denominan dato atpico (outlier). Una observacin es un dato atpico si
tiene un residuo estandarizado mayor que 2 (r
i
> 2), otras veces se pide
que r
i
> 3. En cualquier caso es una eleccin subjetiva y cuanto mayor
sea r
i
ms atpica es la observacin.
Los outliers son de gran importancia porque su inclusin o no en la
muestra puede hacer que vare mucho la recta de regresin estimada.
En el modelo de regresin lineal simple es fcil determinar las ob-
servaciones que son atpicas y estudiar su influencia en la estimacin
de la recta ajustada, normalmente, basta con observar el grfico de dis-
persin de la muestra y la recta ajustada. En modelos de regresin ml-
tiple este problema es ms complejo.
En cualquier caso, es conveniente estudiar las observaciones que
tienen un residuo estandarizado o estudentizado grande.
Son muchas las causas que dan origen a la existencia de datos atpi-
cos.
El punto observado es un error (en la medicin, en la transcripcin
de los datos, etc.) pero el modelo ajustado es adecuado.
El punto observado es correcto pero el modelo ajustado no lo es,
porque la relacin entre las dos variables es lineal en un determinado
intervalo pero no es lineal donde se observa al punto; o existe una fuer-
te heterocedasticidad con algunas observaciones que se separan de la
nube; o existe una variable de clasificacin que no se ha tenido en
cuenta.
72

Residuos eliminados e
(i)
: diferencia entre lo observado en la res-
puesta (y
i
)y la prediccin cuando se utiliza toda la muestra excepto la
observacin en estudio . Si la observacin (x
i
,y
i
) tiene una influencia
grande en el clculo de la recta de regresin, los dos residuos e
i
y e
(i)
son diferentes, en caso contrario, sern muy parecidos.

Grficos de residuos.

El anlisis descriptivo anlitico y grfico de los residuos estandariza-
dos da una buena idea acerca de si se verifican o no las hiptesis del
modelo de regresin.

En una primera etapa es conveniente calcular los estadsticos bsi-
cos de los mismos: media, mediana, desviacin tpica, coeficiente de
asimetra, coeficiente de curtosis, etc., que permiten tener una primera
aproximacin a la distribucin de los mismos.

Los grficos de cajas (Box-Plot) y el histograma de los residuos es-
tandarizados proporcionan informacin sobre la distribucin de los mis-
mos.

Si el el tamao de la muestra es pequeo en lugar del histograma de
residuos se puede utilizar el diagrama de puntos (dot-plot) o el grfi-
co de tallos y hojas (stem and leaf plot), con una interpretacin an-
loga a la expuesta para el histograma.

Indica existencia de una varia-
ble oculta.
Dot-plot de un conjunto de residuos

73
Grficos de residuos frente a predicciones

Aparte de los grficos ya comentados el grfico de los residuos frente
a las predicciones
) ,
(
i i
e y
es el que proporciona una mayor informa-
cin acerca del cumplimiento de las hiptesis del modelo. Esto se ob-
serva en las siguientes figuras:

No se detecta ningn problema El ajuste lineal no es adecuado
Ajuste lineal mal calculado. Existe heterocedasticidad
Ajuste no lineal y heterocedasti-
cidad
Existencia de datos atpicos

74
Observaciones atpicas y observaciones influyentes.

En el ajuste de una recta de regresin, en algunas ocasiones, exis-
ten observaciones (valores extremos) que se separan claramente del
resto de la nube de observaciones.
Es importante conocer la influencia que estos puntos tienen en el
clculo de la estimacin de la recta.
Es decir: qu variacin se produce en la estimacin de la recta de
regresin al calcularla con toda la muestra excepto con el dato extremo
(x
t
, y
t
) en lugar de hacerlo con toda la muestra?
Al estudiar la influencia de una observacin (x
t
, y
t
) se deben tener
en cuenta las siguientes definiciones:
Una observacin influyente a priori es aquella (x
t
, y
t
) que es hetero-
gnea respecto a las x (x
t
est separado de
x
) y probablemente influi-
r en la estimacin de la recta aunque no tiene porque hacerlo de forma
significativa
Una observacin influyente a posteriori es aquella (x
t
, y
t
) cuya inclu-
sin modifica sustancialmente la estimacin del modelo y depende de
dos cosas: de si el valor y
t
se separa mucho o no de la recta ajustada y
de si el punto es muy o poco influyente a priori.
Es muy importante estudiar la influencia de las observaciones
muestrales porque una sola observacin puede modificar sustancial-
mente el resultado del ajuste como se muestra en este caso extremo.

Observacin con mxima influencia
75
Ejemplo: Recta de regresin con puntos extremos
Considrese una muestra de 17 datos que siguen claramente el
modelo de regresin lineal y tres datos adicionales (denotados A, B y C)
que se separan claramente de la nube (outliers).
A partir de esta muestra se calcula la recta de regresin de cuatro
formas: primero, utilizando los 17 puntos y luego utilizando los 17 pun-
tos y uno de los tres puntos extremos. Los resultados obtenidos son:

Recta de regresin R
2
r
Sin valores extremos (17 ptos.) y = 0
'
242 + 0
'
923x 0
'
945 0
'
972
Con A (18 ptos.) y = 1
'
534 + 0
'
672x 0
'
212 0
'
460
Con B (18 ptos.) y = -0
'
177 + 1
'
034x 0
'
986 0
'
993
Con C (18 ptos.) y = 3
'
876 - 0
'
048x 0
'
008 0
'
087

La grfica de la nube de puntos, la recta calculada a partir de la
muestra de 17 puntos y la recta calculada de los 17 puntos y la obser-
vacin adicional (A, B o C) se representan en las figuras siguientes.
76

Nube con 3 puntos extremos Influencia del punto A.
Influencia del punto B Influencia del punto C

El punto A, no es heterogneo respecto a las x (x
A
est cerca del
centro
x
) pero s respecto a las y es un punto influyente en la es-
timacin de la recta, ya que segn se utilice o no el punto A en la esti-
macin de la recta sta cambia de forma sustancial. Se dice que el pun-
to A no es influyente a priori pero si es influyente a posteriori. Como
y
A
se separa claramente de la recta ajustada, calculada a partir de la
muestra con A, por tanto, el punto A es atpico.
El punto B, es un punto influyente a priori porque x
B
est separa-
do de
x
, pero no influye en el clculo de la recta de regresin, por tan-
to, el punto B no es influyente a posteriori. Y como y
B
est prximo a
la recta ajustada no es atpico.
El punto C, es un punto influyente a priori e influyente a posterio-
ri, porque es un punto heterogneo respecto a las x y a las y. Adems
se observa que su influencia es muy grande, si se utiliza o no el punto
C en el clculo de la recta de regresin el resultado cambia totalmente.
77

La hiptesis de Normalidad

Una hiptesis bsica es que los errores del modelo siguen una distribu-
cin normal y para ello se debe de contrastar la hiptesis de que los re-
siduos estandarizados provienen de una distribucin normal.

Para estudiar la normalidad de los residuos estandarizados se pueden
utilizar las siguientes tcnicas:

Grficos: de cajas, el histograma, la estimacin no paramtrica de
la funcin de densidad, el grfico de simetra y los grfico p - p y q - q.
Pruebas de normalidad: asimetra y curtosis, chi-cuadrado, etc.
Si la hiptesis de normalidad no se verifica, afecta al modelo en:
Los estimadores por mnimos-cuadrados de los parmetros del
modelo no coinciden con los mximo-verosmiles. Los estimadores ob-
tenidos son centrados pero no eficientes.
Las pruebas de hiptesis (de la F y de la t) dejan de ser vlidos y
los intervalos de confianza obtenidos para los parmetros del modelo
no son correctos.
A pesar de ello, si el tamao muestral es razonablemente grande,
por el Teorema Central del Lmite, los contrastes e intervalos de con-
fianza obtenidos son una buena aproximacin de los reales.

La falta de normalidad puede ser debida a:
Un conjunto pequeo de observaciones atpicas que originan
apuntamiento o a la existencia de una variable cualitativa oculta que
hace que la distribucin sea multimodal. En estos casos se puede mejo-
rar el modelo corrigiendo estos problemas.
Una fuerte asimetra de la distribucin que, en muchos casos, va
acompaada de otros problemas como falta de linealidad o heteroce-
dasticidad. Entonces lo recomendable es transformar la variable res-
puesta que normalmente arregla ambos problemas. La familia de trans-
formaciones de Box-Cox es la que normalmente se utiliza.
78

La hiptesis de Homocedasticidad

La hiptesis de homocedasticidad implica que la varianza de los re-
siduos es constante. Se detecta fcilmente en el grfico de residuos
frente a las predicciones o, en el grfico de los residuos frente a la va-
riable regresora.
En algunos casos transformando solamente la variable respuesta se
consigue homocedasticidad y se resuelven otros posibles problemas
como falta de simetra y de normalidad
A veces la sencilla transformacin de tomar logaritmos en la varia-
ble respuesta es suficiente para obtener homocedasticidad.
En otros es necesario hacer otras transformaciones, como por ejem-
plo multiplicar todo el modelo por 1/x, etc.

La hiptesis de Independencia

La hiptesis de que las observaciones muestrales son indepen-
dientes es una hiptesis bsica en el estudio de los modelos de regre-
sin lineal. Con ello se entiende que los errores son variables aleatorias
independientes.
La falta de independencia, se produce fundamentalmente cuando
se trabaja con variables aleatorias que se observan a lo largo del tiem-
po, esto es, cuando se trabaja con series temporales. Por ello, una pri-
mera medida para tratar de evitar la dependencia de las observaciones
consiste en aleatorizar la recogida muestral.
El que no se cumpla la hiptesis de independencia afecta gravemen-
te a los resultados del modelo de regresin, se obtienen estimadores de
los parmetros y predicciones ineficientes y los intervalos de confianza
y contrastes que se deducen de la tabla ANOVA no son vlidos.
Esto es debido a que se utiliza el resultado de que la varianza de la
suma de variables independientes es igual a la suma de las varianzas
de cada variable. Propiedad que no se cumple para variables depen-
dientes.
79
Si no se cumple la hiptesis de independencia se tienen dos alternati-
vas.

La primera, se basa en transformar los datos para obtener observa-
ciones incorreladas (independientes, bajo hiptesis de normalidad) y
luego aplicar las tcnicas de regresin estudiadas (mnimos cuadra-
dos), este mtodo es un caso particular de la denominada tcnica de
mnimos cuadrados generalizados, que se puede aplicar en situacio-
nes muy precisas y, por tanto, su utilizacin es un tanto restringida.

La segunda, se basa en aplicar mtodos estadsticos diseados para
el estudio con observaciones dependientes como son los mtodos de
series de tiempo y los modelos de regresin dinmica.

La dependencia entre las observaciones surge la mayora de las veces
porque los datos son recogidos a lo largo del tiempo, y los grficos y
pruebas siguientes son vlidos para detectarla.

Grficos para detectar dependencia son: el grfico de los residuos
frente al ndice (tiempo), (t, e
t
), el grfico de los residuos e
t+1
frente a e
t

y el correlograma.

Pruebas de hiptesis (contrastes) para detectar dependencias son:
los contrastes basados en rachas, contrastes sobre las autocorrelacio-
nes, el contraste de Ljung-Box. Dentro de los contrastes de autocorre-
laciones para modelos de regresin, el contraste de Durbin-Watson es
muy utilizado.
80
Regresin Lineal General: el modelo matemtico
Los Modelos de Regresin estudian la relacin cuantitativa entre una
variable de inters y un conjunto de variables explicativas. Sea Y la va-
riable de inters, variable respuesta o dependiente y sean x
1,
x
2
,...,x
k

las variables explicativas o regresoras. La formulacin matemtica de
estos modelos es la siguiente:
Y = m(x1, x2, xk) +
donde es el error de observacin debido a variables no controladas.
En el modelo de Regresin Lineal General se supone que la funcin
de regresin m(x1, x2, xk) es lineal. Por tanto, la expresin matem-
tica del modelo de regresin lineal general es:
Y =
0
+
1
x
1
+
2
x
2
+ ..
k
x
k
+
Un primer objetivo en el estudio de este modelo es el de estimar los pa-
rmetros del mismo
0
,
1
,
2
, ...,
k
y la funcin de distribucin del
error F
a partir de una muestra de n observaciones

De la expresin matemtica del modelo de regresin lineal general se
deduce que para i = 1,2,...,n se verifica la siguiente igualdad
y
i
=
0
+
1
x
i1
+
2
x
i2
+ ..
k
x
ik
+
i

donde
i
es el error aleatorio o perturbacin de la observacin i-sima.
Es intererante escribir el modelo de regresin lineal general en forma
matricial.
Y
1
=
0
1 +
1
x
11
+
2
x
12
+ ..
k
x
1k
+
1

Y
2
=
0
1 +
1
x
21
+
2
x
22
+ ..
k
x
2k
+
2

. . . . . .
. . . . . .
. . . . . .
Y
n
=
0
1 +
1
x
n1
+
2
x
n2
+ ..
k
x
nk
+
n

escrito en forma vectorial:

r r
L
r r
r r
+ + + + + =
k
x x x Y
. 1 2 2 1 1 0
. . 1

81
escrito en forma matricial:

r r
r
+ = X Y

Y
r
: vector n-dimensional (matriz n 1) de la variable respuesta
X: matriz del diseo de las variables regresoras (matriz n (k+1)), la
primera columna de esta matriz est formada por unos, es la columna
asociada con el parmetro
0
; la columna j + 1 contiene la informacin
relativa a la variable x
j
, j = 1,...,k, es la columna asociada al parmetro

j
.
r
: vector (k+1)-dimensional (matriz (k+1) 1) de los parmetros del
modelo,
r
es el vector n-dimensional (matriz n 1) de las perturbaciones alea-
torias.
Desarrollando la ecuacin matricial anterior se tiene,

En resumen, las matrices del modelo de regresin lineal mltiple son:

82
En el estudio del modelo de regresin lineal general se asume que se
verifican las siguientes hiptesis:
La funcin de regresin es lineal,
La varianza es constante (homocedasticidad)
Var(Y) = Var() =
2
I
La distribucin es normal,
Y ~ N(X,
2
I) ~ N(0,
2
I)
Las observaciones Y
i
son independientes (bajo normalidad, esto
equivale a que la Cov(Y
i
;Y
j
) = 0, si i j) y los
i
son independientes
(bajo normalidad, equivale a que Cov(
i
;
j
) = 0, si i j).
Es decir: Y y son vectores de variables aleatorias independientes, nor-
malmente distribudas.
n > k + 1. En caso contrario no se dispone de informacin suficiente
para estimar los parmetros del modelo.
Las variables regresoras x
1,
x
2
,...,x
k
son linealmente independientes.

Cuadro resumen de las hiptesis del modelo de regresin lineal general.

HIPTESIS del Modelo de Regresin Lineal General

i

Y
E(
i
) = 0 E(Y/ x
i1
, x
i2
,... x
ik
) =
0
+
1
x
i1
+
2
x
i2
+ ..
k
x
ik

Homocedasticidad
Var(
i
) =
2

Homocedasticidad
Var(Y/ x
i1
, x
i2
,... x
ik
) =
2

Cov(
i
;
j
) = 0
los errores, son in-
dependientes
Las observaciones,
y
i
, son independientes
Normalidad

i
~ N(0,
2
)
Normalidad
Y/ x
i1
, x
i2
,... x
ik
~ N(
0
+
1
x
i1
+
2
x
i2
+ ..
k
x
ik
,
2
)
n > k + 1 n > k + 1
Los errores son li-
nealmente indepen-
dientes
Las variables regresoras
son linealmente independientes
83
Estimacin de los parmetros del modelo.
Sea
un estimador del vector de parmetros
r
. Se define el vector
de predicciones como
El vector de residuos se obtiene como:
El estimador por mnimos cuadrados de
r
se obtiene minimizando
la suma de los residuos al cuadrado.

Debe tenerse en cuenta que para calcular este estimador es necesario
que la matriz X
t
X sea invertible. Esto est garantizado por la hiptesis 6
del modelo.
La matriz X
t
X es una matriz (k+1)(k+1) cuya expresin es la siguiente

La matriz X
t
Y es una matriz (k+1) 1 que viene dada por

84
Estimador de los coeficientes del modelo lineal.
El estimador del vector
r
por el mtodo de mnimos cuadrados es:
= (X
t
X)
-1
X
t
Y
Este estimador verifica las siguientes propiedades:

El estimador

es insesgado o centrado: E
)
(
=
r

La matriz de varianzas-covarianzas del estimador
es
Var
)
(
=
2
(X
t
X)
-1

De donde se deduce que los estimadores
i
y
j
para i j no son, no
independientes. En particular, la varianza del estimador
i
viene dada
por

siendo q
ii
el elemento i-simo de la matriz
-1
.
El estimador tiene distribucin normal multivariante de orden k + 1,

El estimador
i
del parmetro
i
tiene la siguiente distribucin normal

i
indica la influencia de la variable regresora x
i
en la variable res-
puesta Y, representa el incremento que se produce en la variable
respuesta por un crecimiento unitario en la variable regresora x
i
.
El valor de
i
est condicionado al modelo de regresin mltiple
con el que se est trabajando y si se cambia el modelo (se elimi-
nan variables regresoras o se introducen nuevas variables) el co-
eficiente
i
, asociada a la variable regresora x
i
, tambin cambia.
Aceptar que el valor de
i
es cero equivale a aceptar que la varia-
ble x
i
no est relacionada linealmente con la variable Y.
Si se conoce la varianza del modelo
2
, se pueden calcular inter-
valos de confianza de los parmetros
i
. En la prctica casi nunca
se conoce el parmetro
2
y es necesario estimarlo.
85
El estimador de la varianza.
Una hiptesis bsica del modelo es que los errores son normales y
homocedsticos, por tanto, Var(
i
) =
2
, i = 1,...,n, el parmetro
2
nor-
malmente es desconocido y es necesario estimarlo.
El estimador de este parmetro es la varianza residual, definida como
"el coeficiente entre la suma de cuadrados del residuo y el nmero de
grados de libertad del modelo "
=
n
i
i
t t
R
e
m n m n
X X Y Y
S
1
2 2
1

El numerador es la suma de los cuadrados de los residuos y el denomi-
nador es el nmero de obsevaciones menos el nmero de parmetros
del modelo
Inferencia sobre los coeficientes del modelo
Puede demostrarse que que las propiedades de los estimadores de m-
nimos cuadrados
k
, , ,
1 0
L
son extensiones de las propiedades de
los estimadores para el modelo lineal simple:
Cada
j
tiene distribucin normal de media

k j E
j j
,..., 2 , 1 , 0 , ) ( = =

k j i c Cov
j i j i
,..., 2 , 1 , 0 , ) , (
2
) 1 )( 1 (
= =
+ +

donde c
(i+1)(j+1)
es el ele-
mento de (X
t
X)
-1
que se encuentra en la fila (i+1), columna (j+1) para
i j

j
~ N(
j

2
q
jj
) =
jj
j j
q

= N(0,1)
Como
2
no se conoce, se sustituye por su estimador
2
R
S
86

El Anlisis de la Varianza.
Razonando como en el modelo de Regresin Lineal Simple, en cada
observacin muestral se puede hacer la siguiente descomposicin

En base a las propiedades geomtricas del modelo y utilizando el Teo-
rema de Pitgoras, se obtiene

De esta igualdad se construye la siguiente tabla ANOVA
Tabla ANOVA del modelo de regresin mltiple
Fuente de
variacin
Suma de cuadra-
dos
Grados de
Libertad
Varianzas
Por la recta
scE =
=

n
i
i
y y
1
2
)
(

k
k
scE
S
e
=
2

Residual
scR =
=

n
i
i i
y y
1
2
)
(
n- (k-1)
) 1 (
2
+
=
k n
scR
S
R

Global
scG =
=

n
i
i
y y
1
2
) (

n-1
1
2
=
n
scG
S
Y

87
Prueba de hiptesis de regresin mltiple
Hiptesis nula Hiptesis Alternativa
H
0
:
1
=
2
= ... =
1
= 0 H
1
:
i
0 para algn i
Si H
0
es cierto ninguna de las variables regresoras influye en la variable
respuesta (el modelo no influye). En este supuesto se verifica que
0
scE y y
i

por ser sta una medida absoluta se compara con la varianza residual,
lo que lleva a utilizar como estadgrafo para la prueba el siguiente
Si F
exp
< F
tab
(, k, n-(k+1)) no se rechaza H
0
(p > )
2
2
exp
R
e
S
S
F =
Si F
exp
> F
tab
(, k, n-(k+1)) se rechaza H
0
(p < )
Pruebas de hiptesis (contrastes) individuales de la F.
El contraste individual de la t que permite contrastar la influencia indi-
vidual de la variable x
i
se deduce de la distribucin del estimador
i
, pe-
ro tambin puede hacerse por medio de una tabla ANOVA, estudiando
el incremento que se produce en la suma de cuadrados explicada por el
modelo al introducir la variable regresora en estudio x
i
. Para ello:
Se ajusta el modelo de regresin completo, con las k variables regre-
soras y se calcula la suma de cuadrados explicada por el modelo
(scE(k)).
A continuacin, se ajusta el modelo de regresin con k - 1 variables,
todas excepto la variable x
i
. Se calcula la suma de cuadrados expli-
cada por este modelo (scE(k - x
i
).
Se define la suma de cuadrados incremental debida a x
i
como
scE(x
i
) = scE(k) scE(k - x
i
) 0
Este valor indica el aumento de la variabilidad explicada por el modelo
al introducir la variable x
i
.
88
Para verificar la influencia individual o no de x
i
, se realiza la siguiente
prueba de hiptesis:
Hiptesis nula Hiptesis Alternativa
H
0
:
i
= 0 H
1
:
i
0
Estadgrafo para la prueba:
) (
) (
2
k S
l
x scE
F
R
il
l
=
para l variables explicati-
vas, donde l < k, para acepytar o rechazar la hiptesis nula se compara
el p-valor con como es usual
Relacin entre las pruebas individuales y las pruebas conjuntos
En un modelo de regresin mltiple al hacer los contrastes sobre la in-
fluencia individual de cada una de las variables regresoras y el contras-
te sobre la influencia conjunta del modelo de regresin ajustado, pue-
den darse las siguientes situaciones:
Caso Infl.
Conj.
Infl.
Ind.
Explicacin
1 Sign. Todos
Sign.
Todas las variables explicativas influyen en la variable
respuesta.
2 Sign. Alguno
Sign.
Influyen algunas variables explicativas, otras no.
3 Sign. Ninguno
Sign.
Las variables explicativas son muy dependientes entre
s. Entonces, conjuntamente influyen, pero los coefi-
cientes individuales tienen varianzas muy altas en rela-
cin con el valor de las estimaciones que son no signifi-
cativas. Este problema se denomina multicolinealidad
y se soluciona eliminando algunas variables regresoras
del modelo.
4 No
Sign.
Todos
Sign.
Es otro caso de multicolinealidad, las variables son muy
dependientes pero con una fuerte correlacin negativa.
Es poco frecuente.
5 No
Sign.
Alguno
Sign.
Anlogo al anterior.
6 No
Sign.
Ninguno
Sign.
Ninguna de las variables regresoras influye en la varia-
ble respuesta o la influencia no la detecta la muestra
tomada.
89
Ejemplo de Regresin Lineal Mltiple (Canavos, Pg. 510)
Y = % de gasolina destilada/total de petrleo crudo
X
1
= densidad del petrleo crudo (
o
API)
X
2
= Presin de vapor del petrleo crudo (psi)
X
3
= punto de 10% ASTM para el petrleo crudo (
0
F)
X
4
= Punto final ASTM para la gasolina (
0
F)

Observacin y x
1
x
2
x
3
x
4
1 6,9 38,4 6,1 220 235
2 14,4 40,3 4,8 231 307
3 7,4 40,0 6,1 217 212
4 8,5 31,8 2,4 316 365
5 8,0 40,8 0,2 210 218
6 2,8 41,3 3,5 267 235
7 5,0 38,1 1,8 274 285
8 12,2 50,8 1,2 190 205
9 10,0 32,2 8,6 236 267
10 15,2 38,4 5,2 220 300
11 26,8 40,3 6,1 231 367
12 14,0 32,2 6,1 284 351
13 14,7 31,8 3,5 316 379
14 6,4 41,3 1,8 267 275
15 17,6 38,1 8,6 274 365
16 22,3 50,8 6,1 190 275
17 24,8 32,2 4,8 236 360
18 26,0 38,4 6,1 220 365
19 34,9 40,3 2,4 231 395
20 18,2 40,0 0,2 217 272
21 23,2 32,2 3,5 284 424
22 18,0 31,8 1,8 316 428
23 13,1 40,8 1,2 210 273
24 16,1 41,3 8,6 267 358
25 32,1 38,1 5,2 274 444
26 34,7 50,8 6,1 190 345
27 31,7 32,2 6,1 236 402
28 33,6 38,4 3,5 220 410
29 30,4 40,0 1,8 217 340
30 26,6 40,8 8,6 210 347
31 27,8 41,3 6,1 267 416
32 45,7 50,8 4,8 190 407

90
Regresin Mltiple en Statgraphics 5.1. Todas las variables

Variable dependiente: Y
Error Estadstico
Parmetro Estimacin estndar T P-Valor
CONSTANTE -6,82077 10,1232 -0,67378 0,5062
X1 0,227246 0,0999366 2,2739 0,0311
X2 0,553726 0,369752 1,49756 0,1458
X3 -0,149536 0,0292292 -5,11597 0,0000
X4 0,15465 0,00644584 23,9922 0,0000
-----------------------------------------------------------------------------------------
Anlisis de Varianza
Fuente SC GL CM F P-Valor
Modelo 3429,27 4 857,318 171,71 0,0000
Residuo 134,804 27 4,99274
Total (Corr.) 3564,08 31

R-cuadrado = 96,2177 porcentaje
R-cuadrado (ajustado para g.l.) = 95,6574 porcentaje
Error estndar de est. = 2,23444
Error absoluto medio = 1,67813
Estadstico de Durbin-Watson = 2,16901 (P=0,2566)
Autocorrelacin residual en Lag 1 = -0,107419

La salida muestra los resultados del ajuste a un modelo de regresin lineal mltiple para
describir la relacin entre Y y 4 variables independientes. La ecuacin del modelo ajus-
tado es Y = -6,82 + 0,23*X1 + 0,55*X2 - 0,15*X3 + 0,15*X4
Dado que el p-valor en la tabla ANOVA es inferior a 0.01, existe relacin estadsticamen-
te significativa entre las variables para un nivel de confianza del 99%.
El estadstico R-cuadrado indica que el modelo explica un 96,2177% de la variabilidad
en Y. El estadstico R-cuadrado ajustado, que es ms conveniente para comparar mode-
los con diferente nmeros de variables independientes, es 95,65%. El error estndar de
la estimacin muestra la desviacin tpica de los residuos que es 2,23. Este valor puede
usarse para construir los lmites de prediccin para las nuevas observaciones seleccio-
nando la opcin Informes del men del texto. El error absoluto medio (MAE) de 1,68 es
el valor medio de los residuos. El estadstico Durbin-Watson (DW) examina los residuos
para determinar si hay alguna correlacin significativa basada en el orden en el que se
han introducido los datos en el fichero. Dado que el p-valor es superior a 0.05, no hay
indicio de autocorrelacin serial en los residuos.
Para decidir la simplificacin del modelo, tenga en cuenta que el p-valor ms alto en las
variables independientes es 0,14, perteneciendo a X2. Puesto que el p-valor es superior
o igual a 0.10, este trmino no es estadsticamente significativo para un nivel de con-
fianza del 90% o superior. Por tanto, debera considerar quitar X2 del mod
91
Regresin Mltiple en Statgraphics 5.1. Seleccin hacia adelante

Error Estadstico
CONSTANTE 4,03203 7,22334 0,558195 0,5811
X1 0,221727 0,102061 2,1725 0,0384
X3 -0,186571 0,0159222 -11,7177 0,0000
X4 0,156527 0,00646167 24,2238 0,0000
-----------------------------------------------------------------------------
Anlisis de Varianza
Modelo 3418,08 3 1139,36 218,51 0,0000
Residuo 146,001 28 5,21433
Total (Corr.) 3564,08 31


Regresin por pasos
Mtodo: seleccin hacia adelante
F para introducir: 4,0
F para eliminar: 4,0

Paso 0:
0 variables en el modelo. 31 g.l. para el error.
R-cuadrado = 0,00% R-cuadrado ajustado = 0,00% MSE = 114,97
Paso 1:
Introduce la variable X4 con F para introducir = 30,7619
Paso 2:
Paso 3:
92
Regresin Mltiple en Statgraphics 5.1. Seleccin hacia atrs

Error Estadstico
CONSTANTE 4,03203 7,22334 0,558195 0,5811
X1 0,221727 0,102061 2,1725 0,0384
X3 -0,186571 0,015922 -11,7177 0,0000
X4 0,156527 0,006461 24,2238 0,0000
-----------------------------------------------------------------------------
Anlisis de Varianza
Modelo 3418,08 3 1139,36 218,51 0,0000
Residuo 146,001 28 5,21433
Total (Corr.) 3564,08 31


Regresin por pasos

Mtodo: seleccin hacia atrs
F para introducir: 4,0
F para eliminar: 4,0

Paso 0:
Paso 1:
Elimina la variable X2 con F para eliminar = 2,24269
93
El StatAdvisor Seleccin hacia adelante

La salida muestra los resultados del ajuste a un modelo de regresin lineal mlti-
ple para describir la relacin entre Y y 4 variables independientes. La ecuacin del mo-
delo ajustado es: Y = 4,03203 + 0,221727*X1 - 0,186571*X3 + 0,156527*X4
Dado que el p-valor en la tabla ANOVA es inferior a 0.01, existe relacin estadsti-
camente significativa entre las variables para un nivel de confianza del 99%.
El estadstico R-cuadrado indica que el modelo explica un 95,9035% de la variabi-
lidad en Y. El estadstico R-cuadrado ajustado, que es ms conveniente para comparar
modelos con diferente nmeros de variables independientes, es 95,4646%.
El error estndar de la estimacin muestra la desviacin tpica de los residuos que
es 2,28349. Este valor puede usarse para construir los lmites de prediccin para las
nuevas observaciones seleccionando la opcin Informes del men del texto.
El error absoluto medio (MAE) de 1,7663 es el valor medio de los residuos. El es-
tadstico Durbin-Watson (DW) examina los residuos para determinar si hay alguna corre-
lacin significativa basada en el orden en el que se han introducido los datos en el fiche-
ro. Dado que el p-valor es superior a 0.05, no hay indicio de autocorrelacin serial en
los residuos.
Para decidir la simplificacin del modelo, tenga en cuenta que el p-valor ms alto
en las variables independientes es 0,0384, perteneciendo a X1. Puesto que el p-valor
es inferior a 0.05, ese trmino es estadsticamente significativo para un nivel de confian-
za del 95%. Por tanto, probablemente no quiera quitar ninguna variable del modelo.

El StatAdvisor Seleccin hacia atrs

La salida muestra los resultados del ajuste a un modelo de regresin lineal mlti-
ple para describir la relacin entre Y y 4 variables independientes. La ecuacin del mo-
delo ajustado es : Y = 4,03203 + 0,221727*X1 - 0,186571*X3 + 0,156527*X4
Dado que el p-valor en la tabla ANOVA es inferior a 0.01, existe relacin estadsti-
camente significativa entre las variables para un nivel de confianza del 99%.
El estadstico R-cuadrado indica que el modelo explica un 95,9035% de la variabi-
lidad en Y. El estadstico R-cuadrado ajustado, que es ms conveniente para comparar
modelos con diferente nmeros de variables independientes, es 95,4646%.
El error estndar de la estimacin muestra la desviacin tpica de los residuos que
es 2,28349. Este valor puede usarse para construir los lmites de prediccin para las
nuevas observaciones seleccionando la opcin Informes del men del texto. El error
absoluto medio (MAE) de 1,7663 es el valor medio de los residuos.
El estadstico Durbin-Watson (DW) examina los residuos para determinar si hay
alguna correlacin significativa basada en el orden en el que se han introducido los da-
tos en el fichero. Dado que el p-valor es superior a 0.05, no hay indicio de autocorrela-
cin serial en los residuos.
Para decidir la simplificacin del modelo, tenga en cuenta que el p-valor ms alto
en las variables independientes es 0,0384, perteneciendo a X1. Puesto que el p-valor
es inferior a 0.05, ese trmino es estadsticamente significativo para un nivel de confian-
za del 95%. Por tanto, probablemente no quiera quitar ninguna variable del modelo.

94
Todas las Variables
predicho
o
b
s
e
r
v
a
d
o
-1 9 19 29 39 49
-1
9
19
29
39
49
Seleccin hacia atras
predicho
o
b
s
e
r
v
a
d
o
0 10 20 30 40 50
0
10
20
30
40
50
Grfico de Componente+Residuo para Y
X1
e
f
e
c
t
o

d
e

c
o
m
p
o
n
e
n
t
e
31 35 39 43 47 51
-3,5
-1,5
0,5
2,5
4,5
6,5

X2
e
f
e
c
t
o

d
e

c
o
m
p
o
n
e
n
t
e
0 2 4 6 8 10
-3,6
-1,6
0,4
2,4
4,4
6,4
X3
e
f
e
c
t
o

d
e

c
o
m
p
o
n
e
n
t
e
190 220 250 280 310 340
-16
-11
-6
-1
4
9
14
X4
e
f
e
c
t
o

d
e

c
o
m
p
o
n
e
n
t
e
200 250 300 350 400 450
-20
-10
0
10
20
Grfico de Residuos
Y predicho
R
e
s
i
d
u
o

e
s
t
u
d
e
n
t
i
z
a
d
o
0 10 20 30 40 50
-2,4
-1,4
-0,4
0,6
1,6
2,6

Grfico de Residuos
X1
R
e
s
i
d
u
o

e
s
t
u
d
e
n
t
i
z
a
d
o
31 35 39 43 47 51
-2,4
-1,4
-0,4
0,6
1,6
2,6

Grfico de Residuos
X4
R
e
s
i
d
u
o

e
s
t
u
d
e
n
t
i
z
a
d
o
200 250 300 350 400 450
-2,4
-1,4
-0,4
0,6
1,6
2,6

Grfico de Residuos
0 10 20 30 40
nmero de fila
-2,4
-1,4
-0,4
0,6
1,6
2,6
R
e
s
i
d
u
o

e
s
t
u
d
e
n
t
i
z
a
d
o

95

Principios Bsicos del Diseo Experimental

El propsito del diseo experimental es proporcionar la mxima canti-
dad de informacin al mnimo costo. Hay 3 principios bsicos del dise-
o experimental:

reproduccin aleatorizacin control local

1. Reproducibilidad de los experimentos

Cuando los experimentos no son reproducibles (o que tienen poca reproducibi-
lidad) no es posible llegar a conclusiones tiles.
Para verificar la reproducibilidad de los experimentos se deben realizar rplicas
de los mismos.
Cualquiera que sea la fuente de los errores experimentales, la repeticin de los
experimentos (si estn bien diseados) disminuye el error.
Las fuentes principales de errores experimentales son:
Variabilidad inherente al material experimental
Falta de uniformidad en la conduccin fsica del experimento, es decir, no
poder uniformizar al 100% la tcnica experimental

2. Funcin de la aleatorizacin de los experimentos

Cuando los experimentos se realizan siguiendo una secuencia lgica,
como por ejemplo, aumento o disminucin consecutiva de los parme-
tros experimentales, podemos introducir, sin saberlo, un error sistemti-
co que favorezca o perjudique ciertos experimentos, como por ejemplo:
Aumento de la pericia o de la fatiga del experimentador a medida que repite el
mismo experimento
Variaciones en las condiciones del medio (temperatura, presin atmosfrica,
etc) a medida que transcurre la secuencia de experimentos.

Para evitar que algunos tratamientos estn continuamente favorecidos o per-
judicados en las repeticiones sucesivas por alguna fuente extraa de variacin
(conocida o desconocida), se aplica la aleatorizacin (Fischer)
La aleatorizacin es una precaucin contra las interferencias o tendencias
positivas y negativas que pueden o no ocurrir y ser o no importantes si ocurren.
Generalmente es aconsejable tomarse el trabajo de aleatorizar aun cuando
no se espere que exista una tendencia importante si se deja de hacerlo.
96
Para obtener nmeros aleatorios pueden usarse:
tablas de nmeros aleatorios
programas generadores de nmeros aleatorios

Ejemplo: Se van a probar 2 mtodos de anlisis (A y B) con 6 rplicas cada uno
12 experimentos (a
1
, a
2
, a
3
, a
4
, a
5
, a
6
, b
1
, b
2
, b
3
, b
4
, b
5
, b
6
).
Para determinar el orden de los experimentos, se escogen nmeros aleatorios del
1 al 12:

10 9 5 3 4 2 6 7 11 8 1 12 Ordenando tendremos
a a a a a a b b b b b b

1 2 3 4 5 6 7 8 9 10 11 12
b a a a a b b b a a b b

Al aleatorizar de esta forma, de los 6 primeros experimentos, en 4 se prob el m-
todo A. Si queremos garantizar que en cada mitad de los experimentos (6), A y B
estn igualmente distribudos, se puede usar una aleatorizacin restringida.

3. Control Local

En el control local se tiene en cuenta como agrupar las unidades expe-
rimentales. Esto puede hacerse:
En grupos homogneos, que puedan ser comparables y a cada grupo aplicarle
un tratamiento diferente.
En bloques que sean relativamente homogneos. Los diferentes tratamientos
se aplican al azar dentro de cada bloque.

Mtodos para incrementar la exactitud de
los experimentos

1. Aumentar la magnitud del experimento (con ms repeticiones o ms tratamien-
tos)
2. Refinar la tcnica experimental
3. Manejar el material experimental de manera que la variabilidad se reduzca.
Por seleccin cuidadosa del material experimental
Conocimiento amplio del material experimental
Agrupamiento hbil de las unidades experimentales

97

Ventajas de la experimentacin factorial

Cuando los factores son independientes Ahorro considerable en tiempo y
en material dedicado a los experimentos, ya que un factorial, en comparacin
con experimentos separados, en el que cada uno considere un factor, requiere
menos unidades experimentales (la mitad) para alcanzar la misma precisin.
Cuando los factores no son independientes. En este caso, el mtodo de
factor nico no nos permite conocer la magnitud de las interacciones.

Sinergismo e Interferencia

Cuando la interaccin entre 2 factores produce un incremento positivo de la va-
riable dependiente existe sinergismo entre los factores
Cuando una combinacin de 2 factores produce un efecto inhibitorio (decreci-
miento) de la variable dependiente existe interferencia
Cuando no hay interaccin se dice que los efectos son aditivos

Uso de los experimentos Factoriales

En trabajos de exploracin, donde el objetivo es determinar rpidamente los
efectos de varios factores dentro de un intervalo especfico
Conocer las interacciones entre varios factores
Poder llegar a recomendaciones
98
Experimentos factoriales

Diseo factorial completo 2
n

En un diseo factorial se investigan simultneamente los efectos de diferen-
tes factores

Estos factores pueden ser: Independientes
No independientes

De cada factor se investigan 2 niveles

Ejemplos:
2 valores de
concentracin
2 valores de
temperatura
2 valores de
presin

2
n
= N n = # de factores N = # de experimentos

En un experimento 2
2
se investigan 2 factores y 2 niveles para cada factor
4 experimentos
En un experimento 2
3
se investigan 3 factores y 2 niveles de cada factor
8 experimentos

Notacin:

Las letras A, B, C, D ... representan los factores
Las letras a
0
, b
0
, c
0
, d
0
, ... representan el primer nivel de cada factor
Las letras a
1
, b
1
, c
1
, d
1
, ... representan el segundo nivel de cada factor

Otras nomenclaturas:

Para el primer nivel de cada factor 1
Para el segundo nivel de cada factor a, b, c, d, ....

Para los factores: X
1
, X
2
, X
3
, X
4
, ...
Para el primer nivel de cada factor (-1) o (-)
Para el segundo nivel de cada factor (+1) o (+)

99
Diseo 2
2

Ejemplo: Se presume que el efecto del pH y la Temperatura en el rendimien-
to de cierta reaccin qumica no son independdientes.
Se va a realizar un experimento donde se evalen 2 niveles de cada uno
de estos 2 parmetros y se va medir el % de rendimiento de la reaccin.

Parmetro A = pH Parmetro B = Temp (
0
C)
nivel 0 4.0 (a
0
) 30 (b
0
)
nivel 1 4.4 (a
1
) 40 (b
1
)

Experimento A B Funcin
respuesta
1 a
0
b
0
Y
1
2 a
0
b
1
Y
2

3 a
1
b
0
Y
3

4 a
1
b
1
Y
4

En este experimento se pueden evaluar simultneamente:
el efecto el efecto principal la interaccin entre los factores

Efecto de A (a
1
a
0
)
efecto de A al nivel b
0
de B
=
a
1
b
0
a
0
b
0

efecto de A al nivel b
1
de B
=
a
1
b
1
a
0
b
1

efecto principal de A = A = [ (a
1
b
0
a
0
b
0
) + (a
1
b
1
a
0
b
1
)]

Efecto de B (b
1
b
0
)
efecto de B al nivel a
0
de A
=
a
0
b
1
a
0
b
0

efecto de B al nivel a
1
de A
=
a
1
b
1
a
1
b
0

efecto principal de B = B = [ (a
0
b
1
a
0
b
0
) + (a
1
b
1
a
1
b
0
)]

Si A y B estuvieran actuando independientemente, el efecto da A en b
0
y el
de A en b
1
deberan ser el mismo. Lo mismo ocurrira con los efectos de B
en a
0
y a
i
.
Cualquier diferencia entre estos 2 efectos es una medida del grado de in-
terdependencia (relacin) entre los 2 factores, es decir, de la medida en que
interactan A y B.
100

Interaccin = AB = [(a
1
b
1
a
0
b
1
) (a
1
b
0
a
0
b
0
)]

Vamos a suponer que el experimento arroj los siguientes resultados

Experimento pH Temp.
(
0
C)
Rendimiento
(%)
1 4.0 30 63
2 4.0 40 69
3 4.1 30 67
4 4.1 40 73

Factor A
nivel a
0
A
1
media a
1
a
0
b
0
63 67 65 4
b
1
69 73 66 4
media 66 70 68 4

B
b
1
b
0
6 6 6

M = 68 A = 4 B = 6 AB = 0

Si hubiera arrojado los siguientes resultados

Experimento pH Temp. (
0
C) Rendimiento (%)
1 4.0 30 63
2 4.0 40 69
3 4.1 30 67
4 4.1 40 78

Factor A

nivel a
0
a
1
media a
1
a
0
b
0
63 67 65 4
b
1
69 78 73.5 9
media 66 72.5 69.25 6.5

B
b
1
b
0
6 11 8.5

M = 69.25 A = 6.5 B = 8.5 AB = 2.5

101
Experimento Factorial 2
2


Consideremos un experimento donde se evala el efecto del pH y la temperatura
sobre el rendimiento de una reaccin.

Se evaluaron 2 niveles de pH (a
0
y a
1
) y 2 niveles de temperatura (b
0
y b
1
) y se
realizaron 5 rplicas de cada tratamiento.

Los resultados se presentan en la siguiente tabla:

Tabla I (Resultados de los experimentos)

Tratamientos Replicas
a
0
b
o
a
0
b
1
a
1
b
0
a
1
b
1

1 45 73 23 30
2 47 71 26 33
3 53 69 21 36
4 48 67 20 31
5 46 72 27 35
trat
Y

239 352 117 165
= 873
TOTAL
Y

trat
Y

47.8 70.4 23.4 33
65 . 43 =
TOTAL
Y

Tabla II (Medias de los tratamientos)

Factor
A = pH
Nivel
a
0
a
1
Media a
1
-a
0
b
0
47.8 23.4 -24.4
b
1
70.4 33 -37.4
Media 43.65 -30.9

B = Temp.
b
1
-b
0
22.6 9.6 16.1

Media = 43.65
A = - 30.9 B = 16.1 AB = -6.5

Ecuacin de regresin: 43.65 15.45 (pH) + 8.05 (Temp) 3.25 (pH)(Temp)

102

La Tabla I nos permite calcular la SC
Total
, la SC
Tratamientos
y la SC
error

Factor de Correccin
( ) ( )
r N
Y
erimentos Totalde
Y
FC
TOTAL TOTAL
= =

2 2
exp

Suma de Cuadrados To-
tal
=
=
r N
i
i TOTAL
y SC
1

Suma de Cuadrados de
los
Tratamientos
FC
r
Y
SC
r
i
TRAT
TRAT
=

=1
2

Suma de Cuadrados
del error

SC
error
= SC
TOTAL
- SC
TRAT

Tabla III (Totales de los Tratamientos)

Factor
A = pH
Nivel
a
0
a
1
Total
b
0
239 117 356
b
1
352 165 517

B = Temp.
Total 591 282 873

A partir de esta tabla procesamos:

( ) ( )
FC SC
A

+
=
5 2
282 591
2 2

B A TRAT B A
SC SC SC SC =

( ) ( )
FC SC
B

+
=
5 2
517 356
2 2

103
TABLA DE ANOVA

Fuentes de Va-
riacin
Grados de Li-
bertad
SC CM F
exp
probabilidad
pH (A) (a 1) = 1 4774.05 4774.05 637.25 < 0.05
Temp (B) (b 1) = 1 1296.05 1296.05 173.00 < 0.05
AB (a 1)(b 1) = 1 211.25 211.25 28.20 < 0.05
Error ab(r 1) = 16 89.9 7.49
Total (abr 1) = 19 6406.55

R-cuadrado = 98,5967 por ciento
R-cuadrado (ajustado para g.l.) = 98,3336 por ciento
Error Estndar de Est. = 2,73709
Error absoluto de la media = 1,765
Estadstico Durbin-Watson = 1,60459 (P=0,0429)
Autocorrelacin residual Lag 1 = 0,141129

De la tabla anterior se extraen las siguientes conclusiones:
Hay diferencias significativas (para un nivel de confianza del95%) para A y B
Tanto la variacin del pH como de la temperatura producen diferencias sig-
nificativas en el rendimiento.
Hay una interaccin significativa entre el pH y la Temperatura (AB) Ambos
factores no son independientes, es decir, interactan entre si.
El valor de R
2
indica que el modelo explica en un 98.6% la variacin en el
rendimiento.

104

Algunos Grficos
que proporciona el
Statgraphics Plus 5.1
Grfico de Pareto estandarizado para Rendimiento
0 5 10 15 20 25 30
Efectos estandarizados
AB
B:Temp
A:Factor_pH
+
-
Grfico de Efectos principales para Rendimiento
28
38
48
58
68
R
e
n
d
i
m
i
e
n
t
o
Factor_pH
-1.0 1.0
Temp
-1.0 1.0
Grfico de la interaccin para Rendimiento
23
33
43
53
63
73
R
e
n
d
i
m
i
e
n
t
o
Factor_pH
-1.0 1.0
Temp=-1.0
Temp=-1.0
Temp=1.0
Temp=1.0
Superficie de Respuesta estimada
-1
-0,6 -0,2
0,2
0,6 1
Factor_pH
-1
-0,6
-0,2
0,2
0,6
1
Temp
23
33
43
53
63
73
R
e
n
d
i
m
i
e
n
t
o
Grfico de residuos para Rendimiento
20 30 40 50 60 70 80
pronosticado
-4,2
-2,2
-0,2
1,8
3,8
5,8
r
e
s
i
d
u
o
s

El StatAdvisor
La tabla de ANOVA divide la variabilidad en Rendimiento en distintos segmentos se-
parados para cada uno de los efectos. Despus pruebe la significacin estadstica de
cada efecto comparando la media al cuadrado contra una estimacin del error experi-
mental. En este caso, 3 de los efectos tienen los p-valores inferiores a 0,05, indicando
que son significativamente diferentes de cero al 95,0% de
nivel de confianza.
El estadstico R-cuadrado indica que el modelo asi ajustado explica el 98,5967% de la
variabilidad en Rendimiento. El estadstico R-cuadrado ajustado, el cual es ms ade-
cuado para la comparacin de nmeros diferentes de variables independientes, es
98,3336%. El error estndar de la estimacin muestra la desviacin normal de los resi-
duos para ser 2,73709. El error absoluto de la media (MAE) de 1,765 es el promedio del
valor de los residuos. El estadstico Durbin-Watson (DW) examina los residuos para de-
terminar si hay cualquier correlacin significativa basada en el orden en el que se suce-
den en el fichero de datos. Puesto que el p-valor es inferior a 0.05, hay indicios de una
posible correlacin de serie. Represente los residuos frente al orden de la fila para ver
si hay cualquier modelo que pueda ser visto.
105
Resultados de la Estimacin para Rendimiento
----------------------------------------------------------------------
Observados Ajustados Inf. 95,0% CL Sup. 95,0% CL
Fila Valor Valor para la Media para la Media
----------------------------------------------------------------------
1 23,0 22,5 18,7283 26,2717
2 73,0 69,5 65,7283 73,2717
3 30,0 32,1 28,3283 35,8717
4 45,0 46,9 43,1283 50,6717
5 26,0 24,0 20,2283 27,7717
6 71,0 71,0 67,2283 74,7717
7 33,0 33,6 29,8283 37,3717
8 47,0 48,4 44,6283 52,1717
9 21,0 24,5 20,7283 28,2717
10 69,0 71,5 67,7283 75,2717
11 36,0 34,1 30,3283 37,8717
12 53,0 48,9 45,1283 52,6717
13 20,0 21,25 17,4783 25,0217
14 67,0 68,25 64,4783 72,0217
15 31,0 30,85 27,0783 34,6217
16 48,0 45,65 41,8783 49,4217
17 27,0 24,75 20,9783 28,5217
18 72,0 71,75 67,9783 75,5217
19 35,0 34,35 30,5783 38,1217
20 46,0 49,15 45,3783 52,9217
----------------------------------------------------------------------

El StatAdvisor
--------------
Esta tabla contiene informacin sobre los valores de Rendimiento
que se han generado usando el modelo ajustado. La tabla incluye:
(1) el valor observado de Rendimiento (si hay)
(2) el valor pronosticado de Rendimiento utilizando el modelo
ajustado
(3) 95,0% limites de confianza para la respuesta media
Cada item corresponde a los valores de los factores experimentales en
una fila especfica de su fichero de datos. Para generar previsiones
para las combinaciones adicionales de los factores, agregue filas
adicionales al final de su fichero de datos. En cada nueva fila,
introduzca los valores para los factores experimentales pero deje
vaca la celda para la respuesta. Cuando vuelva a esta ventana, se
agregarn las previsiones a la tabla, pero el modelo no estar
afectado.

----------------------------------------------------------------------
----------------------------------------------------------------------
1 23,0 22,5 18,7283 26,2717
2 73,0 69,5 65,7283 73,2717
3 30,0 32,1 28,3283 35,8717
4 45,0 46,9 43,1283 50,6717
5 26,0 24,0 20,2283 27,7717
6 71,0 71,0 67,2283 74,7717
7 33,0 33,6 29,8283 37,3717
8 47,0 48,4 44,6283 52,1717
9 21,0 24,5 20,7283 28,2717
106
10 69,0 71,5 67,7283 75,2717
11 36,0 34,1 30,3283 37,8717
12 53,0 48,9 45,1283 52,6717
13 20,0 21,25 17,4783 25,0217
14 67,0 68,25 64,4783 72,0217
15 31,0 30,85 27,0783 34,6217
16 48,0 45,65 41,8783 49,4217
17 27,0 24,75 20,9783 28,5217
18 72,0 71,75 67,9783 75,5217
19 35,0 34,35 30,5783 38,1217
20 46,0 49,15 45,3783 52,9217
----------------------------------------------------------------------

El StatAdvisor
--------------
ajustado
afectado
----------------------------------------------------------------------
---------------------------------------------------------------------- Resultados de la Estimacin para Rendimiento
----------------------------------------------------------------------
----------------------------------------------------------------------
1 23,0 22,5 18,7283 26,2717
2 73,0 69,5 65,7283 73,2717
3 30,0 32,1 28,3283 35,8717
4 45,0 46,9 43,1283 50,6717
5 26,0 24,0 20,2283 27,7717
6 71,0 71,0 67,2283 74,7717
7 33,0 33,6 29,8283 37,3717
8 47,0 48,4 44,6283 52,1717
9 21,0 24,5 20,7283 28,2717
10 69,0 71,5 67,7283 75,2717
11 36,0 34,1 30,3283 37,8717
12 53,0 48,9 45,1283 52,6717
13 20,0 21,25 17,4783 25,0217
14 67,0 68,25 64,4783 72,0217
15 31,0 30,85 27,0783 34,6217
16 48,0 45,65 41,8783 49,4217
17 27,0 24,75 20,9783 28,5217
18 72,0 71,75 67,9783 75,5217
19 35,0 34,35 30,5783 38,1217
20 46,0 49,15 45,3783 52,9217
107
----------------------------------------------------------------------

El StatAdvisor
--------------
ajustado
Diseo 2
3

Ejemplo: Se va a realizar un experimento donde se evalen los efectos de la
concentracin de un reactivo, el pH de la mezcla reaccionante y la tempera-
tura de la reaccin sobre % de rendimiento de una reaccin.

Concentracin = A (moles/L) PH = B Temperatura = C (
0
C)
0.8 5 50
1.2 7 70

Experimento Concentracin (moles/L) pH Temp Rendimiento
(%)
1 0.8 5 50 57.87
2 1.2 5 50 54.07
3 0.8 7 50 39.10
4 0.8 5 70 67.50
5 1.2 7 50 54.27
6 1.2 5 70 72.10
7 0.8 7 70 48.10
8 1.2 7 70 71.9

Experimento A B C Y
1 1 1 1 57.87
2 a 1 1 54.07
3 1 b 1 39.10
4 1 1 c 67.50
5 a b 1 54.27
6 a 1 c 72.10
108
7 1 b c 48.10
8 a b c 71.9

Combinaciones de tratamientos = 1, a, b, c, ab, ac, bc, abc = 8

A = [ (abc) (bc) + (ab) (b) + (ac) (c) + (a) (1)]
B = [ (abc) (ac) + (ab) (a) + (bc) (c) + (b) (1)]
C = [ (abc) (ab) + (ac) (a) + (bc) (b) + (c) (1)]
AB = [ (abc) (bc) (ac) + (c) + (ab) (b) (a) + (1)]
AC = [ (abc) (bc) + (ac) - (c) - (ab) + (b) (a) + (1)]
AB = [ (abc) + (bc) - (ac) - (c) - (ab) (b) + (a) + (1)]
ABC = [(abc) (bc) (ac) + (c) (ab) + (b) + (a) (1)]
Lo anterior se simplifica +si se plantea en forma de tabla:

Combinacin de tratamientos Efecto
Factorial 1 a b ab c ac bc abc
Divisor
M + + + + + + + + 8
A - + - + - + - + 4
B - - + + - - + + 4
C - - - - + + + + 4
AB + - - + + - - + 4
AC + - + - - + - + 4
BC + + - - - - + + 4
ABC - + + - + - - + 4

Grfico de Pareto estandarizado para Rend
+
-
0 40 80 120 160 200 240
BC
AC
B:pH
AB
A:Conc
C:Temp
Grfico de Efectos principales para Rend
51
54
57
60
63
66
R
e
n
d
Conc
-1.0 1.0
pH
-1.0 1.0
Temp
-1.0 1.0

109
Grfico de la interaccin para Rend
43
48
53
58
63
68
73
R
e
n
d
AB
-1.0 1.0
- -
+
+
AC
-1.0 1.0
-
-
+
+
BC
-1.0 1.0
-
-
+
+
Superficie de Respuesta estimada
Temp=0,0
Conc
pH
R
e
n
d
-1
-0,6
-0,2
0,2
0,6
1
-1
-0,6
-0,2
0,2
0,6
1
43
47
51
55
59
63
67
110
Tabla de Anova Diseo 2
3

Fuente SC Gl CM F P-Valor
A:Conc 197,707 1 197,707 29898,92 0,0037
B:pH 182,119 1 182,119 27541,57 0,0038
C:Temp 368,426 1 368,426 55716,52 0,0027
AB 182,119 1 182,119 27541,57 0,0038
AC 36,2526 1 36,2526 5482,44 0,0086
BC 0,132613 1 0,132613 20,05 0,1399
Error Total 0,0066125 1 0,0066125
Total (corr.) 966,761 7

Estadstico Durbin-Watson = 2,0
Autocorrelacin residual Lag 1 = -0,125

El StatAdvisor
La tabla de ANOVA divide la variabilidad en Rend en distintos seg-
mentos separados para cada uno de los efectos. Despus pruebe la
significacin estadstica de cada efecto comparando la media al cua-
drado contra una estimacin del error experimental. En este caso,
5 de los efectos tienen los p-valores inferiores a 0,05, indicando que
son significativamente diferentes de cero al 95,0% de nivel de confian-
za.
El estadstico R-cuadrado indica que el modelo asi ajustado explica el
99,9993% de la variabilidad en Rend. El estadstico R-cuadrado ajus-
tado, el cual es ms adecuado para la comparacin de nmeros dife-
rentes de variables independientes, es 99,9952%. El error estndar de
la estimacin muestra la desviacin normal de los residuos para ser
0,0813173. El error absoluto de la media (MAE) de 0,02875 es el pro-
medio del valor de los residuos. El estadstico Durbin-Watson (DW) ex-
amina los residuos para determinar si hay cualquier correlacin signifi-
cativa basada en el orden en el que se suceden en el fichero de datos.

111
Una sola rplica del diseo 2
4

Un producto qumico se produce en un recipiente a presin. El in-
geniero del proceso est interesado en maximizar la rapidez de la
filtracin (actualmente es de 75 galones/h). En el proceso se utili-
za actualmente el nivel alto de concentracin de formaldehdo). El
ingeniero deseara reducir todo lo posible esta concentracin, pero
cuando lo ha intentado ha disminuido la velocidad de filtracin.
Se realiza un experimento factorial 2
4
en una planta piloto para es-
tudiar los efectos que se supone influyen sobre la rapidez de la fil-
tracin de ese producto. Se estudian 2 niveles de los siguientes
factores:

Temperatura (A) Presin (B)
Concentracin de reactivo (C) Rapidez de Mezclado (D)

Factor
Corrida
A B C D
Tratamientos Rapidez de filtra-
cin (gal/h)
1. - - - - 1 45
2. + - - - a 71
3. - + - - b 48
4. + + - - ab 65
5. - - + - c 68
6. + - + - ac 60
7. - + + - bc 80
8. + + + - abc 65
9. - - - + d 43
10. + - - + ad 100
11. - + - + bd 45
12. + + - + abd 104
13. - - + + cd 75
14. + - + + acd 86
15. - + + + bcd 70
16. + + + + abcd 96

112

Anlisis de la Varianza para Rapidez Filtracin
Fuente SC Gl CMo F P-Valor
A:Temp 1870,56 1 1870,56 73,18 0,0004
B:Presin 39,0625 1 39,0625 1,53 0,2713
C:Conc 390,063 1 390,063 15,26 0,0113
D:Rapidez Mezclado 855,563 1 855,563 33,47 0,0022
AB 0,0625 1 0,0625 0,00 0,9625
AC 1314,06 1 1314,06 51,41 0,0008
AD 1105,56 1 1105,56 43,25 0,0012
BC 22,5625 1 22,5625 0,88 0,3906
BD 0,5625 1 0,5625 0,02 0,8879
CD 5,0625 1 5,0625 0,20 0,6749
Error Total 127,813 5 25,5625
Total (corr.) 5730,94 15

Estadstico Durbin-Watson = 0,890954 (P=0,0125)
Autocorrelacin residual Lag 1 = 0,415617

El StatAdvisor
La tabla de ANOVA divide la variabilidad en Rapidez Filtracin en distintos segmentos separa-
dos para cada uno de los efectos. Despus pruebe la significacin estadstica de cada efecto
comparando la media al cuadrado contra una estimacin del error experimental. En este caso,
5 de los efectos tienen los p-valores inferiores a 0,05, indicando que son significativamente dife-
rentes de cero al 95,0% de nivel de confianza.
El estadstico R-cuadrado indica que el modelo asi ajustado explica el 97,7698% de la variabili-
dad en Rapidez Filtracin. El estadstico R-cuadrado ajustado, el cual es ms adecuado para la
comparacin de nmeros diferentes de variables independientes, es 93,3093%. El error estn-
dar de la estimacin muestra la desviacin normal de los residuos para ser 5,05594. El error
absoluto de la media (MAE) de 2,32031 es el promedio del valor de los residuos. El estadstico
Durbin-Watson (DW) examina los residuos para determinar si hay cualquier correlacin signifi-
cativa basada en el orden en el que se suceden en el fichero de datos. Puesto que el p-valor es
inferior a 0.05, hay indicios de una posible correlacin de serie. Represente los residuos frente
al orden de la fila para ver si hay cualquier modelo que pueda ser visto.
113
Grfico de Pareto estandarizado para Rapidez Filtracin
+
-
0 2 4 6 8 10
AB
BD
CD
BC
B:Presin
C:Conc
D:Rapidez Mezclado
AD
AC
A:Temp

Grfico de Efectos principales para Rapidez Filtracin
59
63
67
71
75
79
83
R
a
p
i
d
e
z

F
i
l
t
r
a
c
i
n
Temp
Presin
Conc
Rapidez Mezclado

Grfico de la interaccin para Rapidez Filtracin
45
55
65
75
85
95
105
R
a
p
i
d
e
z

F
i
l
t
r
a
c
i
n
AB
-
-
+
+
AC
-
-
+
+
AD
-
-
+
+
BC
-
-
+
+
BD
-
-
+
+
CD
-
-
+
+

114
En la Grfica de interaccin AC (Temp. y Conc.) se observa que que el
efecto de la temp. (A) es muy pequeo cuando la conc. (C) es alta y
muy grande en caso contrario. Los mejores resultados se obtienen pa-
ra baja conc y alta temp.

La interaccin AD indica que la rapidez de agitacin D tiene poco efecto
a baja temp. (A) pero gran efecto positivo a temp. elevada.

Resumiendo: El mejor efecto se obtiene para alta agitacin, alta tempe-
ratura y baja concentracin.
115
Diseo en Bloques Completamente Aleatorizados
El diseo de experimentos estudia la forma de realizar comparaciones lo
ms homogneas posibles que permitan detectar cambios en el proceso de in-
ters e identificar los factores influyentes.
El problema ms sencillo que se puede presentar es el de detectar la influencia
de un factor que tiene dos o ms niveles en una variable de inters en un diseo
completamente aleatorizado (comparacin entre 2 medias o entre varias me-
dias).
Este modelo de diseo tiene un nico factor con I niveles y las unidades expe-
rimentales se asignan a los niveles de los factores o tratamientos completamente
al azar. Esto solo puede hacerse cuando existe gran homogeneidad entre las
unidades experimentales.
Cuando el material experimental es heterogneo se recomienda utilizar el di-
seo de bloques completamente aleatorizados (o bloques al azar). En el mis-
mo las unidades experimentales se agrupan en bloques homogneos, cada blo-
que equivale a un grupo experimental al cual se le aplican todos los tratamientos.
Bloquear un experimento consiste en distribuir las unidades experimentales en
subgrupos tales que unidades experimentales pertenecientes a un mismo subgru-
po deben ser similares y pueden ser analizadas en condiciones experimentales
semejantes, en tanto que unidades experimentales ubicadas en subgrupos distin-
tos darn lugar probablemente a respuestas diferentes an cuando reciban un
mismo tratamiento.
Cada uno de estos conjuntos de unidades experimentales similares se deno-
mina bloque.
Un diseo en bloques es apropiado cuando el objetivo del experimento es
comparar los efectos de diferentes tratamientos promediados sobre un rango de
condiciones experimentales distintas. Con los modelos de diseo de experimentos
en bloques se quiere conseguir dos cosas:
a) Evitar que grandes diferencias entre las unidades experimentales enmasca-
ren diferencias reales entre los tratamientos,
b) Medir los efectos de los tratamientos en condiciones experimentales distintas.
Es un modelo de 2 factores fijos, sin interacciones, en el que uno de de los
factores corresponde a los bloques y el otro es el factor de tratamiento
En un experimento en Bloques al azar existen 2 factores: un factor-
tratamiento, cuyo efecto interesa medir y un factor-bloque cuyo control puede
reducir significativamente la variabilidad no explicada y que no interacciona con
los factores principales.
116
Los bloques equivalen a los niveles de los factores en un diseo de 2 factores,
pero no se consideran factores a estudiar, si no una forma de controlar la varianza
intra-grupo (error experimental)
La asignacin de unidades experimentales a cada bloque se realiza de manera
aleatoria
El diseo se dice que es completo si en cada bloque estn presentes todos
los tratamientos
Un modelo con a tratamientos y b bloques se puede formular como:

Y
ij
= +
i
+
j
+
ij

i = 1, 2, a

j = 1, 2, b

=
=
a
i
i
1
0

=
=
b
i
i
1
0
Donde representa el efecto del factor tratamiento y el efecto del factor bloque
Hiptesis nula: el factor-tratamiento no influye
0
2 1 0
= = = = =
a
H
K

frente a la alternativa de que s existen diferencias entre los valores medios de los
distintos tratamientos.
En el estudio de este modelo debe de tenerse en cuenta que no existe interaccin
entre el factor-tratamiento y el factor-bloque y en el desarrollo el problema puede
hacerse un segundo contraste acerca de si el factor-bloque es influyente o no. Es-
ta hiptesis nula es:
0
2 1 0
= = = = =
b
H
K

frente a la alternativa de que s existen diferencias entre los valores medios de los
distintos tratamientos del segundo factor.
Sin embargo en el modelo tratamiento-bloque realizar este contraste carece de
inters salvo para saber si ha sido conveniente bloquear o no. Por ello en la prc-
tica carece de inters plantearse la hiptesis nula de igualdad de los efectos blo-
que. El nico objetivo puede ser el de concluir si bloquear el experimento result o
no beneficioso.
En efecto, si la suma de cuadrados medios atribuibles a los bloques es consi-
derablemente mayor que la suma de cuadrados medios residual, habr resultado
til bloquear en el sentido de que tal accin deriv en una reduccin del tamao
del error experimental. En otro caso, bloquear es contraproducente.
117
La eficacia de este diseo depende de los efectos de los bloques. Si stos son
pequeos, es ms eficaz el diseo completamente aleatorio ya que el denomina-
dor en la comparacin de tratamientos tiene menos grados de libertad. Sin em-
bargo si los bloques influyen es mucho mejor y ms eficaz este modelo, ya que
disminuye la variabilidad no explicada. Por ello, es mejor estudiar primero el mo-
delo de bloques aleatorizados y, si los bloques no influyen, se pasa al modelo
completamente aleatorizado de un solo factor.
Existe una discusin acerca de si se puede pasar de un modelo a otro ya que
una diferencia importante entre los dos modelos es que en un diseo completa-
mente aleatorizado, los tratamientos y, equivalentemente, los niveles de los facto-
res tratamiento son asignados aleatoriamente a las unidades experimentales. Por
el contrario, en un diseo en bloques, slo los niveles del factor tratamiento son
asignados aleatoriamente a las unidades experimentales.

Ejemplo:
Rollo de tela
(bloques)
Reactivo
Aadido
(tratamientos)

1

2

3

4

5
1 73 68 74 71 67
2 73 67 75 72 70
3 75 68 78 73 68
Se desea probar el efecto que tienen 4 pro-
ductos qumicos diferentes sobre la resis-
tencia de un tipo particular de tela. Como
puede haber variabilidad entre un rollo de
tela y otro, se realiza un diseo aleatorizado
por bloques, considerando los rollos de tela
como bloques.
Se seleccionan 5 rollos de tela y a cada uno
se le aplican los 4 productos (reactivos) en
orden aleatorio y se mide la resistencia de
la tela a la tensin:
4 73 71 75 75 69
118
Resultados obtenidos usando Statgraphics Plus 5.1
Resumen del Procedimiento
Variable dependiente: Resistencia Tela
Factores: Reactivo Qumico y BLOQUE
Nmero de casos completos: 20

El StatAdvisor
Este procedimiento realiza un anlisis multifactorial de la varianza para Resisten-
cia Tela. Realiza varios tests y grficos para determinar qu factores tienen un
efecto estadsticamente significativo en Resistencia Tela. Teniendo datos sufi-
cientes, tambin analiza las interacciones significativas entre los factores.
Los F-tests en la tabla ANOVA le permitirn identificar los factores significantes.
Para cada factor significante, los Tests de Rangos Mltiples le indicarn qu me-
dias son significativamente diferentes de otras. El Grfico de Medias y el Grfico
de Interaccin le ayudarn a interpretar los efectos significantes. Los Grficos de
Residuos le ayudarn a juzgar si los datos violan las asunciones subyacentes en
el anlisis de la varianza.

ANOVA Factorial - Resistencia Tela

Anlisis de la Varianza para Resistencia Tela - Sumas de Cuadrados de Tipo
III
Fuente SC GL CM F P-
Valor
EFECTOS PRINCIPALES
A:Reactivo Qumico 12,95 3 4,31667 2,38
0,1211
B:BLOQUE 157,0 4 39,25 21,61
0,0000

RESIDUOS 21,8 12 1,81667
TOTAL (CORREGIDO) 191,75 19
Los cocientes F estn basados en el error cuadrtico medio residual.

El StatAdvisor
La tabla ANOVA descompone la variabilidad de Resistencia Tela en las contribu-
ciones debidas a varios factores. Puesto que se ha elegido la suma de cuadrados
Tipo III (valor por defecto), se ha medido la contribucin de cada factor eliminando
los efectos del resto de los factores. Los P-valores comprueban la importancia
estadstica de cada uno de los factores. Dado que un p-valor es inferior a 0,05,
este factor tiene efecto estadsticamente significativo en Resistencia Tela para un
95,0%.
119

Contraste Mltiple de Rangos para Resistencia Tela segn Reactivo
Qumico

Procedimiento de Duncan de comparaciones mltiples.

Mtodo: 95,0 porcentaje Duncan
Nivel Recuento Media LS Sigma LS Grupos Homogneos
1 5 70,6 0,602771 X
2 5 71,4 0,602771 XX
3 5 72,4 0,602771 XX
4 5 72,6 0,602771 X
Contraste Diferencias
1 - 2 -0,8
1 - 3 -1,8
1 - 4 *-2,0
2 - 3 -1,0
2 - 4 -1,2
3 - 4 -0,2

120
Procedimiento de la diferencia ms francamente significativa de Tukey
(HSD)

Mtodo: 95,0 porcentaje HSD de Tukey
1 5 70,6 0,602771 X
2 5 71,4 0,602771 X
3 5 72,4 0,602771 X
4 5 72,6 0,602771 X
Contraste Diferencias +/- Lmites
1 - 2 -0,8 2,53855
1 - 3 -1,8 2,53855
1 - 4 -2,0 2,53855
2 - 3 -1,0 2,53855
2 - 4 -1,2 2,53855
3 - 4 -0,2 2,53855

121
Contraste Mltiple de Rangos para Resistencia Tela segn
BLOQUE

Procedimiento de Duncan de comparaciones mltiples.
Mtodo: 95,0 porcentaje Duncan
BLOQUE Recuento Media LS Sigma LS Grupos Homog-
neos
2 4 68,5 0,673919 X
5 4 68,5 0,673919 X
4 4 72,75 0,673919 X
1 4 73,5 0,673919 XX
3 4 75,5 0,673919 X
Contraste Diferencias Contraste Diferencias Contraste Dife-
rencias
1 - 2 *5,0 2 - 3 *-7,0 3 - 4
*2,75
1 - 3 -2,0 2 - 4 *-4,25 3 - 5
*7,0
1 - 4 0,75 2 - 5 0,0 4 - 5
*4,25
1 - 5 *5,0

122
Procedimiento de la diferencia ms francamente significativa de Tukey
(HSD)
BLOQUE Recuento Media LS Sigma LS Grupos Homog-
neos
2 4 68,5 0,673919 X
5 4 68,5 0,673919 X
4 4 72,75 0,673919 X
1 4 73,5 0,673919 X
3 4 75,5 0,673919 X
1 - 2 *5,0 3,04291
1 - 3 -2,0 3,04291
1 - 4 0,75 3,04291
1 - 5 *5,0 3,04291
2 - 3 *-7,0 3,04291
2 - 4 *-4,25 3,04291
2 - 5 0,0 3,04291
3 - 4 2,75 3,04291
3 - 5 *7,0 3,04291
4 - 5 *4,25 3,04291
El tratamiento estadstico para el modelo de diseo de experimentos
completamente aleatorizado con un factor tratamiento y un factor blo-
que es exactamente igual que el diseo de experimentos con dos facto-
res tratamiento sin interaccin.
123
Anlisis de residuos.
Como en cualquier modelo estadstico hay que contrastar que se verifi-
can las hiptesis del modelo. Esto se hace, bsicamente, por medio del
anlisis de los residuos. Se contrastarn las hiptesis de:
Normalidad de los residuos.
Homocedasticidad: la varianza en los diferentes niveles de cada
uno de los dos factores es constante.
Independencia de los residuos.
Homogeneidad de los datos, todos provienen de la misma distribu-
cin y no hay datos atpicos.
No existe interaccin entre los dos factores.

Un ejemplo de utilizacin de un diseo con bloques es el denomina-
do de datos pareados para comparar dos tratamientos o medias de
dos poblaciones (ya estudiado) cuando se aplican los dos tratamientos
a los mismos individuos, en este caso cada individuo es un bloque.
Un diseo de medias repetidas (o diseo intrasujeto) es el caso
particular de diseo de bloques al azar que consiste en que cada blo-
que est formado por un solo individuo al que se aplican todos los tra-
tamientos
En este tipo de diseo se puede dar el efecto de superposicin que
se produce cuando se administra un tratamiento antes que haya termi-
nado el efecto del tratamiento anterior. Este efecto puede controlarse
aumentando el tiempo entre los tratamientos
Tambin puede darse el efecto de aprendizaje, que se produce
cuando la simple repeticin mejora la respuesta, independientemente
de ningn tratamiento
Tambin puede darse el efecto de de latencia que se produce
cuando un tratamiento activa el efecto del tratamiento anterior que per-
maneca en estado de latencia

124
Fracciones factoriales. El cuadrado latino .
Los modelos de diseo de experimentos vistos hasta el presente son
diseos completos o equilibrados. En estos diseos se obtienen
pruebas cruzando los niveles de los factores de todas las formas posi-
bles, por ello, en estos diseos los factores son ortogonales.
El concepto de ortogonalidad de factores.
En un diseo de experimentos los factores T
, con i niveles, y T
,
con j niveles, son ortogonales si en las pruebas del diseo en cada uno
de los niveles i del factor T
aparecen en idnticas proporciones los J

niveles del factor T
.
La propiedad de ortogonalidad permite separar los efectos de cada
uno de los factores sobre la variable de inters. Las estimaciones as
obtenidas para los efectos de un factor no estn afectadas por los efec-
tos de los otros factores, lo que permite separar los efectos simples de
todos los factores estudiados.
En los diseos equilibrados el nmero de pruebas que hay que reali-
zar crece muy rpidamente con el nmero de factores, an en el caso
de que se supongan nulas las interacciones y no sea necesario replicar
el diseo.
En estas situaciones son de gran utilidad los diseos de experimen-
tos denominados fracciones factoriales, que permitan estudiar la in-
fluencia de los factores sin necesidad de realizar todas las pruebas pero
manteniendo la propiedad de ortogonalidad de los efectos a estudiar.
Como ejemplo de este tipo de modelos est la fraccin factorial de-
nominada cuadrado latino.
El modelo de cuadrado latino.
En un diseo de experimentos completo de tres factores, todos ellos
con K niveles, necesita K
3
observaciones, nmero elevado si K es
grande. Un diseo ms eficaz que solo utiliza K
2
observaciones para el
mismo problema es el cuadrado latino.
El diseo de cuadrado latino presenta las siguientes caractersticas:
125
1. Es un diseo de experimentos con tres factores.
2. Los tres factores tienen el mismo nmero de niveles: K.
3. No hay interacciones entre los tres factores.
El diseo en cuadrado latino est especialmente indicado para estu-
diar un factor-tratamiento con K niveles y con dos factores-bloque
Un cuadrado latino K K es una disposicin de K letras en una ma-
triz K K de forma que todas las letras aparecen una vez en cada fila
y una vez en cada columna.
A B C
B C A
Un cuadrado latino 3 3 estndar y cclico es el siguiente:
C A B
Un cuadrado latino es un cuadrado latino estndar cuando las le-
tras de la primera fila y de la primera columna estn dispuestas en or-
den alfabtico.
Un cuadrado latino es un cuadrado latino cclico si las letras de ca-
da fila se generan cclicamente de la anterior segn el orden alfabtico.
Existe un nico cuadrado latino 3 3 estndar, sin embargo hay cua-
tro cuadrados latinos 4 4 estndar que se presentan en la Tabla 5.6.
Cuadro 1 Cuadro 2 Cuadro 3 Cuadro 4
A B C D A B C D A B C D A B C D
B C D A B A D C B A D C B D A C
C D A B C D A B C D B A C A D B
D A B C D C B A D C A B D C B A

Un diseo en cuadrado latino es un diseo de un factor tratamiento
con K niveles y K
2
unidades experimentales agrupadas en K bloques
fila y K bloques columna, de forma que unidades experimentales de un
mismo bloque fila son semejantes, unidades experimentales de un
mismo bloque columna son semejantes y unidades experimentales de
distintos bloques fila y distintos bloques columna son sustancialmente
diferentes.
126
Para cualquier nmero de tratamientos K existe siempre al menos un
diseo en cuadrado latino estndar cclico.
Obsrvese que si en un diseo en cuadrado latino se ignora el blo-
que columna se tiene un diseo en bloques completamente aleatoriza-
do (el bloque fila es el factor bloque) y, anlogamente, si se ignora el
bloque fila se tiene un diseo en bloques completamente aleatorizado
(el bloque columna es el factor bloque). Adems se trata de un diseo
equirreplicado: cada tratamiento aparece un mismo nmero K de veces
en el diseo.
Modelo matemtico.
Se tiene un diseo en cuadrado latino de dos factores bloque y un
factor tratamiento, el primer factor bloque se denota por B
y se coloca
en filas, el segundo factor bloque se denota por B
y se coloca en co-
lumnas, el factor tratamiento se denota por T
y sus niveles se colocan

segn el cuadrado latino. Por tanto, el cuadrado latino condiciona el ni-
vel de T
que se utiliza en la casilla ij (bloque i de B
y bloque j de B
)
y este nivel no se elige.
La formulacin matemtica del modelo es la siguiente, donde , =
factores fila y columna respectivamente = factor tratamiento
i, j, k = 1,2,., k

donde,
Y
i,j(k)
es el resultado del bloque i-simo, i = 1,...,K del factor bloque
B
y del bloque j-simo, j = 1,...,k del factor-bloque B
, y del nivel k-
simo del factor T
. Se denota la k entre parntesis, para indicar

que este ndice no se elige sino que viene condicionado por el par
ij.
es el efecto global que mide el nivel medio de todos los resulta-
dos,
127

i
es el efecto (positivo o negativo) sobre la media global debido al
bloque i de B .

j
bloque j de B .

k
nivel k del factor F .

ij

es el error experimental, variables aleatorias con distribucin
N .
ANOVA.

Hiptesis nula H
0
:
1
=
2
= ... =
K
= 0, (el factor F no influye, el
ms importante porque es el factor-tratamiento en el que se est intere-
sado)
Aunque de menor inters tambin se pueden hacer contrastes acerca
de la influencia de los bloques fila y columna para saber si ha sido con-
veniente bloquear o no.
Hiptesis nula H
0
:
1
=
2
= ... =
K
= 0, (el bloque fila no influye)
Hiptesis nula H
0
:
1
=
2
= ... =
K
= 0, (el factor columna no influ-
ye) es cierta

Extensiones de los modelos de diseos experimenta-
les.
Siguiendo la metodologa expuesta en los diseos estudiados es f-
cil generalizar el diseo de cuadrado latino y tienen inters los siguien-
tes modelos:
Cuadrado latino replicado. Si se replica el modelo del cuadrado
latino, an manteniendo las mismas condiciones de experimenta-
cin, es posible que exista cierta heterogeneidad entre las rplicas
por lo que es conveniente considerar las rplicas como bloques.
128
Cuadrado greco-latino. Si se aumenta el nmero de factores-
bloque, la extensin del cuadrado latino es el greco-latino, que
permite con K
2
observaciones estudiar cuatro factores de K niveles
sin interacciones (un factor-tratamiento y tres factores bloque), si
se utilizase el diseo completo es necesario utilizar K
4
observacio-
nes. En el diseo en cuadrado greco-latino se superponen dos
cuadrados latinos.
El inconveniente de este modelo es que su utilizacin es muy res-
trictiva. Adems pueden no existir cuadrados latinos de determina-
das condiciones.
Ejemplo.
Se quiere estudiar la posible influencia de los aditivos de combustible
(factor tratamiento, T) en la reduccin de xidos de nitrgeno en las
emisiones de los automviles (variable respuesta) controlando la in-
fluencia del conductor (factor-bloque B) y del tipo de coche (factor-
bloque, B
).
Se consideran cuatro conductores: C1, C2, C3, C4.
Cuatro tipos de coche: Seat, Ford, Opel, Renault.
Cuatro aditivos de combustible: A1, A2, A3, A4.
Cuadrado
Latino
Seat Ford Opel Renault
1 2 4 3 C1 21 A1 26 A2 20 A4 25 A3
4 3 1 2 C2 23 A4 26 A3 20 A1 27 A2
2 4 3 1 C3 15 A2 13 A4 16 A3 16 A1
3 1 2 4 C4 17 A3 15 A1 20 A2 20 A4

129
ANOVA Factorial - Emisin NO
Anlisis de la Varianza paraEmisin NO - Sumas de Cuadrados de Tipo
III
Fuente SC GL CM F P-
Valor
EFECTOS PRINCIPALES
A:Aditivos Combust 40,0 3 13,3333 5,00
0,0452
B:Marca carro 24,0 3 8,0 3,00
0,1170
C:Conductor 216,0 3 72,0 27,00
0,0007

RESIDUOS 16,0 6 2,66667
TOTAL (CORREGIDO) 296,0 15

El StatAdvisor
La tabla ANOVA descompone la variabilidad de Emisin NO en las con-
tribuciones debidas a varios factores. Puesto que se ha elegido la su-
ma de cuadrados Tipo III (valor por defecto), se ha medido la contribu-
cin de cada factor eliminando los efectos del resto de los factores. Los
P-valores comprueban la importancia estadstica de cada uno de los
factores. Dado que 2 p-valores son inferiores a 0,05, estos factores tie-
nen efecto estadsticamente significativo en Emisin NO para un 95,0%.
Se concluye que ha sido conveniente bloquear el tipo de conduc-
tor pero no conviene bloquear el tipo de coche.
130
Contraste Mltiple de Rangos para Emisin NO - Aditivos Combus-
tible

1 4 18,0 0,816497 X
4 4 19,0 0,816497 XX
3 4 21,0 0,816497 XX
2 4 22,0 0,816497 X
1 - 2 *-4,0 3,98405
1 - 3 -3,0 3,98405
1 - 4 -1,0 3,98405
2 - 3 1,0 3,98405
2 - 4 3,0 3,98405
3 - 4 2,0 3,98405

Contraste Mltiple de Rangos para Emisin NO - Conductor

Conductor Recuento Media LS Sigma LS Grupos Homog-
neos
3 4 15,0 0,816497 X
4 4 18,0 0,816497 X
1 4 23,0 0,816497 X
2 4 24,0 0,816497 X
1 - 2 -1,0 3,98405
1 - 3 *8,0 3,98405
1 - 4 *5,0 3,98405
2 - 3 *9,0 3,98405
2 - 4 *6,0 3,98405
3 - 4 -3,0 3,98405

Estadistica

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estadistica

Enviado por

Direitos autorais:

Formatos disponíveis

1

son dos variables aleatorias independientes con distribuciones chi

Existen diferencias sig-

Esta es la recta de mejor ajuste

se les llama residuos de la regresin

no es un estimador mejor que Y

a partir de una muestra de n observaciones

un estimador del vector de parmetros

tiene distribucin normal de media

aparecen en idnticas proporciones los J

y sus niveles se colocan

que se utiliza en la casilla ij (bloque i de B

y del bloque j-simo, j = 1,...,k del factor-bloque B

. Se denota la k entre parntesis, para indicar

Você também pode gostar