Você está na página 1de 210

Introduccin

La estadstica aporta herramientas metodolgicas generales, para analizar la


variabilidad, determinar relaciones entre variables, disear en forma ptima estudios y
experimentos y mejorar las predicciones y toma de decisiones en situaciones de
incertidumbre; resuelve problemas aplicando tcnicas de anlisis y descripcin de datos
y aplica tcnicas de inferencia estadstica, en conjunto con herramientas informticas
en el diseo y anlisis de muestras y poblaciones.
Esta asignatura permite realizar modelamientos matemticos y procesos biotecnolgico
para el perfil profesional del ingeniero bioqumico y por lo tanto, brinda diferentes
competencias, como desarrollar investigacin cientfica y tecnolgica en el campo de la
ingeniera bioqumica, formular y evaluar proyectos de ingeniera bioqumica con
criterios de sustentabilidad, participar en el diseo y aplicacin de normas y programas
de gestin y aseguramiento de la calidad, en empresas e instituciones del mbito de la
ingeniera bioqumica, etc.
El presente portafolio representa una muestra del proceso de enseanza aprendizaje,
utilizados durante el desarrollo de la asignatura de estadstica, contiene los trabajos
realizados en el aula escolar y tambin las tareas correspondientes. Adems tiene la
intencin de recolectar las actividades realizadas, para aprender y superarme en la
tarea educativa, que lleve a cabo dentro del mbito escolar, en l se centra la atencin
del profesor para evaluar mi trabajo de investigacin, y evaluacin de diagnstico de los
conocimientos previos en relacin a la asignatura. A continuacin, se explicar
brevemente cada unidad:

Unidad I Estadstica descriptiva


La unidad I fue bastante interesante porque record todo lo relacionada a las tablas de
distribuciones de frecuencias ya que en el nivel medio superior lo habamos estudiado y
considero que fue muy til porque me sirvi para resolver problemas que implicaran
dichas tablas aunque tambin para unidades siguientes. Mis temas de inters fueron las
representaciones con graficas debido a que me pareci un tema sencillo y fcil de
aprender.

Unidad II Variables aleatorias discretas y continuas


Mi tema de inters de la unidad II fueron las distribuciones porque desconoca como se
poda utilizar para resolver problemas de la vida actual y adems me gust comprender
la relacin que tiene con las tablas, esta unidad fue de gran ayuda para las dems
unidades ya que la mayora se resolva utilizando ciertos mtodos y aprend a identificar
en donde se pueden desarrollar
Unidad III Estimacin y pruebas de hiptesis

En esta unidad, mi mayor tema de inters fue aprender a analizar las hiptesis
correspondientes de cada problema porque era necesario saber identificar cuando se
deba de aceptar o rechazar, debido a esto podran resultar ciertos errores que afectara
a las pruebas. Adems se relacionaba mucho con la unidad II porque se utilizaba las
distribuciones y considero que me ayudo ms para comprender.

Unidad IV Anlisis de la regresin

Mi tema de inters en esta unidad considero que fueron todos porque al momento de
estudiarlos, se me hizo muy interesante aprender a resolver con ayuda de programas
como Excel ya que tambin ayudo a que las clases fueran ms dinmicas. Tambin me
agrado que mis compaeros expusieran temas porque aprend ms por los ejemplos
que mencionaban y as el profesor resolva las dudas que surgan, eso me ayud
mucho.

Unidad V Diseos de experimentos

La ltima unidad me gust porque fue autodidacta, resolv problemas solo utilizando
libro o medios electrnicos. Por lo que considero que aprend mucho y tambin fue de
mucha ayuda conocer los diseos de experimentos porque en los prximos semestres
utilizaremos estos conceptos para investigaciones cientficas y me alegra que sea as
ya que siempre es saludable conocer un poco ms sobre los temas de una asignatura
para lograr un mayor aprendizaje.

En seguida se exponen los trabajos elaborados durante el semestre.


.

UNIDAD I
Unidad I Estadstica descriptiva

Estadstica: Se ocupa de los mtodos cientficos para recolectar, organizar, resumir,


presentar y analizar datos, as como sacar conclusiones vlidas y tomar decisiones con
a base a este anlisis.
Estadstica inductiva o inferencial: las inferencias no llegan ser preciosas por
completo para sacar conclusin por lo cual se utiliza la probabilidad.
Estadstica descriptiva: busca nicamente describir y analizar un grupo
determinador sin sacar conclusiones o inferencias acerca de un grupo, se le
conoce como descriptiva.

Actividad 1. Investigar los siguientes conceptos: estadstico, parmetro, estimado,


intervalo, lmites de confianza, procedimiento para construir una tabla de distribucin de
frecuencia y nivel de significancia.
Estadstico: un estadstico es un valor numrico que describe una caracterstica de una
muestra. Su valor concreto depende de los valores de la muestra seleccionada en la
que es calculado. Es evidente que de una poblacin cualquiera es posible extraer ms
de una muestra diferente del mismo tamao, por tanto el valor de un estadstico vara
de una muestra a otra. Un estadstico no es un valor numrico constante (como lo es un
parmetro), sino que es una variable: su valor concreto depende de la muestra en la
que es calculado.
Parmetro: es una medicin numrica que describe algunas caractersticas de una
poblacin. Poblacin es la coleccin completa de todos los elementos a estudiar. Se
dice que la coleccin es completa, pues incluye a todos los sujetos que se estudiarn.
Estimado: Es el valor particular que tiene el estadstico al aplicarse la regla de su
definicin a una muestra dada; por ejemplo, sea x 1=4, x2=8, x3=3, x4=5, una muestra
sacada de una poblacin, luego:
x 1 + x 2+ x3 + x 4 20
x = = =5
4 4

Es un estimado de la media de la muestra estadstico, que es un estimador de la media


poblacional.
Intervalo: nivel de medicin de datos; caracteriza datos que pueden acomodarse en
orden para que las diferencias entre valores de los datos significan algo.
Lmites de confianza: delimitan a un intervalo de confianza. Se calculan de los datos de
la muestra y tienen una probabilidad dada de que el parmetro desconocido se ubique
entre estos.
Nivel de significancia: probabilidad de cometer un error tipo I al realizar una prueba de
hiptesis. Es la probabilidad de que el estadstico de prueba caiga en la regin de
crtica, cuando la hiptesis nula es verdadera. Es la probabilidad de cometer el error de
rechazar la hiptesis nula cuando es verdadera.
Procedimiento para construir una tabla de distribucin de frecuencias:
1. Decida el nmero de clases que desea tener. Debe de ser ente 5 y 20, y deben
utilizarse nmeros enteros o redondeados.

( valor ms alto )(valor ms bajo)


2. Calcule: Anchura de clase=
numero de clases

3. Punto de partida: comience por elegir un nmero para el lmite inferior de la


primera clase. Elija el valor del dato ms bajo o un valor conveniente que sea un
poco ms pequeo.
4. Con el uso del lmite ms bajo de la primera clase y la anchura de la clase.
proceda a listar los dems limitares del clase inferior. (sume la anchura de clase
al punto de partida para obtener el segundo lmite de clase inferior. Despus,
sume la anchura de la clase al segundo lmite de clase inferior para obtener el
tercero y as sucesivamente).
5. Anote los lmites inferiores de la clase en una columna vertical y luego proceda a
anotar los limites superiores de clase, que pueden identificarse con facilidad.
6. Proponga una marca en la clase apropiada para cada dato. Utilice las marcas
para obtener la frecuencia total de cada clase.

Actividad 2. Construya una tabla de distribucin de frecuencias.


Los siguientes datos representan el consumo de agua de los habitantes de la ciudad de
la Paz por mes:
56, 72, 1, 25, 29, 57, 8, 38, 60, 45, 20, 5, 62, 3, 42, 58, 66, 16, 24, 9, 27, 44, 59, 37, 6,
30, 61, 57, 18, 48, 52, 63, 12, 4, 28, 36, 64, 23, 7, 15, 31, 39, 57, 47, 40, 32, 26, 10, 2,
25, 33, 41, 17, 25, 49, 35, 19, 11, 65, 13, 21, 14, 22, 31, 68, 32, 69, 55, 64, 16, 24 y 17.
1. Ordenar los datos.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 16 17 17 18 19 20 21 22 23 24 24
25 25 25 26 27 28 29 30 31 31 32 32 33 35 36 37 38 39 40 41 42 43 44 45
47 48 49 52 55 56 57 57 57 58 59 60 61 62 63 64 64 65 66 68 69 72
2. Construir tabla.

Nm. de Lmite Limite Frecuencia Lmite Lmite Marca Frecuencia Frecuencia Frecuencia
clase inferior Superior real real de clase relativa % absoluta relativa
inferior superior (X) acumulada

1 1 8 8 0.5 8.5 4.5 11.11 8 11.11

2 9 16 9 8.5 16.5 12.5 12.5 17 23.61

3 17 24 10 16.5 24.5 20.5 13.8 27 37.5

4 25 32 12 24.5 32.5 28.5 16.6 39 54.16

5 33 40 7 32.5 42.1 36.5 9.72 46 63.88

6 41 48 6 42.5 48.1 44.5 8.33 52 72.22

7 49 56 4 48.5 56.5 52.5 5.55 56 77.77

8 57 64 11 56.5 64.5 60.5 15.27 67 93.05

9 65 72 5 64.5 72.1 68.5 6.94 72 100

f =72 100%

Numero de intervalos= n= 72=8.4 9

Sturges = 1+3.33 ln (n) = 1+3.33 ln (72) =9


Amplitud= A
Rango: valor mayor - valor menor = 72-1 = 71
Rango 71
= =7.8 9
A= Num . de intervalos 9
Histograma de frecuencia y polgono de frecuencias
14

12

10

8
Frecuencia
6

0
0.5 8.5 16.5 24.5 32.5 40.5 48.5 56.5 72.5

Lmites

Figura 1.1 Grafica de consumo de agua en habitantes de la ciudad de La Paz por mes.

L . I . C .+ L. I . S .C . 9+ 24
= =16.5
LR= Clase 2

X= marca de clase o punto medio X=


Limite inferior + Limite superior 0.5+8.5
= =4.5
2 2

Fc 8
( 100 )= ( 100 )=11.11
FR % = f =N 72
80

70

60

50

Frecuencia acumulada 40

30

20

10

0
8 17 27 39 46 52 56 67 72

Lmite

Figura 1.2 Grafica de ojiva usando la frecuencia acumulada.

120

100

80

Frecuencia relativa acumulada % 60

40

20

0
0.5 8.5 16.5 24.5 32.5 40.5 48.5 56.5 64.5 72.5

Limites

Figura 1.3 Grafica de ojiva usando la frecuencia relativa acumulada.


Medidas de tendencia central P.D.N.A para datos no agrupados

x =media=
f =33.84
N

~
x=mediana ~
x=31

^x =moda x^ =no hay moda , es bimodal .

Pasos para obtener mediana:

Ordenar mis datos.

Analizar: si hay numero par de datos o si hay un nmero impar de datos.

Continuacin de la tabla de distribucin de frecuencia.

fx ( x) (x)2 f (x)2

36 11.16 860.83 6886.68


112.5 -21.34 455.39 4098.56
205 -13.34 177.95 1779.55
342 -5.34 28.51 342.18
253.5 2.66 7.075 49.5292
267 10.66 113.63 681.81
210 18.66 348.19 1392.78
665.5 26.66 710.75 7818.31
342.5 34.66 1201.31 6006.57
fx= 2436 ( x )=53.26 f ( x)2=29055.96

Calcular la mediana con datos agrupados:


n
Fi1
~ 2
x=Li +( )a
f med

Donde:

Li : Lmite inferior de la clase mediana

a : Amplitud del intervalo

n : numero total de datos

f med : Frecuencia absoluta de la clase mediana

Fi1 : Frecuencia absoluta acumulada de la clase anterior a la mediana

3627
~
x=24.5+
12 (
8 ~
x=30.5 )

Calcular la moda con datos agrupados:

1
^x =Lni+ ( 1 + 2)i 1 =1210 1=2 2=127 2=5

^x =24.5+ ( 2+52 )8 x^ =26.78

Medidas de dispersin
=Desviacin poblacional

S=Desviacin muestral

v=
(x)2 n 30
n

2 (x)2
v= =varianza poblacional
n

s=
(x)2 n< 30
n1

Desviacin poblacional para datos agrupados

=
( x )2 x =
n
=20.08

Datos agrupados

Actividad 3. Investigue los siguientes conceptos.

Cmo calcular cuartil?


Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos
ordenados en cuatro partes iguales.

KN
, K =1,2,3
1. la clase donde se encuentra 4 en la tabla de frecuencias acumuladas.

kn
Qk=Li+
4
( Fi1
fi )
k =1,2,3

Donde:

Li : Lmite inferior de la clase donde se encuentra el cuartil.

n : Es la suma de las frecuencias absolutas.

Fi1 : Frecuencia absoluta acumulada de la clase anterior a la del cuartil.

Decil

Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.

KN
, K =1,2, ,9
Buscamos la clase donde se encuentra 10 en la tabla de las

frecuencias acumuladas.

kn
Dk=Li+ (
10
F i1
fi )
a k=elnumero de decil a calcular .

Donde:
Li : Lmite inferior de la clase donde se encuentra el decil.

n : Es la suma de las frecuencias absolutas.

Fi1 : Frecuencia absoluta acumulada de la clase anterior a la del decil.

a : Amplitud de clase

Percentil

Es una medida estadstica que se usa mucha cuando se quiere clasificar o ubicar
caractersticas en las personas. Estas medidas son nmeros que dividen una sucesin
de datos ordenados en cien partes porcentualmente iguales.

kn
pk=Li + (f
100 ia
fi )
Donde:
pk= Percentil

Li= Lmite inferior de la clase donde se encuentra el percentil

n= Es el total de datos

k = Es el valor del percentil

f ia = Frecuencia absoluta acumulada anterior

f i = Frecuencia absoluta

Datos no agrupados
Cuartil y percentil

El procedimiento para determinar el valor de los cuartiles es el mismo que para los
percentiles y se muestra a continuacin:

1. Ordenar los datos del menor a mayor.

kn
2. Calcular , donde n es el tamao de la muestra y k la medida de
100

posisicn buscada (cuartil o percentil).

kn
3. a) Si el resultado del clculo anterior ( 100 ) es un nmero entero entonces se

le deber sumar 0.5.

kn
b) Si el resultado del clculo anterior ( 100 ) no es un nmero entero, este se

deber tomar como el siguiente entero ms grande.

4. Con la posicin encontrada en el paso anterior, remitirse a los datos ordenados y


verificar a que valor de nuestros datos le corresponde la posicin buscada.

Decil

Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor,
dividen a la distribucin en partes, de tal manera que cada una de ellas contiene el
mismo nmero de frecuencias. Los Deciles (Di) Son los valores de la variable que
dividen a la distribucin en las partes iguales, cada una de las cuales engloba el 10 %
de los datos. En total habr 9 deciles.

X1 , X2 , X3, X n
Si se tiene una serie de valores se localiza mediante las formulas

Siendo A el nmero de decil


Axn A (n+1)
Cuando n es par cuando n es impar
10 10

Coeficiente de variacin

El coeficiente de variacin es una medida de dispersin que describe la cantidad de


variabilidad en relacin con la media. Puesto que el coeficiente de variacin no se basa
en unidades, se puede utilizar en lugar de la desviacin estndar para comparar la
dispersin de los conjuntos de datos que tienen diferentes unidades o diferentes
medias.

s
CV = (100 ) CV = (100 )
x

Donde:

CV =Coeficiente de variacin
s =Desviacin estndar muestral

=Desviacin estndar poblacional


x , = Media del conjunto de observaciones

El coeficiente de variacin toma valores entre 0 y 1. Si el coeficiente es prximo al 0,


significa que existe poca variabilidad en los datos y es una muestra muy compacta. En
cambio, si tienden a 1 es una muestra muy dispersa.

Para interpretar fcilmente el coeficiente, podemos multiplicarlo por cien para tenerlo en
tanto por cien.

Coeficiente de variacin de Pearson

Mide la variacin de los datos respecto a la media, sin tener en cuenta las unidades en
la que estn.

sx
r= Siendo s x la desviacin tpica y x la media del conjunto de
|x|

X1 , X2 , X3, X n x 0
observaciones ( )y
Para datos no agrupados

Actividad 4. Ejercicios realizados en clase.

Cuartil Decil

Q1= Cuartil uno o primer cuartil.


D 5=Decil quinto

n 1
Q1=X +
4 2
5n 1
D 5=X +
2n 1 10 2
Q2=X +
4 2
8n 1
D 8= X +
3n 1 10 2
Q3=X +
4 2

Percentil Clculo de datos con el problema anterior.

X =mediana=31
50 n 1 90 n 1
P50=X + P90=X +
100 2 100 2 Q2 D5 P50= X

2n 1
Q2=X +
4 2

2(31) 1
Q2=2 + Q2=36.5
4 2
Para datos agrupados

3n
Q3=Li +(4
fa DQ
fQ 3
3

. a k=3 )
Q3=48.5+ ( 5452
4 )
.8 Q =52.5 3

3 n 3(72) 216
= = =54
4 4 4

8n
D8=LRi+ (
10
fa DD
fD
. a k =8
8
8

)
D8=56.5+ ( 57.656
11 )
.8 D =57.67 8

8 n 8 (72) 576
= = =57.6
10 10 10

90 n
P90=LRi+ (
100
fa R D
f 90
.i
90

)
P90=56.5+ ( 64.856
11 )
.8 P =62.9
8

90 n 90(72) 6480
= = =64.8
100 100 100

Coeficiente de variacin

C.V= Coeficiente de variacin

20.08
=0.59
CV= = 33.83

Asimetra: Es el sesgo o la distorsin de la simetra de una distribucin y si la curva de


frecuencia (polgono de frecuencias suavizado) de una distribucin tiene una cola ms
larga hacia la derecha del mximo central, que haca a la izquierda se dice que est
sesgada hacia la derecha o que es de asimetra positiva. Si sucede lo contrario se
considera que est sesgada hacia la izquierda o que es de asimetra negativa.
Coeficiente de variacin de Pearson

3 (mediamoda)
Asimetra= Desviacin estndar

Nota: Si no hay moda se sustituye por la mediana.


Actividad 5. Construya una tabla de distribucin de frecuencias.

Los siguientes datos representan el consumo de alimentos chatarra en la poblacin


infantil del estado de Baja California Sur.

90 14 48 84 11 68 27 42 66 78 54 32 10 55 35 60 24 12 58 41 43 81 69 33 51 15 76 49
13 40 22 31 75 57 21 39 30 20 47 29 38 16 70 88 34 25 52 17 44 53 26 62 26 35 44 53
18 36 45 54 72 63 59 48 50 41 38 64 19 73 37 82 28 46 28 46 51 52 50 47 23

1. Ordenar los datos.

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 26 27 28 28 29 30 31 32 33 34 35
35 36 37 38 38 39 40 41 41 42 43 44 44 45 46 46 47 47 48 48 49 50 50 51 51 52 52 53
53 54 54 55 57 58 59 60 62 63 64 66 68 69 70 72 73 75 76 78 81 82 84 88 90

2. Construir tabla.

Nm. de Lmite Limite Frecuencia Lmite Lmite Marca Frecuencia Frecuencia Frecuencia
clase inferior Superior real real de clase relativa % absoluta relativa
inferior superior (X) acumulada

1 10 21 12 9.5 21.5 15.5 14.81 12 14.81

2 22 33 14 21.5 33.5 27.5 17.28 26 32.09

3 34 45 16 33.5 45.5 39.5 19.75 42 51.84

4 46 57 19 45.5 57.5 51.5 23.45 61 75.29

5 58 69 9 57.5 69.5 63.5 11.11 70 86.4

6 70 81 7 69.5 81.5 75.5 8.64 77 95.04

7 82 93 4 81.5 93.5 87.5 4.93 81 100

f =81 100%

Regla de Sturges = 1+3.33 log (n) = 1+3.33 ln (81) =7.35=7


Rango: valor mayor - valor menor = 90-10 = 80
Rango 80
= =11.42 12
A= Num . de intervalos 7

Histograma de frecuencia y polgono de frecuencia


20
18
16
14
12

Frecuencia 10
8
6
4
2
0
0 9.5 21.5 33.5 45.5 57.5 69.5 81.5

limtes

Figura 1.4 Grafica de consumo de alimentos chatarra en habitantes del estado de Baja
California Sur por mes.

L . I . C .+ L. I . S .C . 33+34
= =33.5
LR= Clase 2

X= marca de clase o punto medio X=


Limite inferior + Limite superior 9.5+21.5
= =15.5
2 2

Fc 12
( 100 )= ( 100 ) =14.81
FR % = f =N 81
90

80

70

60

50
Frecuencia acumulada 40

30

20

10

0
21 33 45 5 69 81 93

Lmite

Figura 1.2 Grafica de ojiva usando la frecuencia acumulada.

120

100

80

60
Frecuencia relativa acumulada %

40

20

0
9.5 21.5 33.5 45.5 57.5 69.5 81.5 93.5

Limites

Figura 1.3 Grafica de ojiva usando la frecuencia relativa acumulada.


Medidas de tendencia central para datos agrupados

Calcular la moda con datos agrupados:

1
^
X =LRi+( )a
1+ 2

^ 1916
X =46+( )(12)
(1916 ) + ( 199 )

^
X =47.2

Continuacin de la tabla de distribucin de frecuencia.

fx ( x) (x)2 f ( x)2

186 -29.33 860.24 10322.88


385 -17.33 300.32 4204.48
632 -5.33 28.40 454.4
978.5 6.67 44.48 845.12
571.5 18.67 343.56 3092.04
528.5 30.67 940.64 6584.48
350 42.67 1820.72 7282.88
fx=3631.5 ( x )=46.69 f ( x)2=32786.28

x =media=
f =44.83
N
UNIDAD II
Unidad II Variables aleatorias discretas y continuas

2
( z)
1 2
f ( z )= e
2

Experimento: Es el proceso mediante el cual se obtiene una observacin (o una


medicin) de un fenmeno.
La observacin o medicin generada por un experimento puede o no producir un valor
numrico.
Algunos ejemplos de experimentos son:
Registrar la produccin de una planta manufacturera.
Entrevistar a un consumidor para determinar su preferencia entre un grupo de 10
tipos de automviles.
Registrar la variedad del dlar frente a nuestro peso.
Registrar la calificacin de un examen.
Medir la cantidad de lluvia diaria.
Entrevistar a un dueo de casa para obtener su opinin sobre un reglamento
para distribuir por zona un rea verde.
Probar una tarjeta de circuito impreso para determinar si es un producto
defectuoso o aceptable.
Cuando se realiza un experimento, lo que observamos es un resultado llamado evento
simple, y con frecuencia denotado por la mayscula E.
Definicin: un evento simple es el resultado que se observa en una sola repeticin del
experimento.
S=Espacio muestral

Ejemplo:
S= {A, A, S}
n( E1 ) x
p ( E )=
n (s)
p=
n p=1

Distribucin de probabilidad

x F(x)
0 1/8

1 3/8

2 3/8

3 1/8

Actividad:

f(x)
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0 1 2 3 4

f(x)

Cuando
24=16
Distribucin de probabilidad

X F(x)

0 1/16

1 4/16

2 6/16

3 4/16

4 1/6

Variables aleatorias discretas y continuas y su distribucin de probabilidad


Las observaciones generadas por un experimento son muchas veces numricas. Por
ejemplo, la produccin diaria de una planta manufacturera, un resultado experimental
es un nmero. De manera similar el monto de las ventas realizadas diariamente por un
vendedor es un evento numrico.
Los resultados numricos de los experimentos varan de un experimento a otro y por lo
tanto representan observaciones acerca de una variable, que denotaremos mediante el
smbolo x. Cada valor de x representa un evento, y por lo tanto, una coleccin
especifica de eventos simples en el espacio eventual o de resultados fortuitos. Por tal
motivo se llama variable aleatoria.
Definicin: una variable x es una variable aleatoria, si los valores que toma x y que
corresponde a los diferentes resultados de un experimento son eventos fortuitos o
aleatorios.
Una variable aleatoria puede ser de uno de dos tipos, discreto o continuo. S el nmero
de valores que puede tener la variable aleatoria es contable, entonces se le llama
variable aleatoria discreta al sealar estos valores como puntos sobre una recta, pares
de puntos estaran separados. Una variable aleatoria continua es la que puede tener
como valor el de cualquier nmero infinito de punto que ay en un intervalo de lnea.
Definicin: una variable aleatoria discreta es una variable aleatoria que puede tomar o
sumir un nmero contable de valores.
Algunas variables aleatorias discretas tpicas son por ejemplo el nmero de informes de
ventas en un gran almacn, otro ejemplo, es el nmero de depsitos bancarios por da,
mayores que $20,000, el nmero de pedidos nuevos recibidos por una planta
manufacturera.
Una variable aleatoria continua es una variable aleatoria que puede tomar un nmero
infinito de valores que corresponde a los puntos de un intervalo en una recta.
Principalmente si utiliza la medicin, ejemplo; el tiempo de espera para el servicio en un
supermercado, la cantidad de gasolina producida diariamente por una refinera, y el
intervalo de tiempo hasta la siguiente gran suspensin del servicio elctrico.
Actividad: identifique las siguientes variables aleatorias como discretas o continuas.
a El nmero de cuentas que ay en un banco en un momento dado.

Variable aleatoria discreta.

b El tiempo que un consumidor tiene que esperar en una ventanilla de un banco.

Variable aleatoria contina.


c El tiempo transcurrir hasta el cambio necesario de la banda del ventilador de un
carro.

Variable aleatoria contina.

d El nmero de clientes nuevos obtenidos por un bufete jurdico por un mes.

Variable aleatoria discreta.

e El periodo de vigencia de un medicamento particular.

Variable aleatoria contina.

f El nmero de personas que esperan tratamientos en la sola de emergencias de


un hospital

Variable aleatoria discreta.


A
A
D
A
A
D
D
A
A
A
D
D
A
D
D
A
A
D
A
A
D
D
D
A
A
D
D
A
D
D

Actividad:

S={A,A,A,A-A,A,A,D-A,A,D,A-A,A,D,D-A,D,A,A-,A,D,A,D-A,D,D,A-A,D,D,D-D,A,A,A-
D,A,A,D-D,A,D,A-D,A,D,D-D,D,A,A-D,D,A,D-D,D,D,A-D,D,D,D

1 Construir un espacio muestral.


2 Construir la tabla de distribucin de probabilidad.

Distribucin de probabilidad

X F(x)

0 1/16

1 4/16

2 6/16

3 4/16

4 1/6

La suma de la probabilidad debe ser igual a 1


0.4 0.4
0.35 0.35
0.3 0.3
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
0 1 2 3 4
f(x) f(x)2

0 p( x) 1

E( x )=valor esperado o esperanza matematica o media matematica

()= x 1 p ( xc )
i=1

( x )=( 0 ) ( 161 )+ ( 1 ) ( 16
4
)+( 2) ( 166 )+( 3 ) ( 164 )+( 4 ) ( 161 )=2

X =2

= ( x )2 p ( x)
i=1

=(02)2 ( 161 )+ ( 12) ( 164 )+( 22) ( 166 )+ ( 32) ( 164 )+ ( 42) ( 161 )=1
2 2 2
2
=varianza

2=

2= 1
=1

Nota: En general f(x) es una funcin de probabilidad s

1 f ( x ) 0

2
f ( x ) =1
x

Actividad: La vigencia mxima que un patente de un nuevo medicamento es de 17


aos. Al restar el periodo requerido para probar y aprobar el frmaco por parte de la
direccin de alimento y medicamento, se obtiene la vida real del producto, es decir, el
periodo que tiene una compaa para recuperar los gastos de investigacin y desarrollo,
y obtener una ganancia. Supngase que la distribucin de los valores de vida para
medicamentos nuevos est dada en la siguiente tabla.

AOS P(X)

3 0.03

4 0.05

5 0.07

6 0.10

7 0.14

8 0.20

9 0.18

10 0.12

11 0.07

12 0.03

13 0.01
1
0.25

0.2

0.15

0.1

0.05

0
-1.56 3 4 5 6 7 8 9 10 11 12 13 17.36

LCI= -1.56 LCS=17.36

1. Haga la grfica correspondiente.


2. Obtener el nmero de aos esperados como tiempo de vigencia o vida de un
medicamento nuevo. (se realiz en la calculadora)
X = 8
3. Calcule la desviacin estndar de x. (se realiz en la calculadora)
=3.31

4. Encuentre la probabilidad de que x caiga en el intervalo ( 2 ) . (se realiz en la


calculadora)
17.36 ^ -1.56

Actividad:
n=90,000
=800
=300

X ( X ) Z
800 800-800 0

950 950-800 150

1100 1100-800 300

1250 1250-800 450

1400 1400-800 600

1100800 500800
Z= =1 Z= =1
300 300

a P( x >1400)

Porcentaje de quien genera ms de


1400.
*se toma el 50%= 0.5
AT=0.5-0.4772
AT=0.0228
T=0.0228 (90000)
T= 2052

b p(x <1400)
500 1100
AT =0.5+0.4772

AT=0.9772
T= 0.9772 (90000)
T= 87948

c) p(x >650)
AT=0.5 0.1915
AT=0.3085
T=0.3085 (90000)
T=27765

Actividad: Utilice la tabla de z para calcular el rea bajo la curva normal entre los
valores z dados.

Z 0.00 a
1.6 0.4452
Z=0 Z=1.6
b
Z 0.00
0.9 0.3159
Z=-0.9 Z=0

c
Z 0.00
-1.3 0.4452
1.8 0.4641
0.8673
Z=-1.3 Z=1.8

d
Z 0.00
0.6 0.2257
1
0.8673
Z=0.6 Z=1.2

e
Z 0.00
-1.55 0.2257
1.74 0.4591
0.8955
Z= -1.55 Z=1.74

Actividad: una variable x tiene una distribucin normal, con una media poblacional
igual a 10 y una desviacin estndar igual a 2. Encuentre las probabilidades siguientes.

a Cuando la probabilidad de x > 13.5. p(x >13.5)

13.510
=1.75
2

A ( 1.75 )=0.4599

AT= 0.5 0.4599


AT=0.0401= 4.01%
b Cuando la probabilidad es x<8.2 p ( x <8.2 )

8.210
=0.9
2
A (0.9)= 0.3159
AT= 0.5 0.3159
AT= 0.1841=18.41%

c Cuando la probabilidad es p(9.4 x 10.6)


9.410
=0.3
2
10.610
=0.3
2

A (0.3)= 0.1179
AT= 0.5 + 0.1179
AT=0.2358=23.58%

Z0
Actividad: Determine el valor de tal que

p ( z 0 < z < z 0 )=0.90


1

0.90
p ( z 0 < z < z 0 )= =0.45
2

z 0=1.64

z 0=1.64

p ( z 0 < z < z 0 )=0.95


2
0.95
p ( z 0 < z < z 0 )= =0.475
2

z 0=1.96

z 0=1.96
Conel aument 2.25 en cada lado, resulta ser 0.025

p ( z 0 < z < z 0 )=0.99


3
0.99
p ( z 0 < z < z 0 )= =0.495
2
z 0=2.57

z 0=2.57

p ( z< z 0 ) =0.3594
4

z 0=0.50.3594

z 0= 0.1406

!=Factorial
0 !=1

nCr=n C x =5 C 2
nPn=nPx

Distribucin binomial

p ( x , n , p )=nCx P x q nx

p ( x , n , p )=nCr Pr qnr

n! r nr
p ( x , n , p )= ps
r|(nr )|!

La distribucin binomial es una distribucin de probabilidad discreta aplicable como


modelo para situaciones de toma de decisiones en los que puede suponerse que un
proceso de muestreo responde a un proceso de Bernoulli.

Un proceso de Bernoulli, es un proceso de muestreo en el que:


1 En cada ensayo u observaciones solo son posibles de resultados mutuamente
excluyentes por conversin, estos resultados se llaman xito y fracaso.

2 Los resultados de la serie de ensayo u observaciones, constituye eventos


independientemente.

3 La probabilidad de xito de cada ensayo, que indicaremos con P, es constante


de un ensayo a otro. Esto es el proceso estacionario.

4 La distribucin binomial puede servir o emplearse para determinar la probabilidad


de obtener un nmero establecido o designado xito, en un proceso de
Bernoulli y requiere de tres valores.

X= es el nmero establecido de xito


N= es el nmero de ensayo u observaciones
P= la probabilidad de xito en cada ensayo
Q= probabilidad de fracaso.

Nota: X, N, P, se tiene que llegar a la unidad.

Y la frmula que utilizaremos para encontrar la distribucin binomial es:

p ( x , n , p )=nCr Pr qnr .

( media )=nP

( desviacin )= npq

2 ( varianza ) =npq

Actividad: S se sabe que en cada 10 artculos se tiene un xito financiero y una mini
empresa ha decidido producir 10 artculos.

x 1
p= = =0.1 probabilidad de exito
n 10
q=1 p
q=10.1
q=0.90
a Cul es la probabilidad de que exactamente un artculo tenga xito financiero?

p ( x , n , p )=nCr Pr qnr
101
p (1,10,0.10 )=10 C1 (0.10)(0.90)

p (1, 10, 0.10 )=0.3874=38.34

b Cul es la probabilidad de que al menos uno tenga un xito financiero?

P(2) 10 C2 ( 0.1 )2 ( 0.90 )8 =0.1937

P(3) 0.0573

P(4) 0.0116

P(5) 1.488x10-3

P(6) 1.37781x10-4

P(7) 8.748x10-6

P(8) 3.645x10-7

P(9) 9x10-9

P(10) 1x10-10

0.2636

10
p (1,10,0.10 )=10 C0 (0.10)(0.90)

p (1, 10, 0.10 )=0.3436


0.3436+0.3874=0.7320

Probabilidad de complemento.
P( E)c =10.7320

P( E)c =0.2674=26.74

X P(x)
0 0.3474

1 0.3839

2 0.1937

3 0.0573

4 0.01116

5 1.488x10-3

6 1.37781x10-4

7 8.748x10-6

8 3.645x10-7

9 9x10-9

10 1x10-10

p(x)
0.45

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
0 1 2 3 4 5 6 7 8 9 10

p(x)

c Cul es la probabilidad de que al menos dos tengan un xito financiero?


p ( E )=0.2679
Actividad: La confiabilidad de un chip es la probabilidad m de que un chip escogido al
azar de una produccin financiera segn las condiciones para las cuales fue diseado.

Se prob una muestra aleatoria de 1000 chips y se observaron x=27 defectuosos.


Calcular la probabilidad de tener 27 o ms defectuoso, s se supone que la confiabilidad
del chip es 0.98

Condiciones: =np

X= 27 defectuosos =( 1000 ) ( 0.02 )=20

27 o ms defectuosos = 0.98 = npq= (27)(0.98)(0.02)


=4.427

p=10,98=0.02 probabilidd de defectuoso

P(x > z)

2720 26.520
z= z=
4.427 4.427
z=1.58 z=1.4682

A ( z )=A ( 1.58 )=0,4429 Ay =0.71

Ay =0.50.4429=0.0571 Ay =7.1
0.0571 X 100=5.71

Actividad: una fbrica informa que el 40% de sus cuentas por cobrar a otras empresas
comerciales estn sobre vencidas. Pero un ingeniero toma una muestra aleatoria de 8
de esas cuentas.

Cul es la probabilidad de que ninguna de esas cuentas este sobre vencidas?

1.67%

Encuentre 3 de esas cuentas sobre vencidas

27.86%

Por lo menos 3 de esas cuentas

68.44%
a) x=0
b) x=3
c) 3, 4, 5,6, 7, 8
p ( x , n , p )=nCr Pr qnr

X p

0 0.0167

3 0.2786

4 0.2322

5 0.1238

6 0.0412

7 0.007

8 0.0006
0.6844

Actividad: se inspeccionan los granes lotes de productos que llegan a una planta
manufacturera a fin de encontrar artculos defectuosos, mediante un plan de muestreo.
Se selecciona una muestra aleatoria de n artculos de cada uno de los siguientes lotes y
se inspeccionaron la muestra, anotando el numero x de defectuosos. S x es menor que
o igual algn nmero de aceptacin a especifcalo, se aceptara el lote. S x es mayor
que a, se rechaza el citado lote.

Supngase que un fabricante utiliza un plan de muestreo con n=10 y a=1. Si el lote
contiene exactamente 5% de artculos defectuosos.

a Cul es la probabilidad de que el lote sea aceptado?

91.38%

b Cul es la probabilidad de que sea rechazado?

x Aceptan 0.1
x> Rechazan 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.

12.33%
Distribucin de Poisson

La distribucin de Poisson, adems de ser til como aproximacin de las probabilidades


binomiales, constituye un buen modelo para experimentos donde x representa el
nmero de veces que ha ocurrido un evento raro en una unidad rara de tiempo o
espacio. Los siguientes son ejemplos de experimentos en los cuales la variable
aleatoria x puede ser considerada como de Poisson:

El nmero de fallas de una maquina durante un da determinado.

El nmero de reclamaciones contra una compaa de seguros durante una


semana determinada.
El nmero de llamadas recibidas en un conmutador telefnico durante un periodo
corto de tiempo.

El nmero de ventas hechas por agente de bienes y races en un determinado


da.

El nmero de llegadas a una estacin de servicio durante un minuto dado.

En cada ejemplo x representa el nmero de eventos raros, que ocurren durante un


periodo determinado de tiempo en el cual se espera que haya un promedio, en el que
representemos ese promedio con un smbolo: =lamda o de que ello ocurra.

Las nicas suposiciones que se requieren para poder utilizar la distribucin de Poisson
como modelo para los experimentos descritos anteriormente son que los eventos
ocurran de forma aleatoria e independiente uno de otro.

Si en un experimento binomial, el tamao de muestra n es grande y la probabilidad de


acierto b es pequea, es frecuente usar las probabilidades por la distribucin de
Poisson como una aproximacin de las probabilidades binomiales.

La frmula que utilizaremos para encontrar la distribucin de Poisson es:

x e
p ( x )=
x!

x e
p ( x )=
x!

==np Poisson
= npq =

2=npq 2=

Actividad: si un banco recibe en promedio igual a 6 cheques falsos al da, Cules son
las probabilidades de que sirva?

a 4 cheques falsos en un da cualquiera


13.38%

b 10 cheques falsos en dos da consecutivos cualquiera.


10.48%

Actividad: en un departamento de revisin de computadoras se recibe un promedio de


9 computadoras por da.

a Cul es la probabilidad de que en un da aleatoriamente elegido se reciban 4


computadoras?

2.231 x 104

b Menos de 6 computadoras
11
3.22 x 1 0

Distribucin hipergeomtrica

Si el nmero de elementos de la poblacin es grande en comparacin con el de la


muestra, la probabilidad de seleccionar un elemento con una determinada caracterstica
en un solo ensayo es igual a la proporcin de elementos con esa caracterstica en la
poblacin. Dado que la poblacin es grade comparada con el tamao de la muestra,
est probabilidad permanecer constante (para propsitos prcticos) de ensayo a
ensayo y el nmero x de aciertos, en la muestra sigue una distribucin de probabilidad
binomial. Sin embargo, si el nmero de elementos en la poblacin es pequeo en
relacin con el tamao de muestra la probabilidad de un acierto en un ensayo dado,
depende del resultado de los ensayos precedentes.
Entonces el nmero x de aciertos sigue lo que se conoce como una distribucin de
probabilidad hipergeomtrica.

N Nmero de elementos de la
poblacin

Nmero de elementos en la poblacin


que se consideran aciertos.
T=K

Nmero de elementos en la poblacin


que no se consideran aciertos
N-K= N-T

Nmero de elementos en la muestra,


seleccionados de los N elementos de
n la poblacin

X Nmero de aciertos en la muestra

T K C X N K NT C nx Para x=0, 1, 2, 3n n<k


p ( x )=
N Cn
X=0, 1, 2, 3k si nk

T K C X N K NT C nx ( T K X )( nk N T )
p ( x )=
N Cn Nn

Media nK
=
N

Varianza K ( nK ) n(N n)
2
n (N 1)

Desviacin estndar
k ( N K ) n( Nn)
N 2 ( N 1)

Actividad: En una empresa que contiene 20 computadoras electrnicas grandes, dos


de las cuales estaban defectuosas. Si se seleccionan al azar 3 computadoras. Cul
ser la probabilidad de que dos de ellas tengan defectos?

N=20
T=2
2 C 2 18 C1
n=3 P ( 2 )= =0.015
20 C 3

x=2
N-K= 20-2= 18
N-X= 3-2= 1

Actividad: un ingeniero de control de calidad, inspecciona una muestra aleatoria de


tres acumuladores de cada lote de 24 que estn listos para ser embarcadas, si un lote
contiene 6 acumuladores con pequeos defectos. Cul es la probabilidad de que la
muestra del inspector contenga un acumulador defectuoso?

N=24
n=3
1 C6 23 C 2
T=6 P (1 ) = =0.45
24 C 3

X=1
N-K=23
n- k= 2

Actividad: Un problema encontrado por directores de personal y otros que se abocan a


la seleccin de los mejores elementos entre un grupo finito de estos, se ilustra mediante
la siguiente situacin: de un grupo de 20 ingenieros con doctorado, se seleccionan 10
para un equipo. Cul es la probabilidad de que los 10 seleccionados incluyan a los 5
mayores ingenieros del grupo 20?

N=20
5C 5 20 C 5
n=10 P (5 ) = =0.016
20 C 10

T=5
X=5
N-K=5
n-K=5

Actividad: La confiabilidad de un fusible elctrico es la probabilidad de que un fusible,


escogido al azar de una produccin funcionara segn las condiciones para las cuales
fue diseado. Se prob una muestra aleatoria de 100 fusibles y se observan 29
defectuosos. Calcular la probabilidad de tener 29 o ms defectuosos, si se supone que
la confiabilidad del fusible es de 0.97
.
0.97 100=0.073
0.03 29
p (29, 100, 0.03 )=100 C 29
=( 100 )( 0.03 ) =30

= (100 )( 0.03 ) ( 0.97 ) =5.39


x 28.530
Z= = =0.27
5.39

Actividad: Sea x una variable aleatoria, con n=25 y p=0.3

a Utilice la tabla para encontrar la probabilidad cuando x3 y x 10 y


comprare la aproximacin de la distribucin binomial que la normal.

P(x)}= 8, 9 ,10
p ( x , n , p )=nCr Pr qnr
=7.5
=2.29

0.3 8 ( 0.7 )258=0.1650


p ( 8,25,0.3 )=25 C 8

p ( 9,25,0.3 )= 0.1336

p (10,25,0.3 )=0.0916

Sumatoria= 0.3902
x 10.57.5
Z= = =1.31
2.9

A=0.4049
39.02%

Definicin: La distribucin de probabilidad de una estadstica se llama distribucin de


muestreo (o muestral).
No.
Computadora Actividad: Se dise un nuevo sistema para el control del inventario
de un pequeo fabricante, con el propsito de reducir el moro para
2905 una computadora en particular, a menos de 3000 computadoras al
da. Se llev acabo un muestreo del inventario en reserva al final de
2725 cada una de 8 das, seleccionadas aleatoriamente; los resultados se
muestran en la siguiente tabla. Con los datos, hay evidencia
2835 suficiente que el promedio de nmero diario de computadora en el
inventario es menor que 3000?
3065

2895 Error estndar poblacional:


3005

2835

2605
s
s X=
n

Error desviacion estandar poblacional:


X =
n

= parametro

X =Media
x
t=
s
s X =
n

n=8 n<30
=3000 <3000

X =2858.75 2859

x X 2




s=
s=146.76
38593000
t=
147
8
0.975 p( x ) 0.99 Por lo tanto si existe evidencia.

Actividad: Halle el valor de


a =0.10 n=12

1.356

b =0.01 n=25

2.485

c =5 n=16

1.746

Actividad: la produccin diaria en una planta industrial qumica registrada durante 50


das tiene una media muestral de 871 TON. Y una desviacin muestral de 21 TON.
Respectivamente. Con un nivel de significancia de 0.05 y un promedio de la produccin
diaria del producto qumico igual a =880 TON /da .

Proporcionan evidencia de que la media poblacional es mayor o menor que 880


TON/da.

n=50 das
=871 TON/ da
S=21 TON/ da
=880 TON /da
=0.05
x 871880
z= = =3.30
s 21
=
n 50

A (z) A (3.30)= 0.4988


AT= 0.4988 + 0.4988
AT= 0.9976

Actividad: una muestra aleatoria de n=4 observaciones de una poblacin distribuida


normalmente genero los siguientes datos: 9.4, 12.2, 10.7, 11.6. Proporcionan los datos
evidencia suficiente para indicar la muestra poblacional es mayor que 10. Utilice un
nivel de significancia de 0.10 y obtenga el valor de t aproximado e interprete.

n=4
9.4 x 10.97510
t= = =1.59
12 s 1.2175
s=
.2 n 4
10.
7
11.
6
=0.10
>10

X =10.975
S= 1.2175
0.90< p<0.80

Distribucin de chi-cuadrada o ji-cuadrada


2
X =Chicuadrada

2
( n1)s
X 2=
2

Gl=k-1

K=17
=0.05 X 2=27.5871 27.59
Actividad: Un gerente de control de calidad de una compaa estaba convencido de
que una balanza para pesar materia primaria, variaba segn una distribucin estndar
poblacional igual a 2. A fin de probar el equipo se pes una carga de 107 Lb, y se
registraron las mediciones de 104.1, 105.4, 108.4, 109.2, 112.4. No corresponde estos
datos a la afirmacin del gerente? Utilice un nivel de significancia es igual a 0.10.
=2
2
=4

104.1
105.2
108.4
109.2
112.4

S=3.31
S2=10.97
Gl=k-1
Gl=5-1= 4
2
X
=0.05 } =9.49
2

( n1)s 2 ( 51 ) 10.97
X 2= = =10.97
2 4

0.025< p ( x )< 0.05

Si proporciona evidencia, porque aumenta su confiabilidad

Actividad: una muestra aleatoria de n=25 observaciones de una poblacin normal


produjo una varianza muestral igual a 21.4. Proporciona los datos evidencia suficiente
que indique que la varianza poblacional es mayor que 15 utilice un nivel de significancia
de 0.01?

=21.4

n=25
2
=15

2 >15
Gl=k-1
Gl=25-1= 24
2
( n1)s ( 24 ) 21.4
=0.01 X 2=42.98 X 2= = =34.24
2 15

0.05< p(x) < 0.1

Los datos no proporcionan suficiente evidencia.

Actividad: se seleccion una muestra aleatoria de n=22 observaciones de una


poblacin normal, la media y la varianza muestral eran 41.2 y 14.14. Es esto evidencia
suficiente para indicar que la varianza poblacional es menor que 25, realice la prueba
con =0.05 .

n=22
Gl=22-1= 21
=0.05 X 2 =32.6706

2
( n1)s ( 21 ) 14.14
X 2= = =11.8776
2 25

No existe suficiente evidencia con respecto al nivel de significancia, pero en la varianza


si proporciona incremento.

Distribucin de Fisher

Gl=v1=n1 -1
Gl=v2=n2-1

s 12 (se pone el mayor)


Fc= 2 =
s 2 (se pone el menor)

Ejemplo:
Gl=v1=n1 -1
V1=15-1
V1=14
Gl=v2=n2-1 F =2.329

V2=18-1
V2=17
=0.05

Actividad: Dos muestras de 10 y 8 respectivamente tenan varianza mustrales iguales


a 7.14 y 3.21. Proporcionan las varianzas mustrales suficiente evidencia para indicar
que las varianzas poblacionales son distintas con un nivel de significancia del 10%?

S12=7.14
n1= 10
S22=3.21
n2=8
Gl= =n1-1
Gl= =10-1
Gl= 9
2
s 1 7.14
Gl= =n2-1 Fc= 2
= =2.22
s 2 3.21

Gl= =8-1
Gl= 7 F /2=3.677

f (1)

No hay suficiente evidencia, ya que disminuyo la confiabilidad.

Actividad: las muestras aleatorias independientes de dos poblaciones normales dieron


la varianza siguiente:
Poblacin 1: tamao de la muestra 13, varianza muestral s 12= 18.3
Poblacin 2: tamao de la muestra 13, varianza muestral s 22= 7.9

Es esta evidencia suficiente para indicar que la varianza 1 es mayor que la varianza 2.
Realice la prueba con =0.05 .

Encuentre el nivel de significacin aproximado que se ha observado para la prueba,


interprtese su valor.

S12=18.3
n1= 13
S22=7.9
n2=13
Gl=
Gl1= 12
Gl2= 12 =2.687

s 12 18.3
Fc= 2 = =2.31
s2 7.9

0.10< p ( x )< 0.05

V2/v1 0.10 Fc 12
12 2.14 2.31 2.687

No proporciona suficiente evidencia.

Actividad: un fabricante de productos farmacuticos compra material de dos


proveedores. El contenido medio de impureza de la materia prima es aproximadamente
el mismo para ambos proveedores, para el fabricante est preocupado por las varianza
de impurezas de un embarque a otro.

Si el contenido de impureza tendiera a variar con respecto de suministro, podra afectar


la calidad del producto farmacutico, para comparar la variacin en el porcentaje de
impurezas para dos proveedores, el fabricante selecciona 10 embarques de cada uno
de los proveedores y mide el porcentaje de impureza de la materia pura para cada
embarque. Las muestras y las varianzas son 0.273, 0.094, y las muestras 10 y 10.

Proporcionan los datos informacin suficiente para indicar una diferencia en la variacin
de los contenidos de impureza para los embarques de dos proveedores. Realice la
prueba con un nivel de significancia de 0.10. Qu recomendaras al fabricante de
productos farmacuticos basndose en los resultados?

S12=0.273
n1= 10
S22=0.094
n2=10
Gl1= 9
Gl2= 9 =3.179

s 12 0.273
Fc= 2
= =2.904
s 2 0.094

No proporciona suficiente evidencia, porque su varianza es menor. Y se lo


recomendara al embarque que tiene menor varianza.

Teorema de Chevyshev

La desviacin estndar de una variable aleatoria x mide la dispersin de los


valores de x alrededor de la media poblacional de x ( de x) . En consecuencia, para

valores ms bajos de la desviacin poblacional se esperaran que x estuviera ms cerca


de su media. Esta esperanza intuida se hace ms precisa mediante la desigualdad de
CHEVYSHEV.

Teorema: sea x una variable aleatoria o media y desviacin estndar. Entonces para
cualquier nmero positivo k la probabilidad de que un valor de y se encuentre en el
1 1
1 2 p ( k x +k ) 1 2
intervalo [ k , + k ] es al menos k es decir; k

Actividad: supongamos que x es una variable aleatoria con una media poblacional
=100 y =5 . Encuentre la conclusin que se puede derivar de la desigualdad de

Cheyshev para k=2 y k=3.

K=2
3
p ( 90 x 110 )
4

K=3
8
p ( 85 x 115 )
9
Estime la probabilidad que x se encuentre entre 100-20=80 y 100+20=120

1
p ( 80 x 120 ) 1 2
k
p ( 80 x 120 ) 0.93

Encuentre un intervalo a, b alrededor de la media igual a 100 para el cual la


probabilidad de que se encuentre en el intervalo es por lo menos de 99%
K=10
=5
1
p (10010 x 100+10 ) 1
k2
p (50 x 150 )=0.99
UNIDAD III
Unidad III Estimacin y prueba de hiptesis

Actividad: Investigar los siguientes conceptos.


Tipos de muestreo
Muestreo probabilstico:

El muestreo probabilstico es una tcnica de muestreo en virtud de la cual las muestras


son recogidas en un proceso que brinda a todos los individuos de la poblacin las
mismas oportunidades de ser seleccionados.
Muestreo aleatorio simple:

El muestreo aleatorio simple es la forma ms fcil de muestreo probabilstico. Lo nico


que el investigador tiene que hacer es asegurarse de que todos los miembros de la
poblacin sean incluidos en la lista y luego seleccionar al azar el nmero deseado de
sujetos.
Existen muchos mtodos para hacer esto. Puede ser tan mecnico como sacar tiras de
papel de un sombrero con nombres escritos mientras el investigador tiene los ojos
vendados o puede ser tan fcil como usar un software de computadora para hacer la
seleccin aleatoria.

Muestreo aleatorio sistemtico:

El muestreo aleatorio sistemtico se puede comparar con una progresin aritmtica en


donde la diferencia entre dos nmeros consecutivos es la misma. Por ejemplo,
supongamos que ests en una clnica y tienes 100 pacientes.
1 Lo primero que tienes que hacer es elegir un nmero entero que sea menor que el
nmero total de la poblacin. ste ser tu primer sujeto, por ejemplo (3).

2 Selecciona otro nmero entero que ser el nmero de individuos entre los sujetos, por
ejemplo, (5).

3 Tus sujetos sern los pacientes 3, 8, 13, 18, 23 y as sucesivamente.


No existe una ventaja clara en la utilizacin de esta tcnica.

Muestreo aleatorio estatificado:

El muestreo aleatorio estratificado tambin es conocido como muestreo aleatorio


proporcional. sta es una tcnica de muestreo probabilstico en donde los sujetos son
inicialmente agrupados en diferentes categoras, tales como la edad, el nivel
socioeconmico o el gnero.
Luego, el investigador selecciona aleatoriamente la lista final de sujetos de los distintos
estratos. Es importante tener en cuenta que los estratos no se superpongan.
Generalmente, los investigadores utilizan un muestreo aleatorio estratificado si quieren
estudiar un determinado subgrupo dentro de la poblacin. Tambin es preferible el
muestreo aleatorio simple porque garantiza resultados estadsticos ms precisos.

Hiptesis:

Proposicin que establece relaciones, entre los hechos; y para otras es una posible
solucin al problema.

Cmo se establece una hiptesis?

1.-Interpretar correctamente hacia que distribucin muestral se ajustan los datos del
enunciado.
2.-Interpretar correctamente los datos del enunciado diferenciando los parmetros de
los estadsticos. As mismo se debe determinar en este punto informacin implcita
como el tipo de muestreo y si la poblacin es finita o infinita.
3.-Establecer simultneamente el ensayo de hiptesis y el planteamiento grfico del
problema. El ensayo de hiptesis est en funcin de parmetros ya que se quiere
evaluar el universo de donde proviene la muestra. En este punto se determina el tipo de
ensayo (unilateral o bilateral).
4.-Establecer la regla de decisin. Esta se puede establecer en funcin del valor crtico,
el cual se obtiene dependiendo del valor de (Error tipo I o nivel de significancia) o en
funcin del estadstico lmite de la distribucin muestra. Cada una de las hiptesis
deber ser argumentada correctamente para tomar la decisin, la cual estar en funcin
de la hiptesis nula o Ho.
5.-Calcular el estadstico real, y situarlo para tomar la decisin.
6.-Justificar la toma de decisin y concluir.

Hiptesis nula:
La hiptesis nula consiste en una afirmacin acerca de la poblacin de origen de la
muestra. Usualmente, es ms simple (menor nmero de parmetros, por ejemplo) que
su antagonista. Se designa a la hiptesis nula con el smbolo H0.

Hiptesis alternativa:

La hiptesis alternativa es igualmente una afirmacin acerca de la poblacin de origen.


Muchas veces, aunque no siempre, consiste simplemente en negar la afirmacin de H0.
La hiptesis alternativa se designa con el smbolo H1.

Pruebas para comprobar una hiptesis:

Prueba de un extremo
Prueba de dos extremos

Pruebas bilaterales

Una prueba de hiptesis de dos extremos es aquella en la cual la hiptesis nula afirma
que las variables son iguales o no a algo, tal como una estimacin de porcentaje. En
este tipo de prueba hay tres regiones a considerar: dos regiones de rechazo y una
regin de aceptacin. En una prueba de dos extremos, podrs determinar si debes o no
rechazar la hiptesis nula con base a la evidencia de cualquier extremo. En este tipo de
prueba, la regin de aceptacin es menor (lo que significa que es ms difcil de
demostrar) a causa de los dos extremos o variables, dentro de la prueba.

Pruebas unilaterales:
Una prueba de un extremo es aquella que mide la distribucin normal estndar, basada
en la hiptesis o supuesto de que los parmetros que se miden sern mayores o
menores que una estadstica en particular. En este tipo de prueba, las variables que se
estn probando se dividen en dos regiones: una regin de rechazo y una regin de
aceptacin. Aqu es donde la mayor o menor a los conceptos entra en juego, ya que
dicta dnde la muestra se divide en regiones. La prueba se determina por la mayor o
menor que el valor que se indica en la hiptesis, y se rechaza la hiptesis si los datos
en la regin de rechazo resultan ser ciertos.

Regin de aceptacin:
Es la regin complementaria de la anterior .Si el valor evaluado del estadstico
pertenece a ella No rechazamos la hiptesis.(Las hiptesis nunca se aceptan de forma
definitiva, slo se aceptan provisionalmente, es decir ,no se rechazan, a la espera de
una nueva informacin que eventualmente pueda llevarnos a rechazarla en el futuro).
La designaremos por R0. Evidentemente los conjuntos de puntos que forman ambas
regiones son disjuntos.

Regin de rechazo:

Los valores del estadstico de contraste que nos conducen a rechazar la hiptesis H0
forman la Regin Critica o Regin de Rechazo del contraste.

Errores de tipo 1:

Se presenta si la hiptesis nula es rechazada cuando de hecho es verdadera y deba


ser aceptada.

Errores de tipo 2:

Se presenta si la hiptesis nula es aceptada cuando de hecho es falsa y deba ser


rechazada.

Frmulas

Estimador insesgado: = x

Estimador sesgado: x

Estimador insesgado: x =S x
Tamao de muestra para proporciones:
z2 pq
2
n=
E2

Determinacin de tamao de muestra: 2


z2
2
n=
E2

Estimacin de intervalo para la media


z < <+ z
poblacional: 2 n 2 n

Estimacin del error o error permeable:


E=z n
pq
n

Estimacin puntual: =n

Actividad:

a) n=100 =9

b) n=50 2=12

c) n=100 =0.05 =0.01

d) n=120 =0.01 2=0.9

e) Determine un intervalo de confianza de 95% para una media poblacional


n=36 13.1 s 2=3.42

n=64 2.73 s=0.1047

f) Determine un intervalo de confianza de (1) 100% para una media

poblacional para:

=0.01 n=45 22.1 s 2=6.8

=0.05 n=120 1.50 s 2=29

g) Encuentra un intervalo de confianza unilateral superior (1) 100% para

una media poblacional cuando:

=0.01 n=30 147 s 2=16


=0.10 n=41 1472 s 2=143

0.9
E=1.96 =0.1769
a) 100

3.46
E=1.96 =0.96
b) 50

0.01
E=1.96 =0.00196
c) 100

0.94
E=2.58 =0.2234
d) 120

1.84 1.84
13.11.96 < <13.1+ 1.96
e) 36 36
12.49+13.70
L. C 12.49< <13.70 =13.09 13.10
2

Lim. Confianza { 12.49 a 13.70 }

0.1047 0.1047
2.731.96 < <2.73+1.96
64 64

L. C 2.70< < 2.75 2.70 + 2.75 = 2.725 2.73

2.6 2.6
22.11.65 < < 22.1+ 1.65
f) 45 45
L. C 21.46< <22.73

4
>147+2.33
g) 30
>148.70

Actividad 1: En el proceso de facturacin de discos para computadoras una de los


valores crticos es el rendimiento de formato. Se toma una muestra aleatoria de 15
discos de la produccin del turno de la maana. Se formatea y se recorta el rendimiento
de cada disco. Los datos obtenidos son expuestos en la siguiente tabla, y por intervalo
la media y la desviacin estndar para la poblacin de discos de dicho turno y utilice en
nivel de significancia 98%

DATOS
96.11
85.20
91.41
92.63
88.88
93.62
93.38
89.67
93.48
89.81
96.21
93.42
92.73
89.82
86.23

n = 15 =0.02

gl = n-1 x =91.50

gl = 15-1 s=3.22

gl = 14
0.02
= =0.01=t 2 =2.6295 Intervalo de confianza para
2


(n1)s 2 (n1)s2
<<

x2 x 2 (1 )
2 2


x 2 =29.1413
2

Prueba bilateral, dos colas, dos extremos

H 0 : 0
H1 : 0
Prueba unilateral, una cola, un extremo

Prueba unilateral derecha:

H 0 : 0
H1 : 0

Prueba unilateral izquierda:

H 0 : 0
H1 : 0

Error tipo (I) = Rechazar Ho/ Realmente es verdadera

Error tipo (II) = Aceptar Ho/ Realmente es falsa

Comprobar una hiptesis:


H 0 : =M 0
1.-

2.-Establecer si hay una prueba de un extremo o dos extremos:


H A : > M o o bien H n : < M o

3.-Establecer el nivel de significancia.


4.-Estadstico de prueba:

Z c=

=
n

5.-Establecer mi regin de rechazo:


Z c > Z y Z c <Z
Un extremo:

Z c > Z y Z c <Z
Dos extremos: 2 2

Actividad 2: Una muestra aleatoria de 35 observaciones de una poblacional con la que


produjo una media muestral 2.4 y una desviacin estndar igual a 0.29. Suponga que
desea demostrar que la media poblacional excede a 2.3.

a) Enuncie la hiptesis alternativa para la prueba


b) Enuncie la hiptesis nula para la prueba
c) Si se quiere que la probabilidad sea igual a 2.5 de decir correctamente que la media
poblacional es mayor que 2.3 la cual en realidad es =2.3. Cul es el valor real de
la prueba?
d) Antes de efectuar la prueba, observarse los datos y utilice su intuicin para decidir si
la media muestral es igual a 2.4 implica que =2.3. Ahora pruebe la hiptesis nula.

Proporciona los datos evidencia para indicar que la media poblacional es mayor que
2.3? Haga la prueba con =0.05

e) Suponga que se quiere demostrar que los datos muestrales apoyan la hiptesis de
que la media poblacional es menor que 2.9. Enuncie la hiptesis nula y la alternativa de
la prueba. Sera esta prueba de uno o dos extremidades de cola?
f) Suponga que desea detectar un valor de que la media poblacional difiere de 2.9.
Enuncie la hiptesis nula y alternativa para la prueba. Indica la hiptesis alternativa
una prueba de una o de dos colas?
H A : >2.3
a)

H 0 : 2.3
b)

c)

0.5 0.45
zc = 2.04

Z =1.65

x 2.42.3
Z= = =2.04
s 0.29
d) x = n 35

La hiptesis es verdadera. El nivel de confiabilidad aumento y la cantidad de

disminuy.

NOTA: Planteamiento de una hiptesis de estadstica.


Hiptesis estadstica: Es una afirmacin sobre los valores de los parmetros de una
poblacin o proceso, que es susceptible de probarse a partir de la informacin
contenida en una muestra representativa que es obtenida de la poblacin. Por ejemplo;
la afirmacin Este proceso produce menos del 8% de defectuosos se puede plantear
estadsticamente en trminos de la proposicin P desconocida de artculos defectuoso
que genera el proceso como se hace a continuacin:

H 0 : P=0.08
H A : P<0.08

A la operacin H0: P = 0.08 se le conoce como hiptesis nula. El nombre de hiptesis


nula se deriva del hecho que comnmente se plantea como una igualdad, lo cual facilita
el tener una distribucin de probabilidad de referencia especfica. En general, la
estrategia a seguir para probar una hiptesis es suponer que la hiptesis nula es
verdadera y que en caso de ser rechazada por la evidencia que aporta los datos se
estar aceptando la hiptesis alternativa.

H 0 : =2.9
e) Si existe suficiente evidencia de que la media
H A : <2.9 poblacional es menor

La prueba es de una cola (unilateral)

0.45 0.5

Z =1.65
-

2.42.9
Z= =10.2
0.29 Cay en la regin de rechazo, la hipotesis es verdadera.
35

f) Cuando dice difiere se utilizan dos colas

2.9

0.4750 0.4750

Z =1.96
2
H 0 : =2.9

A : 2.9

s s
x z < < x + z
g) 2 n 2 n

0.29 0.29
2.41.96 < <2.4 +1.96
35 35

2.30< <2.49

2.30+2.49 = 4.79 4.79/2= 2.395 2.4

Actividad 3: Para evaluar dos frmacos contra cierta enfermedad se integran dos
grupos formados por dos muestras aleatorias n 1=n2=100 c/u. A cada grupo se observa
que de la primera muestra se tomaron 65 y de la segunda 75 que se recuperaron con el
frmaco en grupos correspondientes.

Para ver si estas diferencias son significativa aborde el frmaco 2, probar la hiptesis
para la diferencia de proporciones y obtenga el intervalo de confianza al 99% para estas
diferencias de la proporciones de cada una de la poblaciones o tratamientos.

Datos:
n1=100 x1=65 *Si no dan un nivel de significancia es 95%
n2=100 x2=75 *Es una prueba de dos extremos

x1
p1= =0.65
n1

0.95
x
p2= 2 =0.7
n2

Z 2 =1.96 Z 2 =1.96

x 1+ x 2
= =0.7
n1+ n2

=0.05 Z 2 =1.96

Si no nos dan el valor D0=0 y si nos las dan dice que habr una pequea diferencia.

( p 1 p2 )D 0
zc=
H 0 : p1 p 2=D0

p1 q1
n1
p q
+ 2 2
n2

H A : p1 p2 D0

Actividad 4: Aproximadamente 1-10 consumidores favorecen el refresco de cada


marca A- Despus de una campaa de promocin en una regin de ventas dadas se
seleccion aleatoriamente 200 bebedores de ese producto de los consumidores en el
rea del mercado y se les entrevist para determinar la efectividad de la campaa. El
resultado de la encuesta muestra que un total de 26 personas expreso su preferencia
para la bebida marca A. Son los datos suficientes para indicar un aument en la
aceptacin de la marca A en la regin. Encuentre un intervalos de confianza al 98%
para la diferencia entre una proporcin muestral.

Datos

x1
p1= =0.1 1) H 0=P0 =0.1 es de un extremo
n1

H A =P> 0.1
2)
x2 26
p2= = = =0.13 3) q = 1 p q = 1 0.1 q = 0.9
n2 200

0.130.1
z= =1.41
4)
(0.1)(0.9)
200

z c > z o bien1.41>1.65
n = 200 5) Regin de decisin

=0.05

0.130.12.33
( 0.1 ) ( 0.9 )
200
< <0.130.1+ 2.33

( 0.1 ) ( 0.9 )
200

0.0194< <0.079

Actividad 5: Una caracterstica importante en la calidad de la leche de vaca es la


concentracin de grasa. En una industria particular se fij como estndar mnimo que el
producto que recibe directamente de los establos lecheros cierta poca del ao se
obtuvo que x =3.2 S=0.3

a) Estime con una confianza de 90% el contenido promedio poblacional de grada


b) Cul es el error mximo de estimacin para la media? por qu?
c) Estime con una confianza de 95%. Cul es la desviacin estndar poblacional?
d) Qu puede decir sobre la cantidad mnima y mxima de grasa que hay en la
leche? Es posible garantizar con suficiente confianza que la leche tiene ms de
3% de grasa?

Datos
=30

n=40
x =3.2
S= 0.3

=0.90 =0.1

s s
x Z < < x +Z
a) 2 n 2 n

0.3 0.3
3.2 1.65 < <3.2+1.65
40 40

s 0.3
b) Z + n =1.65 40 =0.078
2

c) =95

( n1 ) s 2
2
< < x 21
x 2
2

6
0.78=1.96 = =0.25
90

H 0 : =3.0 =0.05
d)

A : >30 va hacia laizquierda


Z =1.65
2

3.23.0
Z= = =4.21
s 0.3
n 40
z c > z o bien4.21>1.61 se rechaza H A
Regin de rechazo

Mtodos no paramtricos

1.- Interrupcin a la estadstica no paramtrica

2.-Prueba de signos para datos apareados


3.- Prueba de suma de rangos
4.- Prueba de U-mann Whitney
5.-Prueba de Kruska-Wallis
6.-Correlacin de rango
7.-Prueba de Kolmogrov Smirnov
8.-Prueba de corrida de una sola muestra

Estadstica paramtrica
Las mquinas de las pruebas de hiptesis, analizadas hasta ahora han hecho
referencia respecto a los parmetros de la poblacin como la x y la porcin. Estas

pruebas paramtricas han utilizado la estadstica paramtrica de nuestras que


provinieron de la poblacin que se esta probando.

Defectos de la estadstica paramtrica en cada caso que vimos en temas anteriores


supusimos que nuestras muestras eran grandes o provenan de poblaciones
normalmente distribuidas. Pero las poblaciones no son siempre normales e incluso
posteriormente veremos si una prueba de bondad de ajuste indica que una poblacin es
aproximadamente normal, no siempre podemos estar seguros por que la prueba no es
100% confiable.

Estadstica no paramtrica
Por fortuna, recientemente los estadsticos han desarrollado tcnicas tiles que no
hacen suposiciones restrictivas respecto a la forma de las poblaciones. Estas se
conocen como pruebas sin distribucin o, ms comnmente pruebas no paramtrica se
refiere a algo distinto del valor de un parmetro de formacin.

Ventajas de los mtodos no paramtricos sobre los paramtricos

1.- No requieren que hagamos la suposicin de que una poblacin est


distribuida en forma normal u otra forma especfica.

2.- Generalmente son ms fciles de efectuar y comprobar.

3.- Algunas veces ni siquiera se requiere del ordenamiento a menudo lo nico


que podemos hacer es escribir un resultado mejor. Cuando este es el caso o
cuando nuestras mediciones no son tan exactas como es necesaria para las
pruebas paramtricas podemos usar mtodos no paramtricos.

Desventajas de los mtodos no paramtricos

1.- Ignoran una cierta cantidad de informacin.

2.- A menudo no son tan eficientes.

Una de las pruebas no paramtricas de usar es la prueba de signo, su nombre proviene


del hecho de que est basada en la direccin o signos que representa ms o menos de
un par de observaciones y no en su magnitud area.

Prueba de signos

Actividad 1: Use la prueba de signo para ver si hay diferencia entre el nmero de das
requeridos para pagar una cuenta de un nmero de artculos antes y despus.
Use un nivel de significancia de 0.05

Antes 33 36 41 32 39 47 34 29 32 3 40 42 33 36 29
4
Despus 35 29 38 34 37 47 36 32 30 3 41 38 37 35 20
4

Signo - + + - + 0 - - + 0 - + - + +

Signos positivos 7 H0=No hay diferencia


Signos negativos 6 HA= Si hay diferencia
Ceros _2_
13

pH0=0.5 qh0= 0.5

7
= =0.53
13

6
Q= =0.46
13

Error estndar

p =
( 0.5 )( 0.5 )
13
=0.13

ph 0 + z
2 pq
n

L. C . I =0.51.96
( 0.5 ) ( 0.5 )
13
=0.228

L. C . S=0.5+1.96
( 0.5 ) ( 0.5 )
13
=0.77
Se acepta H0
No hubo cambio en el nivel de significancia de 0.5

Actividad 2: Un taller de reparacin para motores de aeronaves ligaras cambi el


mtodo de cambio de salaria por hora a salarios por hora ms un buro calculado sobre
el tiempo requerido para desmontar, reparar y volver a ensamblar un motor. Los
siguientes datos son recaudados para 25 motores, antes del cambio y 25 despus a un
nivel de significancia de 0.02 El nuevo plan increment la productividad?

Ante 2 3 3 1 3 2 2 3 3 4 4 2 3 2 4 2 2 3 3 2 2 2 4 4 3
s 9 4 2 9 1 2 8 1 2 4 1 3 9 5 2 0 5 3 4 6 1 2 5 3 1

Desp 3 1 2 2 2 2 2 3 1 2 2 2 4 3 2 2 2 3 1 2 3 3 3 2 2
us 2 9 2 1 0 4 5 1 8 2 4 6 1 4 7 6 5 1 9 2 2 1 0 9 0

Sign - + + - + - + 0 + + + - - - + - 0 + + - - - + + +
os

Signos positivos 13 H0=No hay diferencia


Signos negativos 10 HA= Si hay diferencia
Ceros _2_
25

pH0=0.5 qh0= 0.5

13
= =0.56
23

10
Q= =0.43
23
ph 0 + z
2 pq
n

0.5+2.06
( 0.5 )( 0.5 )
23
=2.66

Se acepta H0 por lo tanto no hay evidencia

Prueba de suma de rangos

Las pruebas de suma de rango son una familia completa de pruebas. Solo nos
concentraremos en dos miembros de esta familia, la prueba de U-mann Whitney y la
prueba de Kruskal Wallis.

Usaremos la prueba de U-mann Whitney cuando solo estn involucrada.


H 0 : 1=2 No hay diferencia en las dos poblaciones y, tienen la misma media.

H A : 1 2 Si hay diferencia en las dos poblaciones; en particular tienen distintas


medias.

n1 = Nmero de elementos en la muestra 1


n2 = Nmero de elementos en la muestra 2
R1 = Suma de los rangos de los elementos en la muestra 1
R2 = Suma de los rangos de los elementos en la muestra 2
Definicin : Usando los valores para n 1 y n2 y la suma de rangos R1 y R2, podemos
n
( 1+1)
determinar la estadstica , una medida de la diferencia
R 1
2
=n1 +n 2+

n1 +n 2
Media de la estadstica =
2

Error estndar de la estadstica = =


n1 n2 (n1 +n 2+1)
12

L.C.I y L.C.S
Actividad 1: En la tabla siguiente se muestra el nmero de artculos de dos determinadas
empresas, pruebe la hiptesis de no diferencia entre cada uno de los artculos y de las
empresas, utilizando la prueba de U-Whitney use un nivel de significancia de 1%

Empresa A Empresa B

31 44

25 30

38 34

33 47

42 35

40 32

44 35

26 47

43 48

35 34.7
Datos
n1= 10
n2= 10
R1= 93.5
R2= 116.5

n
( 1+1)
R 1=61.5
2
=n1 +n2 +

n1 +n2
= =50
2

H=
n1 n2 ( n1+ n2 +1 )
12
=13.228

LCI = 50-2.58 (13.2) = 15.94


LCS= 50+2.58 (13.2) =84.056

No hay diferencia se acepta H0

Actividad 2: En la tabla siguiente se muestra precios al menudeo de tres marcas de


zapatos.
Use la prueba de Kruskal Wallis para determinar si existe alguna diferencia entre los
precios de ventas en el menudeo al mundo de venta a las marcas a lo largo del pas.
Utilice el nivel de significancia 0.01.

Marca A Marca B Marca C

89 78 80

90 93 88
92 81 86

81 87 85

76 89 79

88 71 80

85 90 84

85 96 85

87 82 90

86 85 92

100

nj = Nmero de elementos en la muestra j


Rj = Sumatoria de los rangos, de todos los elementos en la muestra j
K = Nmero de muestras
n = n1+n2+n3++nk = Nmero total de observaciones en toda la muestra

12 R 2j
k=
n ( n+ 1 )
n 3 ( n+ 1 )
j

Distribucin de hiptesis

La distribucin de muestreo de la estadstica K, puede aproximarse para una


distribucin chi-cuadrada, cuando los tamaos de todos las muestras son al menos 5.
214 2

149.5 2

132.5 2

n1 = 11 3 ( 31+1 ) =2.6361



12
k=
31(31+1)

n2 = 10
R1=214
R2= 149.5
n=2.6361 se acepta H0
R3= 132.5
n = n1+n2+n3
=0.005
2
n =31

gl = nl

gl = k-1
gl = 3-1
gl = 2

Prueba de corridas de una sola muestra

La estadstica r base a la prueba de corridas de una sola muestra.


El nmero de corridas r, es una estadstica con su propia distribucin de muestreo
especial y su propia prueba, obviamente, las corridas pueden, ser de diferentes
longitudes, y en una muestra pueden ocurrir diversos nmeros de corridas.
Las estadsticas pueden probar que demasiadas corridas o muy pocas en una muestra
indica que hubo algo ms en el azar cuando se seleccionaron los elementos. Una
prueba de corridas de una sola muestra, entonces, est basada en la idea de que muy
pocas o demasiadas corridas muestran que los elementos no fueron elegidos
aleatoriamente.

2 n1 +n2
Media estadstica = = +1
2

n
2
n 1 n2 ( 1+ n21 )

Error estndar de la estadstica 2 n1 n2 (2 n1 n2n1 n2)

= =

n1 = Nmero de ocurrencia del tipo 1


n2 = Nmero de ocurrencia del tipo 2
= Nmero de corridas

Actividad 1: Pruebe la aleatoriedad de la siguiente muestra usando el nivel de


significancia de 0.05.

A, B, A, A, A, B, B, A, B, B, A, A, B, A, B, A, A, B, B, B, A, B, B, A, A, A, B, A, B, A, A, B, B,
A, B, B, A, A, A, B, B, A, A, B, A, A, A

H0 = Si la muestra son escogidas aleatoriamente


HA = Si la muestra no son escogidas aleatoriamente
n1A= 26
n2A= 22
= 27
NOTA: Para permitirnos probar muestra respecto a la aleatoriedad de su orden, los
estadsticos han creado la teora de corridas.
Una corrida es una secuencia de ocurrencias idnticas precedidas y seguidas de
distintas ocurrencias o por ninguna en absoluto.

2n 1+n2
= +1=24.83 =3.40
2

0.9 Se aceptan H0

Z =1.96 Las muestras son escogidas aleatoriamente


2

LCI = 18.166 LCS = 31.494

Coeficiente de correlacin de rangos de Spearman para datos que sean mayores


a 30

1
n1

Correlacin de rangos:
Esta es una medida de la correlacin que existe entre los dos conjuntos de rango, una
medida del grado de asociacin entre las variables no podremos calcular de otra
manera.

Otra de las ventajas del uso de la correlacin de rangos es la posibilidad de simplificar


el proceso de clculo de un coeficiente de correlacin a partir de un conjunto de datos
muy grandes para cada uno de los datos.
Utilizaremos la siguiente frmula para calcular el coeficiente de correlacin de
rangos.
2
6 d
Coeficiente de correlacin de rango Spearman s=1
n ( n21 )

s= Coeficiente de correlacin de rango

d = Diferencia entre los rangos para cada pareja de observaciones


n = Nmero de observaciones apareadas

Si obtenemos un coeficiente de relacin -1 nos representa una correlacin inversa


perfecta o si tenemos un valor igual a 1 tambin decimos que es una correlacin
positiva.

Formulacin de hiptesis
H0: Ps = 0 No existe la correlacin con relacin a los datos

HA: Ps 0 Si existe la correlacin con relacin a los datos

Para pequeos valores de n (donde n 30) la distribucin del coeficiente de


s
correlacin de rango ( ) no es normal, y a diferencia de otras estadsticas de
muestras pequeas, que hemos visto anteriormente y encontrado no es apropiado
utilizar la distribucin de t-student, para probar hiptesis.

1
=
Error estndar n1

PH 0 z
Lmite de la regin de aceptacin 2

Sugerencia: La correlacin de rango es til cuando los datos estn distribuidos


anormalmente. Un ejemplo de tal es el tamao de las aportaciones, dadas en respuesta
a la reunin de fondos no lucrativos. La distribucin puede incluir las aportaciones de
unos cuantos (donadores fuertes) que aportan ms de un milln de dlares, un grupo
de donaciones simblicas menores de 50 dlares, y un amplio intervalo en medio.

Edad gerente 32 43 42 29 52 62 45 39 40 35

55 2 7 6 1 9 10 8 4 5 3

Nmero de quejas 5 2 4 4 3 2 4 5 4 6

55 8.5 1.5 5.5 5.5 3 1.5 5.5 8.5 5.5 10

H0: Ps = 0 No existe la correlacin con relacin a los datos

HA: Ps 0 Si existe la correlacin con relacin a los datos

d -6.5 5.5 0.5 -4.5 6 8.5 2.5 -4.5 -0.5 -7

d2 42.25 30.25 0.25 20.25 36 72.25 6.25 20.25 0.25 49

6 (277 )
s=1 =0.6787
10 ( 102 1 )

Prueba de Kolmogrov-Smirnov

K-S

La prueba de Kolmogrov Smirnov es por consiguiente otra medida como es la prueba


de chi-cuadrada vista anteriormente. Sin embargo, la prueba de Kolmogrov Smirnov
tiene varia ventajas sobre la prueba chi-cuadrada es una prueba ms poderosa, y es
ms fcil de utilizar, puesto que no requiere que los datos se agrupen de una manera.

Una ventaja especia de la estadstica de Kolmogrov Smirnov, es particularmente til


para juzgar que tan cerca est la distribucin de frecuencias observadas de la
frecuencia esperada, porque la distribucin de probabilidad (Dn) depende del tamao
de muestra n pero es independiente de la distribucin de frecuencia esperada.
Actividad 1: La central telefnica de una cierta ciudad ha estado llevando un registro
de numero transmisores (un equipo automtico que se utiliza en las centrales
telefnicas) usados en un instante dado. Las observaciones se hicieron en 3754
ocasiones de presupuesto de esta compaa piensa que el patrn de usos sigue una
distribucin de Poisson con una media de 8.5.

Se desea probar la hiptesis utilizando la prueba de Kolmogrov Smirnov a un nivel de


significancia de 0.01

Nmero Frecuencia Frecuencia Frecuencia Frecuencia Desviacin


ocupado observada acumulativa acumulativa acumulativa absoluta
observada observada observada
relativa esperada

0 0 0 0 0.0002 0.0002

1 5 5 0.0013 0.0019 0.006

2 14 19 0.0051 0.0093 0.0042

3 24 43 0.01145 0.0301 0.01865

4 57 100 0.0266 0.0742 0.0478

5 111 211 0.0562 0.1494 0.0934

6 197 408 0.010868 0.2559 0.1476

7 278 686 0.1827 0.3853 0.2029

8 378 1064 0.2834 0.5228 0.2397

9 418 1482 0.3947 0.6526 0.2582

10 461 1943 0.8383 0.7629 0.2458

11 433 2376 0.8966 0.8482 0.2158

12 413 2789 0.964 0.9086 0.1662

13 358 3147 0.979 0.9481 0.1103

14 219 3366 0.9909 0.9720 0.0760

15 145 3511 0.9952 0.9855 0.0509


16 109 3620 0.964 0.9927 0.0291

17 57 3677 0.979 0.9963 0.0175

18 43 3720 0.9909 0.9980 00078

19 16 3736 0.9952 0.9987 0.0043

20 7 3743 0.0070 0.9990 0.0027

21 8 3751 0.999 0.999 0.0007

22 3 3754 1 1 0

K-S = Dn= max FeFo

9 0.2582

1.63 1.63
= =0.026 <0.2582, As que se rechaza H 0
Dn = n 3754

El siguiente paso es comprobar el valor calculado de Dn, con el valor crtico de Dn que
se encuentra en la tabla. Si el valor de la tabla para el nivel de significancia elegido es
mayor que el valor calculado de Dn entonces aceptaremos la hiptesis nula.

Actividad 2: A nivel de significancia de 10% calcule la estadstica de Kolmogorov-


Smirnov con respecto a la tabla de frecuencia observadas, junto con las frecuencias
que se esperan bajo una distribucin normal.

Frecuencia 30 100 440 500 130


observada

Frecuencia 40 170 500 390 100


esperada

a) K - S
b) Podemos concluir que estos datos en efecto provienen de una distribucin
normal? Use el nivel de significancia de 0.10
K Clase Frecuencia Frecuencia Fo FE Desviaci
observada acumulativa n
observada absoluta

1 51-60 30 40 0.025 0.035 0.008

2 61-70 100 170 0.083 0.1416 0.1166 Dn

3 71-80 440 500 0.366 0.4166 0.05

4 81-80 550 390 0.4583 0.325 -0.133

5 91-100 130 100 0.1083 0.0835 -0.027

K S = 2 0.1166 el valor es mayor que el que est en tabla

1.22
Dn= 1200 = 0.0352 se rechaza
UNIDAD IV

Unidad IV Regresin lineal y correlacin

Si hay varios puntos de datos que caen sobre una recta y se desea hacer una
prediccin de dnde caer otro punto (x, y), se puede hallar la ecuacin de la recta y
evaluarla para hallar y para un valor de x dado, o viceversa.

La mayora de los puntos para un conjunto de datos de la vida real no caen sobre una
sola recta, no importa cun lineal se vean. El error de medida y otros factores de la
realidad pueden entrar en juego. As que para hacer predicciones, se necesita hallar
una recta que se acerque lo ms posible a los puntos de datos. Esta clase de recta se
llama una recta de ajuste para los datos. El hallar estas rectas de ajuste le da a su
estudiante un contexto para practicar el hallar pendientes y ecuaciones, y tiene
aplicaciones tiles en ciencia y en negocios.

xx 1 y y 1
y=a+bx y y 1=b ( xx 1 ) =
x 2x 1 y 2 y 1

Una razn principal para estudiar las ecuaciones de rectas es para aprender a hacer
predicciones.

Anlisis de regresin

El anlisis de regresin es la parte de la estadstica que se ocupa de investigar la


relacin entre dos o ms variables relacionadas en una forma no determinstica,
ajustando algn modelo matemtico determinstico.

La variable cuyo valor fija el experimentador ser denotada por x y se llamar

variable independiente, pronosticadora o variable explicativa. Con x fija, la segunda

variable ser aleatoria; esta variable aleatoria y su valor observado se designan Y y

y , respectivamente y se le conoce como variable dependiente o de respuesta.

Supngase que se tiene un conjunto de n pares de observaciones ( x i , y i ) , se busca

encontrar una recta que describa de la mejor manera cada uno de estos pares
observados.

Ejemplo 1. Las estaturas y pesos de 15 jugadores de baloncesto son:

Estatura en cm (x) Peso en kg (y)

186 85
186 83
189 85
190 86
190 85
192 90
193 87
193 91
194 90
194 92
198 93
201 103
203 100
203 102
205 101

Un primer paso en el anlisis de regresin que implica dos variables es construir una

grfica de puntos de los datos observados. Donde cada (x i , y i ) est representado

como un punto colocado en un sistema de coordenadas bidimensional.

120

100

80

Peso (kg) 60

40

20

0
185 190 195 200 205 210

Estatura (cm)

Grfica 4.1 Las estaturas y pesos de 15 jugadores de baloncesto.

Regresin lineal

La relacin matemtica determinstica ms simple entre dos variables x y y es

y= 0 + 1 x
una relacin lineal . La regresin lineal simple es el caso ms sencillo ya

que slo se maneja una variable independiente, por lo que slo se cuenta con dos
parmetros.
y= 0 + 1 x yi xi
Si la recta de regresin es , cada valor observado para un

xi
puede considerarse como el valor esperado de Y dado ms un error. Por lo tanto,

la ecuacin de modelo ser:

Y = 0 + 1 x i + i

i
Donde la variable se conoce como trmino de error aleatorio o desviacin aleatoria

en el modelo.

i
Los se suponen errores aleatorios con distribucin normal, media cero y varianza

2 ; 0 1
y son constantes desconocidas (parmetros del modelo de

regresin).
Mtodos de estimacin rectas

Mtodo de trazado a mano alzada o juicio propio

Este mtodo de ajuste consiste en seleccionar dos puntos del diagrama de dispersin y
trazar una lnea recta que pase por dichos puntos. El par de puntos sobre los cuales se
traza la recta es elegido de acuerdo al criterio propio del investigador o la persona que
realiza tal anlisis. La ecuacin de la recta puede ser determinada por medio de la
forma punto punto.

xx 1 y y 1
=
x 2x 1 y 2 y 1

Mtodo de semi-promedios
Para este mtodo de ajuste de rectas, la frmula que se utiliza es la siguiente:

Donde:

Se aplica el mtodo para encontrar la recta del ejemplo 1.

Observacin x y x2 xy y2
1 186 85 34596 15810 7225
2 186 83 34596 15438 6889
3 189 85 35721 16065 7225
4 190 86 36100 16340 7396
5 190 85 36100 16150 7225
6 192 90 36864 17280 8100
7 193 87 37249 16791 7569
8 193 91 37249 17563 8281
9 194 90 37636 17460 8100
10 194 92 37636 17848 8464
11 198 93 39204 18414 8649
12 201 103 40401 20703 10609
13 203 100 41209 20300 10000
14 203 102 41209 20706 10404
15 205 101 42025 20705 10201
Suma 2917 1373 567795 267573 126337
Promedio 194.4666 91.5333

267573
xy = ( 194.466 ) ( 91.533 )=38.1436
15
567795 2
x =
2 (194.466 ) =35.9748
15

38.1436
y91.533= (x 194.466)
35.9748

y91.533=1.0603 ( x194.466 )

y=1.0603 x114.6593

Mtodo de mnimos cuadrados

0 1
Consiste en determinar aquellos estimadores de y que minimizan la

i b0 b1
suma de cuadrados de los errores ; es decir, los estimadores y de

0 1
y , respectivamente, deben ser tales que:

i2
i=1
y i= 0 + 1 x + i
Del modelo lineal simple:

i = y i 0 1 x
De donde:

Elevando al cuadrado:

y
2
( i 0 1 x )
n n

i2=
i=1 i=1

0 1
Segn el mtodo de mnimos cuadrados, los estimadores de y deben

satisfacer las ecuaciones:

y
2
( i 0 1 x ) =0
n

0

i=1

y
2
( i 0 1 x ) =0
n

1

i=1

Al derivar se obtiene un sistema de dos ecuaciones denominadas ecuaciones


normales.

n n

y i=n 0 + 1 xi
i=1 i=1

n n n
o x i + 1 x i = x i y i
2

i =1 i=1 i=1

Cuya solucin es:


b0 = b1

yi
n n

( x i)
i=1 i=1


n

xi
n


i=1

2



n

x i y i
i=1
b 1=

Ahora el modelo de regresin lineal simple ajustado (o recta estimada) es:

=b o +b1 x

A continuacin, se aplica el mtodo de mnimos cuadrados para encontrar la ecuacin


de la recta del ejemplo 1.

Observacin x y x
2
xy y
2

1 186 85 34596 15810 7225


2 186 83 34596 15438 6889
3 189 85 35721 16065 7225
4 190 86 36100 16340 7396
5 190 85 36100 16150 7225
6 192 90 36864 17280 8100
7 193 87 37249 16791 7569
8 193 91 37249 17563 8281
9 194 90 37636 17460 8100
10 194 92 37636 17848 8464
11 198 93 39204 18414 8649
12 201 103 40401 20703 10609
13 203 100 41209 20300 10000
14 203 102 41209 20706 10404
15 205 101 42025 20705 10201
Suma 2917 1373 567795 267573 126337
Promedio 194.4666 91.5333

=b o +b1 x

(1373)(2917)
267573
15
b1= =1.0644
(2917)2
567795
15

b0 =91.53331.0644 (194.5666 )=115.5633

=115.5633 +1.0644 x

120

100
f(x) = 1.06x - 115.47

80

Peso (kg) 60

40

20

0
185 190 195 200 205 210

Estatura (cm)
2
Estimacin de y

El parmetro 2 determina la cantidad de variabilidad. Como la ecuacin de la lnea

verdadera es desconocida, la estimacin se basa en el grado al cual las observaciones


muestrales se desvan de la lnea estimada. Esta desviacin vertical del valor real

y n n
respecto al valor ajustado ( se conoce como residuo.

La estimacin de 2 es:

SCE ( y i i)
2
2=s 2= =
n2 n2

Donde SCE es la suma de cuadrados del error:

SCE = ( y i i)2= [ y i( b 0+ b1 x i ) ]2

Coeficiente de correlacin

El coeficiente de correlacin o coeficiente de determinacin (denotado por r 2 ) es una

medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a los datos,
ya que mide la capacidad predictiva del modelo ajustado.
Todos los puntos de la primera grfica (a) quedan exactamente en una lnea recta. En

este caso, toda la variacin de y puede ser atribuida al hecho de que x y y

estn linealmente relacionadas en combinacin con una variacin de x . Ya que los

puntos de esta grfica se ajustan perfectamente a la lnea recta, la capacidad predictiva


de nuestro modelo; es decir, el coeficiente de correlacin; ser 1 100%.

En la segunda grfica (b), los puntos no quedan exactamente en una lnea, pero su

variabilidad se compara con la variabilidad total de y , las desviaciones con respecto

a la lnea de cuadrados mnimos son pequeas. Es razonable concluir en este caso que

una gran parte de la variacin de y observada puede ser atribuida a la relacin lineal

aproximada entre las variables postuladas por el modelo de regresin lineal simple.

Cuando la grfica de puntos es como la tercera grfica (c), existe una variacin
sustancial y significativa en torno a la lnea de mnimos cuadrados con respecto a la

variacin total de y , as que el modelo de regresin simple no explica la variacin de

y relacionando y con x .

La suma de cuadrados del error SCE puede ser interpretada como una medida de

cunta variacin de y permanece sin ser explicada por el modelo, es decir, cunta

no puede ser atribuida a una relacin lineal.

La suma total de los cuadrados STC da una medida cuantitativa de la cantidad de

variacin total en los valores y observados.

STC= ( y i )2

2
Definidos estos dos trminos, el coeficiente de correlacin (o de determinacin) r

queda dado por:


y
y
( i )2
2
2 [ y i ( b0 +b1 x i ) ]
( i ) =
2 SCE ( y i i )2
r =1 =1
STC

Ejemplo 2. Se determinaron valores de mdulo de elasticidad (MDE, en GPa) y


resistencia a la flexin (en MPa) con una muestra de vigas de concreto de un cierto tipo,
y se obtuvieron los siguientes datos:

x (MDE) y (resistencia)
29.8 5.9
33.2 7.2
33.7 7.3
35.3 6.3
35.5 8.1
36.1 6.8 42.8 8.2
36.2 7
42.8 8.7
36.3 7.6
43.5 7.8
37.5 6.8
45.6 9.7
37.7 6.5
46 7.4
38.7 7
38.8 6.3 46.9 7.7
39.6 7.9 48 9.7
41 9 49.3 7.8
51.7 7.7
62.6 11.6
69.8 11.3
a) A partir de los datos obtenga una grfica 79.5 11.8

de puntos. 80 10.7

b) Obtenga la ecuacin de la recta de mnimos cuadrados para predecir la


resistencia a partir del mdulo de elasticidad.
c) En base a este ajuste, qu valor de resistencia se esperara para una viga que
posee un mdulo de elasticidad de 40?

d) Y para una que posee un MDE de 55.3?

2
e) Estime la y la para esta prueba.

f) Calcule el coeficiente de determinacin para esta prueba.

x 2 2
Observacin y (resistencia) x xy y
(MDE)

1 29.8 5.9 888.04 175.82 34.81


2 33.2 7.2 1102.24 239.04 51.84
3 33.7 7.3 1135.69 246.01 53.29
4 35.3 6.3 1246.09 222.39 39.69
5 35.5 8.1 1260.25 287.55 65.61
6 36.1 6.8 1303.21 245.48 46.24
7 36.2 7 1310.44 253.4 49
8 36.3 7.6 1317.69 275.88 57.76
9 37.5 6.8 1406.25 255 46.24
10 37.7 6.5 1421.29 245.05 42.25
11 38.7 7 1497.69 270.9 49
12 38.8 6.3 1505.44 244.44 39.69
13 39.6 7.9 1568.16 312.84 62.41
14 41 9 1681 369 81
Inciso a) Grfica de puntos

14

12

10

8
Resistencia (MPa)
6

0
20 30 40 50 60 70 80 90

MDE (GPa)

Inciso b) Obtener la ecuacin de la recta por mnimos cuadrados

=b o +b1 x

(219.8)(1217.9)
10406.5
27
b1= =0.107482 0.1075
(1217.9)2
59512.81
27
b0 =8.140740.107482 ( 45.1074 ) =3.2925

=3.2925+0.1075 x

Inciso c) Encontrar el valor de resistencia (y) esperado para un MDE (x)=40

=3.2925+0.1075 ( 40 )=7.5925

Inciso d) Encontrar el valor de resistencia (y) esperado para un MDE (x)=55.3

=3.2925+0.1075 ( 55.3 ) =9.2372

2
Inciso e) Estimar la y la para la prueba.

2=
( y i i )2 = 18.7356 =0.7494 = 2= 0.7494=0.8656
n2 25

Inciso f) Calcular el coeficiente de correlacin para la prueba

2
r =1
SCE
=1
( y i i )
2

=1
18.7356
=0.7383=73.83
2
STC ( y i ) 71.6052

El programa Microsoft Office Excel tiene la opcin de trazar esta lnea de tendencia
cuya ecuacin y valor del coeficiente de correlacin los arroja de manera automtica.

=3.2925+0.1075 x

r 2=0.7383=73.83
14

12
f(x) = 0.11x + 3.29
10 R = 0.74

8
Resistencia (MPa)
6

0
20 30 40 50 60 70 80 90

MDE (GPa)

Anlisis de correlacin y coeficientes de terminacin

El anlisis de correlacin es la herramienta estadstica que podemos usar para describir


el grado en el que una variable est linealmente relacionada con otra. Con frecuencia el
anlisis de correlacin se utiliza junto con el de regresin para medir que tan bien la

lnea de regresin explica la variable independiente y . Sin embargo, la correlacin

tambin se puede usar sola para medir el grado de asociacin entre dos variables, por
lo que utilizaremos dos medidas que describen la correlacin que son:

1) El coeficiente de determinacin.
2) El coeficiente de correlacin

2
El coeficiente de determinacin ( r ) es la principal forma en que podemos medir el

grado o fuerza de asociacin que existe entre dos variables x , y . Debido a que

usamos una muestra de puntos para desarrollar rectas de regresin, nos referimos a
esta medida como el coeficiente de determinacin.
Variacin de los valores y alrededor de la recta de regresin:

y y c 2

Variacin de los valores y alrededor de su propia media:

y y 2

Coeficiente de determinacin:

y y c 2

y y 2





r 2=1

a y +b xy n y 2
r 2=
y 2n y 2

Coeficiente de correlacin

r= r 2

En que se utiliza?

Se puede utilizar ms de una variable independiente para estimar la variable


dependiente e intentar aumentar la precisin de la estimacin.

Ejemplo:
La principal ventaja de la regresin mltiple es que nos permite utilizar ms informacin
disponible para estimar la variable dependiente.

Pasos:

1. Describimos la ecuacin de regresin mltiple.

2. Examinamos el error estndar de regresin mltiple de la estimacin.

3. Utilizamos el anlisis de correlacin mltiple para determinar qu tan bien la


ecuacin de regresin describe los datos observados.

Problema

El Servicio Interno de Contribuciones (IRS, Internal Revenue Service) de Estados


Unidos est tratando de estimar la cantidad mensual de impuestos no pagados
descubiertos por su departamento de auditoras. En el pasado, el IRS estimaba
esta cantidad con base en el nmero esperado de horas de trabajo de auditoras
de campo. En los ltimos aos, sin embargo, las horas de trabajo de auditoras
de campo se han convertido en un pronosticador errtico de los impuestos no
pagados reales. Como resultado, la dependencia est buscando otro factor para
mejorar la ecuacin de estimacin. El departamento de auditoras tiene un
registro del nmero de horas que usa sus computadoras para detectar impuestos
no pagados. Podramos combinar esta informacin con los datos referentes a
las horas de trabajo de auditoras de campo y obtener una ecuacin de
estimacin ms precisa para los impuestos no pagados descubiertos cada mes?
Deduccin de la ecuacin de la regresin mltiple

En la regresin simple, X es el smbolo utilizado para los valores de la variable


independiente. En la regresin mltiple tenemos ms de una variable independiente.

X1
Entonces, seguiremos usando X, pero agregaremos un subndice (por ejemplo, ,

X2
) para diferenciar cada una de las variables independientes.

En regresin simple

En regresin mltiple

Donde:

Y^ =valor estimado correspondiente a la variable dependiente

a =ordenada Y

X1 X2
y = valores de las dos variables independientes

b1 b2 X1 X2
y = pendientes asociadas con y , respectivamente.
Visualizacin de la regresin mltiple

Podemos visualizar la ecuacin de estimacin simple como una recta en una grfica; de
manera similar, podemos representar una ecuacin de regresin mltiple de dos
variables como un plano. Se trata de una forma o figura tridimensional, con profundidad,
largo y ancho.

Para obtener una idea intuitiva


de esta forma tridimensional,
visualice la interseccin de los
X1 X2
ejes Y, y como un
rincn de una habitacin.

Ajuste de plano para una regresin

El problema consiste en decidir cul de los planos que podemos dibujar ser el que
mejor se ajuste. Para hacer esto, de nuevo utilizaremos el criterio de mnimos
cuadrados y localizaremos el plano que minimice la suma de los cuadrados de los
errores, es decir, de las distancias de los puntos alrededor del plano a los puntos
correspondientes sobre el plano.
Ecuaciones

Se sustituye valores

Se resuelve la ecuacin
Sustituyendo en Y^ =a+b1 X 1 +b2 X 2

Y^ =13.828+0.564 X 1+1.099 X 2

El departamento de auditoras puede utilizar esta ecuacin mensualmente para estimar


la cantidad de impuestos no pagados que va a descubrir.
Ventajas de la regresin mltiple

La principal ventaja de la regresin mltiple es que nos permite utilizar ms informacin.


En algunas relaciones, la correlacin entre dos variables puede resultar insuficiente
para determinar una ecuacin de estimacin, sin embargo si agregamos los datos de
ms variables independientes, podemos ser capaces en determinar una ecuacin de
estimacin que describa la correlacin para la regresin mltiple y el anlisis de
correlacin implica un proceso de tres pasos como el que usamos en la regresin
simple:

1) Describimos la ecuacin de regresin mltiple


2) Examinamos el error estndar de regresin de la estimacin.
3) Utilizamos el anlisis de regresin mltiple para determinar que tambin describe
la ecuacin de regresin los datos observados.

Ejemplo

A un productor de comida para cerdos le gustara determinar qu relacin existe entre


la edad de un cerdo cuando empieza a recibir un complemento alimenticio de reciente
creacin, el peso inicial del animal y la cantidad de peso que aumenta en un periodo de
una semana con el complemento alimenticio. La siguiente informacin es resultado de
un estudio sobre 8 lechones.

a) Ajuste el siguiente modelo

Y^ =a+b1 X 1 +b2 X 2

Es decir, encuentre los estimadores de mnimo cuadrados que mejor describan estas
tres variables.

Y^ =4.191709+ 0.1048 X 1+ 0.805 X 2

b) A partir del modelo ajustado estime la respuesta Qu tanto deberamos de


esperar que un cerdo aumente de peso en una semana con el complemento
alimenticio si se tiene 9 semanas de edad y pesaba 48 lb?
Y^ =4.191709+ 0.1048 ( 48 ) +0.805 ( 9 ) 8.09
c) Encuentre el error estndar de estimacin y obtenga un intervalo de confianza

del 95% y determine el coeficiente de determinacin y el de correlacin.

Error estndar de estimacin= 0.883

Nota: El trabajo fue realizado en el programa Excel pero se agreg al portafolio.

Ejercicio

Dado el siguiente conjunto de datos, utilice el paquete de software que tenga


disponible para encontrar la ecuacin de regresin de mejor ajuste y responda a lo
siguiente:
Cul es la ecuacin de regresin?

Y C =a+b1 x1 +b 2 x 2+ b3 x3

Y C =34.80788+5.2617584 x 1 +(8.0186787) x2 +6.80836503 x 3

Cul es el error estndar de la estimacin?

4.0688
2
Cul es el valor del coeficiente de determinacin ( r ) y coeficiente de
correlacin?

0.9834
Cul es el valor pronosticado para Y cuando X1=5.8,X2,X3=5.1?
UNIDAD V
Unidad V Diseo de experimentos
El diseo estadstico de experimentos es precisamente la forma ms eficaz de hacer
pruebas. El diseo de experimentos consiste en determinar cules pruebas se deben
realizar y de qu manera, para obtener datos que, al ser analizados estadsticamente,
proporcionen evidencias objetivas que permitan responder las interrogantes planteadas,
y de esa manera clarificar los aspectos inciertos de un proceso, resolver un problema o
lograr mejoras. Algunos problemas tpicos que pueden resolverse con el diseo y el
anlisis de experimentos son los siguientes:

Comparar a dos o ms materiales con el fin de elegir al que mejor cumple los
requerimientos.

Comparar varios instrumentos de medicin para verificar si trabajan con la


misma precisin y exactitud.

Determinar los factores (las x vitales) de un proceso que tienen impacto sobre
una o ms caractersticas del producto final.

Encontrar las condiciones de operacin (temperatura, velocidad, humedad, por


ejemplo) donde se reduzcan los defectos o se logre un mejor desempeo del
proceso.

Reducir el tiempo de ciclo del proceso.

Hacer el proceso insensible o robusto a oscilaciones de variables ambientales.

Apoyar el diseo o rediseo de nuevos productos o procesos.

Ayudar a conocer y caracterizar nuevos materiales.

El diseo de experimentos como definicin es la aplicacin del mtodo cientfico para


generar conocimiento acerca de un sistema o proceso, por medio de pruebas
planeadas adecuadamente. Esta metodologa se ha ido consolidando como un conjunto
de tcnicas estadsticas y de ingeniera, que permiten entender mejor situaciones
complejas de relacin causa-efecto.
El objetivo de los mtodos estadsticos es lograr que el proceso de generar
conocimiento y aprendizaje sea lo ms eficiente posible. En este proceso, que ha de-
mostrado ser secuencial, interactan dos polos por un lado estn la teora, los
modelos, las hiptesis, las conjeturas y los supuestos; por el otro, estn la realidad, los
hechos, los fenmenos, la evidencia y los datos.

Para que un estudio experimental sea exitoso es necesario realizar, por etapas,
diferentes actividades. A continuacin se describen de manera breve las etapas del
diseo de experimentos con objeto de dar una visin global delo que implica su correcta
aplicacin.

Planeacin

1. Entender y delimitar el problema u objeto de estudio.

En la etapa de planeacin se deben hacer investigaciones preliminares que conduzcan


a entender y delimitar el problema u objeto de estudio, de tal forma que quede claro qu
se va a estudiar, por qu es importante y, si es un problema, cul es la magnitud del
mismo.

2. Elegir la(s) variable(s) de respuesta que ser medida en cada punto del diseo y
verificar que se mide de manera confiable.

La eleccin de esta(s) variable(es) es vital, ya que en ella se refleja el resultado de las


pruebas. Por ello, se deben elegir aquellas que mejor reflejen el problema o que
caractericen al objeto de estudio. Adems, se debe tener confianza en que las
mediciones que se obtengan sobre esas variables sean confiables. En otras palabras,
se debe garantizar que los instrumentos y/o mtodos de medicin son capaces de
repetir y reproducir una medicin, que tienen la precisin (error) y exactitud (calibracin)
necesaria.

3. Determinar cules factores deben estudiarse o investigarse, de acuerdo a la


supuesta influencia que tienen sobre la respuesta.

No se trata de que el experimentador tenga que saber a priori cules factores influyen,
puesto que precisamente para eso es el experimento, pero s de que utilice toda la
informacin disponible para incluir aquellos que se considera que tienen un mayor
efecto.
4. Seleccionar los niveles de cada factor, as como el diseo experimental
adecuado a los factores que se tienen y al objetivo del experimento.

Este paso tambin implica determinar cuntas repeticiones se harn para cada
tratamiento, tomando en cuenta el tiempo, el costo y la precisin deseada.

5. Planear y organizar el trabajo experimental.

Con base en el diseo seleccionado, organizar y planear con detalle el trabajo


experimental, por ejemplo, las personas que van a intervenir, la forma operativa en que
se harn las cosas, etc.

6. Realizar el experimento.
Seguir al pie de la letra el plan previsto en la etapa anterior, y en caso de algn
imprevisto, determinar a qu persona se le reportara y lo que se hara.

Anlisis

En esta etapa no se debe perder de vista que los resultados experimentales son
observaciones muestrales, no poblacionales. Por ello, se debe recurrir a mtodos
estadsticos inferenciales para ver si las diferencias o efectos muestrales
(experimentales) son lo suficientemente grandes para que garanticen diferencias
poblacionales (o a nivel proceso). La tcnica estadstica central en el anlisis de los
experimentos es el llamado anlisis de varianza ANOVA (acrnimo en ingls).

Interpretacin

Con el respaldo del anlisis estadstico formal, se debe analizar con detalle lo que ha
pasado en el experimento, desde contrastar las conjeturas iniciales con los resultados
del experimento, hasta observar los nuevos aprendizajes que sobre el pro-ceso se
lograron, verificar supuestos y elegir el tratamiento ganador, siempre con apoyo de las
pruebas estadsticas.

Control y conclusiones finales

Para concluir el estudio experimental se recomienda decidir qu medidas implementar


para generalizar el resultado del estudio y para garantizar que las mejoras se
mantengan. Adems, es preciso organizar una presentacin para difundir los logros..

Existen muchos diseos experimentales para estudiar la gran diversidad de problemas


o situaciones que ocurren en la prctica. Sin embargo, se mencionaran los que se
consideran ms importantes para el anlisis de procesos o proyectos de investigacin,
que son:

Experimentos con un factor.

Experimentos con dos factores.

Experimentos con tres factores.


Comparacin de las medias de los tratamientos.

Diseo de bloques totalmente aleatorizado.

Diseos factoriales:

Definicin de diseos factoriales 2K.

Diseos Factoriales Fraccionales.

Mtodos de Optimizacin.
Experimentos con un factor

En este tipo de diseo de experimento se considera un slo factor de inters y el


objetivo es comparar ms de dos tratamientos, con el fin de elegir la mejor alternativa
entre las varias que existen, o por lo menos para tener una mejor comprensin del
comportamiento de la variable de inters en cada uno de los distintos tratamientos.

El inters del experimentador se centra en comparar los tratamientos en cuanto a sus


medias poblacionales, sin olvidar que tambin es importante compararlos en relacin a
sus varianzas y su capacidad actual y futura para cumplir con los requerimientos de
calidad y productividad. La hiptesis fundamental a probar cuando se comparan varios
tratamientos es:

H O : 1=2==k =

H 1 : i j para alguni j

Con la cual se quiere decidir si los tratamientos son iguales estadsticamente en cuanto
a sus medias, contra la alternativa de que al menos dos de ellos son diferentes.

La estrategia natural para resolver este problema es obtener una muestra


representativa de mediciones en cada uno de los tratamientos con base en las medias y
varianzas muestrales, construir un estadstico de prueba para decidir el resultado de
dicha comparacin.

HO
En caso de aceptar , se concluye que los tratamientos son iguales en cuanto a la

HO
media de cierta variable de salida de inters. En caso de rechazar se acepta

H1
como verdadera la hiptesis alternativa , que indica que al menos dos de los

tratamientos son diferentes entre s, y faltara investigar precisamente cuales de ellos,


son los causantes de las diferencias detectadas. Es importante que las posibles
diferencias entre los datos se deban principalmente al factor de inters, y no a los
factores que no se consideran. Al existir otros factores no controlables se puede afectar
sensiblemente las conclusiones.

Familia de diseos para comparar tratamientos

Los diseos experimentales ms utilizados para comparar tratamientos son:

1. Diseo completamente al azar (DCA)


2. Diseo en bloque completamente al azar (DBCA)
3. Diseo en cuadro latino (DCL)
4. Diseo en cuadro grecolatino (DCGL)

La diferencia fundamental entre estos diseos es el nmero de factores de bloque1 que


incorporan o controlan de forma explcita durante el experimento. La comparacin de
los tratamientos en cuanto a la respuesta media que logran, en cualquiera de estos
diseos, se hace mediante la hiptesis

H O : 1=2==k =

H 1 : i j para alguni j

que se prueba con la tcnica estadstica llamada Anlisis de Varianza (ANOVA) con
uno, dos, tres o cuatro criterios de clasificacin, dependiendo del nmero de factores de
bloques incorporados al diseo.

Diseo Factores de ANOVA con Modelo estadstico

bloqueo
Y i : + i + i
DCA 0 Un criterio
Y i : + i + i+ ij
DBCA 1 Dos criterios

1 Factores de bloqueo: Son factores adicionales al factor de inters que se


incorporan de manera explcita en un experimento comparativo, para estudiar de
manera ms adecuada y eficaz al factor de inters
Y i : + i + i+ k + ijk
DCL 2 Tres criterios
Y i : + i + i+ k + l + ijk
DCGL 3 Cuatro criterios

Donde:

Y = Es la variable de salida

= Es el parmetro de escala comn a todos los tratamientos, llamado media


global.
i= Es un parmetro que mide el efecto de tratamiento i .

ij = Es el error atribuible a la medicin.

i , k , l= Son los efectos de tres factores de bloqueo.

El modelo estadstico que describe el comportamiento de la variable observada Y

en cada diseo, incorpora un trmino adicional por cada factor de bloqueo controlado.

De acuerdo con los modelos dados en la tabla, para cada diseo comparativo se tienen
al menos dos fuentes de variabilidad: los tratamientos o niveles del factor de inters y el
error aleatorio.

Se agrega una nueva fuente de variabilidad por cada factor de bloque que se controla
directamente. Se observa que los diseos suponen que no hay efectos de interaccin
entre los factores, lo cual sera lo deseable que ocurra; de no ocurrir as, tal efecto se
recarga al error y el problema de comparacin no se resuelve con xito.

Un efecto de interaccin entre dos factores hace referencia a que el efecto de cada
factor depende del nivel en que se encuentra el otro.

Diseo completamente al azar y ANOVA

El diseo completamente al azar (DCA) es el ms simple de todos los diseos, slo


considera dos fuentes de variabilidad: los tratamientos y el error aleatorio.
Se llama completamente al azar porque todas las corridas experimentales se realizan
en orden aleatorio completo; en apariencia no existe ninguna restriccin a la
aleatorizacin, es decir, si durante el estudio se hacen en total N pruebas, estas se
corren al azar, de manera que los posibles efectos ambientales y temporales se
repartan equitativamente entre los tratamientos.

ANOVA para el diseo completamente al azar (DCA)

El anlisis de varianza (ANOVA) es la tcnica central en el anlisis de datos


experimentales. La idea general de esta tcnica es separar la variacin total en las
partes con las que contribuye cada fuente de variacin en el experimento. En el caso
del DCA se separan la variabilidad debida a los tratamientos y la debida al error.
Cuando la primera predomina claramente sobre la segunda, es cuando se concluye
que los tratamientos tienen efecto (figura 1.b), o dicho de otra manera, las medias son
diferentes. Cuando los tratamientos no dominan contribuye igual o menos que el error,
por lo que se concluye que las medias son iguales (figura 1.a). Antes de comenzar con
el anlisis del DCA se introduce alguna notacin que simplifica la escritura de las
expresiones involucradas en dicho anlisis.

Figura 1. Variacin total en sus componentes en un DCA.


ANOVA de un factor

De k poblaciones se seleccionan muestras aleatorias de tamao n. Las k poblaciones


diferentes se clasifican con base en un criterio nico, como tratamientos o grupos
distintos. En la actualidad el trmino tratamiento se utiliza por lo general para designar
las diversas clasificaciones, ya sean diferentes agregados, analistas, fertilizadores o
regiones del pas.

Se supone que las k poblaciones son independientes y que estn distribuidas en forma

1 , 2 , , k 2 . Estas suposiciones son


normal con medias , y varianza comn

ms aceptables mediante la aleatoriedad. Se desean obtener mtodos adecuados para


probar las hiptesis

H O : 1=2==k

H 1 : Al menos dos de las medias no soniguales .

Modelo ANOVA para un factor

Cada observacin puede escribirse en la forma

Y ij : + i+ ij

Donde:

Y = Es la variable de salida

= Es el parmetro de escala comn a todos los tratamientos, llamado media


global.
i= Es un parmetro que mide el efecto de tratamiento i .

ij = Mide la desviacin que tiene la observacin j-sima de la i-sima muestra, con


respecto a la media del tratamiento correspondiente (error aleatorio).
Resolucin de la variabilidad total en componentes

Teorema 1.1 Identidad de la suma de cuadradados

En lo que sigue, ser conveniente identificar los trminos de la identidad de la suma de


cuadrados con la siguiente notacin:

= suma total de cuadrados.

= suma de los cuadrados del


tratamiento.

= suma de los cuadrados del error.

Entonces, la identidad de la suma de los cuadrados se puede representar


simblicamente con la ecuacin

STC=SCT + SCE

La identidad anterior expresa cmo las variaciones entre los tratamientos y dentro de
los tratamientos contribuyen a la suma total de cuadrados. Sin embargo, se puede
obtener mucha informacin si se investiga el valor esperado tanto de SCT como de
SCE.

Ejercicios

1. Cuatro laboratorios mide los pesos de recubrimientos de estao de 12 discos y


los resultados fueron los siguientes:

Laboratorio A Laboratorio B Laboratorio C Laboratorio D


0.25 0.18 0.19 0.23
0.27 0.28 0.25 0.30
0.22 0.21 0.27 0.28
0.30 0.23 0.24 0.28
0.27 0.25 0.18 0.24
0.28 0.20 0.26 0.34
0.32 0.27 0.28 0.20
0.24 0.19 0.24 0.18
0.31 0.24 0.25 0.24
0.26 0.22 0.20 0.28
0.21 0.29 0.21 0.22
0.28 0.16 0.19 0.21

Construya una tabla de anlisis de varianza y determine si los laboratorios estn


obteniendo resultados consistentes.

Los totales para las cuatro muestras son, respectivamente, 3.21, 2.72, 2.76 y 3.00; el
gran total es 11.69 y los clculos requeridos para obtener las sumas de cuadrados
necesarias son los siguientes:
11.69


2

C=

SST= (0.25)2+(0.27)2 ++ ( 0.21 )2 2.8470=0.0809

2 2 2 2
(3.21) +(2.72) +(2.76) +(3.00)
SS(Tr)= 2.8470=0.0130
12

SSE= 0.0089 0.0130 = 0.0679

Tabla de anlisis de varianza:

Fuente Grados Suma Cuadrado


de variacin de libertad de cuadrados medio F

Laboratorios 3 0.0130 0.0043 2.87

Error 44 0.0679 0.0015

Total 47 0.0809

F0.05
Como el valor obtenido para F excede de 2.82, el valor de con 3 y 44 grados de

libertad, la hiptesis nula puede rechazarse en el nivel de significancia de 0.05;


concluimos que los laboratorios no estn obteniendo resultados consistentes.

2. Se tienen las lecturas de Hb de estudiantes varones de 3 aulas de primero de


secundaria en un colegio:
1er Grado A 1er Grado B 1er Grado C
14 16 13
15 17 15
16 15 14
13 14 17
9 8 13
15 12 10
16 14 8

Se realiz el procedimiento correspondiente, en el cual se construy una tabla con los


resultados obtenidos.

1er Grado A 1er Grado B 1er Grado c


?

Media m 14 13.71 12.86 40.57


Tc
98 96 90 284

nc 7 7 7 21

1408 1370 1212 3990


x2
982 /7 962 /7
3845.71
T 2C /n C 902 /7

x 2 / N SSE= X 2 [T 2C /nC ]
2
SST = (T C / nc )

284 2
SSE=39903845.71=144.29

SST =3845.71

Tabla ANOVA
Fuente de variacin Suma de cuadrados Grados de libertad Cuadrado medio

Entre los grupos 4.95 3-1 2.457 = MSTR

En los grupos 144.29 21-3 8.016 = MSE

Total
F(MSTR / MSE) =0.309

Interpretacin

F(MSTR / MSE) =0.309


, es la funcin de prueba.

Con (3-1) y (21-3) grados de libertad = 2 grados de la libertad en el numerador y 18 en


el denominador.

F(2/ 18)=0.35546
, es el valor crtico de la distribucin F.

Se acepta la hiptesis nula.


Las medias aritmticas son
iguales.
RA RA
H0 H0

F(MSTR / MSE) =0.309 F(2/ 18)=0.35546

3. En un experimento se compararon tres mtodos de ensear un idioma


extranjero; para evaluar la instruccin, se administr una prueba de vocabulario
de 50 preguntas a los 24 estudiantes del experimento repartidos de a ocho por
grupo.
Cul es la variable respuesta y la explicativa en este estudio?

La variable respuesta es el puntaje en la prueba de vocabulario.

La variable explicativa son los mtodos de enseanza (auditivo, traduccin y


combinado). Es un factor con 3 niveles.

Complete la tabla de ANOVA: Tabla de anlisis de varianza (ANOVA)

Suma de GI Media F Sig.


cuadrados cuadrtica

Inter-grupos 323.792 0.002

Intra-grupos
21
Total
1460.958

Suma de GI Media F Sig.


cuadrados cuadrtica

Inter-grupos 647.584 2 323.792 8360 0.002

Intra-grupos 813.374 21 36.732

Total 1460.958 23

Pasos para completar la tabla:

1) Calculo los grados de libertad, en el total son n-1 y n=24, por lo tanto son 23. Los
grupos a comparar son 3 por lo tanto los grados de libertad son 2, verifico que (2+21)
son los 23 del total.

2) La suma de cuadrados Inter se obtiene multiplicando la media cuadrtica por los


grados de libertado, i.e. 323.792*2=647.584

3) Teniendo la suma de cuadrados Inter, saco la suma de cuadrado Intra restando


1460.958-647.584=813.374

4) Con la suma de cuadrado Intra y los grados de libertad calculo la media cuadrtica
Intra =813.374/21=38.732.

5) Por ltimo con las dos MC calculo el test F=323.792/38.732=8.360

c) Asuma que se cumplen los supuestos y realice la prueba de inters para el


investigador. Informe la conclusin del estudio.

Respuesta: Si se cumplen los supuestos, entonces podemos comparar las medias de


los mtodos de enseanza usando el test F de la ANOVA:

Hiptesis:

H 0=1= 2=3

H 1=al menos dos medias no son iguales .

De la tabla de ANOVA sacamos el test F=8,36 al que corresponde un valor-p de 0.002,


este valor-p es menor que el nivel de significacin de 0.05, por lo tanto rechazamos la
hiptesis nula y concluimos que existen diferencias significativas entre las medias de
los mtodos de enseanza al 5%.
Experimentos con dos factores
Para presentar la idea de un simple experimento de dos factores (dos variables), en el
contexto de fabricar coque, a partir de carbn para su uso en altos hornos: se busca
determinar los efectos de la temperatura del ducto y el ancho del horno en el tiempo
requerido para elaborar coque. El experimentador combinar 3 anchos de horno y 2
temperaturas, como se indica a continuacin.

Si se corren varios bloques (o repeticiones), cada una consistente en estos 6


tratamientos, sera posible analizar los datos como una clasificacin bidireccional y
someter a prueba las diferencias significativas entre las 6 medias del tratamiento. Sin
embargo, en este caso, el experimentador tiene inters en conocer mucho ms que
eso; desea saber si variaciones en el ancho de horno o en la temperatura del ducto de
escape afectan el tiempo de coccin, pero quiz tambin si algunos cambios en el
tiempo de coccin, atribuibles a variaciones en el ancho de horno, son los mismos a
temperaturas diferentes.

Es posible responder preguntas de este tipo si las condiciones experimentales los


tratamientos consisten en combinaciones adecuadas de los niveles (o valores) de los
diversos factores. En el ejemplo anterior, los factores son: ancho de horno y
temperatura de ducto de escape. El ancho de horno tiene 3 niveles: 4, 8 y 12 pulgadas,
en tanto que la temperatura de ducto de escape tiene dos niveles: 1,600 y 1,900 grados
Fahrenheit. Note que los 6 tratamientos se eligieron en tal forma que cada nivel de
ancho de horno se usa una vez, junto con cada nivel de temperatura del ducto de
escape. En general, si 2 factores A y B se investigarn en los niveles a y b,
respectivamente, entonces existen a b condiciones experimentales (tratamientos)
correspondientes a todas las combinaciones factibles de los niveles de los 2 factores. Al
experimento resultante se le conoce como experimento factorial a x b completo.
Se suele omitir la palabra completo, de modo que se entiende que un experimento
factorial a x b contiene condiciones experimentales correspondientes a todas las
combinaciones posibles de los niveles de los dos factores. Con la finalidad de obtener
una estimacin del error experimental en un experimento de dos factores, es necesario
replicar, esto es, repetir todo el conjunto de a b condiciones experimentales, por decir,
un total de r veces, haciendo aleatorio el orden de aplicacin de la condicin en cada

Y ijk k -sima repeticin, tomada en el i -


repeticin. Si es la observacin en la

simo en el nivel de factor A y el j simo nivel del factor B , el modelo

supuesto para el anlisis de este experimento por lo general se escribe como

Ecuacin del modelo para un experimento


ij + k + ijk
de dos factores
Y ijk=+ i + j +

i
Para i = 1,2,, a, j = 1,2,, b y k= 1,2,, r. Aqu es la gran media, es el

i -simo en el nivel de factor A , j j simo nivel del factor B ,


efecto el

ij i simo nivel del factor A y el


es la interaccin, o efecto conjunto, en el

j simo nivel del factor B , mientras que k k -sima


es el efecto de la

ijk
repeticin. Se supondr que son variables aleatorias independientes que tienen

distribuciones normales con medias cero y varianza comn 2 .

Las hiptesis tambin se pueden plantear con los efectos descritos en el modelo:
Estas hiptesis se prueban mediante la tcnica de anlisis de varianza, que para un

diseo factorial a xb con n rplicas resulta de descomponer la variacin total

como,

Donde los respectivos grados de libertad de cada una de ellas son:

SC
El factor ( n1 ) en los grados de libertad de la suma de cuadrados del error ( ),

seala que se necesitan al menos dos rplicas del experimento para calcular este
componente y, por ende, para construir una tabla de ANOVA. Recordemos que las
sumas de cuadrados divididas entre sus correspondientes grados de libertad se llaman

C M
cuadrados medios2 ( CM ). Al dividir stos entre el cuadrado medio del error ( )

se obtienen estadsticos de prueba con distribucin F .

Tabla 2.1 ANOVA para el diseo factorial a xb

FV SC GL CM F0 Valor- p

Efecto A S CA a1 CMA CMA / P(F> F 0A )

2 Cuadrados medios: Las sumas de cuadrados divididos entre sus correspondientes


grados de libertad.
C ME

Efecto B S CB b1 C MB C M B /C M E P( F> F B0 )

Efecto AB S C AB (a1)(b1) C M AB C M AB / P(F> F 0 )


AB

C ME

Error S CE ab(n1) C ME

Total S CT abn1

Si el valor- p es menor al nivel de signifcancia de prefijado, se rechaza la

hipotesis nula y se concluye que el correspondiente efecto est activo o influye en la


variable respuesta.

La suma de cuadrados totales es:

Donde N=abn es el total de observaciones en el experimento. Las sumas de

cuadrados de efectos son:

Y al final, al restar stas del total, se obtiene la suma de cuadrados del error como:

Ejercicios
1. Un ingeniero est diseando una batera que se usar en un dispositivo que se
someter a variaciones de temeraturas extremas. El nico parametro del diseo
que puede seleccionar en este punto es el material de la placa o anodo del a
bateria, y tiene tres elecciones posibles. Cuando el dispositivo est fabricado y
se envi al campo, el ingeniero no tendr control sobre las temperaturas
extremas en las que operar el dispositivo, pero sabe por experiencia que la
temperatura probablemente afectara la vida efectiva de la bateria. En este
problema, construya una tabla de anlisis de varianza para la vida de la batera.

En la siguiente tabla se presenta la vida efectiva (en horas) observadas en el diseo de


una bateria. Los totales de los renglones y las columnas se indican en los margenes de
la tabla y los numeros encerrados en un circulo son los totales de las celdas.

Las sumas de cuadrados se calculan de la siguiente manera:


a b n
y2
SS T = y 2ijk
i=1 j=1 k=1 abn

3799 2
=77,646.97
36
60 2
74 2+ +
155 2 +
130 2 +

3799


2
1
a
y2
SS Material = y i
2
1300 + ( 1501 2 ]
2
bn i=1 abn
998 2+

1

(3)(4)

b
1 y2
SS Temperatura=
an j=1
2
yj
abn

3799 2


1291 2+ ( 770 2 ]
1738 2 +

1

(3)( 4)

a b
1 y2
SS Interracin= y ij
2
SS Material SS Temperatura
n i=1 j=1 abn

539


342

3799


2

2
229 ++ ( 2 ]

1

4

SS E =SST SS Material SS TemperaturaSS Interaccin


SS E =77,646.9710,683.7239,118.789,613.78=18,230.75

Tabla de Anlisis de varianza de los datos de la vida de la batera


Fuente de Suma de Grados de Cuadrado
variacin cuadrados libertad medio F0 Valor P

Tipos de 10,683.72 2 5,341.86 7.91 0.0020


material

Tempertura 39,118.72 2 19,559.36 28.97 0.0001

Interaccin 9,613.78 4 2,403.44 3.56 0.0186

Error 18,230.75 27 675.21

Total 77,646.97 35

F0.05,4 .27=2.73
Puesto que , se concluye que hay una interaccin significativa entre los

F0.05,2 .27 =3.35


tipos de material y la temperatura. Adems, , por lo que los efectos

prnicipales del tipo de material y la temperatura tambin son significativos.

2. En la tabla adjunta se presentan los tiempos, en minutos, de conexin con una


direccin de internet desde cuatro puntos geogrficos de una regin y en tres
horas determinadas. El experimento se repeta cuatro veces y era diseado para
estudiar la influencia del factor hora de conexin y el factor lugar de la
conexin en la variable de inters tiempo de conexin.
Analizar estos datos y estudiar la influencia de los dos factores

Lugar A Lugar B Lugar C Lugar D

Hora 1 031 045 082 110 043 045 045 071


046 043 088 072 063 076 066 062

Hora 2 036 029 092 061 044 035 056 102


040 023 049 124 031 040 071 038

Hora 3 022 021 030 037 023 025 030 036


018 023 038 029 031 022 031 033

Solucin

Estimacin de los parmetros.

Se obtienen las siguientes tablas de medias y estimaciones

Lugar A Lugar B Lugar C Lugar D i i

Hora 1 0413 0880 0568 0610 0618 0139

1j

Hora 2 0320 0815 0375 0667 0544 0065

2j

Hora 3 0210 0335 0235 0325 0276 -0203

3j

.j 0314 0667 0393 0534

j -0165 0198 -0086 0055 =0479


ij Lugar A Lugar B Lugar C Lugar D

Hora 1 -0040 0064 0036 -0063

Hora 2 -0059 0073 -0083 0068

Hora 3 0099 -0139 0045 -0006

De donde se reduce la siguiente tabla de residuos:

Residuos Lugar A Lugar B Lugar C Lugar D

Hora 1 -0103 045 -0062 0220 -0138 -0118 -0160 0100


0047 0017 0000 -0160 0062 0192 0050 0010

Hora 2 0040 -0030 0105 -0205 0065 -0025 -0107 -0353


0080 -0090 -0325 0425 -0065 0025 0043 -0287

Hora 3 0010 0000 -0035 0035 -0005 0015 -0025 0035


-0030 0020 0045 -0045 0005 -0015 -0015 0005

Utilizando las estimaciones y residuos obtenidos se realiza la siguient tabla ANOVA

Tabla ANOVA
Fuente de Suma de Grados de Cuadrado
variacin cuadrados libertad medio F0 Valor P

Factor hora 10330 2 05165 23222 00000


Factor lugar 09212 3 03071 13806 00000

Interaccin 02501 6 00417 1874 01123

Variab. Exp. 22043 11


Total

Error 08007 36 0.0222 R=0149

Total 30050 47 0.0639 Y=0253

De esta tabla se deducen los siguientes contrastes:

El contraste de la hiptesis: no existe interaccin entre los factores T y T . Se


realiza por el estadstico

es razonable aceptar la hiptesis de no influencia de la interaccin entre lugar y hora.

El contraste de la hiptesis: el factor hora no influye. Se realiza por el


estadstico

se rechaza esta hiptesis de no influencia del factor hora.

El contraste de la hiptesis: el factor lugar no influye.

se rechaza esta hiptesis de no influencia del factor lugar.


3. En un experimento llevado a cabo para determinar cul de tres sistemas de
misiles es preferible, se midi el promedio de consumo de los propulsores para
24 encendidos estticos. Se utilizaron cuatro tipos diferentes de propulsores. En
el experimento se observaron duplicados de promedios de consumo en cada
combinacin de los tratamientos. Los datos despus de codificarse son:

Tipo de Impulsor

Sistema de B1 B2 B3 B4
Misiles

A1 34 30.1 29.8 29

32.7 32.8 26.7 28.9

A2 32 30.2 28.7 27.6

33.2 29.8 28.1 27.8

A3 28.4 27.3 29.7 28.8

29.3 28.9 27.3 29.1

Utilice un nivel de significancia de .05 para probar las siguientes Hiptesis

1.- H '0 no existe diferencia en las tasas medias de consumo del propulsor cuando

utilizan diferentes misiles

2.- H '0' no existe diferencia en las tasas medias de consumo de los cuatro tipos de
propulsor

3.- H '0' ' no existe interaccin entre los diferentes sistemas de misiles y los diferentes
tipos de propulsor

Solucin
'
1. a) H 0 : 1= 2= 3=0

b) H 0' : 1= 2= 3=0

''
c) H 0 :( )11 =( )12==( )34 =0

'
i' s
2. a) H 1 : al menos una de las no es igual a cero.
''
i' s
b) H 2 : al menos una de las no es igual a cero.
'' '
c) H 3 : al menos una de las ( )ij ' s no es igual a cero.

3. =0.05

f 1 >3.89, b f 2=3.49, c f 3>3.00


4. Regiones criticas: a) .

5. Clculos: Se construye primero la siguiente tabla de totales:

As pues
2
710.2


2
SST =(34.0) +(32.7)2+ + ( 29.1 )
2

21704.6821016.00=91.68
2
228.8

710.2 2


237.4 2 +
2
244 +

SSA=

21056.0821016.00=40.08

57.9 2

2
65.2 + +
66.7 2+

SS ( AB ) =

21056.08+ 21016.00=22.17

SSE=91.6814.5240.0822.17=14.91

6. Decisin:
'
a) Rechazar H 0 y concluir que diferentes sistemas de misiles dan como resultado

diferentes medias de los promedios de ignicin de los impulsores.

b) Rechazar H 0' y concluir que no hay que las medias de los promedios de ignicin

de los impulsores no son las mismas para los cuatro tipos de impulsores.

''
c) Aceptar H 0 y concluir que no hay interaccion entre los diferentes sistemas de

misiles y los diferentes tipos de impulsor.


Ya que no hay interaccin significativa, las pruebas acerca de los sistemas de misiles y
de los promedios de ignicin de los impulsores tienen sentido.

Tabla de Anlisis de varianza

Fuente de Suma de Grados de Cuadrado


variacin cuadrados libertad medio F0

Sistema de 14.52 2 7.26 5.85


misiles

Tipo de 40.08 3 13.36 10.77


impulsor

Interaccin 22.17 6 3.70 2.98

Error 14.91 12 1.24

Total 91.68 23

Experimentos con tres factores


Se considera un experimento con 3 factores, A, B y C, en los niveles a, b y c,
respectivamente, en un diseo experimental completamente aleatorizado. Suponga de
nuevo que se tienen n observaciones para cada una de las abc combinaciones de
tratamientos. Debemos proceder a realizar las pruebas de significancia para los 3
efectos principales y las interacciones implicadas. Se espera poder utilizar despus esta
descripcin para generalizar el anlisis a k > 3 factores.
El modelo para el experimento de 3 factores es

i=1,2, , a; j=1,2, , b ; k=1,2, , c ; y l=1,2, , n , Donde i , j , y k


son los efectos

ij ik jk
principales y , y son los efectos de la interaccin de 2 factores

que tienen la misma interpretacin que en el experimento con 2 factores.



El trmino se denomina efecto de interaccin de 3 factores, y representa la no

ij
aditividad de las sobre los diferentes niveles del factor C. Igual que antes, la

suma de todos los efectos principales es igual a 0, y la suma sobre cualesquiera de los
subndices de los efectos de la interaccin entre 2 y 3 factores es igual a 0. En muchas
situaciones experimentales estas interacciones de orden superior son insignificantes y
sus cuadrados medios slo reflejan variacin aleatoria; pero se debe describir el
anlisis en su forma ms general.

Nuevamente, para realizar pruebas vlidas de significancia debe suponerse que los
errores son valores de variables aleatorias independientes y con distribucin normal,

cada una con media igual a 0 y varianza comn 2 .

La filosofa general respecto al anlisis es la misma que la que se estudi para los
experimentos de 1 y 2 factores. La suma de cuadrados se divide en 8 trminos, donde
cada uno representa una fuente de variacin de los que se obtienen estimados
2
independientes de cuando todos los efectos principales y de la interaccin son

iguales a 0. Si los efectos de cualquier factor dado o interaccin no son iguales a 0,


entonces el cuadrado medio estimar la varianza del error ms un componente debido
al efecto sistemtico en cuestin.

Suma de cuadrados para un experimento de tres factores

Los clculos en una tabla de anlisis de varianza para un problema de 3 factores con n
rplicas de corridas para cada combinacin de factores:

Tabla ANOVA para el experimento de 3 factores con n rplicas


Ejercicios

1. En la produccin de un material en especfico hay 3 variables de inters: A, el


efecto del operador (3 operadores): B, el catalizador utilizado en el experimento
(3 catalizadores); y C, el tiempo de lavado del producto despus del proceso de
enfriamiento (15 y 20 minutos). Se realizaron 3 corridas con cada combinacin
de factores. Se consider que deban estudiarse todas las interacciones entre los
factores. En la tabla se presentan los productos codificados. Realice un anlisis
de varianza para probar si existen efectos significativos.

Solucin. Primero se construyen las siguientes tablas en dos direcciones:

1 2 3
C
Total
15 Minutos
B C Total
A
1 32.8 31.0 34.8 1 98.6
2
2 34.7 31.6 31.4 97.7
3 42.2 35.1 1
33.6 109. 101.
110.9 211.3
2 7 6 192.
Total 109.7 97.7 99.8 307.8
3 97.7 94.5 2
99.8 103. 202.
1 9

Tota 307. 299. 606.


l 2 2 4
B

C
Total
20
1 2 3
Minuto
s

A
1 34.5 31. 34.9 101.
2 32.0 9 32.5 3
3 35.1 30. 35.7 94.5 B
0 103.
32. 9 A
Total
6
1 2 3
Total 101. 94. 103. 299.
6 5 1 2
1 67.3 61.9 69.7 199.9
2 66.7 61.6 63.9 192.2
3 77.3 67.7 69.3 214.3

A C Total Total 211.3 192.2 202.9 606.4

1 2

1 98.6 101.3 199.9


2 97.7 94.5 192.2
3 110.9 103.4 214.3

Total 307.2 299.2 606.4


2
606.4


2
SST =(10.7)2+(10.8)2+ + ( 12.2 )

6872.846809.65=63.19

214.3 2

606.4 2


192.2 2+
2
199.9 +

SSA=

6823.63680965=13.98

2
202.9

606.4 2


192.2 2+
211.3 2 +

SSB=

6819.836809.65=10.18
2
299.2

606.4 2


307.2 2+

SSC=

6810.836809.65=1.18

2
69.3

2
66.7 ++
67.3 2+

SS ( AB )=

4.78

103.4 2

2
97.7 ++
98.6 2 +

SS ( AC ) =

2.92

103.1 2

97.7 2 ++
109.7 2+

SS ( BC )=

3.64
35.7 2

2
34.7 ++
32.8 2+

SS ( ABC )=

SSE=63.1913.9810.181.184.782.923.644.89=21.62

Tabla de Anlisis de varianza

Fuente de variacin Suma de Grados de Cuadrado


cuadrados libertad medio Fcalculada

Efectos principales
A 13.98 2 6.99 11.65
B 10.18 2 5.09 8.48
C 1.18 1 1.18 1.97

Interaccin de dos
factores
AB 4.78 4 1.20 2.00
AC 2.92 2 1.46 2.43
BC 3.64 2 1.82 3.03

Interaccin de tres
factores
ABC 4.89 4 1.22 2.03

Error 21.62 36 0.60

Total 63.19 53
Ninguna de las interacciones muestra un efecto significativo al nivel =0.05 . Los

efectos del operador y del catalizador son significativos en tanto que el tiempo de
lavado no tiene un efecto significativo sobre el comportamiento para el rango utilizado.

2. Un ingeniero mecnico est estudiando la rugosidad superficial de una pieza


producida en una operacin de corte metlico. Son de inters tres factores: la tasa de
alimentacin (A), la profundidad de corte (B) y el ngulo de filo (C). A cada factor se le
han asignado dos niveles, y se estn ejecutando dos rplicas de diseo factorial. Los
datos codificadores se muestran en la tabla siguiente. Los totales de celda de tres

ijk
sentidos se encierran en crculo en esta tabla.

Tabla 2.1 Datos registrados de rugosidad superficial


La suma de los cuadrados se calcula
La tasa de alimentacin tiene un efecto significativo en el acabado superficial (

< 0.01 ), como sucede con la profundidad de corte ( 0.05< <0.10 ). Existe cierta

evidencia de una ligera interaccin entre estos factores, ya que la prueba de F para la
interaccin AB es exactamente menor que el 10% del valor crtico.

Tabla de Anlisis de varianza

Fuente de variacin Suma de Grados de Cuadrado


cuadrados libertad medio Fcalculada

Tasa de
alimentacin (A) 45.5625 1 45.5625 18.69
Profundidad de 1
corte (B) 10.5625 10.5625 4.33

ngulo de corte (C) 3.0625 1 3.0625 1.26

AB 7.5625 1 7.5625 3.10

AC 0.0625 1 0.0625 .03

BC 1.5625 1 1.5625 .64

Interaccin de tres
factores
ABC 5.0625 1 5.0625 2.08

Error 19.5000 8 2.4375

Total 92.9375 15

3. Supondremos que se toma una observacin por cada combinacin de factores, por
tanto hay un total n= abc observaciones.

Parmetros para estimar:


A pesar de las restricciones impuestas al modelo, el nmero de parmetros (abc + 1)
supera al nmero de observaciones (abc). Por lo tanto, algn parmetro no ser
estimable.

Estimacin de parmetros del modelo

Los estimadores mximos verosmiles de los parmetros del modelo son

El E.M.V de de es = y...

Los E.M.V. de los efectos principales son: i = i.. ... ; j = .j. ... ; k =
..k ...

Los E.M.V. de las interacciones de segundo orden son: ( ij) = yij. i.. .j. +
... ( ) ik = yi.k i.. ...k + ... ; jk = y.jk .j. ...k + ...

El E.M.V. de la interaccin de tercer orden

() ijk = yijk i j k ij ( ) ik jk = = yijk yij. i.k .jk


+ i.. + .j. + ..k ...

Descomposicin de la variabilidad

En este modelo la variabilidad total se descompone en:

SCT = SCA + SCB + SCC + SC(AB) + SC(AC) + SC(BC) + SC(ABC) + SCR

Ests sumas de cuadrados se pueden expresar como:


Al tratarse de un modelo sin replicacin, los contrastes slo se pueden realizar si se
supone que la interaccin de tercer orden es cero. En esta hiptesis, CM(ABC) = CMR
y los contrastes de cada uno de los factores e interacciones comparan su cuadrado
medio correspondiente con la varianza residual para construir el estadstico de
contraste. El objetivo del anlisis es realizar los contrastes de hiptesis nula que se
muestran a continuacin junto con el estadstico de contraste correspondiente :

Fijado un nivel se significacin , se rechaza la Ho correspondiente si F exp > F Terica.


Tabla ANOVA: Modelo factorial con tres factores (sin replicacin)

F.V S.C G.L C.M Fexp

Factor A SCA a1 CMA CMA/CMR

Factor B SCB b1 CMB CMB/CMR

Factor C SCC c1 CMC CMC/CMR

AXB SC(AB) (a 1)(b 1) CM(AB) CM(AB)/CMR

AXC SC(AC) (a 1)(c 1) CM(AC) CM(AC)/CMR

BXC SC(BC) (b 1)(c 1) CM(BC) CM(BC)/CMR

AXBXC SC(ABC) (a 1)(b 1)(c 1) CMR CM(ABC)/CMR

TOTAL SCT abc 1 CMT

Se estn investigando los efectos sobre la resistencia del papel que producen la
concentracin de fibra para madera (factor A), la presin del tanque (factor B) y el
tiempo de coccin e la pulga (factor C). Se seleccionan dos niveles de la concentracin
de madera (T1, T2), tres niveles de la presin (1, 2, 3) y los dos niveles de tiempo
(t1, t2). Pueden considerarse todos los factores fijos. Analizar los resultados y obtener
las conclusiones apropiadas.

1 2

1 2 3 1 2 3

1 y 111=10 y 121 =20 y 131 =2 y 112=6 y 122 =23 y 132 =2

2 y 211=26 y 221 =28 y 231 =30 y 212 =30 y 222 =34 y 232 =32
Vamos a calcular los totales marginales y las sumas de cuadrados:

AXB 1 2 3 A

1 y 11=16 y 12=43 y 13=0 y 1.. =59

2 y 21=56 y 22=62 y 23=62 y 2.. =180

B y ,1=72 y ,2=105 y ,3 =62 y =239

AXC 1 2

1 y 11=32 y 12=27

2 y 21BX
=84C 1
y 22=96 2

C y ,1=116 1 y ,2=123y 11=36 y 12=36

2 y 21=48 y 22=57

3 y ,31=32 y ,22=30
La tabla anova resultante es:

F.V S.C G.L C.M Fexp

Factor A 1220.08 1 1220.08 770.579

Factor B 253.16 2 126.58 79.947

Factor C 4.083 1 4.083 2.579

AXB 231.16 2 115.58 73.00

AXC 24.083 1 24.083 15.211

BXC 17.167 2 8.583 5.421

AXBXC 3.167 2 1.583

TOTAL 1752.9 11
Realizando los contrastes al nivel de significacin del 5%, se concluye que son
significativos los efectos de los factores A (F0,05,1,2 = 18,51), B y A B (F0,05,2,2 =
19).
Comparacin de las medias de los tratamientos
H 0=1= 2==K = H 1 : i j ,
Cuando se rechaza y se acepta para algn

i j ; es necesario investigar cuales tratamientos resultaron diferentes o cuales

tratamientos provocan la diferencia. La respuesta consiste en hacer la siguiente prueba:

H 0 : i j H 1 : i j para toda i j

H0
Mtodo LSD (diferencia mnima significativa). Una vez que se rechaz en el

ANOVA, el problema es probar la igualdad de todos los posibles pares de medias con la
hiptesis. Para k tratamientos se tienen en total k(k-1)/2 pares medias. Se rechaza

H 0 : i j
si ocurre |Y iY J|> LSD , donde

LSD=t
2
,N k
1 1
. CME( + )
ni n j

LSD se llama diferencia mnima significativa (least signicant difference), ya que es la


diferencia mnima que debe haber entre dos medias muestrales para poder considerar
que los tratamientos son significativamente diferentes. Note que si el diseo es

ni=n j
balanceado, es decir, si la diferencia mnima significativa se reduce a

LSD=t
2
,N k 2
. CME( )
n

Es una prueba para comparar dos medias y su uso en comparaciones simultneas se


justifica slo en las siguientes condiciones: (a) La prueba F resulta significativa. (b) Las
comparaciones fueron planeadas antes de ejecutar el experimento.

Mtodo de Tukey (HSD). En este procedimiento se usa la distribucin de probabilidad

Q ,m , n m
de rango estudentizado, que representamos con , donde son los grados
de libertad del numerador n los grados de libertad del denominador, el cual


representamos con . Se rechaza
H 0 : i j
, si ocurre |Y iY J|>Tukey , donde

ni=n j =n
Cuando el diseo est balanceado, es decir, si

Este procedimiento es llamado tambin diferencia significativa honesta, se utiliza para


realizar comparaciones mltiples de medias cuando a posterior el diseo evidencia
diferencia entre los tratamientos. Esta prueba es similar a la prueba de Duncan en
cuanto a su procedimiento y adems ms exigente.

Mtodo de Duncan. Si las k muestras son de igual tamao, se acomodan los k


promedios en orden ascendente y el error estndar de cada promedio se estima con

1
n
CME . Si alguna o todas las muestras tienen tamaos diferentes se reemplazan

ni ,
con n por la media armnica de las al calcular el error estndar de los promedios.

ni ,
La media armnica de las est dada por

De la tabla de rangos significantes de Duncan se obtiene el valor crtico r ( p ,l) ,

donde p=1,2, , k y l= grado de libertad para el error


Se rechaza
H 0 : i= j ,
si ocurre |Y iY J|> Duncan . Este procedimiento es utilizado

para realizar comparaciones multiples de medias; para realizar esta prueba no es


necesario realizar previamente la prueba F y que esta resulte significativa; sin embargo,
es recomendable efectuar esta rueba despues de que la prueba F haya resultado
significatica, a fin de evitar contradicciones entre ambas pruebas.

Mtodo de Dunnet . En ocasiones uno de los k tratamientos a comparar es el llamado


tratamiento control y el inters fundamental es comparar los k -1 tratamientos restantes
con dicho control. En muchos casos el tratamiento control se refiere a la ausencia de
tratamiento, es decir, a un grupo de especmenes de prueba a los que no se les aplica
la sustancia o aditivo de los que se estn comparando. Por ejemplo, al comparar varios
medicamentos para el resfriado es conveniente que uno de los tratamientos sea el que
los pacientes no utilicen ningn medicamento, esto sirve como referencia para decidir la
posible utilidad de los medicamentos. Por facilidad denotemos como tratamiento control
al k-simo tratamiento. Comparar respecto al control implica probar las k - 1 hiptesis
dadas por

De la tabla de rangos significantes de Dunnet se obtiene el valor crtico D (k 1,l) ,

donde p=1,2, , k y l= grado de libertad para el error.

Se rechaza
H 0 : i= j ,
si ocurre |Y iY J|> Dunnet

Ejercicios
1. Se realiz un experimento para comparar cinco marcas diferentes de filtros de
aceite para automviles con respecto a su capacidad de atrapar materia extraa.

i
Sea la cantidad promedio verdadera de material atrapado por filtros marca

i(i=1, ,5) en condiciones controladas. Se utiliz una muestra de nueve

filtros de cada marca y se obtuvieron los siguientes cantidadades me medias

muestrales: X 1=14.5 , X 2=13.8 , X 3=13.3 , X 4 =14.3 , X 5=13.1 . La

tabla siguiente es una tabla ANOVA que resume la primera parte del anlisis.

Tabla ANOVA

F0.05,4 .40=2.61, H 0
Como es rechazada a un nivel de 0.05. Ahora utilice el

i
procedimiento de Tukey para buscar diferencias significativas entre laas . En

Q0.05,5 .40=4.04 w=4.04 0.088 /9=0.4 . Despus de


tablas el valor de por lo tanto

ordenar las cinco medias muestrales en orden creciente, y se subraya cada par que
difiera en menos de 0.4:
As pues las marcas 1 y 4 no son significativamente diferentes una de otra, pero s son
ms altas de manera significativa que las otras tres marcas en sus contenidos promedio
verdaderos. La marca 2 es significativamente mejor que la 3 y 5 pero peor que la 1 y 4 y
las marcas 3 y 5 no difieren en modo significativo.

2. Se realiz un experimento para determinar la cantidad (en gramos) degrasa


absorbida por 48 donas (doughnuts) usando ocho tipos diferentes de grasas
(aceites y mantecas). Las medias para los ocho tratamientos se muestran a
continuacin:

Se usaron seis "donas" en cada tipo de grasa y se obtuvo un cuadrado medio del error
de 141.6, los grados de libertad del error son 48 8 =40

Seleccionando = 0.05 para este ejemplo, los rangos de Duncan son:

Los valores 3.300, 3.266,..., 2.858 se obtuvieron de la tabla de Duncan para = 0.05,
2 p 8 y 40 grados de libertad. El siguiente paso es ordenar las medias en orden
creciente para establecer los "rangos".
D8
El rango entre las medias mxima y mnima se compara con , esto es,

X 4 X 1 =24> D8 , entonces existe diferencia significativa entre las grasas 4 y 7.

D7
El prximo paso es comparar subconjuntos de siete medias con el rango .

4 5
, entonces

3 1
, entonces

D7
Como los dos exceden el rango se subdividen estos dos subconjuntos en

conjuntos de seis medias.

4 5
, entonces

3 8
, entonces

2 1
, entonces

D6
Nuevamente stos exceden , entonces stos se subdividen en subconjuntos de

cinco medias:

4 =1
entonces

3 5
, entonces

2 8
, entonces
6=1
, entonces

Como las medias para las grasas 3, 2, 6 y 1 estn incluidos en el conjunto 43261 que
fue no significativo, los rangos de las medias en el subconjunto 3261 no se comparan
con D4; solamente los rangos de las medias en el subconjunto 2615 se comparan
con D4; por lo tanto,

2=5
,entonces,

Los otros subconjuntos de cuatro medias (3,2,6,1) y (6,1,5,3) no se comparan


con D4 porque ya fueron declarados no significativos en los conjuntos de cinco medias.
Por lo tanto, el proceso termina.

Los resultados se muestran grficamente en la siguiente figura, donde las medias que
estn debajo de una lnea no son significativamente diferentes.

El investigador puede concluir que las cantidades absorbidas usando las grasas 4 y 3
son significativamente mayores que las 5, 8 y 7, y que la 2 es significativamente mayor
que las 8 y 7 y las dems grasas no son significativamente diferentes en relacin con la
cantidad absorbida.

3. Un ingeniero de desarrollo de productos tiene inters en investigar la resistencia


a la tensin de una fibra sinttica nueva que se usar para hacer tela de camisas
para caballero. El ingeniero sabe por experiencia previa que la resistencia a la
tensin se afecta por el peso porcentual del algodn utilizado en la mezcla de
materiales de la fibra. Adems, sospecha que al aumentar el contenido de
algodn se aumentar la resistencia, al menos en un principio. Sabe as mismo
que el contenido de algodn deber variar entre 10 y 40 por ciento para que el
producto final tenga otras caractersticas de calidad que se desean (como la
capacidad de ser sometido a un tratamiento de planchado permanente). El
ingeniero decide probar ejemplares en cinco niveles del peso porcentual del
algodn: 15, 20, 25, 30 y 35 por ciento. Tambin decide probar cinco ejemplares
en cada nivel del contenido de algodn.

Se trata de un ejemplo de un experimento con un solo factor con a=5 niveles de

factor y n=5 rplicas. Las 25 corridas debern realizarse de manera aleatoria. Para

ilustrar cmo puede aleatorizarse el orden de lad corridas, suponga que las corridas se
numeran de la siguiente manera:

Obtener la diferencia entre los pares de medias

Buscar en la distribucin t
Calcular la diferencia minima significativa

Comparar la diferencia de todos los pares de medias con el valor LSD

Para que la tensin sea ms


resistente utiliza un porcentaje de
algodn del 30%. Calidad Mayor es
mejor.
Diseo de bloques totalmente aleatorizado
En algunos experimentos hay factores que varan y tienen un efecto en la
respuesta,pero esosefectos son irrelevantes para el experimentador. Por ejemplo, una
situacin que ocurre comnmente es que resulta imposible terminar un experimento en
un da, por lo que las observaciones se tienen que continuar durante varios das. Si las
condiciones que pueden afectar elresultado se desvan da tras da,entonces este
concepto representa un factor en el experimento,aunque puede haber un nulo
inters en calcular su efecto.

Para un ejemplo ms especfico, imagine que se evalan tres tipos de fertilizantes


conrespecto a su efecto sobre la cosecha de fruta en una huerta de naranjas, y que se
realizarntres replicas con un total de nueve observaciones. Un rea se divide en nueve
parcelas,en treshileras de tres parcelas cada una. Suponga que hay una cada de agua
a lo largo del rea de la parcela, por lo que ahora las hileras reciben cantidades
diferentes de agua. La cantidad delagua es ahora un factor en el experimento,aunque
no hay inters en calcular el efecto de lacantidad de agua sobre la cosecha de naranja.

Si se ignora el factor de agua, un experimento de un solo factor se podra realizar con el


fertilizante como el nico factor. Cada uno de los tres fertilizantes sera asignado a tres
parcelas. En un experimento completamente aleatorio, los tratamientos seran
asignados a lasparcelas al azar. La figura siguiente presenta dos arreglos aleatorios
posibles. En el arreglo de la izquierda, las parcelas con el fertilizante A tienen ms agua
que las de los otros dos fertilizantes. En la parcela de la derecha, las parcelas con el
fertilizante C tienen ms agua. Cuando los tratamientos para un factor son asignados
completamente al azar, es probable que no sea distribuido uniformemente sobre los
niveles de otro factor.
Figura 5.5.1 Dos arreglos posbiles para tres fertilizantes, A, B y C, asignados a las nueve
parcelas en forma completamente aleatoria. Es probable que las cantidades de agua sean
diferentes para los fertilizantes.

Si la cantidad de agua tiene un efecto insignificante sobre la respuesta, entonces es


adecuado el diseo de un solo factor completamente aleatorio. No hay por qu
preocuparse por un factor que no afecta la respuesta. Pero ahora suponga que el nivel
de agua tiene un impacto importante en la respuesta. Entonces la figura 5.5.1 muestra
que en cualquier otro experimento los efectos estimados de los tratamientos estn
probablemente fuera de marca, o sesgados, por los niveles diferentes del agua. Los
arreglos diferentes de los tratamientos desvan las estimaciones en
diferentes direcciones. Si el experimento se repite varias veces, las estimaciones
probablemente varen mucho de repeticin en repeticin. Por esta razn, el diseo un
solo factor completamente aleatorio produce efectos estimados que tienen incerti-
dumbres grandes. Un mejor diseo para este experimento es uno que contenga
dos factores,con el agua como el segundo factor. Debido a que los efectos del agua
son irrelevantes, el agua se llama factor bloqueado ,en vez de un factor de tratamiento.
En el experimento de dos factores haynueve combinaciones de bloque de tratamiento,
por lo que corresponde a los tres niveles deltratamiento fertilizante y a los tres niveles
de bloque de agua. Con nueve unidades experimentales (las nueve parcelas) es
necesario asignar una parcela a cada combinacin de fertilizante y agua. La figura
5.5.2 presenta dos arreglos posibles.

Figura 5.5.2. Dos posbiles arreglos para tres fertilizantes, A,B y C, con la restriccin que cada
fertilizante debe aparecer una vez en cada nivel de agua (bloque). La distribucin de niveles de
agua es siempre la misma para cda fertilizante.
En el diseo de dos factores cada tratamiento aparece con la misma frecuencia en cada
bloque. Por consiguiente, el efecto del factor bloqueado no contribuye a la
incertidumbre en la estimacin de los efectos principales del factor de tratamiento.
Como consecuencia de que cada tratamiento debe salir con la misma frecuencia en
cada bloque, la nica aleatorizacin en la asignacin de tratamientos para unidades
experimentales esel orden en el que salen los tratamientos en cada bloque. ste no es
un diseo completamente aleatorio; es uno en el que los tratamientos estn
aleatorizados dentro de los bloques. Debido a que cada combinacin posible de
tratamientos y bloques es incluida en el experimento, el diseo est completo . Por esta
razn el diseo se llama diseo de bloques completamente aleatorios.

Estos ltimos se pueden construir con varios factores de tratamiento y varios factores
de bloques. Se restringir este anlisis al caso donde hay un factor de tratamiento y un
factor bloqueado. Los datos de un diseo de bloques completamente aleatorios se
analizan con un ANOVA de dos sentidos, del mismo modo que seran los datos de
cualquier diseo balanceado de dos factores, completo. Sin embargo, hay una
consideracin importante. Los nicos efectos de inters son los efectos principales del
factor de tratamiento. Para interpretar estos efectos principales, no debe haber alguna
interaccin entre el tratamiento y los factores bloqueados.

Ecuacin modelo
para el diseo de
bloque aleatorizado

Y ij i j;
Donde es la medicin que corresponde al tratamiento y al bloque es la

i i j
media global poblacional; es el efecto debido al tratamiento y es el

j, ij
efecto debido al bloque al y es el error aleaotorio atribuible a la medicin
Y ij
. Se supone que los errores se distribuyen de manra normal con media cero y

varianza constante 2 , y que son independientes.

Ejercicio

1. Se estudia el efecto de tres fertilizantes sobre la cosecha en una huerta de


naranjas. Se estnutilizando nueve parcelas de tierra,dividida en bloques de tres
parcelas cada una. Se usa un diseo de bloques completamente
aleatorio,aplicando cada fertilizante una vez en cada bloque. Los resultados, en
libras de la fruta cosechada, se presentan en la tabla siguiente, seguida del
resultado de MINITAB para el ANOVA de dos sentidos. Se puede concluir que
lamedia de las cosechas difiere entre los fertilizantes? Qu supuesto se hace
acerca de las interacciones entre fertilizantes y parcelas? Cmo se calcula la
suma de cuadrados del error?

El P-valor para el factor fertilizante es 0.001, por lo que se concluye que el fertilizante
tiene un efecto sobre la cosecha. Se hace el supuesto de que no hay interaccin entre
el fertilizante y el factor bloqueado (parcela), por lo que se pueden interpretar los
efectos principales de fertilizante. Debido a que hay solamente una observacin para
cada combinacin de tratamiento-bloque (es decir, K=1). La suma de los cuadrados del
error (SSE) notificada en el resultado de MINITAB es realmente SSAB, la suma de
cuadrados de la interaccin, y la media cuadrtica del error (MSE) es en realidad
MSAB.

La tabla ANOVA muestra que en este experimento bloquear era necesario para detectar
el efecto fertilizante. Con este propsito, el experimento es un experimento de un solo
factor. La suma de los cuadrados delerror (SSE) sera entonces la suma SSE para el
diseo bloqueado ms la suma de cuadrados por bloques, o 651.778 + 7046.9=
77698.7. Los grados de libertad del error seran iguales a la suma de los grados de
libertad del error en el diseo bloqueado ms los grados de libertad por bloques, o 2 + 4
= 6. El error medioi cuadrtico (MSE) sera entonces 77 698.7/6 =12 950 en lugar de
162.9444, y el estadistico F para el efecto fertilizante sera entonces al menos 1, lo que
dara como resultado una falla para detectar un efecto.

2. El artculo Experimental Design for Process Settings in Aircraft Manufacturing


(R. Sauter y R. Lenth, en Statistical Case Studies: A Collaboration Between
Academe and Industry, SIAM-ASA, 1998:151-157) describe un experimento en el
que se estudi la calidad de huecos perforados en partes de aeronave de metal.
Un indicador importante de la calidad de hueco es el dimetro excedente, que
es la diferencia entre el dimetro poco perforado y el dimetro del hueco. Los
dimetros excesivamente pequeos son mejores que los grandes. Suponga que
se tiene inters en el efecto de la velocidad rotacional del taladro sobre el
dimetro excesivo del hueco. Se perforarn huecos en seis artculos de prueba
(cupones), con tres velocidades: 6 000, 10 000 y 15 000 rpm. Al dimetro
excedente puede afectarlo no slo la velocidad del taladro, sino tambin las
propiedades fsicas del cupn de prueba. A continuacin se presenta el resultado
de MINITAB. El resultado indica alguna violacin de los supuestos necesarios?
Qu concluye respecto al efecto de la velocidad del taladro sobre el dimetro
excedente?
En un diseo de bloques completamente aleatorios no debe haber interaccin entre el
factor de tratamiento y el factor bloqueado, por lo que puede interpretarse el efecto
principal del factor de tratamiento. El P-valor para las interacciones es 0.909, que es
compatible con la hiptesis de no interacciones. Por tanto, no hay seal en el resultado
de alguna violacin de los supuestos. El P-valor para el efecto principal de la velocidad
es 0.370, que no es pequeo. Por tanto, no se puede concluir que al dimetro
excedente de hueco lo haya afectado la velocidad de taladro.

3. Un experimento se dise para estudiar el rendimiento de 4 detergentes


diferentes para limpiar inyectores de combustible. Las siguientes lecturas de
limpieza se obtuvieron con equipo especialmente diseado para 12 tanques de
gasolina distribuidos en 3 modelos de motores diferentes:
Al considerar los detergentes como tratamientos y los motores como bloques, obtenga
la tabla de anlisis de varianza adecuada y pruebe, con un nivel de significancia de
0.01, si hay diferencias en los detergentes o en los motores.

1. Hipotesis nula:
Hipotesis alternativa: las no son todas iguales a cero; las no son todas

iguales a cero.
2. Nivel de significancia: =0.01

3. Criterios: para tratamientos, rechace la hipotesis nula si F 9.78 , el valor de

F0.01 a1=41=3, y ( a1 ) ( b1 ) =( 41 ) ( 31 )=6


con grados de libertas;

para bloques, rechace hipotesis nula si F 10.92 , el valor

F0.01 parab 1=31=2, y ( a 1 ) (b1)=( 41) (31)=6


grados de libertad.
4. Calculos: al sustituir

a=4, b=3,T 1=139, T 2=145, T 3=153,T 4 =128,T .1=182, T .2=176, T .3=207, T =565
y

En las formulas para las sumas de cuadrados, se obtiene


Luego, al dividir las sumas de cuadrados entre sus respectivos grados de libertad para
obtener los cuadrados medios adecuados, se obtienen los resultados de la siguiente
tabla de analisis de varianza:

FTr = F0.01
Dado que 11.6 supera 9.78, el valor de con 3 y 6 grados de libertad, se

concluye que hay diferencias en la efectividad de los 4 detergentes. Adems, puesto

F BI = F0.01
que 21.2 supera 10.92, el valor de con 2 y 6 grados de libertad, se

concluye que las diferencias entre los resultados obtenidos para los 3 motores son
significativos. Existe un efecto debido a los motores, de modo que la formacin de
bloques fue importante.
Diseos factoriales
Para aumentar el crecimiento de una planta o para aumentar el rendimiento de una
fruta o verdura, existen muchos factores que influyen directamente en el resultado,
como puede ser el tipo de riego, el nivel de fertilizacin, densidad de siembra,
actividades culturales, la aplicacin de hormonas, etc. Igual sucede con los animales, si
se desea el aumento de peso, se puede lograr modificando algunos factores, como es
las dietas, las hormonas, el manejo y otros. Cada uno de los factores puede tener
varios niveles, por ejemplo, la fertilizacin puede ser 0.01, 0.05 o 0.1 kg por planta;
igualmente el riego puede ser una lmina de 1, 2 o 3 cm. Los diseos factoriales
consisten en un anlisis de varianza donde se van a probar dos o ms factores donde
cada uno va a tener dos o ms niveles. A cada factor se le llamar factor A, B, C...etc, y
los niveles de cada factor sern 0,1,2,3...

El objetivo de la prueba es investigar si existe diferencia entre los tratamientos mediante


el anlisis de varianza, pero especificando si existe diferencia entre los niveles de cada
factor y entre la interaccin de los factores. El anlisis de varianza inicial puede ser
completamente al azar o bloques al azar
k
Definicin de diseos fatoriales 2

Los diseos factoriales 2k son una clase especial de los diseos

factoriales en los que se tienen k factores de inters a dos niveles cada


uno. Son especialmente tiles en las etapas iniciales de la investigacin
para determinar, de un gran nmero de factores candidatos, cuales son los
que realmente influyen sobre la variable respuesta. Se llaman diseos
k
factoriales 2 porque se quiere investigar la forma como influyen k

factores sobre una variable respuesta y en cada factor se consideran dos


niveles solamente. La rplica completa de un diseo de este tipo requiere
k k
2 x 2 x x 2=2 observaciones y recibe el nombre de diseo factorial 2 .

k
El diseo 2 son muy tiles en las primeras etapas del trabajo

experimental, cuando se investiguen muchos factores pero, probablemente


todos ellos no influyen realmente sobre la variable respuesta. Esto diseo
proporciona el nmero ms pequeo de corridas para estudiar
simultneamente k factores en un diseo factorial completo. Dado que slo
existen dos niveles para cada factor, es necesario suponer que la
respuesta es aproximadamente lineal sobre el rango de los niveles
seleccionados para el factor. As, este tipo de diseo experimental es la
forma ms econmica de estudiar el efecto combinado de k factores. Los
niveles de cada factor pueden ser cualitativos o cuantitativos y se denotan
como Alto y Bajo o mas (+) y menos (-). Como introduccim al caculo de
efectos importantes que ayuden a la determinacin de la influencia de los
factores y sumas de cuadrados.
Tabla 5.6 Suma de cuadrados que estn incorporandos en los calculos de analisis de
varianza.

a , b y ab n
En esta tabla, representan totales de los valores de la
2
respuesta en los diseos individuales La simplicidad de 2 se define por

el hecho de que aparte del error experimental, la informacin importante se


la da el analista, en componentes de un solo grado de libertad, uno para
los dos efectos prinicipales A y B, y un grado de libertad para la interaccin
AB.

Ejercicio

1. Considrese una investigacin llevada a cabo para estudiar el efecto que tiene
la concentracin de un reactivo y la presencia de un catalizador sobre el tiempo
de reaccin de un proceso qumico. Sea la concentracin del reactivo el factor A
con dos niveles de inters, 15% y 20%. El catalizador constituye el factor B; el
nivel alto o superior denota el uso de dos sacos de catalizador y el nivel bajo o
inferior denota el uso de un solo saco. El experimento se realiza (replica o
repite) tres veces, y los datos son como sigue:

Combinacin de Replica

tratamientos I II III Total


A baja, B baja 28 25 27 80
A alta, B baja 36 32 32 100
A baja, B alta 18 19 23 60
A alta, B alta 31 30 29 90
En la figura 4 siguiente se presentan grficamente las combinaciones de
tratamiento para este diseo, el efecto de un factor se denota por la letra latina
minscula. De este modo, A se refiere al efecto del factor A, y B se refiere al
efecto del factor B, y AB se refiere a la interaccin entre AB. En el diseo 2 2
los niveles bajo y alto de A y B se denotan por -y + respectivamente, en los
ejes A y B. As en el eje B representa el nivel bajo de catalizador mientras que
+ denota el nivel alto.
b = 60(18+19+23) ab = 90(31+30+19)
Alto (2 sacos) +

bajo (1 saco) -
(1) = 80(28+25+27) a = 100(36+32+32)

- +
bajo (15%) alto (20%)
Concentracion de reactivo A

Figura 1: Combinaciones de tratamiento en el diseo factoriall

Fig. 3

Las cuatro combinaciones de tratamientos en el diseo pueden representarse por


letras minsculas, cono se muestra en la figura 3. En esta figura se aprecia que el
nivel superior de cualquier factor de una combinacin de tratamientos est
representado por la presencia de la letra minscula correspondiente, mientras que la
ausencia de esta ltima representa el nivel inferior del factor.

As
a representa la combinacin de tratamientos, en la que A se encuentra en el
nivel superior y B en el nivel inferior;

b representa aquella en la que A se halla en el nivel inferior y B en el superior, y

ab representa a ambos factores en el nivel superior.

Por convencin (1) se usa para representar a ambos factores en el nivel inferior.
El efecto promedio de un factor se define como el cambio en la respuesta
producida por un cambio en el nivel de ese factor, promediado sobre los niveles
del otro factor.
Como se ilustra en la figura 3, las letras minsculas (1), a, b y ab tambin se usan
para representar los totales de las n rplicas de las combinaciones de tratamientos
correspondientes. Ahora bien, el efecto de A en el nivel B es {a-(1)}/n. Mientras que
el nivel superior B es {ab-b}/n. Tomando el promedio de estas dos cantidades se
obtiene:

El efecto promedio de B se determina a partir de su efecto en el nivel inferior de A (esto


es, {b-(1)}/n, y de su efecto en el nivel superior de A (que es igual a [ab-a]/n
obtenindose:
El efecto de la interaccin AB se define como la diferencia promedio entre el efecto de
A en el nivel superior de B y su efecto en el nivel inferior de B, as:

Por otro lado se puede definir AB como la diferencia promedio entre el efecto de B en el
nivel superior de A y el efecto de B en el nivel inferior de A.

Las frmulas para los efectos de A, B y AB pueden deducirse por otro mtodo. El efecto
de A puede hallarse como la diferencia en la respuesta promedio de las dos

combinaciones de tratamiento en la mitad derecha (que llamaremos A+ , puesto que es


la respuesta promedio para las combinaciones de tratamientos a las que A que se
encuentra en el nivel alto) y las dos combinaciones de tratamientos en la mitad

izquierda (o A). Esto es,


Este es exactamente el mismo resultado, el efecto de B se encuentra como la diferencia
entre el promedio de las dos combinaciones de tratamientos en la parte superior del

cuadrado ( ) y el promedio de las dos combinaciones de tratamientos en la parte


B+

inferior ( ), o
B-

Finalmente el efecto de interaccin AB es el promedio de las combinaciones de


tratamientos en la diagonal de derecha a izquierda del cuadrado ab y (1) menos el
promedio de las combinaciones de tratamientos en la diagonal de izquierda a derecha
(a y b), o
Con los datos que aparecen en la figura 1, las estimaciones de los efectos promedio
son:

El efecto de A (concentracin de reactivo) es positivo; esto sugiere que al elevar A del


nivel bajo (15%) al nivel alto (25%) incrementar el rendimiento. El efecto de B
(catalizador) es negativo; esto sugiere que elevar la cantidad del catalizador agregada
al proceso reducir el rendimiento. Al parecer, el efecto de interacciones es pequeo
comparado con los dos efectos principales.
2. Un ingeniero est interesado en el efecto que tiene la rapidez de corte (factor
A), la configuracin (factor B) y el ngulo de corte (factor C) sobre la resistencia
de una herramienta. Se eligen dos niveles de cada factor y se realiza un diseo
factorial con dos replicas. Los resultados se muestran a continuacin:

Calcular los signos de las interacciones

Combinacin A B C AB AC BC ABC replica I replica II

(1) - - - + + + - 18.2 18.9


a + - - - - + + 27.2 24.0
b - + - - + - + 15.9 14.5
ab + + - + - - - 41.0 43.9
c - - + + - - + 12.9 14.4
ac + - + - + - - 22.4 22.5
bc - + + - - + - 15.1 14.2
abc + + + + + + + 36.3 39.9

Calcular los contrasted de los efectos

Combinaci A B C A A B AB replic replic SUM


n B C C C aI a II A

(1) - - - + + + - 18.2 18.9 37.1

a + - - - - + + 27.2 24 51.2
b - + - - + - + 15.9 14.5 30.4

ab + + - + - - - 41 43.9 84.9

c - - + + - - + 12.9 14.4 27.3

ac + - + - + - - 22.4 22.5 44.9

bc - + + - - + - 15.1 14.2 29.3

abc + + + + + + + 36.3 39.9 76.2

CONTRASTE (A)= (A+ )- (A- )=(51.2+ 84.9+44.9+76.2)-


(37.1+30.4+27.3+29.3)=133.1

CONTRASTE (B)= (B+ )- (B- )=(30.4+84.9+29.3+76.2)-(37.1+51.2+27.3+44.9)=60.3

CONTRASTE (C)= (C+ )- (C- )=(27.3+44.9+29.3+76.2)-(37.1+51.2+30.4+84.9)=-25.9

CONTRASTE (AB)= (AB+ )- (AB- )=(37.1+84.9+27.3+76.2)-


(51.2+30.4+44.9+29.3)=69.7

CONTRASTE (AC)= (AC+ )- (AC- )=(37.1+30.4+44.9+76.2)-


(51.2+84.9+27.3+29.3)=-4.1

CONTRASTE (BC)= (BC+ )- (BC- )=(37.1+51.2+29.3+76.2)-


(30.4+84.9+27.3+44.9)=6.3

CONTRASTE (ABC)=(ABC+ )-(ABC- )=(51.2+30.4+27.3+76.2)-


(37.1+84.9+44.9+29.3)=-11.1

Estimacin de los efectos promedios


EFEC(A)=CONTRASTE(A)/(n2K-1)=133.1/(22)*2=133.1/8=16.6375

EFEC(B)= CONTRASTE(B)/(n2K-1)=60.3/(22)*2=60.3/8=7.5375

EFEC(C)= CONTRASTE(C)/(n2K-1)=-25.9/(22)*2=-25.9/8=-3.2375

EFEC(AB)=CONTRASTE(AB)/(n2K-1)=69.7/(22)*2=69.7/8=8.7125

EFEC(AC)= CONTRASTE(AC)/(n2K-1)=-4.1/(22)*2=-4.1/8=-0.5125

EFEC(BC)= CONTRASTE(BC)/(n2K-1)=6.3/(22)*2=6.3/8=0.7875

EFEC(ABC)=CONTRASTE(ABC)/(n2K-1)=-11.1/(22)*2=-11.1/8=-1.387

Tabla de Estimaciones de los efectos promedio para resistencia

------------------------------------------------------------------

Average = 23.8312

A: rapidez = 16.6375

B: configuracin = 7.5375

C: ngulo = -3.2375

AB = 8.7125

AC = -0.5125

BC = 0.7875

ABC = -1.3875

SS = SS +SS +SS + SS +SS +SS +SS + SS


TOTAL (A) (B) (C) (AB) (AC) (BC) (ABC) ERROR

SS =10,796.69-9086.85=1709.84
TOTAL
SS(A)=(CONTRASTE(A))2/(2K)n=(133.1)2/8*2=1107.22

SS(B)=(CONTRASTE(B))2/(2K)n=(60.3)2/8*2=227.25

SS(C)=(CONTRASTE(C))2/(2K)n= (-25.9)2/8*2=41.92

SS(AB)=(CONTRASTE(AB))2/(2K)n= (69.7)2/8*2=303.63

SS(AC)=(CONTRASTE(AC))2/(2K)n= (-4.1)2/8*2=1.05

SS(BC)=(CONTRASTE(BC))2/(2K)n= (6.3)2/8*2=2.48

SSERROR =SSTOTAL-SSA-SSB-SSC- SSAB-SSAC-SSBC-SSABC

SSERROR =1709.84-1107.22-227.25-41.92-303.63-1.05-2.48-7.70=18.565

Source Sum of Df Mean Square F-Ratio P-Value


Squares

A:Rapidez 1107.23 1 1107.23 477.12 0.0000

B:Configuracion 227.256 1 227.256 97.93 0.0000

C:Angulo 41.9256 1 41.9256 18.07 0.0028

AB 303.631 1 303.631 130.84 0.0000

AC 1.05063 1 1.05063 0.45 0.5200

BC 2.48063 1 2.48063 1.07 0.3314

ABC 7.70063 1 7.70063 3.32 0.1060

Total error 18.565 8 2.32063

Total 1709.83 15

Son Significativos los efectos de la rapidez de corte (A), la configuracin (B), el ngulo
de corte(C), y la interaccin de la rapidez y la configuracin(AB), con una confianza
estadstica del 95%.
3. Se trata de estudiar la influencia de los factores:

En la variable respuesta:dureza de un material cermico. Los datos son:

Los efectos medios y la medida de cuadrado son:

La tabla de analisis de varianza es:


De modo que el factor B y la interaccin A y B son significativos al nivel 0.05, ya que

F1.4,0 .05=7.71

Diseos de factoriales fraccionales.


El experimento factorial 2k se puede volver muy demandante, en trminos del

nmero de unidades experimentales requeridas, cuando el valor de k es grande. Una


de las ventajas reales de este plan experimental es que permite un grado de libertad
para cada interaccin. Sin embargo, en muchas situaciones experimentales se sabe
que ciertas interacciones son despreciables, por lo que sera un desperdicio de
esfuerzo experimental utilizar el experimento factorial completo. De hecho, el
experimentador podra tener limitaciones econmicas que le impidan hacer

observaciones de todas las combinaciones 2k de tratamientos. Cuando k es grande,

a menudo se puede usar un experimento factorial fraccionario donde quizs sea posible
llevar a cabo la mitad, un cuarto o incluso un octavo del plan factorial total.
Fraccin un medio del diseo 2k

Considrese el caso en el que se estudian tres factores de dos niveles cada uno, pero
en el que los experimentadores no pueden costear las 2 3 = 8 combinaciones de
tratamientos, sin embargo, si se puede costear 4 observaciones. Esto sugiere una
fraccin un medio, de un diseo 23. la fraccin un medio del diseo 2 3 se conoce
tambin como un diseo 23-1 por que tiene 23-1 = 4 combinaciones de tratamiento.

En la tabla siguente aparecen signos positivos y negativos del diseo 2 3. Supngase


que para componer la fraccin un medio, se seleccionan las combinaciones de
tratamientos se usa indistintamente la notacin convencional (a,b,c,...) y la de signos
positivos y negativos. La equivalencia de las dos notaciones se muestra a continuacin.

Notacin 1 Notacin 2
a + - -
b - + -
c - - +
abc + + +

Combinacin de Efecto factorial


Tratamientos
I A B C AB AC BC ABC
a + + - - - - + +
b + - + - - + - +
c + - - + + - - +
abc + + + + + + + +
ab + + + - + - - -
ac + + - + - + - -
bc + - + + - - + -
(1) + - - - + + + -
Tabla 1 Signos positivos para el diseo 23
Ntese que el diseo 23-1 se forma al seleccionar solo las combinaciones de
tratamientos que producen un signo positivo sobre la columna ABC. Por esto ABC se
denomina generador de una fraccin particular. Adems, la columna identidad I siempre
es positiva, por lo cual:

I = ABC

Se denominara relacin definitoria de nuestro diseo, en general, la relacin definitoria


de un factorial fraccionario siempre es el conjunto de todas las columnas que son
iguales a la columna identidad I.

La dificultad para realizar pruebas formales de significancia con datos de experimentos


factoriales fraccionados radica en la determinacin del trmino del error apropiado. A
menos que se disponga de datos de experimentos anteriores, el error debe provenir de
una agrupacin de contrastes que representan efectos que se presume son
despreciables. Las sumas de cuadrados para los efectos individuales se calculan
usando en esencia los mismos procedimientos que se emplean para obtener el factorial
completo. Es posible formar un contraste en las combinaciones de tratamientos
construyendo la tabla de signos positivos y negativos.

Construccin de Fracciones Un Medio

Es posible construir una fraccin un medio de mayor resolucin, de un diseo 2 k,


escribiendo primero las combinaciones de tratamientos del diseo 2 k-l completo y
agregando despus el k-simo factor identificando sus niveles positivos y negativos
mediante los signos positivos y negativos de la interaccin de mayor orden ABC..( k -1).

Por lo tanto, el diseo factorial fraccionario se obtiene escribiendo el diseo 2 2


completo e igualando despus el factor C con la interaccin AB. La fraccin alterna se
obtiene igualando el factor C con la interaccin -AB. Este enfoque aparece en la Tabla
4.2. Obsrvese que el diseo bsico siempre tiene el nmero correcto de corridas
(renglones), pero que falta una columna. Entonces, en el generador I = ABC ...K se
despeja la columna faltante (K), de modo que K = ABC...(K- 1) define el producto de
signos ms y menos por usar en cada rengln a fin de producir los niveles para el k-
simo factor.

Ntese que cualquier efecto de interaccin puede usarse para generar la columna del k-
simo factor. Sin embargo, si no se utiliza el efecto ABC... (k- 1) no se produce el diseo
de mayor o ms alta resolucin.

Otra manera de interpretar la construccin de una fraccin un medio del diseo consiste
en , ( asignar los ensayos a dos bloques, confundiendo la interaccin de mayor orden
ABC ...K. Cada bloque de 2k -1
ensayos es un diseo factorial fraccionario 2 k- 1
de
mxima resolucin.

Corrida Factorial 22
Completa , I = ABC , I = -ABC
(diseo bsico)
A B A B C=AB A B C=-AB
1 - - - - + - - -
2 + - + - - + - +
3 - + - + - - + +
4 + + + + + + + -
Tabla 4.2 Las dos fracciones un medio del diseo

Ejercicio

1. Suponga que se desea emplear una media rplica para estudiar los efectos de
cinco factores, cada uno en dos niveles, sobre alguna respuesta, y que se
conoce que cualquiera que sea el efecto de cada factor, ser constante para
cada nivel de los dems factores. En otras palabras, no hay interacciones. Sea el
contraste de defi nicin ABCDE lo que ocasiona que los efectos principales
tengan alias con interacciones de cuatro factores. El agrupamiento de contrastes
que incluyen interacciones proporciona 15 - 5 = 10 grados de libertad para el
error. Realice un anlisis de varianza con los datos de la tabla siguiente y pruebe
todos los efectos principales a un nivel de significancia de 0.05.

Las sumas de cuadrados y los efectos para los efectos principales son

Tabla. 5.6.2.1 Datos proporcionados


Todos los dems clculos y pruebas de signifi cancia se resumen en la tabla siguiente.
Las pruebas indican que el factor A tiene un efecto negativo significativo sobre la
respuesta; mientras que el factor B tiene un efecto positivo significativo. Los factores C,
D y E noson significativos al nivel de signifi cancia de 0.05.

Tabla ANOVA

2. Construya un diseo depurado de dos niveles con 6 variables que contengan 12


puntos

de diseo.

Solucin: Comience con el rengln bsico en la columna inicial. La segunda columna


se forma llevando la entrada inferior de la primera columna a la parte superior de la
segunda, y repitiendo la primera. La tercera columna se forma del mismo modo,
utilizando las entradas de la segunda columna. Cuando haya un nmero sufi ciente de
columnas sencillamente se llena el ltimo rengln con signos negativos. El diseo
resultante es como sigue:
Los diseos de Plackett-Burman son populares en la industria para situaciones de
filtrado. Como se trata de diseos de resolucin III. todos los efectos lineales son
ortogonales.

Para cualquier tamao de muestra el usuario dispone de un diseo para k = 2, 3,, N -


1 variables.

La estructura de alias para el diseo de Plackett-Burman es muy complicada, por lo que


el usuario no puede construir el diseo con un control completo de la estructura de
alias, como en el caso de los diseos 2k o 2k-p. Sin embargo, en el caso de modelos de
regresin el diseo de Plackett-Burman acepta interacciones (aunque no sern
ortogonales) cuando se dispone de sufi cientes grados de libertad.
Mtodos de optimizacin
Algunos de los mtodos numricos de bsqueda de ptimos de un a funcin en varias
variables se basan en mtodos de bsqueda de ptimos en una variable. Por ejemplo,
el mtodo de ascenso ms rpido elige un punto dado y determina la direccin de
mximo crecimiento en tal punto. Esta direccin es la del gradiente de la funcin en
dicho punto. As, y partiendo del punto y siguiendo esta direccin, avanza para localizar
el ptimo en dicha direccin. Imaginese avanzando en lnea recta y tomando en cuenta
slo la evaluacin de la funcin para determinar el punto en la lnea con la mayor
evaluacin. Una vez alcanzado este punto, se determina la direccin de mximo
crecimiento en tal punto y se repite el proceso de bsqueda. Por su valor prctico, los
mtodos de bsqueda e n una dimensin son dignos de revisar.

Previo a revisar los mtodos, es importante saber si el ptimo que buscamos existe y
que no habr ms de uno. Una funcin que efectivamente tiene un slo ptimo recibe
un nombre especial:

Definicion: Una funcin es unimodal si slo tiene un ptimo (relativo o absoluto). En


caso que tenga varios ptimos se dice multimodal.

En base a su naturaleza, hay varias formas de clasificar un problema de optimizacin.


Analizar en qu categora entra es importante para definir el mtodo de solucin a
utilizar, ya que no hay un mtodo nico para todos los posibles problemas. Para
comenzar, una primera distincin la podemos realizar en base a la continuidad o no de
las variables de decisin. Se dice que estamos frente a un problema de Optimizacin
Continua cuando todas las variables de decisin pueden tomar cualquier valor
perteneciente al conjunto de los reales. Dentro de este tipo de problemas, son de
particular importancia los problemas de "Optimizacin Convexa", en los cuales se debe
minimizar una funcin convexa sujeta a un conjunto solucin convexo.

Cuando tanto la funcin objetivo como las restricciones son lineales, hablamos de un
problema de "Optimizacin Convexa Lineal" o "Programacin Lineal". En el caso de
trabajar con variables discretas (es decir, que solo puedan tomar valores enteros) nos
enfrentamos a un problema de Optimizacin Combinatoria. Por raro que pueda
parecer, en general un problema de optimizacin combinatoria es ms complicado de
resolver que uno de optimizacin continua. En el medio tenemos los problemas de
Optimizacin Mixta es los cuales algunas variables son continuas y otras son
discretas. En la prctica, estos problemas se resuelven en forma ms parecida a los
problemas combinatorios que a los continuos. Un caso particular de optimizacin
combinatoria es la Optimizacin Binaria, aquella en la cual todas sus variables estn
restringidas a tomar uno de dos valores (en general, 0 y 1). Este caso es bastante raro
de encontrar en la prctica, siendo ms habitual encontrar problemas combinatorios con
algunas variables binarias (optimizacin mixta). Otra clasificacin la podemos hacer en
base a la naturaleza probabilstica del problema. Cuando podemos considerar que
todas las variables son determinsticas, estamos ante un problema determinista, en
caso contrario nos enfrentamos a un problema estocstico. El modelado y resolucin de
un problema estocstico es mucho ms complejo que el modelado de un problema
determinstico.

Los mtodos de resolucin de problemas de optimizacin se pueden clasificar en tres


tipos diferentes:

Resolucin mediante clculo

Resolucin mediante tcnicas de bsquedas

Resolucin mediante tcnicas de convergencia de soluciones

Resolucin mediante clculo


Los mtodos de resolucin por clculo apelan al clculo de derivadas para determinar
para qu valores del dominio la funcin presenta un mximo o un mnimo. Son mtodos
de optimizacin muy robustos, pero que requieren mucho esfuerzo de cmputo y que
tanto la funcin objetivo como las restricciones presenten determinadas condiciones
(por ejemplo, que estn definidas, que sean continuas, etc.).

En general, no se suele apelar a estos mtodos en el mundo de la ingeniera, ya que


los problemas no se ajustan a las restricciones de continuidad y tienen demasiadas
variables como para que su tratamiento pueda ser eficiente.

Resolucin mediante tcnicas de bsquedas

Dentro de este apartado, podemos encontrar un gran abanico de tcnicas, desde el


viejo mtodo de prueba y error hasta las modernas tcnicas de programacin
matemtica. En forma genrica, consisten en el siguiente algoritmo:

Seleccionar una solucin inicial y hacerla la solucin actual:

Hacer Mejor Solucin = Solucin Actua


Buscar n soluciones cercanas a la Solucin Actual.
Para cada una de las n soluciones cercanas hacer
a) Si el valor de la funcin objetivo de la solucin a verificar es mayor (o menor) al
valor generado por la solucin actual, hacer Mejor Solucin = Solucin Evaluada
b) Si Mejor Solucin = Solucin Actual, Finalizar del procedimiento, en caso
contrario Hacer Solucin Actual = Mejor Solucin y volver a 2).

Dentro de estos mtodos tenemos tcnicas para abarcar una gran variedad de
problemas. Desde tcnicas exactas, como la Programacin Lineal (que se limita solo a
problemas con un conjunto solucin convexo y funcin objetivo y restricciones lineales)
hasta las tcnicas metaheursticas de solucin aproximada como la Bsqueda Tab.

Resolucin mediante tcnicas de convergencia de soluciones

Dentro de este grupo, tenemos las tcnicas ms recientemente desarrolladas. A


diferencia del conjunto anterior, est compuesto casi completamente por tcnicas
metaheursticas (o sea, que los resultados van a ser aproximadamente ptimos). Estos
mtodos se basan en generar una gran cantidad de soluciones, determinar cules son
las mejores y, a partir de ellas, generar un nuevo conjunto de soluciones a analizar,
repitiendo el proceso hasta que las soluciones generadas converjan en una (o sea,
hasta la iteracin en la cual todas las soluciones generadas tengan un valor de funcin
objetivo muy parecido). Entre las tcnicas ms conocidas de este grupo, aunque no las
nicas, tenemos a todas las versiones de "Algoritmos Genticos"

Ejercicio

1. Una refinera obtine combustible empleando tres procesosde produccin


diferentes. En cada uno de ellos se precisa utilizar tres maquinas. Segn el
proceso productico elegido, para obtener un barril decombustible es necesario
usar cada una de las maquinas.

Cada mquina est disponible 30, 35 y 45 horas respectivamente. El beneficio por barril
de combustible obtenido con el proceso 1 es de 25 unidades monetarias; con el
proceso 2, de 18 unidades monetarias y 20 unidaes monetarias se se emplea el
proceso 3.
2. La empresa EMX aplica Metodos de optimizacion y gasta por el estudio y el
desarrollo de la aplicacin $100 pero luego de aplicar el modelo observa que la
mejora no es muy diferente a la que actualmente tena.

Podramos pues indicar que la investigacin de operaciones slo se aplicar a los


problemas de mayor complejidad, sin olvidar que el simple uso de los M.O. trae un
costo, que de superar el beneficio, no resultar econmicamente prctico, algunos
ejemplos prcticos donde usar M.O. resulta til son:

En el dominio combinatorio, muchas veces la enumeracin es imposible. Por


ejemplo, si tenemos 200 trabajos por realizar, que toman tiempos distintos y solo
cuatro personas que pueden hacerlos, enumerar cada una de las combinaciones
podra ser ineficiente (aparte de desanimante). Luego los mtodos de
secuenciacin sern los ms apropiados para este tipo de problemas.

De igual manera, los M.O. es til cuando en los fenmenos estudiados interviene
el azar. La nocin de esperanza matemtica y la teora de procesos estocsticos
suministran la herramienta necesaria para construir el cuadro en el cual se
optimizar la funcin econmica. Dentro de este tipo de fenmenos se
encuentran las lneas de espera y los inventarios con demanda probabilstica.

Con mayor motivo, la investigacin de operaciones se muestra como un conjunto


de instrumentos precioso cuando se presentan situaciones de concurrencia. La
teora de juegos no permite siempre resolverlos formalmente, pero aporta un
marco de reflexin que ayude a la toma de decisiones.

Cuando observamos que los mtodos cientficos resultan engorrosos para


nuestro conjunto de datos, tenemos otra opcin, simular tanto el comportamiento
actual as como las propuestas y ver si hay mejoras sustanciales. Las
simulaciones son experiencias artificiales.

Es importante resaltar que la investigacin de operaciones no es una coleccin de


formulas o algoritmos aplicables sistemticamente a unas situaciones determinadas. Si
se cae en este error, ser muy difcil captar en condiciones reales los problemas que
puedan deducirse de los mltiples aspectos de esta disciplina, la cual busca adaptarse
a las condiciones variantes y particulares de los diferentes sistemas que puede afrontar,
usando una lgica y mtodos de solucin muy diferentes a problemas similares mas no
iguales.

3. En la refinera de Santa Cruz de Tenerife (C.E.P.S.A.) se producen 3 tipos de


gasolinas que describimos a continuacin:

Para ello se mezclan cuatro productos base, que representaremos con un nmero, y
cuyo costo y disponibilidad son:

Para la clasificacin de la mezcla en uno de los tres tipos de gasolina se atiende a la


proporcin de los productos que la componen segn la siguiente tabla:

donde s.l. significa que no importa la proporcin de ese producto.

Modelo matemtico

Consideremos las siguientes variables


Entonces, un modelo matemtico es:

Sujeto a:

Notemos que un simple anlisis del modelo nos permite eliminar las variables

Zi Yj
y las variables y haciendo uso de las ecuaciones. Es siempre muy

importante realizar este proceso de simplificacin (generalmente llamado


preproceso).

Conclusin
Para concluir, es importante mencionar que los trabajos sealados en el presente
trabajo, son producto del esfuerzo, empeo, dedicacin y disciplina que se le puso a
todos y cada uno de, para lo cual fue indispensable el apoyo de mi docente, as como
del entusiasmo para la asignatura. Por tanto el presente portafolio es una
representacin de los logros obtenidos, as como de las reas de oportunidad que se
pueden trabajar para mejorar.

De manera personal, la materia me pareci interesante y me gust que mi docente nos


resolviera las dudas que tuviramos en clase; tal vez mi recepcin de conocimiento no
fue de lo ms positiva al iniciar el semestre, dado que reprobaba las evaluaciones
correspondientes a cada unidad, sin embargo hoy puedo decir que he aprendido
muchsimo ms con la elaboracin del portafolio ya que me ayudo a mejorar mis
habilidades para entender la asignatura y tambin me resolvi mis dudas con ayuda de
algunos medios electrnicos como fue el programa Excel, le agradezco a mi profesor
por ensearnos a manejar este tipo de programas porque son de mucha apoyo y no
solamente lo utilizaremos para estadstica sino tambin para otras asignaturas. Para
finalizar, para m fue un buen curso de estadstica.

Você também pode gostar