Você está na página 1de 109

ASIGNATURA

ESTADISTICA INFERENCIAL II
OBJETIVO:
Conocer y aplicar tcnicas de diseo
experimental, con el objeto de tomar
decisiones para analizar, evaluar y mejorar
procesos logsticos e industrial.
Adquirir criterios y herramientas de diseo
experimental para planificar experimentos
eficazmente en los procesos logsticos e
industriales.

UNIDAD I:
REGRESION LINEAL SIMPLE Y MULTIPLE

Regresin Lineal simple


El anlisis de regresin se usa con el
propsito de prediccin. La meta del anlisis de
regresin es desarrollar un modelo estadstico
que se pueda usar para predecir los valores de
una variable dependiente o de respuesta
basados en los valores de al menos una
variable independiente o explicativa. Este
captulo se centra en un modelo de regresin
lineal simple, que usa una variable numrica
independiente X para predecir la variable
numrica dependiente Y.

Para
ilustrar
el
concepto, considrense
los datos de la tabla 1.
En
esta
tabla,
se
relaciona la cantidad de
fibra (madera) en la
pulpa con la resistencia
del producto (papel).

Porcentaje Resistenci
de fibra X
a
Y
4

134

135

142

10

149

12

144

14

160

16

156

18

157

20

168

22

166

24

167

26

171

28

174

30 de resistencia
183 de pulpa
Tabla 1. datos

Es claro que la variable de respuesta o


variable dependiente es la resistencia, por
eso se denota con Y . Para tener una idea de
la relacin que existe entre X y Y, los 14
pares de datos son graficados en un
diagrama de dispersin de la figura 1. De
la inspeccin de este diagrama de dispersin
se ve que los puntos cercanos siguen una
lnea recta, lo que indica que la suposicin
de linealidad entre las dos variables parece
ser razonable

El diagrama de dispersin

es una
grafica en la que cada punto trazado representa
un par de valores observados por las variables
independiente y dependiente. El valor de la
variable independiente X, se traza en relacin con
el eje horizontal y el valor de la variable
dependiente Y, en relacin con el eje vertical. La
naturaleza de la relacin entre dos variables
puede tomar muchas formas, que van desde
algunas funciones matemticas sencillas a otras
en extremo complicadas. La relacin ms
elemental consiste en una lnea recta o relacin
lineal.

Figura 1 Diagrama de dispersin para los datos de


resistencia de la pulpa

La relacin del modelo matemtico adecuado tiene


influencia de la distribucin de los valores y en el
diagrama de dispersin. Es sencillo ver esto si se
examinan las siguientes graficas (figura 2)

Plan A
Relacin lineal positiva

Plan B
Relacin lineal negativa

Plan c
No hay relacin entre X y Y

Plan D
Plan E
Plan F
Relacin curvilnea positiva
Relacin curvilnea en forma de URelacin curvilnea negativa

Figura 2. Relacin entre dos variables

En la grafica A se observa que los valores de Y, en


general, aumentan en forma lineal cuando se

En la grafica B es un ejemplo de una relacin lineal negativa.


Cuando X crece, se observa que los valores de Y decrecen.
Un ejemplo de este tipo de relacin puede ser el
precio de un producto especfico y la cantidad de
ventas
En la grafica C se muestra un conjunto de datos en el que
existe muy poca o ninguna relacin entre X y Y. Para cada
valor se aparecen valores altos y bajos de Y.
En la grafica D muestran una relacin curvilnea entre X y Y.
Los valores de Y aumentan cuando X crece, pero el
incremento disminuye para valores altos de X. Un ejemplo
de esta relacin curvilnea puede ser la edad y el costo
de mantenimiento de una maquina. Cuando la
mquina
tiene
muchos
aos,
el
costo
de

En la grafica E muestra una relacin parablica o en forma de


U entre X y Y. Conforme aumenta, al principio Y disminuye;
pero si X aumenta ms, Y no slo deja de disminuir sino que
aumenta despus de su valor mnimo. Un ejemplo tipo de
relacin puede ser el nmero de errores por hora en
una tarea y nmero de horas trabajadas.
Por ultimo en la grafica F indica una relacin exponencial o
curvilnea negativa entre X y Y. en este caso, Y disminuye con
rapidez al principio del incremento de X pero despus, cuando
X aumenta ms, la velocidad de disminucin es mucho menor.
Un ejemplo de esta relacin exponencial puede ser el
valor de reventa de un tipo dado de automvil y los
aos que tiene. El primer ao el valor baja en forma
drstica respecto a su precio original; sin embargo, la

El anlisis de
regresin lineal
simple
se refiere a encontrar la lnea
recta que mejor se ajuste a
los datos. El mejor ajuste
puede definirse de varias
maneras.
Quiz
la
ms
sencilla sea encontrar la lnea
recta
para
la
cual
las
diferencias entre los valores
reales
y
los
valores

Figura 3. Lnea recta que mejor se


ajusta a los datos, donde la
distancia a los puntos es la ms
pequea posible

Suponga que las variables y Y estn


relacionadas linealmente y que para cada
valor de , la variable dependiente, Y, es
una variable aleatoria. Es decir, que cada
observacin de Y puede ser descrita por el
modelo: Ec. 1

Y = o + 1X +

donde es un error aleatorio con media cero y


varianza . Tambin suponga que los errores
aleatorios no estn correlacionados. La ecuacin (1)
es conocida como el modelo de regresin
lineal simple. Bajo el supuesto de que este
modelo es adecuado y como el valor esperado del
error es cero, E() = 0 se puede ver que el valor
esperado de la variable Y, para cada valor de Y, est
dado por lnea recta. Ec. 2

E (X/Y) = o + 1X

En donde o y 1 son los parmetros del


modelo y son constantes desconocidas. Por lo
tanto, para tener bien especificada la ecuacin
que relaciona las dos variables ser necesario
estimar los dos parmetros, que tienen los
siguientes significados:
o.- Es el punto en el cual la lnea recta intercepta o
cruza el
eje y.
1.- Es la pendiente de la lnea, es decir, es la
cantidad en que se incrementa o disminuye la variable
Y por cada unidad que se incrementa X

Un procedimiento para ajustar la mejor recta y, por lo


tanto, para estimar o y 1 es mediante el mtodo de
mnimos cuadrados, el cual consiste en lo siguiente: si
de la ecuacin (1) despejamos los errores, los elevamos al
cuadrado y los sumamos, obtendremos lo siguiente: Ec. 3

De esta forma, se quieren encontrar los valores de o y 1 que


minimizan la suma de los errores cuadrados. Es decir, se busca
ajustar la recta de manera que la suma de las distancias en forma
vertical de los puntos a la recta se minimice, como se ilustra en la
figura 3.
El procedimiento matemtico para minimizar los errores de la
ecuacin (3) y as encontrar los estimadores de mnimos cuadrados
de o y 1, consiste en derivar a S con respecto a o, S/o y
derivar tambin a S con respecto a 1, S/1 se obtiene:

Al igualar a cero las dos ecuaciones y


resolverlas en forma simultnea con
respecto a las dos incgnitas (o y 1), se
obtiene la solucin nica:
Ec. 4

Ec. 5

Ec. 6

Ec. 7

medias) X y Y son las medias mustrales de las dos variables, es dec

De esta forma, para obtener la recta


ajustada es necesario aplicar las
frmulas anteriores, lo cual es muy
sencillo, como se muestra en la tabla
2 para los datos de la resistencia de
la pulpa.
i = Yi = a la estimacin del
error
i = a la estimacin del cuadrado

Tabla 2 Procedimiento para realizar los clculos para la regresin simple para los datos de la
resistencia de la pulpa.

Xi

Yi

134

145

142

10

149

12

144

14

160

16

156

18

157

20

168

22

166

24

167

26

171

28

174

XiYi

Yi i

Sxy = 39150
Sxx = 4996 1 =
Medias de Y y X

o = Y - 1X = 158.286 (1.6242)(17) =
130.67
Por lo tanto, la lnea recta que mejor explica la relacin entre
porcentaje de fibra y resistencia del papel, est dada por

=o + 1X = 130.67 + 1,6242 (4)


=137.2

Tabla 4. Formulas bsicas para el Anlisis de regresin para el modelo Y


= o + 1X

Tarea 1. Suponga que el gerente de una cadena de servicios


de entrega de paquetera desea desarrollar un modelo para
predecir las ventas semanales (en miles de dlares) para las
tiendas individuales basado en el nmero de clientes que
realizan compras. Se seleccion una muestra aleatoria
entre todas las tiendas de la cadena con los siguientes
resultados.

a) Grafique el diagrama de dispersin.


b) Suponga una relacin lineal y utilice el mtodo
de mnimos cuadrados para encontrar los
coeficientes de regresin y
c) Interprete el significado de la pendiente.
d) Pronostique las ventas semanales (en miles de
dlares) para las tiendas que tienen 600
clientes.
e) Qu otros factores adems del nmero de
clientes pueden afectar las ventas?

La estadstica inferencial es el
proceso de usar la informacin de una
muestra para describir el estado de una
poblacin. Sin embargo es frecuente que
usemos la informacin de una muestra
para probar un reclamo o conjetura sobre
la poblacin. El reclamo o conjetura se
refiere a una hiptesis. El proceso que
corrobora si la informacin de una
muestra sostiene o refuta el reclamo se
llama prueba de hiptesis

La Hiptesis estadstica es la
afirmacin que se hace de un
parmetro de la poblacin. Est
afirmacin se toma como tentativa,
ya que el verdadero valor del
parmetro no se conoce. Tiene los
siguientes elementos:

Hiptesis nula. Es aquella en la que ya


se conoce del planteamiento con cierta
certeza, es decir, lo que regularmente
sucede y se denota por H0. Ejemplo: una
investigacin
muestra
que
el
medicamento A es en promedio un 90%
efectivo contra la hipertensin.
Del planteamiento tenemos que H0 :
90 (la desigualdad establece que el
medicamento tiene al menos un 90% de

Hiptesis alterna o alternativa. Es aquella


que se cree que va a suceder, y se denota
por Ha o H1. En nuestro caso utilizaremos esta
ltima.
Retomando el ejemplo anterior, tenemos que
hay otros investigadores que indican que la
efectividad del medicamento es menor. En
consecuencia, la Hiptesis alterna quedara
como H : < 90.
1

Nivel de significancia. Es el valor de probabilidad de


la regin en donde puede ser rechazada la Hiptesis
nula y se representa con el smbolo .
Nivel de confiabilidad o intervalo de confianza. Es
el valor de probabilidad de la regin donde se acepta la
Hiptesis nula y sta se determina usando la expresin
1-
Regla de decisin. sta se establece con base en el
nivel de significancia. Especifica aquellos valores en la
distribucin muestra del estadstico ms all de cuales
puede rechazarse H
0.

Prueba de hiptesis en la regresin


lineal simple.

En cualquier anlisis de regresin no basta hacer los clculos que se


explicaron antes, sino que es necesario evaluar qu tan bien el
modelo (la lnea recta) explica la relacin entre X y Y . Una primera
forma de hacer esto es probar una serie de hiptesis sobre el
modelo. Para ello es necesario suponer una distribucin de
probabilidad para el trmino de error, i es usual suponer
normalidad: i se distribuye en forma normal, independiente, con
media cero y varianza .
Por lo general, la hiptesis de mayor inters plantea que la
pendiente es significativamente diferente de cero. Esto se logra al
aprobar la siguiente hiptesis

Por lo general, la hiptesis de mayor


inters plantea que la pendiente es
significativamente diferente de cero. Esto
se logra al aprobar la siguiente hiptesis

Ho = 1 = 0
Ha = 1
0

Ec. 8

El estadstico de prueba es:


Ec. 9

Si la hiptesis nula es verdadera l estadstico (1)


tiene una distribucin t-Student con n - 2 grados
de libertad. Se rechaza Ho si el valor absoluto de
este estadstico es mayor que el correspondiente
valor crtico obtenido de las tablas, es decir, se
rechaza Ho si:
Ec. 10

En caso contrario no se rechaza Ho . No


rechazar que 1 = 0, en el caso del modelo de
regresin lineal simple, implica que no existe
una relacin lineal significativa entre X y Y; por
tanto, no existe relacin entre estas variables o
sta es de otro tipo.
La suma de cuadrados de los residuos o suma
de cuadrados del error es (SCe) y se utiliza para
estimar la varianza del error de ajuste de un
modelo, y est dada por:

A partir de la ecuacin (11) se obtiene que el valor esperado de


la suma de cuadrados E(SCe), del error est dado por:
Ec, 12
Por lo tanto, un estimador insesgado de est
dado por:
Ec. 13

En el caso de los datos de la tabla 1,


datos de resistencia de la pulpa, el
planteamiento de hiptesis sera el
siguiente:
Ho : 1 = 0
Ha : 1 0 aplicando el estadstico
de pruebas

El valor de t -Student encontrado


en tablas con n-2 grados de libertad y
un 0,05 de nivel de significancia es

Dado que el valor absoluto de t es


significativamente mayor que el valor
encontrado en tablas con un nivel de
significancia de 0,05 concluimos que
rechazamos la hiptesis nula por lo tanto si
existe una relacin entre ambas variables.
O bien, dado que el valor-p es menor que
el nivel de significancia, se rechaza la
hiptesis nula valor-p .
2.7 x 0.05

En ocasiones, en lugar de probar que 1 =


0, puede ser de inters probar que es igual
a cierta constante (Ho : 1 = c) , en este
caso en el numerador del estadstico de la
expresin (9) se resta c, es decir, el
estadstico queda de la siguiente manera
(B1-c) /CMe/Sxx, y el criterio de rechazo
es el mismo.

Si se utiliza como criterio de


rechazo la comparacin de la
significancia observada (p-value
o valor p) contra la significancia
predefinida
(),
entonces
se
rechaza Ho si el valor p

Por otro lado, con respecto del parmetro


suele ser de inters probar la siguiente
hiptesis:
Ho : o = 0
Ha : o 0

Ec- 14

El estadstico de prueba es el siguiente


Ec. 15

El cual tiene una distribucin t-Student con n 2


grados de libertad, por lo que Ho se rechaza si:

o si se utiliza el criterio de la significancia


observada Ho se rechaza si el valor-p.
No rechazar que o = 0 simplemente
significa que el punto de corte de la lnea
recta pasa por el origen, es decir pasa por
(0,0). En ocasiones, en lugar de probar
que o = 0, puede ser de inters probar
que es igual a cierta constante (Ho : o =
c ; en ese caso, en el numerador del
estadstico de la expresin (15) se resta c ,
es decir, el estadstico queda de la

Ec. 16

y el criterio de rechazo es el mismo.


En el caso de los datos de la tabla 1. datos de resistencia
de la pulpa, el planteamiento de hiptesis sera el
siguiente:

Prueba de hiptesis en regresin lineal simple

Aplicando el estadstico de prueba y sustituyendo valores

Se obtiene el siguiente resultado

El valor de t-Student encontrado en tablas con


n - 2 grados de libertad y un 0,05 de nivel de
significancia es

54.4254 2.179 se rechaza la


hiptesis nula

La estimacin de los parmetros del modelo y las pruebas de


hiptesis sobre los mismos se sintetizan en la siguiente tabla:

Conclusiones
Hemos rechazado las hiptesis nulas
en ambos anlisis (de regresin y de
varianza) concluyendo que la ecuacin
de regresin:
Resistencia = 130.67 + 1.62 % Fibra
Es significativo por lo tanto podemos
afirmar que nuestro modelo es
importante para predecir la resistencia

Ejercicio

/ tarea 2
1.- Cul es el propsito general del anlisis de regresin?
2.- En el anlisis de regresin intervienen dos tipos de variables: las independientes y las
dependientes. Explique con sus palabras y a travs de ejemplos, las caractersticas de estos
dos tipos de variables.
3.- En el artculo de Concrete Research (Caractersticas del concreto cerca de la superficie:
Permeabilidad intrnseca), se presentaron los datos sobre la resistencia a la compresin y la
permeabilidad intrnseca de varias mezclas y curados de concreto. Las cantidades resumidas
son n = 14, Yi = 572, = 23 530, Xi = 43, = 157,42, y XiYi = 1 697,80. Suponga que las dos variables
se relacionan de acuerdo con el modelo de regresin lineal simple.
a) Calcule las estimaciones de mnimos cuadrados de la pendiente y la ordenada al origen
b) Use la ecuacin de la recta ajustada para predecir la permeabilidad que se observara
cuando la resistencia a la compresin es = 4,3.
c) D una estimacin puntual de la permeabilidad media cuando la resistencia a la
compresin es = 3,7.
d) Suponga que el valor observado de la permeabilidad para X = 3,7 es Y = 46,1

Calidad del ajuste en


regresin lineal simple
En la seccin anterior estudiamos pruebas de
hiptesis para verificar que hay una relacin
significativa entre X y Y ; sin embargo, no
hemos visto si tal relacin permite hacer
estimaciones con una precisin aceptable. Por
ejemplo, es de inters saber qu tanta de la
variabilidad presente en Y fue explicada por
el modelo, adems si se cumplen los
supuestos de los residuos.

Coeficiente de determinacin .
Un primer criterio para evaluar la calidad
del ajuste es observar la forma en que el
modelo se ajust a los datos. En el caso de
la regresin lineal simple esto se distingue
al observar si los puntos tienden a
ajustarse razonablemente bien a la lnea
recta (vase la figura 3). Pero otro criterio
ms cuantitativo es el que proporciona el
coeficiente de determinacin, el cual
est definido por:

EC. 17

Es claro que 0 1. En general se


interpreta como la proporcin de la
variabilidad en los datos (Y) que es
explicada por el modelo. En el caso de
los datos de la resistencia de la pulpa
(tabla 1) tenemos

Por lo tanto, podemos decir que el 93% de


la variacin observada en la resistencia es
explicada por el modelo (lnea recta), lo
cual nos dice que la calidad del ajuste es
satisfactorio, y que por ello, la relacin
entre X y Y es descrita adecuadamente
por una lnea recta.

Coeficiente de determinacin
ajustado . Este coeficiente se calcula
de la siguiente manera:

EC. 18

el cuadrado medio total, CMtotal, se obtiene al


dividir la suma de cuadrados total, Syy, entre
sus grados de libertad. Cuando hay muchos
trminos en un modelo, el estadsticose
prefiere en lugar de, puesto que este ltimo es
engaoso al incrementarse en forma artificial
con cada trmino que se agrega al modelo,
aunque sea un trmino que no contribuya en
nada a la explicacin de la respuesta. En
cambio, elincluso baja de valor cuando el
trmino que se agrega no aporta nada.

Se cumple que 0 1 . En general, para fines


de prediccin se recomienda un coeficiente de
determinacin ajustado de al menos 0,7. En el
caso de los datos de la resistencia de la pulpa
(tabla 1), el coeficiente de determinacin
ajustado est dado por:

Coeficiente de correlacin (r). Es bien


conocido que el coeficiente de correlacin, r,
mide la intensidad de la relacin lineal entre
dos variables X y Y. Si se tiene n pares de
datos de la forma (Xi, Yi), entonces este
coeficiente se obtiene de la siguiente manera:

Ec. 19

Se puede ver que -1 r 1; si es


prximo a - 1, entonces tendremos
una relacin lineal negativa
fuerte, y si r es prximo a cero,
entonces diremos que no hay correlacin
lineal, y finalmente si r es prximo a 1,

entonces tendremos una relacin


lineal positiva fuerte. Por ejemplo,
para los datos de la resistencia de la

El coeficiente de correlacin es:

Lo cual habla de una correlacin positiva fuert

Error estndar de estimacin


(). Una medicin sobre la calidad del
ajuste de un modelo lo da el error estndar
de estimacin, que es una estimacin de la
desviacin estndar del error . En el caso
de la regresin lineal simple, est dado por:
Ec. 20

Es claro que a medida que el modelo


ajuste mejor, la SCE ser menor y en
consecuencia el error estndar de
estimacin tambin ser menor.

Regresin lineal
mltiple
En muchas situaciones prcticas existen varias variables
independientes que se cree que influyen o estn
relacionadas con una variable de respuesta Y, y por lo
tanto ser necesario tomar en cuenta si se quiere predecir
o entender mejor el comportamiento de Y
Por ejemplo, para explicar o predecir el consumo de
electricidad en una casa habitacin tal vez sea necesario
considerar el tipo de residencia, el nmero de personas
que la habitan, la temperatura promedio de la zona,

Sea X1, X2, Xk variables independientes o


regresoras, y sea Y una variable de respuesta,
entonces el modelo de regresin lineal
mltiple con k variables independientes es el
polinomio de primer orden:}

Y = 0 + 1X1+ 2X2 +
+ kXk + Ec. 22

Donde los j son los parmetros del modelo


que se conocen como coeficientes de
regresin y es el error aleatorio, con
media cero, E() = 0 y V() = . Si en la
ecuacin (22) k=1, estamos en el caso de
regresin lineal simple y el modelo es una
lnea recta; si k=2 , tal ecuacin representa
un plano. En general, la ecuacin (22)
representa un hiperplano en el espacio de k
dimensiones generado por las variables
{ Xj }.

El trmino lineal del modelo de regresin


se emplea debido a que la ecuacin (22)
es funcin lineal de los parmetros
desconocidos
0,
1,
,
k.
La
interpretacin de stos es muy similar a lo
ya explicado para el caso de regresin
lineal simple: 0 es la ordenada al origen,
y j mide el cambio esperado en Y por
cambio unitario en Xj cuando el resto de
las variables regresoras se mantienen fijas
o constantes.

Para encontrar los coeficientes de regresin


mltiple por el mtodo de mnimos cuadrados
aplicamos el siguiente sistema
de ecuaciones
Ec. 23
normales:

Estas ecuaciones se pueden resolver


para 0, 1 y 2 mediante cualquier
mtodo apropiado para resolver
sistemas de ecuaciones lineales.
Por ejemplo La siguiente tabla
muestra los pesos Y a la libra ms
cercana, las estaturas X1 a la pulgada
ms cercana y las edades X2 al ao
ms cercano de 12 muchachos.

Tabla 3 Peso, estatura y edad

Para
encontrar
los
coeficientes
de
regresin (0 , 1 y 2)
mltiple mediante el
mtodo
de
mnimos
cuadrados seria de la
siguiente manera

Tabla 4 Procedimiento para realizar los clculos para la regresin


mltiple

X1

X2

X1 y

64

57

4096

3249

64

3648

71

59

10

5041

3481

100

4189

53

49

2809

2401

36

2597

67

62

11

4489

3844

121

4154

55

51

3025

2601

64

2805

58

50

3364

2500

49

2900

77

55

10

5929

3025

100

4235

57

48

3249

2304

81

2736

56

52

10

3136

2704

100

2912

51

42

2601

1764

36

2142

76

61

12

5776

3721

144

4636

68

57

4624

3249

81

3876

48139

34843

976

40830

X2 y

X1 X2

Tabla 4 Procedimiento para realizar los clculos para la regresin


mltiple

Al sustituir las sumatorias calculadas en las


ecuaciones normales, de la tabla No 4. se obtiene

Resolver este sistema de tres ecuaciones


lineales para 0, 1 y 2 , es por lo menos
tedioso. Es comn emplear matrices para
simplificar el proceso. Hoy en da, esta clase
de clculos son realizados por la
computadora.
El resultado seria el siguiente 0 = 3.6511,
1= 0.8546 y 2 = 1.5063 por lo tanto la
ecuacin de regresin es

= 3.6511+ 0.8546x1+ 1.5063x2

La solucin manual aplicando el sistema


de tres ecuaciones lineales con tres
incgnitas (3x3) pudiera ser aplicando
el mtodo de eliminacin de Gauss o
bien el mtodo de Cramer. Para este
tipo de planteamiento se recomienda el
mtodo de Gauss el cual consiste en la
siguiente secuencia:

1/12 (R1) = R1
x
R1

12

R2

643

R3

106

R1

5779

976

X = 643 Y =106
0 34843 1 5779

12

R2
643
-643R1+
R2 =
R2
R3
106

643

Z=
753
240830
106

6796

753

34843
5779

5779
976

40830
6796

R1

1
643
106

53,5833
34,843.
5,779.

8.8333
5,779.
976

62.75
40,830.
6796

R1
R2

1
0

53.5833
388.9381

8.8333
99.1881

62.75
481.75

-106R1 + R3 = R3

R1
R2
R3

X=
0

Y = 1 Z = 2

1
0
106

53.5833
388.9381
5779

8.8333
99.1881
976

62.75
481.75
6796

53,5833
388.9381
99.1702

8.8333
99.1881
39.6702

62.75
481.75
144.5

53.5833
1
99.1702

8.8333
0.2550
39.6702

62.75
1.2386
144.5

R1
1
R2
0
R3
0
1/388.9381(R2) = R2
R1
R2
R3

1
0
0

1/388.9381(R2) = R2

X = 0 Y = 1 Z = 2
R1
R2
R3

53.5833
1
99.1702

8.8333
0.2550
39.6702

62.75
1.2386
144.5

R3-99.1702(R2)+R3 =
R1
1
53,5833
R2
0
1
R3
0
99.1702

8.8333
0.2550
39.6702

62.75
1.2386
144.5

8.8333
0.2550
14.3818

62.75
1.2386
21.6677

R1
R2
R3

1
0
0

1
0
0

53.5833
1
0

X = 0 Y = 1
R1
1
53.583
3
R2
0
1
R3
0
1/14.3818(R3) = 0
R3
R1

R2

0
0

R3

53,583
3
1
0

Z = 2
8.8333

62.75

0.2550
14.381
8

1.2386
21.667
7

8.8333

62.75

0.2550
1

1.2386
1.5066

Una vez que tenemos la diagonal con valores de uno


marcados en rojo, podemos distinguir y calcular los
valores de x, y y z y al mismo tiempo sabemos que x =
0, y = 1 y z = 2.
Por lo tanto:

Z = 1.5066,

mientras que a Y la calculamos con un

despeje

Y
Y
Y
Y

+
+
+
=

0.2550z = 1.2386
0.2550 (1.5066) = 1.2386
0.3841 = 1.2386
1.2386 0.3841 = 0.8545

Ahora calculamos a X
X + 53.5833y + 8.8333z = 62.75
X + 53.5833(0.8545) + 8.8333(1.5066) = 62,75
X + 45.7869 + 13.3082 = 62.75
X + 59.0951 = 62.75
X = 62.75 59.0951=

X = 3.6549
Esto quiere decir que ahora los valores de 0, 1 y 2
son los mismo valores que tienen X, Y y Z

Se continua con el mtodo de cramer

Siguiendo
la
misma secuencia
de
la
multiplicacin
para
el
denominador, as
como para 1 y
2.

Sustituyendo los valores tendremos:

Siguiendo el mismo procedimiento


correspondiente para 0 y 1 tenemos
los coeficientes de regresin mltiple
0 = 3.6511

1 = 0.8546
1.5063

2 =

Pruebas de hiptesis en regresin


lineal mltiple
Las hiptesis sobre los parmetros del modelo son
equivalentes a las realizadas para regresin lineal simple,
pero ahora son ms necesarias porque en regresin
mltiple tenemos ms parmetros en el modelo; sin
embargo, por lo general es necesario evaluar su verdadera
contribucin a la explicacin de la respuesta. Tambin
requerimos de la suposicin de que los errores se
distribuyen en forma normal, independientes, con media
cero y varianza (i~NID(0, ). Una consecuencia de esta
suposicin
es
que
las
observaciones
Yi
son:
NID(o+kj=1jXji, )

La hiptesis global ms importante sobre un modelo


de regresin mltiple consiste en ver si la regresin
es significativa. Esto se logra probando la siguiente
hiptesis:

H0: 1 = 2 = . k = 0
H1: j 0 para al menos una j = 1,2, .,
k
Aceptar Ho significa que ningn trmino o variable en el
modelo tiene una contribucin significativa al explicar la
variable de respuesta Y. Mientras que rechazar Ho implica
que por lo menos un trmino en el modelo contribuye de
manera significativa a explicar Y. El procedimiento para

El estadstico de prueba para la


significancia del modelo de regresin
lineal mltiple esta dado por:
Ec. 24

que bajo Ho tiene una distribucin F(k,n-k-1).


As, se rechaza Ho si Fo > F(, k, n-k-1) o
tambin si valor p = P(F > Fo) <

Ejemplo
Se probar la significacin de la regresin
(con =0.05) utilizando los datos de los
pesos , estaturas y edades de la tabla 3

H0: 1 = 2 = . k = 0
H1: j 0 para al menos un j = 1,2,
., k
El valor de Fo calculado por formula nos da un
valor de Fo = 10.9402, por comodidad
observamos el resumen arrojado por Excel y/o

En tanto que el valor de encontrado en tablas cuando tenemos un nivel


de significancia de 0,05 y 2 grados de libertad en el numerador y 9 en el
denominador el cual es igual a 4,26

F(, k, n-k-1) = F (0.05


Fo > F(, k, n-k-1)

2, 12 2 1) =

F(0.05

10.94 > 4.26

2, 9) =

4.26

se rechaza la

Hiptesis nula
Dado que el valor encontrado en formula es mayor al punto crtico en
base al nivel de significancia por lo que rechazamos la hiptesis nula y
aceptamos la alterna lo cual implica que por lo menos un trmino en el

Tabla 5

ANOVA para la significancia del modelo de


regresin lineal multiple

Coeficiente de determinacin
El que un modelo sea significativo no
necesariamente implica que sea bueno
en trminos de que explique la
variacin de los datos. Por ello es
importante
tener
mediciones
adicionales de la calidad del ajuste del
modelo, como las grficas de residuales
y el coeficiente de determinacin.

Con la informacin del anlisis de varianza


de la tabla 4 es muy sencillo calcular el
coeficiente de determinacin , y el
coeficiente de determinacin ajustado aj:
Ec. 25

Ec. 26

Ambos

coeficientes se interpretan de forma similar al caso de regresin


lineal simple, es decir, como el porcentaje de variabilidad de los datos
que son explicados por el modelo. Se cumple que 0 <aj: < 1; en
general, para hablar de un modelo que tiene un ajuste satisfactorio es
necesario que ambos coeficientes tengan valores superiores a 0,7.
Cuando en el modelo hay trminos que no contribuyen de manera
significativa a ste, el aj tiende a ser menor que el . Por lo tanto, es
deseable depurar el modelo y para ello las siguientes pruebas de
hiptesis son de mucha utilidad.

Para los datos de la tabla 3 tenemos que

= 0.7085
aj = 0.6437

0 <aj < 1
0 <0.6437 0.7085 < 1

Coeficiente de correlacin mltiple


Es la raz cuadrada del coeficiente de
determinacin

y es una medida de la intensidad de la


relacin entre la variable dependiente, y el
conjunto de variables o trminos en el

Error estndar de estimacin. Al igual que


en regresin lineal simple, el error estndar de
estimacin proporciona la medida del error de ajuste
de un modelo, stas tienen una interpretacin
similar a la que se dio para el caso de regresin
lineal simple. En cuanto al clculo en el caso
mltiple, el error estndar de estimacin,

En el caso del ejemplo de los pesos, estatura y edades tenemos

Intervalos de confianza y
prediccin en regresin mltiple
En los modelos de regresin mltiple con
frecuencia
es
conveniente
construir
estimaciones de intervalos de confianza para los
coeficientes de regresin . Por ejemplo, a partir
de la tabla 4 es claro que un estimador por
intervalos de cada coeficiente en lo individual
est dado por:

Tambin es posible obtener un intervalo de confianza con respecto a la respuesta


media en un punto particular, digamos X10, X20,., Xk est dado por

Regresin no lineal
Si las dos variables X y Y se relacionan segn
un modelo de lnea recta, se habla de
regresin lineal simple

Cuando las variables X y Y se relacionan


segn una lnea curva, se habla de regresin
no lineal o curvilnea. Aqu se puede distinguir
entre regresin parablica, exponencial,
potencial etc.

Supongamos que al hacer la representacin grfica


correspondiente la distribucin bidimensional, hemos
obtenido la figura 6.1c. Se observa una clara relacin
entre las dos variables, pero desde luego, esa relacin
no es lineal.
Por tanto, debemos buscar la funcin que ha de
describir la dependencia entre las dos variables.
Nos limitaremos al estudio de las ms utilizadas: la
funcin parablica, la logartmica, la exponencial y la
potencial

Parbola de Regresin
En muchos casos, es una funcin de segundo
grado la que se ajusta lo suficiente a la
situacin real dada.
La expresin general de un polinomio de 2
grado es:

Y = a+ bx +
donde a, b y c son los parmetros.

El problema consiste, por tanto, en


determinar dichos parmetros para una
distribucin dada. Seguiremos para ello, un
razonamiento similar al que hicimos en el
caso del modelo de regresin lineal simple,
utilizando el procedimiento de ajuste de los
mnimos cuadrados, es decir, haciendo que la
suma de los cuadrados de las desviaciones
con respecto a la curva de regresin sea
mnima:

donde, siguiendo la notacin habitual, Yi


son los valores observados de la variable
dependiente, e i los valores estimados
segn el modelo; por tanto, podemos
escribir D de la forma:

Para encontrar los valores


de a, b y c que hacen
mnima
la
expresin
anterior, deberemos igualar
las derivadas parciales de D
con respecto a dichos
parmetros
a
cero
y
resolver
el
sistema
resultante. Las ecuaciones
que forman dicho sistema
se
conocen
como
ecuaciones normales de

1.25

11.2
5

20

30.5

15

68

XY

e=Y-

277. 120 68
0
0.064
5
5
4

13.funcin
11 parablica:
55.5
0.012
Ajuste3de una
= a + bX13.
+c 0
6
6
8
Aplicando el mtodo de los mnimos cuadrados se obtiene el siguiente
sistema de ecuaciones y resolviendo este sistema se obtiene que:
a

= -0.450

55

225 979

b = 0.4932

c = 1.1428

= -0.4504 + 0.4932X + 1.1428

Funcin Exponencial, Potencial y


Logartmica
El problema de ajustar un modelo potencial, de la
forma
Y = A y uno exponencial Y= Ase reduce al de la
funcin lineal, con solo tomar logaritmos.

Modelo potencial:
Si tomamos logaritmos en la expresin de la funcin
potencial, obtendremos:

Como vemos es la ecuacin de una


recta: Y = a + bX, donde ahora. A =
logA. De modo que el problema es
sencillo, basta con transformar Y en
logY y X en logX y ajustar una recta a
los valores transformados. El parmetro
b del modelo potencial coincide con el
coeficiente de regresin de la recta
ajustada a los datos transformados, y A
lo obtenemos mediante el antilog(a).

Modelo exponencial:
Tomando logaritmos en la expresin de la
funcin exponencial, obtendremos:

Tambin se trata de la ecuacin de una


recta, Y = a + bX pero ahora ajustndola a
logY y a X; de modo que, para obtener el
parmetro A del modelo exponencial, basta
con hacer antilog(a), y el parmetro B se

Modelo logartmico:
La curva logartmica Y = a + blogX es
tambin una recta, pero en lugar de estar
referida a las variables originales X e Y, est
referida a logX y a Y.
Hemos visto, cmo, a pesar de ser
inicialmente modelos mucho ms complejos
que el de una recta, estos tres ltimos se
reducen al modelo lineal sin ms que
transformar adecuadamente los datos de

Você também pode gostar