Escolar Documentos
Profissional Documentos
Cultura Documentos
Referencias bibliogrficas
1. 2. Hair, J.F., Anderson, R.E., Tatham, R.L. y Black, W.C. (1999) Anlisis Multivariante (5 edicin). Ed. Prentice Hall. Prez, C. (2001) Tcnicas estadsticas con SPSS. Ed. Prentice Hall.
INTRODUCCIN
El Anlisis de Regresin tiene como objetivo estudiar la relacin entre variables. Permite expresar dicha relacin en trminos de una ecuacin que conecta una variable de respuesta Y, con una o ms variables explicativas X1,X2,,Xk. Finalidad:
Determinacin explcita del funcional que relaciona las variables. (Prediccin) Comprensin por parte del analista de las interrelaciones entre las variables que intervienen en el anlisis.
PLANTEAMIENTO GENERAL
Notacin: Y variable de respuesta (dependiente, endgena, explicada) X1,X2,,Xk variables explicativas (independientes, exgenas,
regresores)
Y=
0+
1 X1+
2 X2 ++
k Xk +
ln Y = a + b X
Situaciones especiales en la estimacin del modelo lineal: Mnimos cuadrados en dos fases (correlacin entre residuos y v. explicativas), estimacion ponderada (situacin de heterocedasticidad)
Submen REGRESIN
Regresin lineal mltiple Ajuste de curvas mediante linealizacin
Y=
0+
1 X1+
2 X2 ++
k Xk +
(1)
magnitud del efecto que Xj tienen sobre Y (incremento en la media de Y cuando Xj aumenta una unidad) trmino constante (promedio de Y cuando las v. explicativas valen 0) residuos (perturbaciones aleatorias, error del modelo)
Datos (observaciones, muestra) { (Yi, X1i,,Xki) : i = 1,,n } PROBLEMA Suponiendo que la relacin entre las variables es como en (1), estimar los coeficientes ( j ) utilizando la informacin proporcionada por la muestra
Y=X
HIPTESIS
j
Homocedasticidad: No autocorrelacin:
j
2)
Yi valor predicho
{ Yi (
i=1
1X i1
+ ... +
k X ik
)}
Residuo estimado :
i i = Yi Y
= 0
T T X)-1 XT Y (X L = 1 k
(Coches.sav)
Consumo (l/100Km) Cilindrada en cc Potencia (CV) Peso total (kg) Aceleracin 0 a 100 km/h (segundos)
Variables independientes
Modelo 1
(Constante) Cilindrada en cc Potencia (CV) Peso total (kg) Aceleracin 0 a 100 km/h (segundos)
Coeficientes no estandarizados B Error tp. ,432 1,166 3,093E-04 ,000 4,386E-02 ,008 4,948E-03 ,001 2,504E-02 ,059
Coeficientes tipificados
t ,370 1,612 5,582 4,404 ,424 Sig. ,711 ,108 ,000 ,000 ,672
b = j
Xj Y
(0
T L k 2
Contraste de hiptesis ( Xj )
H0 : H1 : Resolucin
T=
j j
=0 0
j
SE( j )
t n-k -1 Bajo H
0
Contraste de hiptesis
Aceptar H0 significa que no es conveniente incluir un trmino constante en el anlisis de regresin realizado
H0 : H1 : Resolucin
0 0
=0 0
0 T= t n- 2 Bajo H0 SE( 0 )
Ejemplo (Coches.sav)
Interpretacin del p-valor
(en un contraste al nivel de significacin )
Si p-valor <
Coeficientesa Coeficientes estandarizad os Beta ,134 ,424 ,355 ,018
0 0
=0 0
Modelo 1
(Constante) Cilindrada en cc Potencia (CV) Peso total (kg) Aceleracin 0 a 100 km/h (segundos)
Coeficientes no estandarizados B Error tp. ,432 1,166 3,093E-04 ,000 4,386E-02 ,008 4,948E-03 ,001 2,504E-02 ,059
H0 :
j j
=0 0
H1 :
Motor (0.108) y Acel (0.672) no son significativas CV (0.000) y Peso (0.000) s son significativas
( Yi y )
VT
Coeficiente de determinacin
R2 = VE VNE = 1VT VT
R: Coeficiente correlacin lineal mltiple Indica la mayor correlacin entre Y y las c.l. de las v. explicativas
n -1 2 R n - k -1
Ejemplo (Coches.sav)
b Resumen del modelo
Modelo 1
a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cc b. Variable dependiente: Consumo (l/100Km)
R2 = 0.755
Consumo queda explicada en un 75.5% por las variables explicativas segn el modelo lineal considerado (siempre algo menor que R2)
R2 corregido = 0.752
= =
j
=0
H0 : R = 0 H1 : R 0
H1 : Algn
Resolucin (ANOVA)
F= VE / k H Fk, n-k -1 Bajo 0 VNE / (n - k - 1)
Ejemplo (Coches.sav)
Contraste de regresin
ANOVAb Suma de cuadrados 4626,220 1502,188 6128,408 Media cuadrtica 1156,555 3,882 Modelo 1 gl 4 387 391 F 297,956 Sig. ,000a
a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cc b. Variable dependiente: Consumo (l/100Km)
Prediccin
Bandas de confianza
Predicciones para Y
Regresin Valor pronosticado tipificado
1x 1
+ ... +
k xk
-1
-2 0 10 20 30
R = 0.7549
Consumo (l/100Km)
80
.75
60
.50
40
.25
Frecuencia
Residuo tipificado
1.2. No autocorrelacin
Hace referencia a los efectos de la inercia de una observacin a otra que pueda indicar la no independencia entre los residuos. Se trata de buscar modelos o pautas en los grficos residuales frente al nmero de caso (incluso con cada variable independiente).
Si d<1.18 rechazar,
-1
-2
-3 -100
1.3. Homocedasticidad
Hace referencia a la constancia de los residuos para los valores que van tomando las variables independientes.
30
Standardized Residual
20
-1
Standardized Residual
0 100 200 300
-1
-2
-2
-3
Potencia (CV)
Cilindrada en cc
Consumo (l/100Km)
10
4 4
0
Standardized Residual
-1
Standardized Residual
600 800 1000 1200 1400 1600 1800
-2
-1
-1
-2
-2
-3 400
-3 0 10 20 30
20 10
10
Consumo (l/100Km)
Consumo (l/100Km)
Cilindrada en cc
Son diagramas de dispersin de los residuos de cada v. independiente y los residuos de la v. dependiente cuando se regresan ambas por separado sobre las restantes v. independientes.
20
20
Consumo (l/100Km)
10
10
Consumo (l/100Km)
-20 0 20 40 60 80
-10 -40
-10 -6 -4 -2 0 2 4 6 8
Potencia (CV)
1.5. No multicolinealidad
Colinealidad es la asociacin, medida como correlacin, entre dos variables explicativas (el trmino multicolinealidad se utiliza para tres o ms variables explicativas). Impacto de la multicolinealidad Reduccin del poder explicativo de cualquier v. explicativa individual en la medida en que est correlada con las otras v. explicativas presentes en el modelo.
1.
Aceleracin 0 a 100 km/h (segundos) ,00 ,02 ,06 ,00 ,92
Proporciones de la varianza Indice de condicin 1,000 4,454 14,440 27,474 36,185 Cilindrada en cc ,00 ,03 ,22 ,75 ,01 Peso total (kg) ,00 ,00 ,01 ,70 ,29
Identificar los ndices que estn por encima del umbral: 30 Para los ndices identificados, identificar las variables con proporciones de varianza por encima del 90%: Habr multicolinealidad si ocurre con dos o ms coeficientes.
Modelo 1
Dimensin 1 2 3 4 5
2.
Posibles soluciones: - ACP y utilizar las componentes principales como regresores. - A la vista de las correlaciones eliminar variables redundantes.
Datos influyentes
Individuos cuya omisin produce cambios notables en los resultados del anlisis
Medidas para identificar puntos de apalancamiento: Leverage o medida de influencia: Lmite: 2(k+1) / n (Si n>50, 3(k+1) / n) Distancia de Mahalanobis: Considera la distancia de cada observacin
desde los valores medios de las v.independientes. Existen tablas para contrastar, pero en general se procede a identificar valores considerablemente altos respecto al resto.
Medidas para identificar observaciones influyentes: Influencias sobre coeficientes individuales: DFBETA
Mide el efecto del dato i-simo ejerce sobre j. Lmites para la versin estandarizada: 2 n
- 1 / 2 (si
COVRATIO Representa el grado al que una observacin tiene impacto sobe los errores
estndar de los coeficientes. Lmites: 1 3(k+1) / n
Distancia de Cook:
SPSS
Nmero de caso 35
Consumo (l/100Km) 26
Valor pronosticado Valor pronosticado tip. Error tpico del valor pronosticado Valor pronosticado corregido Residuo bruto Residuo tip. Residuo estud. Residuo eliminado Residuo eliminado estud. Dist. de Mahalanobis Distancia de Cook Valor de influencia centrado
Mnimo 5,95 -1,545 ,107 4,57 -5,16 -2,618 -2,641 -5,25 -2,661 ,166 ,000 ,000
Mximo 21,05 2,843 ,831 21,08 20,05 10,176 10,520 21,43 12,433 68,628 1,520 ,176
Media 11,27 ,000 ,210 11,26 ,00 ,000 ,001 ,00 ,006 3,990 ,007 ,010
Desviacin tp. 3,440 1,000 ,075 3,447 1,960 ,995 1,011 2,024 1,067 4,866 ,077 ,012
N 392 392 392 392 392 392 392 392 392 392 392 392
El rango de valores para la distancia de Mahalanobis es elevado Hay valores de la distancia de Cook superiores a 4 / (n-k-1) = 0.010 Medida de influencia. Lmite (k=4): 0.038
Modelo 1 2
Variables eliminadas , ,
Mtodo Hacia adelante (criterio: Prob. de F para entrar <= ,050) Hacia adelante (criterio: Prob. de F para entrar <= ,050)
Estadsticos de cambio Modelo 1 2 R R cuadrado ,837a ,700 ,868b ,753 R cuadrado corregida ,699 ,752 Error tp. de la estimacin 2,172 1,972 Cambio en R cuadrado ,700 ,053 Cambio en F 909,085 84,214 gl1 1 1 gl2 390 389 Sig. del cambio en F ,000 ,000
a. Variables predictoras: (Constante), Peso total (kg) b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)
b Variables introducidas/eliminadas
Modelo 1
Variables introducidas Aceleracin 0 a 100 km/h (segundos), Peso total (kg), a Potencia (CV), Cilindrada en cc , ,
Mtodo
2 3
Hacia atrs (criterio: Prob. de F para eliminar >= ,100). Hacia atrs (criterio: Prob. de F para eliminar >= ,100).
Estadsticos de cambio Modelo 1 2 3 R R cuadrado ,869a ,755 b ,869 ,755 ,868c ,753 R cuadrado corregida ,752 ,753 ,752 Error tp. de la estimacin 1,970 1,968 1,972 Cambio en R cuadrado ,755 ,000 -,002 Cambio en F 297,956 ,180 2,456 gl1 4 1 1 gl2 387 389 390 Sig. del cambio en F ,000 ,672 ,118
a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cc b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV), Cilindrada en cc c. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)
a Variables introducidas/eliminadas
Modelo 1 2
Variables eliminadas , ,
Mtodo Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
Estadsticos de cambio Modelo 1 2 R R cuadrado ,837a ,700 ,868b ,753 R cuadrado corregida ,699 ,752 Error tp. de la estimacin 2,172 1,972 Cambio en R cuadrado ,700 ,053 Cambio en F 909,085 84,214 gl1 1 1 gl2 390 389 Sig. del cambio en F ,000 ,000
a. Variables predictoras: (Constante), Peso total (kg) b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)
Resumen
Pasos a seguir en un anlisis de regresin
Paso 1. Objetivos del anlisis Paso 2. Diseo de la investigacin mediante regresin mltiple Paso 3. Supuestos del anlisis Paso 4. Estimacin del modelo de regresin y valoracin global del ajuste Paso 5. Interpretacin y validacin de los resultados.