Você está na página 1de 27

Captulo 14

Anlisis de regresin y correlacin mltiples


1. Objetivos: Al terminar este captulo podr: Describir la relacin entre diversas variables independientes y una variable dependiente, utilizando la ecuacin de regresin mltiple. Calcular e interpretar el error estndar de estimacin mltiple y el coeficiente de determinacin.

2.

3.
4.

Interpretar una matriz de correlacin.


Establecer y explicar una tabla ANOVA.
1

Captulo 14 (Continuacin)
5. Realizar una prueba de hiptesis para determinar si los coeficientes de regresin son diferentes de cero.
Realizar una prueba de hiptesis para cada uno de los coeficientes de regresin.

6.

Anlisis de regresin mltiple

Para dos variables independientes, la forma general de la ecuacin de la regresin mltiple es:

Y ' a b1 X 1 b2 X 2

X1 y X2 son las variables independientes. a es la interseccin en Y. b1 es la variacin neta en Y por cada unidad de variacin en X1, manteniendo X2 constante. Se denomina coeficiente de regresin parcial, coeficiente de regresin neta, o simplemente coeficiente de regresin.
3

Anlisis de regresin mltiple

La regresin general mltiple con k variables independientes es dado por:

Y ' a b1 X1 b2 X 2 ...bk X k

El criterio de mnimos cuadrados se utiliza para desarrollar esta ecuacin. Dado que la determinacin de b1, b2, etc. es muy tediosa, se recomienda un paquete de software tal como Excel o MINITAB.

Error estndar mltiple de estimacin

El error estndar mltiple de estimacin es una medida de la eficacia de la ecuacin de regresin. Se mide en las mismas unidades que la variable dependiente. Es difcil determinar cul es un valor grande y cul es un valor pequeo del error estndar

Error estndar mltiple de estimacin


La frmula es:

s y.12...k

(Y Y ' ) 2 n (k 1)

Hiptesis para la regresin mltiple y la correlacin mltiple

Las variables independientes y las variables dependientes tienen una relacin lineal. La variable dependiente es continua y por lo menos de nivel de intervalo. La variacin en la diferencia entre los valores real y pronosticado es la misma para todos los valores ajustados de Y. Esto es (Y Y') debe ser aproximadamente igual para todos los valores de Y.Cuando tal sea el caso, las diferencias presentan homoscedasticidad. Las residuales, calculadas mediante Y Y', estn distribuidas en forma normal con media igual a 0. Los valores sucesivos de la variable dependiente deben ser sin correlacin.
7

La tabla ANOVA

La tabla ANOVA reporta la variacin en la variable dependiente. La variacin se divide en dos componentes. La variacin explicada es considerada por el sistema de la variable independiente. La variacin inexplicada o al azar no es considerada por las variables independientes

Matriz de correlacin
Una matriz de correlacin se utiliza para mostrar todos los coeficientes de correlacin simples posibles entre las variables.

La matriz es til para localizar variables independientes correlacionadas. Muestra qu tan fuerte es la correlacin de cada variable independiente con la variable dependiente.

Prueba global

La prueba global se utiliza para investigar si cualquiera de las variables independientes tienen coeficientes significativos. Las hiptesis son: H0 : 1 = 2 = = k = 0
H1 : no todas las s iguales a cero

10

Prueba global (Continuacin)

El estadstico de prueba es la distribucin F con k (nmero de variables independientes) y n-(k+1) grados de libertad, donde n es el tamao de muestra.

11

Prueba para variables individuales

Esta prueba se utiliza para determinar qu variables independientes tienen coeficientes distintos a cero en la regresin. Las variables que tienen coeficientes cero en la regresin se eliminan del anlisis. El estadstico de prueba es la distribucin t con n-(k+1) grados de libertad.

12

Ejemplo 1
Un investigador de mercado que trabaja para el Sper Siete est estudiando el gasto anual que las familias de cuatro o ms destinan a alimentos. Tres variables independientes se consideran para ser relacionadas con los gastos anuales del alimento (alimento). Esas variables son: renta total de la familia (renta) en $00, tamao de la familia (tamao), y si la familia tiene nios en la universidad (universidad).

13

Ejemplo 1 (Continuacin)
Observe lo siguiente con respecto a la ecuacin de regresin. La variable universidad se llama una variable ficticia o de indicador. Puede tomar solamente uno de dos resultados posibles. Eso es un nio es un estudiante de universidad o no. Otros ejemplos de variables simuladas (ficticia) incluyen gnero, la pieza es aceptable o inaceptable, el votante votar o no votar por el gobernador. Codificamos generalmente un valor de la variable simulada como 1 y el otro 0.
14

Ejemplo 1 (Continuacin)
Familia 1 2 3 4 5 6 7 8 Alimento 3900 5300 4300 4900 6400 7300 4900 5300 Ingreso 376 515 516 468 538 626 543 437 Tamao 4 5 4 5 6 7 5 4 Estudiante 0 1 0 0 1 1 0 0

9
10 11 12

6100
6400 7400 5800

608
513 493 563

5
6 6 5

1
1 1 0
15

Ejemplo 1 (Continuacin)

Utilice un paquete de software, tal como MINITAB o Excel, para desarrollar una matriz de correlacin. Del anlisis proporcionado por MINITAB, tenemos la ecuacin de regresin: Y = 954 +1.09X1 + 748X2 + 565X3

Qu gasto en alimento usted estimara para una familia de 4, sin estudiantes de universidad, y una renta de $50.000 (que se introduce como 500)?

16

Ejemplo 1 (Continuacin)

The regression equation is Food = 954 + 1.09 Income + 748 Size + 565 Student Predictor Constant Income Size Student S = 572.7 Coef 954 1.092 748.4 564.5 SE Coef 1581 3.153 303.0 495.1 T 0.60 0.35 2.47 1.14 P 0.563 0.738 0.039 0.287

R-Sq = 80.4%

R-Sq(adj) = 73.1%

Analysis of Variance Source Regression Residual Error Total DF 3 8 11 SS 10762903 2623764 13386667 MS 3587634 327970 F 10.94 P 0.003

17

Ejemplo 1 (Continuacin)
De la regresin de salida observamos: El coeficiente de determinacin es 80.4%. Esto significa que ms de 80% de la variacin en la cantidad gastada en alimento est considerado por las variables renta, tamao de familia y estudiante. Cada $100 dlares adicionales de renta por ao aumentarn la cantidad gastada en alimento en $109 por ao. Un miembro adicional de la familia aumentar la cantidad gastada por ao en alimento en $748. Una familia con un estudiante de universidad gastar $565 ms por ao en alimento que las familias sin un estudiante de universidad.
18

Ejemplo 1 (Continuacin)

La matriz de correlacin es como sigue:


Alimento 0.587 0.876 0.773 Ingreso 0.609 0.491 Tamao

Ingreso Tamao Estudiante

0.743

La correlacin ms fuerte entre la variable dependiente y una variable independiente est entre el tamao de la familia y la cantidad gastada en alimento. Ningunas de las correlaciones entre las variables independientes deben causar problemas. Todas estn entre -.70 y 70.
19

Ejemplo 1 (Continuacin)

El gasto estimado en alimento para una familia de 4 con una renta $500 (que es $50.000) y ningn estudiante de universidad es $4.491. Y = 954 + 1.09(500) + 748(4) + 565 (0) = 4491

20

Ejemplo 1 (Continuacin)
Realice una prueba global de hiptesis para determinar si cualquiera de los coeficientes de regresin no son cero.

H0 : 1 = 2 = = 3 = 0
H1 : no todas las s iguales a cero H0 es rechazada si F >4.07. De la salida de MINITAB, el valor calculado de F es 10.94. Decisin: H0 es rechazada. No todos los coeficientes de regresin son cero
21

Ejemplo 1 (Continuacin)

Realice una prueba individual para determinar qu coeficientes no son cero. Esta es la hiptesis para la variable independiente tamao de familia.

H0 : 2 0

H1: 2 0

De la salida de MINITAB, la nica variable significativa es FAMILIA (tamao de la familia) que usa los valores-p. Las otras variables se pueden omitir del modelo. As, usando el nivel del 5% de significacin, rechazo H0 si el valor p< .05.

22

Ejemplo 1 (Continuacin)

Volvemos a efectuar el anlisis usando solamente el tamao de familia como variable independiente . La nueva ecuacin de la regresin es: Y = 340 + 1031X2

El coeficiente de determinacin es 76.8%. Eliminamos dos variables independientes, y el trmino de R-cuadrado fue reducido por solamente 3.6%.

23

Ejemplo 1 (Continuacin)
Anlisis de regresin: alimento contra tamao
La ecuacin de la regresin es Food = 340 + 1031 Size Predictor Constant Size Coef 339.7 1031.0 SE Coef 940.7 179.4 T 0.36 5.75 P 0.726 0.000

S = 557.7

R-Sq = 76.8%

R-Sq(adj) = 74.4%

Analysis of Variance Source Regression Residual Error Total DF 1 10 11 SS 10275977 3110690 13386667 MS 10275977 311069 F 33.03 P 0.000

24

Anlisis de residuales

Una residual es la diferencia entre el valor real de Y y el valor predicho Y'. Las residuales deben ser normalmente distribuidas. Los histogramas y los diagramas de rbol y hojas son tiles en la comprobacin de este requisito. Un diagrama de residuales y valores de su correspondiente Y' se utiliza para demostrar que no hay tendencias o patrones en las residuales.

25

Diagrama residual

1000
Residuales

500 0

-500
4500 6000 Y
26

7500

Histogramas de residuales

8 7 6 5 4 3 2 1 0
-600 -200 200 Residuales
27

Frecuencia

600

1000

Você também pode gostar