Escolar Documentos
Profissional Documentos
Cultura Documentos
2.
3.
4.
Captulo 14 (Continuacin)
5. Realizar una prueba de hiptesis para determinar si los coeficientes de regresin son diferentes de cero.
Realizar una prueba de hiptesis para cada uno de los coeficientes de regresin.
6.
Para dos variables independientes, la forma general de la ecuacin de la regresin mltiple es:
Y ' a b1 X 1 b2 X 2
X1 y X2 son las variables independientes. a es la interseccin en Y. b1 es la variacin neta en Y por cada unidad de variacin en X1, manteniendo X2 constante. Se denomina coeficiente de regresin parcial, coeficiente de regresin neta, o simplemente coeficiente de regresin.
3
Y ' a b1 X1 b2 X 2 ...bk X k
El criterio de mnimos cuadrados se utiliza para desarrollar esta ecuacin. Dado que la determinacin de b1, b2, etc. es muy tediosa, se recomienda un paquete de software tal como Excel o MINITAB.
El error estndar mltiple de estimacin es una medida de la eficacia de la ecuacin de regresin. Se mide en las mismas unidades que la variable dependiente. Es difcil determinar cul es un valor grande y cul es un valor pequeo del error estndar
s y.12...k
(Y Y ' ) 2 n (k 1)
Las variables independientes y las variables dependientes tienen una relacin lineal. La variable dependiente es continua y por lo menos de nivel de intervalo. La variacin en la diferencia entre los valores real y pronosticado es la misma para todos los valores ajustados de Y. Esto es (Y Y') debe ser aproximadamente igual para todos los valores de Y.Cuando tal sea el caso, las diferencias presentan homoscedasticidad. Las residuales, calculadas mediante Y Y', estn distribuidas en forma normal con media igual a 0. Los valores sucesivos de la variable dependiente deben ser sin correlacin.
7
La tabla ANOVA
La tabla ANOVA reporta la variacin en la variable dependiente. La variacin se divide en dos componentes. La variacin explicada es considerada por el sistema de la variable independiente. La variacin inexplicada o al azar no es considerada por las variables independientes
Matriz de correlacin
Una matriz de correlacin se utiliza para mostrar todos los coeficientes de correlacin simples posibles entre las variables.
La matriz es til para localizar variables independientes correlacionadas. Muestra qu tan fuerte es la correlacin de cada variable independiente con la variable dependiente.
Prueba global
La prueba global se utiliza para investigar si cualquiera de las variables independientes tienen coeficientes significativos. Las hiptesis son: H0 : 1 = 2 = = k = 0
H1 : no todas las s iguales a cero
10
El estadstico de prueba es la distribucin F con k (nmero de variables independientes) y n-(k+1) grados de libertad, donde n es el tamao de muestra.
11
Esta prueba se utiliza para determinar qu variables independientes tienen coeficientes distintos a cero en la regresin. Las variables que tienen coeficientes cero en la regresin se eliminan del anlisis. El estadstico de prueba es la distribucin t con n-(k+1) grados de libertad.
12
Ejemplo 1
Un investigador de mercado que trabaja para el Sper Siete est estudiando el gasto anual que las familias de cuatro o ms destinan a alimentos. Tres variables independientes se consideran para ser relacionadas con los gastos anuales del alimento (alimento). Esas variables son: renta total de la familia (renta) en $00, tamao de la familia (tamao), y si la familia tiene nios en la universidad (universidad).
13
Ejemplo 1 (Continuacin)
Observe lo siguiente con respecto a la ecuacin de regresin. La variable universidad se llama una variable ficticia o de indicador. Puede tomar solamente uno de dos resultados posibles. Eso es un nio es un estudiante de universidad o no. Otros ejemplos de variables simuladas (ficticia) incluyen gnero, la pieza es aceptable o inaceptable, el votante votar o no votar por el gobernador. Codificamos generalmente un valor de la variable simulada como 1 y el otro 0.
14
Ejemplo 1 (Continuacin)
Familia 1 2 3 4 5 6 7 8 Alimento 3900 5300 4300 4900 6400 7300 4900 5300 Ingreso 376 515 516 468 538 626 543 437 Tamao 4 5 4 5 6 7 5 4 Estudiante 0 1 0 0 1 1 0 0
9
10 11 12
6100
6400 7400 5800
608
513 493 563
5
6 6 5
1
1 1 0
15
Ejemplo 1 (Continuacin)
Utilice un paquete de software, tal como MINITAB o Excel, para desarrollar una matriz de correlacin. Del anlisis proporcionado por MINITAB, tenemos la ecuacin de regresin: Y = 954 +1.09X1 + 748X2 + 565X3
Qu gasto en alimento usted estimara para una familia de 4, sin estudiantes de universidad, y una renta de $50.000 (que se introduce como 500)?
16
Ejemplo 1 (Continuacin)
The regression equation is Food = 954 + 1.09 Income + 748 Size + 565 Student Predictor Constant Income Size Student S = 572.7 Coef 954 1.092 748.4 564.5 SE Coef 1581 3.153 303.0 495.1 T 0.60 0.35 2.47 1.14 P 0.563 0.738 0.039 0.287
R-Sq = 80.4%
R-Sq(adj) = 73.1%
Analysis of Variance Source Regression Residual Error Total DF 3 8 11 SS 10762903 2623764 13386667 MS 3587634 327970 F 10.94 P 0.003
17
Ejemplo 1 (Continuacin)
De la regresin de salida observamos: El coeficiente de determinacin es 80.4%. Esto significa que ms de 80% de la variacin en la cantidad gastada en alimento est considerado por las variables renta, tamao de familia y estudiante. Cada $100 dlares adicionales de renta por ao aumentarn la cantidad gastada en alimento en $109 por ao. Un miembro adicional de la familia aumentar la cantidad gastada por ao en alimento en $748. Una familia con un estudiante de universidad gastar $565 ms por ao en alimento que las familias sin un estudiante de universidad.
18
Ejemplo 1 (Continuacin)
0.743
La correlacin ms fuerte entre la variable dependiente y una variable independiente est entre el tamao de la familia y la cantidad gastada en alimento. Ningunas de las correlaciones entre las variables independientes deben causar problemas. Todas estn entre -.70 y 70.
19
Ejemplo 1 (Continuacin)
El gasto estimado en alimento para una familia de 4 con una renta $500 (que es $50.000) y ningn estudiante de universidad es $4.491. Y = 954 + 1.09(500) + 748(4) + 565 (0) = 4491
20
Ejemplo 1 (Continuacin)
Realice una prueba global de hiptesis para determinar si cualquiera de los coeficientes de regresin no son cero.
H0 : 1 = 2 = = 3 = 0
H1 : no todas las s iguales a cero H0 es rechazada si F >4.07. De la salida de MINITAB, el valor calculado de F es 10.94. Decisin: H0 es rechazada. No todos los coeficientes de regresin son cero
21
Ejemplo 1 (Continuacin)
Realice una prueba individual para determinar qu coeficientes no son cero. Esta es la hiptesis para la variable independiente tamao de familia.
H0 : 2 0
H1: 2 0
De la salida de MINITAB, la nica variable significativa es FAMILIA (tamao de la familia) que usa los valores-p. Las otras variables se pueden omitir del modelo. As, usando el nivel del 5% de significacin, rechazo H0 si el valor p< .05.
22
Ejemplo 1 (Continuacin)
Volvemos a efectuar el anlisis usando solamente el tamao de familia como variable independiente . La nueva ecuacin de la regresin es: Y = 340 + 1031X2
El coeficiente de determinacin es 76.8%. Eliminamos dos variables independientes, y el trmino de R-cuadrado fue reducido por solamente 3.6%.
23
Ejemplo 1 (Continuacin)
Anlisis de regresin: alimento contra tamao
La ecuacin de la regresin es Food = 340 + 1031 Size Predictor Constant Size Coef 339.7 1031.0 SE Coef 940.7 179.4 T 0.36 5.75 P 0.726 0.000
S = 557.7
R-Sq = 76.8%
R-Sq(adj) = 74.4%
Analysis of Variance Source Regression Residual Error Total DF 1 10 11 SS 10275977 3110690 13386667 MS 10275977 311069 F 33.03 P 0.000
24
Anlisis de residuales
Una residual es la diferencia entre el valor real de Y y el valor predicho Y'. Las residuales deben ser normalmente distribuidas. Los histogramas y los diagramas de rbol y hojas son tiles en la comprobacin de este requisito. Un diagrama de residuales y valores de su correspondiente Y' se utiliza para demostrar que no hay tendencias o patrones en las residuales.
25
Diagrama residual
1000
Residuales
500 0
-500
4500 6000 Y
26
7500
Histogramas de residuales
8 7 6 5 4 3 2 1 0
-600 -200 200 Residuales
27
Frecuencia
600
1000