Você está na página 1de 67

Tema: Análisis de Regresión Lineal

Profesor:
Ing. Luis Alberto Sánchez Alvarado
1
Para ilustrar la forma de trabajo del análisis de regresión
múltiple se usará el siguiente caso

Se desea tener un modelo del cual ayude a pronosticar


las ventas de la empresa de ABC, pero basado en la
inversión mensual que hacen el publicidad en Tv, radio
y en la web. Para ello tienen información histórica de
490 datos recolectados de sus diferentes filiales. Cada
una de las variables están en nuevos soles. Determinar:

-Cual sería del modelo final


-Cuales son las variables que influyen más en las ventas
-Determinar si el modelo es válido.

Usar la base Ventas2.sav

2
Todo análisis de regresión múltiple incluye una secuencia de
análisis la cual esta dado por:

Objetivo de la Regresión Múltiple

Diseño de la investigación

Estimación del modelo de Regresión


y valoración del ajuste

Supuestos del análisis de Regresión

Interpretación del resultado teórico

Validación y presentación de
resultados
3
Objetivo: Es el punto de partida de toda investigación de análisis multivariado

Objetivo de la Regresión Múltiple

Diseño de la investigación

Estimación del modelo de Regresión


y valoración del ajuste

Supuestos del análisis de Regresión

Interpretación del resultado teórico

Validación y presentación de
resultados
4
Objetivos …

Los objetivos del caso son:

-Estimación de un modelo de predicción


-Determinar las variables que influyen más en las ventas
-Validar el modelo

5
Diseño de la investigación: Se debe analizar el tamaño de muestra ideal y la forma
como recoger la información de las variables

Objetivo de la Regresión Múltiple

Diseño de la investigación

Estimación del modelo de Regresión


y valoración del ajuste

Supuestos del análisis de Regresión

Interpretación del resultado teórico

Validación y presentación de
resultados
6
Diseño de la investigación : El tamaño de muestra es quizás el factor más influyente
bajo control del investigador

Las muestras deben ser por encima de 50 y por


debajo de 1000 casos

Se recomienda como mínimo 15 a 20


observaciones por variable independiente

Para un análisis por pasos se recomienda 50


observaciones por variable independientes.

Variables independientes: 3
Procedimiento por pasos: SI

Muestra: 3*50 =150 casos como mínimo


EL CASO CUMPLE CON ELLO

7
Diseño de la investigación : La forma como se debe plantear el modelo es del
siguiente:

Inversión publicitaria
En TV

Inversión publicitaria
VENTAS
En Radio

Inversión publicitaria
En Web

8
Estimación del modelo: Tomando en cuenta las variables seleccionadas se
comienza a analizar la relación entre ellas

Objetivo de la Regresión Múltiple

Diseño de la investigación

Estimación del modelo de Regresión


y valoración del ajuste

Supuestos del análisis de Regresión

Interpretación del resultado teórico

Validación y presentación de
resultados
9
Estimación del modelo : El modelo de regresión describirá la relación entre la
variable dependiente y el conjunto de variables independientes

Modelo de Regresión:

𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 … + 𝛽𝑘 𝑥𝑘 + 𝜖

Variable
dependiente,
criterio o a explicar.

Parámetro del
modelo :Término
constante. Parámetros del
modelo: Variables
Error: Variable
independientes,
aleatoria que da
predictoras o
cuenta sobre
explicativas
variabilidad que no
puede ser
explicada por la
relación de y e X
10
Estimación del modelo : Con el valor medio de “y” y sus respectivos “x” se logra
tener la ecuación de regresión múltiple y luego con muestras se obtiene la
ecuación estimada

Ecuación de Regresión:

𝐸(𝑦) = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 … + 𝛽𝑘 𝑥𝑘
Ecuación de Regresión ESTIMADA:

𝑦 = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 … + 𝑏𝑘 𝑥𝑘
Estadísticos Muestrales: Variables
independientes, predictoras o explicativas

11
Estimación del modelo : En la aplicación el modelo quedará establecido por la
relación entre la ventas y los gastos en publicidad

Modelo de Regresión de la Satisfacción de la empresa será:

Variable
dependiente,
criterio o a explicar.

Parámetro del
modelo :Término
constante. Parámetros del
modelo: Variables
Error: Variable
independientes,
aleatoria que da
predictoras o
cuenta sobre
explicativas
variabilidad que no
puede ser
explicada por la
relación de y e X
12
Para encontrar la ecuación que mejor se ajuste a los resultados se usa la
metodología de MINIMOS CUADRADOS, con la cual se busca minimizar el error

ESTIMACIÓN DE LOS
PARÁMETROS:

𝐸𝑟𝑟𝑜𝑟 = 𝑦𝑖 − 𝑦𝑖

𝑀𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 (𝑦𝑖 − 𝑦𝑖 )2
𝑖=1

𝑦 = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 … + 𝑏𝑘 𝑥𝑘
13
Durante el análisis es necesario hacer pruebas de significancia tanto global como
individuales

Significancia global

Al menos una de las variables 𝐻0 : 𝛽1 = 𝛽2 = ⋯ = 𝛽𝐾 = 0


consideradas son buenas para
predecir el valor de la variable 𝐻1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑝𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠 𝑒𝑠 𝑑𝑖𝑠𝑡𝑖𝑛𝑡𝑜 𝑑𝑒 𝑐𝑒𝑟𝑜
dependiente.

Prueba F(k,n-k-1)
Se rechazará Ho si Sig <0.05

Significancia individual

Que variables aportan al 𝐻1 : 𝛽𝑖 ≠ 0


modelo, es decir cuales
ayudan a predecir la variable
dependiente. 𝐻0 : 𝛽𝑖 = 0

Prueba T(n-k-1)
Se rechazará Ho si Sig <0.05
14
En el ejemplo…

Ingresamos al procedimiento de Regresión Lineal …

15
Se selecciona las variables dependientes e independientes

16
Primero se prueba la significancia global

La hipótesis a probar es:


Ho: Ninguna de las variables aporta al modelo
H1: Al menos una de las variables aporta el modelo

Se ve que el Sig=0, por lo que tomando en cuenta un nivel de significancia de 0.05 se


puede rechazar Ho y decir que al menos una variable de las incluidas aporta al
análisis.

17
Primero se prueba la significancia global

Al plantear la prueba de hipótesis para cada uno de las variables se nota que la
variable Inversión publicitaria Web es NO significativa por lo que debería retirarse del
modelo.

Correr nuevamente el análisis de regresión pero sin tomar en cuenta esta variables.

18
Bondad de ajuste ….

De acuerdo a los resultados la bondad de ajuste que se tiene es aceptable

De los valores que se tiene en tabla. Lo que e usa es el R2:

El R cuadrado corregida se basa en el número de casos y las variables


independientes, esto debido que cuando se tiene pocas variables se suele
incrementarse dando un valor artificial alto.

19
El modelo estará dado por …

20
Supuestos del análisis de regresión: Ayudarán a garantizar la validez del modelo

Objetivo de la Regresión Múltiple

Diseño de la investigación

Estimación del modelo de Regresión


y valoración del ajuste

Supuestos del análisis de Regresión

Interpretación del resultado teórico

Validación y presentación de
resultados
21
Para garantizar el análisis se debe cumplir con los supuestos

Linealidad No colinealidad

Normalidad Homocedasticidad Media cero

Independencia

22
Linealidad:

Linealidad No colinealidad

Normalidad Homocedasticidad Media cero

Independencia

23
Linealidad: La relación entre la variable dependiente y cada una de las
independientes debe ser una relación lineal

Herramienta Gráfica: Diagramas de Herramienta Numérica: Las


regresión parcial correlaciones

Gráfico de
dispersión Correlación Satisfacción General
Variable x1 0.86
Variable x2 0.68
Satisfacción General

Variable x3 0.65

Satisfacción
Funcionario de Negocio
24
Linealidad: En el ejemplo de ventas …

Para ver la gráfica de linealidad se realiza un simple gráfico de dispersión,


los pasos son los siguientes:

25
Linealidad: En el ejemplo de ventas …

Se selecciona el gráfico de dispersión simple:

26
Linealidad: En el ejemplo de ventas …

Al revisar el gráfico de dispersión entre la variable dependiente y cada


una de las variables independientes se puede apreciar que la relación
entre ellas es una relación lineal. Por lo tanto gráficamente cumplen con
el supuesto.

27
Linealidad: En el ejemplo de ventas …

Otra forma gráfica es mediante el uso de gráficos parciales … Son diagramas de


dispersión de los residuos de cada v. independiente y los residuos de la v.
dependiente cuando se regresan ambas por separado sobre las restantes
v. independientes

28
Linealidad: En el ejemplo de ventas …

En estos gráficos también se puede ver que la relación toma una forma lineal , por
lo cual cumple el supuesto de linealidad.

29
Linealidad: Pero se puede demostrar la linealidad también
usando correlaciones

La secuencia a salir es:

30
Linealidad: Pero se puede demostrar la linealidad también
usando correlaciones

Seleccionamos tanto la variable dependiente como independiente

31
Linealidad: Pero se puede demostrar la linealidad también
usando correlaciones

Como se puede apreciar la correlación entre las variables independientes


seleccionadas y la dependiente (ventas) son altas por lo que podemos decir
que la asociación lineal entre ellas existe.

32
No colinealidad:

Linealidad No colinealidad

Normalidad Homocedasticidad Media cero

Independencia

33
Este supuesto implica que no debe existir una relación lineal fuerte entre las
variables independientes. Si no cumple se tiene multicolinealidad

El incumplimiento de este supuesto puede


provocar:

-Produce coeficientes de regresión inestables,


añadir o quitar casos puede provocar cambios
sustanciales.
-Puede provocar R2 negativos.

34
La primera forma de probarlo es mediante el cálculo de las correlaciones

En el ejemplo se puede usar la matriz de correlaciones que se obtuvo para probar la


linealidad, se puede ver que las correlaciones entre las variables independientes son bajas
por lo que se podría decir que el supuesto esta por cumplido.

35
La segunda forma de probar este supuesto es con el índice de tolerancia

Otra forma es usando la tolerancia de las variables, este indicador es la proporción de


varianza de esa variable que no está asociada (que no depende) del resto de variables
independientes incluidas en la ecuación. Para decir que no existe multicolinealidad se
debe tener indices de tolerancia por encima de 0.2.

La forma como se obtiene es (Diagnóstico de colinealidad):

36
La tolerancia en SPSS…

Se puede apreciar que para ambas variables la tolerancia está por encima de 0.2, por
lo que se puede decir que la multicolinealidad no existe y el supuesto se da por
cumplido.

37
Normalidad:

Linealidad No colinealidad

Normalidad Homocedasticidad Media cero

Independencia

38
Normalidad: Los errores deben seguir una distribución normal, es el supuesto más
importante

Herramienta Gráfica: Diagramas de Herramienta Numérica: Test de


dispersión entre residuales y Kolmogorov
pronosticados
Probabilidad

Ho: Los datos tienen una


acumulada
esperada

distribución normal

Probabilidad acumulada observada

39
Lo primero que se debe obtener son los residuo y los valores pronosticados.

La secuencia es la siguiente :

40
Las variables son creadas…

Tras ello se crea la columna de los residuales y los pronosticados:

41
Se debe hacer la prueba de normalidad para el “error” o los “residuales” …

La secuencia es:

42
Se debe hacer la prueba de normalidad para el “error” o los “residuales” …

La prueba de hipótesis es la siguiente:


Ho: Los errores provienen de una distribución normal

En este caso dado que el Sig. Es mayor a 0.05, se puede decir que los errores tienen una
distribución normal.

El gráfico QQ Plot, indica que los


gráficos son normales ya que la
gran mayoría se acoplan a la
recta.

43
Media cero:

Linealidad No colinealidad

Normalidad Homocedasticidad Media cero

Independencia

44
Residuos con media cero : Permitirá garantizar que los pronósticos de alguna
forma son aleatorios

Herramienta Numérica: Prueba de


Herramienta Gráfica: Histograma
hipótesis T

Prueba hipótesis de medias

𝐻0 : 𝜖 ≠ 0
0

45
El histograma tiene como media cero:

De los resultados del procedimiento explorar se puede obtener el histograma:

46
La segunda prueba es usando una prueba de hipótesis de
medias:
La secuencia es:

47
La segunda prueba es usando una prueba de hipótesis de
medias:
Ho: La media de los errores es cero.

Los resultados indican que se acepta H0 y la media de los errores es igual a cero.

48
Homocedasticidad:

Linealidad No colinealidad

Normalidad Homocedasticidad Media cero

Independencia

49
Varianza constante de los errores (Homocedasticidad):

Herramienta Gráfica: Diagramas de Herramienta Numérica: Test de


dispersión entre residuales y Levene
pronosticados

Test de Homogeneidad de Levene


Residuales

Ho: Las varianza sub poblacionales son iguales

Valores pronosticados

50
La primera forma de probar la varianza constante es usando gráficos de correlación
entre los valores pronosticados y residuos estandarizados.

La secuencia es …

51
Para que cumpla este supuesto los puntos deben repartirse en forma constante…

Como se puede ver los puntos se reparten a través de la franja con lo que se
puede decir que el supuesto se cumple

52
La otra forma es usando Levene…

Para ello se sigue los siguientes pasos:


Paso 1: Dividir a la muestra en tres grupos y colocarles grupos …

53
La otra forma es usando Levene…

Luego se hace una prueba de ANOVA para poder ejecutar la prueba de Levene …

54
La otra forma es usando Levene…

La prueba de Levene plantea la siguiente prueba de hipótesis:

Ho: Las varianzas de los errores son igual en todos los grupos (Homocedasticidad)

De los resultados se ve que se acepta Ho con lo cual se dice que se cumple la


Homocedasticidad.

55
Independencia:

Linealidad No colinealidad

Normalidad Homocedasticidad Media cero

Independencia

56
La independencia , esta relacionado con la aleatoriedad de los errores

Este supuesto se usa sobre todo cuando de tiene series temporales, un estadístico
para este fin es Durbin Watson que proporciona información sobre el grado de
independencia existente entre los errores:

Su valor va de cero a cuatro, se asume independencia si el estadístico está entre 1.5


y 2.5.

57
La independencia , esta relacionado con la aleatoriedad de los errores

La secuencia es :

El DW en este caso es
igual a 2, por lo tanto el
supuesto se da por
válido:

58
Interpretación del resultado teórico: Se debe revisar si las relaciones encontradas
tienen coherencia con la realidad

Objetivo de la Regresión Múltiple

Diseño de la investigación

Estimación del modelo de Regresión


y valoración del ajuste

Supuestos del análisis de Regresión

Interpretación del resultado teórico

Validación y presentación de
resultados
59
¿Cómo es explicado las ventas? ¿Quién tiene un impacto mayor sobre las ventas?

Se puede llevar los coeficientes estandarizados al 100% y los aportes de


cada variable sobre las ventas:

Coeficientes
Coeficientes no estandarizados tipificados

Modelo B Error típ. Beta %


1 (Constante) 45768.113 256.432
Inversión
Publicitaria de T v
.615 .025 .410 36%
Inversión
Publicitaria en 2.694 .061 .718
Radio 64%

Se puede leer, que las ventas es explicado un 64% por la publicidad en radio y un
36% por la publicidad en TV.

60
Gráficamente sería

Inversión publicitaria
En TV
(36%)

VENTAS

Inversión publicitaria
En Radio
(64%)

61
Interpretación del resultado teórico: Se debe revisar si las relaciones encontradas
tienen coherencia con la realidad

Objetivo de la Regresión Múltiple

Diseño de la investigación

Estimación del modelo de Regresión


y valoración del ajuste

Supuestos del análisis de Regresión

Interpretación del resultado teórico

Validación y presentación de
resultados
62
Este paso es opcional y se hace sobre todo cuando se tiene una muestra grande

Los pasos a seguir son:


1. Seleccionar una muestra del 30% de la data:

63
Este paso es opcional y se hace sobre todo cuando se tiene una muestra grande

Seleccionar la opción de muestra aleatoria

64
Este paso es opcional y se hace sobre todo cuando se tiene una muestra grande

Indicar que se desea un 30% de los casos seleccionados en forma aleatoria …

65
Este paso es opcional y se hace sobre todo cuando se tiene una muestra grande

Tras la selección se obtiene nuevamente el análisis de regresión y se compara los


resultados con lo obtenido en el análisis global (sólo los coeficientes):

66
Este paso es opcional y se hace sobre todo cuando se tiene una muestra grande

Los resultados son similares por lo tanto la validación es correcta


Total de la muestra
Coef icien tes a

Coeficientes
Coeficientes no estandarizados tipificados

Modelo B Error típ. Beta %


1 (Constante) 45768.113 256.432
Inversión
Publicitaria de T v
.615 .025 .410 36%
Inversión
Publicitaria en 2.694 .061 .718
Radio 64%
a. Variable dependiente: Ventas en soles

Selección 30%

Coef icien tes a


Coeficientes
Coeficientes no estandarizados tipificados

Modelo B Error típ. Beta %


1 (Constante) 45877.236 486.878
Inversión
Publicitaria de T v
.614 .043 .430 37%
Inversión
Publicitaria en 2.681 .111 .723 63%
Radio
a. Variable dependiente: Ventas en soles

67

Você também pode gostar