Analisis de Regresion PDF

1
7.- ANLISIS DE REGRESIN.

Estas notas son una seleccin de distintos textos.
7.1. Qu es el anlisis de regresin?
El anlisis de regresin es, con mucho la tcnica multivariable ms utilizada y
verstil, aplicable en muchsimos campos de la ciencia. El anlisis de regresin es
una tcnica estadstica utilizada para analizar la relacin entre una sola variable
dependiente y varias independientes, siendo su formulacin bsica la siguiente:
Y
1
= X
1
+ X
2
+ ... + X
n

(mtrica) (mtricas)
El objetivo de esta tcnica es usar las variables independientes, cuyos valores se
conocen, para predecir el de la variable dependiente. Cada variable independiente
est ponderada por unos coeficientes que indican la contribucin relativa de cada
una de las variables para explicar la dependiente.

7.1.1. Un ejemplo de aplicacin del anlisis de regresin.
HATCO es una empresa fabricante de maquinaria industrial que ha pasado una
encuesta a los jefes de compras de las empresas que adquieren sus productos, los
cuales han valorado su satisfaccin con HATCO respecto a siete atributos
determinantes de su servicio y, adems, han ofrecido informacin acerca de sus
empresas, como su tamao, tipo de empresa, porcentaje de sus compras de
maquinaria que efectan a HATCO y una valoracin global de sus satisfaccin con
esta empresa.
De forma ms detallada, las siete variables que miden la percepcin que tienen de
HATCO sus clientes, son las siguientes:
X1: Rapidez del servicio. Tiempo que tarda en servirse el pedido una vez que
ste ha sido confirmado.
X2: Nivel de precios. Valoracin sobre el precio que se carga respecto a otros
suministradores.
X3: Flexibilidad de precios. Voluntad de los vendedores de HATCO de negociar el
precio en todo tipo de compras.
X4: Imagen del fabricante. Imagen global de HATCO.
X5: Servicio. Valoracin respecto a si la calidad actual del servicio es suficiente
para mantener la relacin entre el comprador y HATCO.
X6: Imagen de los vendedores. Imagen global de la fuerza de ventas de HATCO.
X7: Calidad del producto. Nivel de calidad percibida de los productos de HATCO.
Todas estas variables se han medido mediante una escala grfica constituida por
una lnea de diez centmetros donde en los extremos aparecen las palabras muy
mala y excelente:
2

Muy mala Excelente
Los entrevistados indican su percepcin marcando con una raya en cualquier lugar
de la lnea, que luego es medida y codificada entre cero y diez.
Por su parte, las caractersticas de las empresas que compran a HATCO, se han
medido mediante escalas mtricas y no mtricas y son las siguientes:
X8: Tamao de la empresa. Tamao relativo de la empresa respecto a otras del
mercado. Se han creado dos categoras que son 1 =grande y 0 = pequea.
X9: Nivel de utilizacin de los servicios de HATCO. Es el porcentaje del total de
las compras de la empresa que se realizan a HATCO. Se mide en una escala de cien
puntos, segn sea el porcentaje.
X10: Nivel de satisfaccin con HATCO. Mide cun satisfecha est la empresa con
HATCO en la misma escala que las variables X1 a X7.
X11: Procedimiento de compra. Establece si la empresa evala cada compra por
separado (codificado como 1) o, por el contrario, tiene establecidas unas
especificaciones de producto que se aplican a todas las compras (codificado como
0).
X12: Estructura de decisin. Determina si dentro de la empresa el proceso de
toma de decisiones de compra est centralizado (codificado como 1) o
descentralizado (codificado como 0).
X13: Tipo de industria. Responde a una tipologa interna de HATCO que las
clasifica como industria tipo A (codificado como 1) u otros tipos (codificado como
0).
X14: Tipo de situacin de compra. Hace referencia a si es la primera compra a
HATCO (codificado como 1), si es una recompra pero de otros productos (cdigo 2)
o es una recompra de los mismos productos que en la ltima ocasin (cdigo 3).
Tal como hemos venido haciendo en temas anteriores, seguiremos los seis pasos
imprescindibles para especificar correctamente un modelo multivariable, ilustrando
cada uno de ellos con el ejemplo de la empresa HATCO.
Paso 1. Establecimiento de los obj etivos
Como hemos sealado con anterioridad, el anlisis de regresin es una tcnica
tremendamente flexible y adaptable para analizar cualquier relacin de
dependencia. Para aplicarla correctamente, el investigador debe considerar tres
factores:
1. Su adecuacin al problema que se pretende resolver
2. El establecimiento de una relacin estadstica
3
3. La seleccin de las variables dependientes e independientes
Vemoslos detenidamente. Respecto a la adecuacin al problema que se pretende
resolver, la regresin lineal puede aplicarse bsicamente a dos tipos de estudios:
los de carcter predictivo y los de carcter explicativo. Ambos campos no son
necesariamente excluyentes y un anlisis de regresin lineal puede ser aplicado a
problemas que pretendan los dos tipos de objetivos.
En cuanto al establecimiento de una relacin, el anlisis de regresin sirve para
relaciones estadsticas y no funcionales. Por ejemplo, en una empresa siempre se
cumple que:
Costes totales = Coste variables + Costes fijos
Si mi empresa tiene unos costes unitarios de 2 u.m. y produce 100 unidades, con
unos costes fijos de 500 u.m., los costes totales necesariamente son de 700 u.m. y
cualquier desviacin de esta cantidad impicar que no hemos sido capaces de medir
adecuadamente los costes unitarios o los fijos, porque la relacin entre ambos es la
sealada y se cumple siempre. Esta es una relacin funcional.
Sin embargo, si pretendemos relacionar el nmero de tarjetas de crdito que tiene
una familia, con el tamao de la misma y los ingresos, la relacin que
establezcamos a travs de la regresin lineal ser aproximada, no una prediccin
exacta. Esto se debe a que es una relacin estadstica, dado que siempre habr un
componente aleatorio en la relacin que no podremos controlar. La variable
dependiente es una variable aleatoria, del que slo podremos estimar un valor
promedio.
El tercer aspecto importante que hemos sealado, es la seleccin de las variables
dependientes e independientes. Dado que la regresin es una tcnica de
dependiencia, hay que especificar qu variables son de un tipo y cules son de otro,
y esta es una decisin que debe adoptar el investigador fundamentndose en un
anlisis conceptual del problema que est abordando.
Es importante destacar que no es balad la seleccin de las variables
independientes. Puede pensarse que, dado que el modelo nos dir cul es la
importancia relativa de todas ellas, mediante sus coeficientes, si estas no son
importantes, tendrn coeficientes cercanos a cero y no afectarn al modelo. Esto no
es as, la inclusin de variables independientes irrelevantes, puede provocar que se
enmascare el efecto de las variables relevantes. Pero tambin es muy crtico excluir
variables independientes que sean relevantes, dado que no slo se reducir la
capacidad predictiva del modelo, sino que si estas variables excluidas guardan
correlacin con las que se mantienen, se estar introduciendo un fuerte sesgo en
los resultados. Por lo tanto, y en conclusin, el investigador debe ser muy
4
cuidadoso en el proceso de seleccin de las variables y, en todo caso, siempre es
peor excluir variables relevantes que incluir variables irrelevantes.
Volviendo a nuestro ejemplo de HATCO, el director de esta empresa est muy
interesado en ser capaz de determinar si el grado de relacin de los clientes con su
empresa (medido mediante X9 que, recordemos, era el porcentaje que suponan
para cada cliente las compras a HATCO sobre el total de las compras que realizan)
tiene o no que ver con la percepcin que estos tienen de HATCO, medida esta
percepcin mediante las variables:
X1 Rapidez de servicio
X2 Nivel de precios
X3 Flexibilidad de precios
X4 Imagen del fabricante
X5 Calidad del servicio
X6 Imagen de los vendedores
X7 Calidad del producto
considerando el director que parece lgico en base a su experiencia suponer que el
grado de relacin de los clientes puede estar influenciado por esas variables
(establece as cules son las dependientes y la independiente) y encontrndonos
ante una relacin estadstica, dado que se incluyen percepciones de los clientes
que, evidentemente, estn sujetas a error.
Paso 2. Desarrollo del plan de anlisis.
En el diseo de un plan de anlisis basado en la regresin lineal, el investigador
debe tener en cuenta un tema fundamental: el tamao de la muestra.
El tamao de la muestra es, en la regresin lineal, el factor ms importante para
la fiabilidad de los resultados que puede controlar el investigador. Con muestras
pequeas (menos de 20 observaciones) el anlisis de regresin slo ser adecuado
cuando exista una nica variable independiente y, an as, solo las relaciones muy
fuertes podrn detectarse con cierta certeza. Por el contrario, con tamaos
muestrales superiores a los 1000, los test de significatividad se vuelven muy
sensibles haciendo que casi todas las relaciones sean estadsticamente significativa.
El poder de una regresin lineal hace referencia a la probabilidad de que un R2
sea significativo, dado un nivel de signficatividad, un tamao muestral y un nmero
de variables independientes predeterminados. El cuadro 1 resume estas relaciones
y debe tenerse en cuenta.
5

Tabla que debe ser leda de la siguiente forma. Tomando el primer valor por la
izquierda (45), querr decir que una regresin con 20 observaciones y dos variables
independientes, requiere de un R2 de por lo menos 0.45 para que la relacin pueda
considerarse estadsticamente significativa con una probabilidad del 80% si el nivel
de significacin se ha establecido en 0.01. En esta tabla se aprecia la fuerte
influencia que ejerce el tamao muestral sobre el poder de la regresin. Si, en el
mismo ejemplo anterior, se pasa de una muestra de 20 individuos a 100, bastar
que el R2 sea superior a 0.05 para que la relacin devenga significativa.
El tamao de la muestra tambin afecta a la generalizabilidad de los resultados que
se obtengan a travs del ratio entre observaciones y variables independientes. Una
regla general es que este ratio nunca debe caer por debajo de cinco, es decir que
para que los resultados sean generalizables nunca deben existir menos de cinco
observaciones por cada variable independiente. Aunque este es el valor mnimo, el
valor deseable oscila entre 15-20 observaciones por variable consiguiendo que si la
muestra es representativa, los resultados sean generalizables. En el caso de que se
utilice un procedimiento de regresin paso a paso (que veremos con
posterioridad), el nivel recomendado pasa a ser de 50 a 1.
En la encuesta de la empresa HATCO, se obtuvieron 100 respuestas vlidas de sus
clientes. Este tamao muestral, de acuerdo con el cuadro 1, hace que pueda
considerarse que existen relaciones significativas cuando se alcancen R2 superiores
a 0.2 a un nivel de significacin de 0.01 y superiores a 0.15 si el nivel de
significacin se relaja a 0.05.
Asimismo, dado que se dispone de 7 variables independientes este tamao
muestral se mueve en el entorno del ratio 15 a 1 recomendado.
Paso 3. Condiciones de aplicabilidad del anlisis de regresin
Las condiciones de aplicabilidad del anlisis de regresin, deben considerarse en
dos etapas. Antes de estimar el modelo, slo pueden comprobarse en las variables
independientes y la dependiente de manera individual. Despus de estimar el
6
modelo, podr evaluarse si se cumplen las condiciones de manera conjunta y, por
ello, los resultados son fiables.
Recordemos que las tres condiciones que deban cumplir las variables dependientes
e independientes eran las de linealidad, homogeneidad de varianzas y normalidad.
En el tema 1 de este curso, ya indicamos como comprobar estas condiciones
respecto a todas las variables dependientes e independientes que van a ser
utilizadas. Dejamos como ejercicio, el verificar que:
1. Los grficos de dispersin no parecer indicar la existencia de relaciones no
lineales entre la variable dependiente y las independientes.
2. Solamente la variable X2 viola la hiptesis de homoscedasticidad.
3. X2, X4 y X6 violan las hiptesis de normalidad.
Puede demostrarse que el anlisis de regresin no se ve muy afectado por la
heteroscedasticidad. La ausencia de normalidad puede corregirse, como se indic,
transformando las variables originales mediante logaritmos neperianos. El
investigador debera estimar el modelo considerando las variables transformadas y
sin transformar, para despus, cuando se compruebe si, de manera global, se
violan las hiptesis sealadas, mantener las variables de la manera que menos
distorsion provoquen respecto al cumplimiento de estas hiptesis.
Paso 4. Estimacin del modelo y establecimiento del aj uste del mismo.
Habiendo sido especificados los objetivos del anlisis, seleccionado las variables
dependientes e independientes y comprobadas las condiciones de aplicabilidad del
modelo, el investigador est preparado para estimar el modelo y establecer la
bondad del mismo (su ajuste). Esta tarea se desdobla en tres decisiones:
1. Seleccionar un mtodo para estimar el modelo.
2. Establecer la significatividad global del modelo estimado y de los coeficientes
de cada una de las variables independientes.
3. Determinar si hay observaciones que ejercen una influencia no deseable
sobre los resultados.
En esta primera decisin, el investigador debe optar entre dos alternativas: decidir
aquellas variables independientes que, segn su conocimiento del tema pueden
ejercer algn tipo de influencia sobre la dependiente, e incluirlas, o bien recurrir a
procedimientos secuenciales, en los cuales es el propio programa quien va
introduciendo y eliminando del anlisis aquellas variables que aseguren la mejor
especificacin del modelo. En el primer tipo de aproximacin, el investigador debe
estar muy seguro de que no est dejando fuera variables relevantes, ni
introduciendo variables irrelevantes. En el segundo enfoque, el proceso iterativo
asegura que se acaban considerando las variables que mejor pueden explicar el
7
comportamiento de la dependiente, por este motivo desarrollaremos en este tema
este ltimo enfoque.
Los mtodos secuenciales estiman la ecuacin de regresin aadiendo o eliminando
(segn los dos enfoques que veremos) aquellas variables que cumplen
determinados criterios. Esta aproximacin ofrece un procedimiento objetivo para
seleccionar las variables, que maximiza la capacidad predictiva del modelo con el
menor nmero posible de variables independientes. Aunque este enfoque parece
ideal, hay que tener en cuenta que es muy sensible al efecto de la multicolinealidad
y, por ello, su determinacin y correccin es crtica en estos modelos.
Los mtodos secuenciales pueden ser de dos tipos:
Eliminacin hacia atrs.
Es bsicamente un procedimiento de prueba y error. Comienza estimando una recta
de regresin con todas las variables independientes posibles y luego va eliminando
aquellas que no contribuyen significativamente. Los pasos son los siguientes:
1. Clculo de una recta de regresin con todas las variables independientes
posibles.
2. Clculo de un estadstico F parcial para cada variable que computa la
varianza que explicara el modelo si se eliminasen todas las variables menos
esa.
3. Se eliminan las variables con F parciales que indican que no realizan una
contribucin estadsticamente significativa.
4. Despus de eliminar esas variables se vuelve a estimar la recta de regresin
con las que quedan.
5. Se vuelve al paso 2 hasta que slo quedan las variables significativas.

Estimacin paso a paso.
Es el procedimiento secuencial ms utilizado dado que permite analizar la
contribucin de cada variable independiente por separado al modelo de regresin.
Se diferencia del anterior en que no incluye todas las variables y luego las va
eliminando, sino que las evala una a una antes de incorporarlas al modelo y,
adems, puede eliminar una variable despus de haberla introducido en una etapa
anterior. Los pasos que sigue son los siguientes:
1. Comienza con el modelo de regresin ms simple, que es el formado por la
constante y aquella variable que est ms correlacionada con la variable
dependiente.
2. Examina los coeficientes de correlacin parcial para encontrar la variable
independiente la mayor proporcin del error que se comete con la recta de
regresin anterior.
8
3. Vuelve a calcular la ecuacin de regresin utilizando ahora las dos variables
independientes seleccionadas y analiza el valor de la F parcial de la primera
variable para ver si todava lleva a cabo una contribucin significativa dado
que hemos incluido una variable adicional. Si no lo hace la elimina y en caso
contrario la mantiene.
4. El proceso contina examinando todas las variables independientes para ver
cual debe ser introducida en la ecuacin. Cuando se incluye una nueva se
examinan las ya introducidas para determinar cul debe permanecer y as
hasta que ninguna variable cumple el criterio de entrada.
Estimemos el modelo, mediante este procedimiento, para nuestro ejemplo de la
empresa HATCO. El cuadro 2 muestra las correlaciones entre las siete variables
independientes y la variable dependiente X9 (nivel de uso), mostrando que la
variable X5 (calidad del servicio), es la ms correlacionada con ella (0.701). Como
hemos indicado, el primer paso en el procedimiento de estimacin que estamos
empleando, pasar por estimar un modelo formado por la variable X5 y una
constante. La salida correspondiente a este primer paso (y a los dos siguientes que
realiza el programa), se recoge en el cuadro 4 y debemos familiarizarnos con los
trminos que en l figuran.

Coeficiente R
Se le conoce tambin como R mltiple y es el coeficiente de correlacin (en el
primer paso 0.701, segn el cuadro 3) entre la variable dependiente y las que se
incorporan al modelo (como slo se incorpora X5, coincide con la correlacin que
vimos antes).

Coeficiente R
2

Es el coeficiente de correlacin anterior al cuadrado, conocido tambin como
coeficiente de determinacin. Este valor indica el porcentaje de la variacin de
la variable dependiente que explican las independientes (en este caso slo X5). La
suma total de los cuadrados (3927.309 + 4071.691 = 7999.000), es el error
cuadrtico que se producira si utilizramos slo la media de la variable dependiente
X9 para predecir su valor real. Vemos que utilizar a X5 para esta prediccin, en
lugar de a la media de X9, reduce el error en un 49.1% (3927.309/7999.000).
Variables incluidas en el paso 1
Como hemos sealado, en el primer paso slo se introduce la variable X5. En
general, para cada variable que se incluya, el programa calcula una serie de
indicadores que debemos comprender: el coeficiente de la variable, su error tpico y
el valor asociado al mismo. Vemoslos.
9
Coeficiente de la variable. Aparece como B en el cuadro 3. Para la variable
X5, toma el valor 8.384. Es el valor que necesitamos para predecir la
variable dependiente. En este caso, dado que la constante toma el valor
21.653, nuestra recta de regresin sera X9 = Y = 21.653 + 8.384X5. El
programa nos muestra tambin el valor estandarizado del coeficiente (Beta),
que en este caso es 0.701. Dado que el coeficiente viene afectado por las
unidades en que estn medidas las variables, si el valor est estandarizado
nos permitir comparar ms fcilmente los coeficientes de unas variables
con los de otras para determinar cul tiene una influencia mayor en explicar
la variable dependiente.
Cuadro 2. Matriz de correlaciones

Valor t de las variables que estn en la ecuacin. El valor t de las variables
que estn en la ecuacin, permite contrastar la hiptesis nula de que el
coeficiente de esa variable es cero con lo que no tendra ninguna capacidad
esa variable de explicar la dependiente. Pero intentar contrastar o rechazar
esa hiptesis nula mediante el valor t obligara a que conocisemos todos
sus valores crticos a distintos niveles de significacin y grados de libertad
(en concreto a un nivel de 0.01 y para 98 grados de libertad, el nivel crtico
es de 1.658 y como el valor de t para el coeficiente de X5 es 9.722,
podramos rechazar la hiptesis nula de que el coeficiente es cero y afirmar
que la variable X5 tiene capacidad explicativa de la variable dependiente).
Para evitar tener que conocer esos valores crticos, el programa (cuadro 3)
10
ofrece su nivel de significacin (p=Sig.=0.000) que es mucho ms fcil de
analizar. Si es inferior a 0.01 (0.05 segn el criterio del investigador), puede
rechazarse la hiptesis nula y concluir la significatividad del parmetro.
Variables no incluidas en la ecuacin en el paso 1
Aunque X5 ha sido incluida en la regresin, disponemos de otras 6 variables que
potencialmente podran incluirse y mejorar la capacidad predictiva del modelo
significativamente (cuadro 4). Pues bien, para estas variables, existen dos medidas
para establecer cul puede ser su contribucin y determinar si las incluimos o no: la
correlacin parcial y sus valores t.
Correlacin parcial. Es una medida de la variacin de la variable dependiente
Y (X9) que no est explicada por las variables que s se han incluido en la
regresin (en este primer paso, solamente X5) y que puede explicarse por
cada una de las variables restantes. Hay que ser muy cuidadoso al
interpretar este indicador. Por ejemplo el de la variable X3 (flexibilidad de
precios) toma el valor 0.720. Esto no significa que X3 explique el 72% de la
varianza total, sino que el 51.8% (72.02 = coeficiente de determinacin
parcial) de la varianza que no estaba explicada ya por X5 (no de la total)
puede ser explicada por X3. Como X5 ya explicaba el 49.1% (.7012), X3
explicar el 26.4% de la varianza total si la incluimos [(1-49.1%)51.8% =
26.4].
Valores t de las variables que no estn en la ecuacin. Miden la significacin
de las correlaciones parciales de las variables que no estn en la ecuacin.
Si el nivel de significacin p asociado no supera el nivel crtico (0.01 0.05,
segn el criterio del investigador) estas variables sern candidatas a entrar
en la ecuacin en el paso siguiente. En la salida puede observarse que
cuatro variables: X1 rapidez del servicio (p=0.000), X2 nivel de precios
(p=0.000), X3 flexibilidad de precios (p=0.000) y X7 calidad de servicio
(p=0.032), pueden entrar en la ecuacin en la prxima iteracin.
Pues bien, es el momento de decidir cul de las cuatro variables que pueden entrar
en la recta de regresin para mejorar significativamente la capacidad predictiva del
modelo, va a hacerlo. Podamos pensar que la variable que entrar ser aquella
que, inicialmente, tena una mayor correlacin con la variable dependiente (vase
cuadro 4), en cuyo caso debera ser X1 dado que su coeficiente de correlacin es el
mayor (0.676) despus de la variable que entr inicialmente X5 (0.701). Pero el
criterio de entrada no es este, sino qu variable tiene mayor coeficiente de
correlacin parcial con la variable dependiente despus de haber incluido a X5 que,
como puede comprobarse en el cuadro 4, no es X1 (0.439) sino X3 (0.720). Luego
en el siguiente paso estimaremos el modelo con X5, X3 y el trmino constante.
11
Vemos, en el cuadro 3 que al aadir la variable X3, el coeficiente de determinacin
R2 se incrementa en torno al 26.4% (pasa de 0.491 a 0.755). Puede comprobarse
que el coeficiente de la variable X5 apenas cambia (pasa de 8.384 a 7.974) y el de
X3 es 3.336, siendo ambos significativos como puede apreciarse en sus respectivos
valores de p<0.01.
A continuacin volvemos a repetir el proceso para ver si hay ms variables
candidatas a entrar en la recta de regresin. Viendo el cuadro 4, observamos que el
mayor coeficiente de correlacin parcial lo ostenta X6 imagen de los vendedores
(0.235), variable que explica por si sola el 5.6% de la varianza todava no explicada
(0.2352) que es slo el 1.37% de la varianza total [(1-0.755)0.56 = 0.0137],
siendo adems la nica con un valor t significativo (p = 0.02 < 0.05). Por ello, en
este segundo paso entrara en el modelo.
Finalmente, se observa en el cuadro 4 que, tras introducir en el modelo X5, X3 y
X6, no existe ninguna variable ms que sea candidata a formar parte de la recta de
regresin.
En este momento, debe verificarse si el modelo estimado viola o no las hiptesis de
normalidad, homoscedasticidad y linealidad, considerando conjuntamente las
variables dependientes e independientes que se han incorporado.
La primera condicin que deben cumplir las variables dependientes e
independientes, es la linealidad de su relacin, es decir, en qu medida el
coeficiente asociado a una variable independiente es constante para todos los
valores de esta variable, es decir, en qu medida la ratio entre la variable
dependiente e independiente es 15 constante. Esta condicin se comprueba
fcilmente a travs de los grficos de residuos (diferencias entre el valor real de la
variable dependiente y el predicho). Si no existe linealidad, el grfico de los
residuos estudentizados frente a la variable dependiente debera adoptar una forma
curvilnea como la de la figura 1.
Figura 1 Aspecto de grfico de residuos en caso de no linealidad

12
Si se cumple la linealidad, estos residuos no debern mostrar un patrn marcado
alguno. En nuestro ejemplo, el grfico de residuos es el que recoge la figura 5.2
que, como se puede observar no muestra el aspecto del grfico de la figura 5.1,
ms bien al contrario los residuos estn dispersos sin forma definida.

Figura 2 Grfico de residuos ejemplo de HATCO
Grfico de dispersin
Variable dependiente: Nivel de uso
Regresin Valor pronosticado tipificado
2 1 0 -1 -2 -3
R
e
g
r
e
s
i
n

R
e
s
i
d
u
o

t
i
p
i
f
i
c
a
d
o
2
1
0
-1
-2
-3

El segundo supuesto que deben cumplir los datos es el de homoscedasticidad
(igualdad de las varianzas). La heteroscedasticidad se detecta tambin mediante
16 los grficos de residuos estudentizados que, para constatar la existencia de
varianzas distintas, debera adoptar la forma de tringulo od diamante que se
muestra la figura 3.
Figura 3. Patrones tpicos de heteroscedasticidad
13

que, comparados con la figura 2 que resume los resultados para nuestra base de
ejemplo, permiten constatar el cumplimiento de la hiptesis de homoscedasticidad.
La siguiente hiptesis que deben cumplir los datos para permitir la aplicacin del
anlisis de regresin, es la independencia de los trminos de error. En una
regresin asumimos que cada valor predicho es independiente, es decir que no
afecta a otra prediccin. Esta hiptesis se constata mediante el estadstico de
Durbin Watson, que mide el grado de autocorrelacin entre el residuo
correspondiente a cada observacin y la anterior. Si su valor est prximo a 2, los
residuos estarn incorrelados, si se aproxima a 4 estarn negativamente
autocorrelados y si se aproxima a 0 estarn positivamente autocorrelados. En
nuestro caso, la salida de SPSS proporciona el valor de 1.910 del estadstico de
Durbin-Watson, como recoge el cuadro 3, luego podemos considerar que los datos
cumplen la hiptesis de independencia de los residuos.
La ltima condicin de aplicabilidad que debe considerarse, es el de normalidad
multivariable del trmino de error. Como indicamos en el primer tema, el mejor
procedimiento para detectar la ausencia de normalidad es recurrir a los llamados
grficos q-q donde, si el comportamiento no es normal, los puntos adoptaran
patrones sistemticos por encima o debajo de la lnea recta lo que, como puede
comprobarse en la figura 6.4, no es el caso en nuestros datos de ejemplo.

Figura 4. Prueba de normalidad de los residuos.
14
Grfico P-P normal de regresin Residuo tipificado
Variable dependiente: Nivel de uso
Prob acum observada
1,0 ,8 ,5 ,3 0,0
P
r
o
b

a
c
u
m

e
s
p
e
r
a
d
a
1,0
,8
,5
,3
0,0

Luego despus de comprobar la posible violacin de todas las hiptesis,
comprobamos que slo la violacin de la hiptesis de normalidad por parte de las
variables X2, X4 y X6 puede ejercer algn tipo de influencia sobre los resultados.
Tal como indicamos en el tema 1, procede transformarlas mediante logaritmos y
comprobar si los resultados difieren sustancialmente de los que ya hemos obtenido.
El cuadro 5 ofrece la solucin con las variables transformadas. Puede comprobarse
que la capacidad explicativa del modelo apenas mejora (R2 = 0.771 frente a 0.768
en el caso anterior) y entran las mismas variables en la ecuacin luego, en este
caso, las 18 consecuencias de la violacin de una de las hiptesis que deben
cumplir los datos, apenas ejerce influencia alguna.
En resumen, como se ha podido comprobar, los anlisis de los residuos
proporcionan una buena herramienta para determinar si se estn violando las
condiciones de aplicabilidad de la tcnica de regresin. Con frecuencia este anlisis
no se lleva a cabo pudiendo provocarse sesgos y errores como la falta de fiabilidad
de los test que detectan la significatividad de los coeficientes de la regresin.
La ltima cuestin que deba analizarse en este paso de la regresin lineal, es si
existen valores anmalos de alguna de las variables que intervienen que puedan
tener una influencia importante sobre los resultados de la regresin. En la figura
6.5 se ilustran la naturaleza de estas posibles influencias, que pueden ser poco
graves, como en el caso a) o tremendamente influyentes, como en el b).

15
Figura 5. Posible influencia de las observaciones anmalas

La mejor herramienta para identificar a los outliers (observaciones anmalas, o no
bien predichas por la recta de regresin) es mediante el anlisis de los residuos. Si
no estn bien predichas esas observaciones por la recta de regresin, sus residuos
deben ser grandes. Se trabaja normalmente con los residuos estudentizados, que
es un procedimiento de estandarizacin bastante comn, consistente en
transformar todos los residuos de tal forma que tengan media 0 y desviacin tpica
1, slo que la desviacin tpica necesaria para estandarizar se calcula omitiendo el
caso para el que se est calculando el residuo en ese momento. El trabajar con
residuos estudentizados tiene la ventaja de que puede fcilmente considerarse
anmala cualquier observacin cuyo residuo supere el valor de 1.96 para un nivel
de significacin de 0.05. La figura 6.6 muestra que cuatro observaciones (7, 11, 14
y 100) puede ser considerados como outliers y deberan ser eliminados del anlisis.

Figura 6. Grfico de los residuos estudentizados
16

Paso 5. I nterpretacin de los resultados
Una vez estimado el modelo y llevados a cabo los diagnsticos que confirman la
validez de los resultados, podemos escribir nuestra recta de regresin como sigue
(ver cuadro 3):
Y = 6,514 + 3,376X3 + 7,623X5 + 1,400X6
Con esta ecuacin, puede predecirse el nivel de uso de los productos de HATCO que
har un determinado cliente, si conocemos sus percepciones de esta empresa. A
ttulo ilustrativo, de un cliente que hubiese valorado los tres atributos (X3, X5 y X6)
con un 4, podramos esperar un nivel de utilizacin de:
Nivel de uso predicho = 6,514 + 3,3764 + 7,6234 + 1,4004 = 43,089
es decir, que cabe esperar que comprase el 43% de su maquinaria a HATCO.
Pero, adems de predecir el nivel de uso de los productos, los coeficientes de
regresin nos permiten tambin establecer la importancia relativa de las variables
individuales para predecir la variable dependiente. Como en este caso todas las
variables estn medidas en la misma escala, las comparaciones pueden efectuarse
directamente sobre los coeficientes. Pero en la mayora de las ocasiones, los
coeficientes vienen afectados por las diferentes escalas de las variables a las que
van asociados, por lo que para efectuar el anlisis se ha de recurrir a los
coeficientes estandarizados que, en el cuadro 3, venan bajo el ttulo de
Coeficientes estandarizados, beta. En este caso es evidente que la variable X5
(Servicio) es la ms importante (0,608) seguida de cerca por X3 flexibilidad de
precios (0.521) y mucho ms distanciada X6 imagen de los vendedores (0,120).
Debe tenerse alguna cautela, sin embargo, al analizar los coeficientes
estandarizados. En primer lugar, deben utilizarse solamente en situaciones de baja
17
colinealidad, como analizaremos inmediatamente. En segundo lugar, los valores
beta, solo pueden interpretarse en el contexto de las otras variables de la ecuacin,
as el valor beta de la variable X5 es importante slo respecto a X3 y X6, pero no
en trminos absolutos. Si se hubiera introducido otra variable en la ecuacin, el
valor beta de X5 hubiera cambiado con casi toda seguridad.
En cualquier interpretacin de los resultados de un anlisis de regresin, el
investigador debe prestar especial atencin a analizar el efecto de la
multicolinealidad, esto es, la posible correlacin entre las variables independientes.
Aunque este es un problema de los datos, no de la especificacin del modelo, puede
tener importantes consecuencias: limita el valor del coeficiente de determinacin,
hace difcil determinar la contribucin de cada variable individualmente, dado que
sus efectos se enmascaran en las correlaciones de unas con otras, pudiendo
ocasionar que los coeficientes de cada variable sean incorrectamente estimados y
tengan signos equivocados. Vemoslo con un ejemplo, cuyos datos se recogen en
el cuadro 6.
Cuadro 6. Ejemplo de multicolinealidad

Si estimamos las rectas de regresin, estimando por separado A y B como variables
independientes, llegaramos a la siguiente solucin:
D = -5 + 1,5 A
D = 30 - 2,0 B
donde es evidente que la relacin entre A y D es positiva, y entre B y D negativa.
Cuando estimamos la recta de regresin introduciendo simultneamente A y B, el
resultado es el siguiente:
D = 50 -1,0A - 3,0B
donde parece ahora que la relacin entre A y D es negativa cuando, de hecho,
sabemos que no es as. Luego vemos que los efectos de la multicolinealidad pueden
18
ser importantes. Veremos a continuacin los mecanismos para detectar la
existencia de multicolinealidad y para determinar en qu medida est afectando a
los coeficientes. De ser esta influencia importante, veremos distintos mecanismos
de correccin.
Dos de las medidas ms habituales para establecer la existencia de
multicolinealidad, son los llamados valor de tolerancia y su inversa, el factor de
inflacin de varianza (FIV). Estos factores nos indican en qu medida una
variable independiente est explicada por otras variables independientes, en
trminos ms sencillos, cada variable independiente es considerada como
dependiente y regresada contra el resto de independientes. La tolerancia es la
cantidad de variacin de la variable independiente seleccionadas que no es
explicada por el resto de variables indepen- 23 dientes. Por lo tanto, valores muy
pequeos de tolerancia (y por lo tanto grandes de FIV) denotan una alta
colinealidad. Un punto de corte bastante comn es 0,10, que corresponde a valores
de FIV superiores a 10. Este valor se da cuando el coeficiente de determinacin de
la regresin sealada es de 0,95.
En el caso en que la multicolinealidad sea muy elevada, se proponen normalmente
las siguientes soluciones:
1. Eliminar una o ms de las variables que estn altamente correladas e
identificar otras posibles variables independientes para ayudar en la
prediccin.
2. Utilizar el modelo con todas las variables slo con fines predictivos y no
intentar en ningn momento interpretar los coeficientes de regresin.
3. Utilizar los coeficientes de correlacin simples entre la variable dependiente
y las independientes para entender la relacin entre ambas variables.
4. Recurrir a procedimientos ms sofisticados de anlisis de regresin, como la
bayesiana o la regresin en componentes principales que, evidentemente, se
alejan del objetivo de este curso.
En el cuadro 3 aparecen, para nuestra base de datos de ejemplo, los estadsticos de
tolerancia y FIV de la regresin realizada. Puede comprobarse que los niveles de
tolerancia son muy altos (0,937 para X5, 0,993 para X3 y 0,940 para X6) y, en
todo caso, superiores al nivel de corte clsico de 0,1. Por ello, la interpretacin que
hemos realizado de los coeficientes de la regresin, no se ve afectada por la
multicolinealidad.

Paso 6. Validacin de los resultados
Una vez estimado y analizado un modelo, el paso siguiente es establecer su
generalizabilidad, esto es, que represente realmente al conjunto de la poblacin y
19
no slo a la muestra que lo ha generado. La mejor forma de hacerlo sera ver en
qu medida los resultados se compadecen con modelos tericos previos o trabajos
ya validados sobre el mismo tema. Sin embargo, en muchos casos estos resultados
o teora previos no existen y es necesario recurrir a otros procedimientos empricos
de validacin.
El procedimiento ms indicado para la validacin emprica de los resultados de una
regresin, pasa por volver a estimar el modelo en una nueva muestra extrada 24
de la poblacin. Una nueva muestra asegurar la representatividad de los
resultados y puede emplearse de diversas maneras. El modelo estimado sobre la
muestra anterior puede predecir valores de la nueva muestra y, de esta manera,
establecer alguna medida de los aciertos. Otra alternativa es estimar un nuevo
modelo sobre la nueva muestra y luego comparar las dos ecuaciones sobre
caractersticas tales como: variables incluidas, signo, importancia relativa de las
variables y poder predictivo.
La mayora de las veces, sin embargo, la posibilidad de recoger nuevos datos est
limitada por factores como el coste, limitaciones de tiempo o disponibilidad de los
encuestados. En este caso, el investigador puede dividir su muestra en dos partes:
una submuestra para estimar el modelo y una submuestra de validacin usada para
evaluar la ecuacin. Existen muchos procedimientos para dividir la muestra, ya
sean sistemticos o aleatorios y cada programa estadstico tiene los suyos.
Cuadro 7. Resultados de las regresiones sobre las muestras divididas

20
Comparando los resultados de la dos regresiones efectuadas sobre la muestra
dividida, con la muestra total, se observa que el ajuste de los modelos es muy
similar, ya se mida por la R2 como por la R2 ajustada que corrige por el tamao de
la muestra. La nica diferencia relevante, es que en la primera regresin con la
muestra dividida, la variable X6 no entra en la ecuacin, lo que confirma la
impresin que ya obtuvimos de que era un regresor poco influyente, como pudimos
comprobar al analizar su coeficiente beta (0,120) muy inferior al de las otras dos
variables. Los coeficientes de las otras dos variables en la muestra 1 o de las tres
variables en la muestra 2, no varan radicalmente mantenindose, adems, la
importancia relativa entre ellos.

Analisis de Regresion PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analisis de Regresion PDF

Enviado por

Direitos autorais:

Formatos disponíveis

1

7.- ANLISIS DE REGRESIN.

Você também pode gostar