Você está na página 1de 7

Método de Regresión Simple

El análisis de regresión lineal simple, como parte de la inferencia estadística, es


fundamental para determinar relaciones de dependencia lineal entre variables y
establecer su validez con el fin de hacer estimaciones y predicciones dentro de un
intervalo de confianza deseado. Como lo indica (Cardona Madariaga, González
Rodríguez, Rivera Lozano, & Cárdenas Vallejo, 2013) “Obtener una ecuación de
regresión que describe el comportamiento lineal entre dos variables permite pronosticar
valores futuros de la variable bajo análisis con cierto grado de certeza, lo cual constituye
una herramienta poderosa pues le da al profesional la posibilidad de hacer ajustes en los
procesos, tomar decisiones o establecer políticas. Por ejemplo, si un profesional en
ciencias políticas o administración pública utiliza el estudio sobre índices de pobreza
realizado con los datos de las trece principales ciudades del país y concluye que los
valores observados y estimados están por debajo de la media en América Latina o que
están por debajo de la meta nacional; podría establecer un programa que disminuya en
forma eficaz esos índices de pobreza”.

Así mismo, si un administrador o economista realiza el análisis sobre la relación de


dependencia entre el gasto en publicidad y el volumen de ventas de un producto podría
determinar la inversión óptima en publicidad para ese producto y obtener el máximo de
ventas o predecir la cantidad de unidades vendidas de acuerdo con un valor invertido en
publicidad.

A pesar de lo importante que resulta ser para cualquier profesional el conocimiento y


uso del análisis de regresión, es una herramienta muy poco aprovechada como lo
demuestran un gran número de trabajos de grado a nivel de posgrado y trabajos de
investigación en los cuales el desarrollo estadístico solo se limita a la parte descriptiva y
no a la inferencial.

Regresión Mínimo Cuadrática

Para el modelo dado por la expresión Y = Xβ + e, el método construye el estimador 𝛽 =


(𝑋 𝐼 𝑋)−1 𝑋 𝐼 𝑋, que minimiza la suma de cuadrados de los errores. Para un conjunto de
datos observados, cuando la expresión 𝑓(𝑏) = ∑(𝑌𝑖 − 𝑥𝑖 𝑏)2 se hace mínima, el vector
de valores b se conoce como la estimación mínimo cuadrática de β. En la función
anterior 𝑥𝑖 representa la i-ésima fila de la matriz X. Se estima la varianza de la
población de los errores con 𝑠 2 = ∑ 𝑒𝑖2 /(𝑛 − 𝑝 − 1), en donde los 𝑒𝑖 son los errores
obtenidos con los datos observados, n es el n´umero de observaciones realizadas y p es
el n´umero de variables explicativas en el modelo. (Torres & Juan, 2001)

Regresión no Paramétrica

Basada en Rangos El método se basa en el modelo lineal Y = Xβ + e. No existen


fórmulas explicitas para el estimador β. Sin embargo, mediante un algoritmo iterativo es
posible obtener el vector de estimación de β. Para un conjunto de datos observados, el

Miguel Elvis Guzhñay Rosales


vector 𝛽 = [𝑏0 𝑏] se conoce como la estimación no paramétrica de β, en donde el vector
b de tamaño 1 × p, minimiza la función

en donde 𝑏 = [𝑏1 , 𝑏2 , … , 𝑏𝑝 ]𝐼 y 𝑥𝑖 = [𝑥𝑖1 , 𝑥𝑖2 , … , 𝑥𝑖𝑝 ] y la estimación no paramétrica de


b0 se obtiene como la mediana de las diferencias de 𝑦𝑖 − 𝑥𝑖 𝑏. Ya que no existen
fórmulas explicitas para calcular los coeficientes estimados, (Birkes & Dobge, 1993)
describen un algoritmo para estimarlos. De igual manera, los mismos autores describen
un algoritmo para estimar la desviación estándar de los errores, cuya notación usual es
τ. Además afirman que un estimador para la desviación estándar de los errores es ŝ = τ /
1.023 si la distribución de los errores es normal. (Torres & Juan, 2001)

Regresión Vía Mínima Desviación Absoluta

El método se basa en el modelo lineal Y = Xβ + e. No existen fórmulas explicitas para


el estimador β. Sin embargo, mediante un algoritmo iterativo es posible obtener el
vector de estimación de β el cual es escogido de tal forma que la suma de los valores
absolutos de los errores, ∑ |𝑒| sea la más pequeña posible. Para un conjunto de datos
observados, cuando la expresión ∑ 𝑓(𝑏) = |𝑦𝑖 − 𝑥𝑖𝑏 | se hace mínima, el vector de
estimación b obtenido, es conocido como la estimación mínima desviación absoluta de
β. En la función anterior 𝑥𝑖 representa la i-ésima fila de la matriz X. Como no existen
fórmulas explícitas para calcular los coeficientes estimados, (Birkes & Dobge, 1993)
describen un algoritmo para estimar los coeficientes de regresión. La desviación
estándar de los errores se estima con ŝ = 1,483 ∗ MAD, donde MAD es la mediana de
las desviaciones absolutas con respecto a la mediana de los residuales, calculado con los
residuos diferentes de cero. (Torres & Juan, 2001)

Como lo indica (Astorga Gómez, 2014) “Los modelos de regresión lineal son
ampliamente usados en la ingeniería ya que sirven para analizar el comportamiento de
las variables de entrada (o regresora) y salida (o respuesta) estableciendo predicciones y
estimaciones. En este trabajo la variable regresora corresponde a la distorsión armónica
individual de corriente y la variable de respuesta corresponde a la distorsión armónica
individual de tensión. La ecuación, muestra la representación de un modelo de regresión
lineal simple, donde Y es la respuesta, X es la variable regresora, β0 y β1 son los
parámetros del modelo o coeficientes de regresión y Ɛ es el error del modelo”.

La ecuación muestra el modelo ajustado de regresión lineal simple, donde Ŷ es el valor


estimado o esperado de la variable de respuesta para la variable regresora X. Los

Miguel Elvis Guzhñay Rosales


estimadores de los parámetros del modelo son calculados por el método de los mínimos
cuadrados usando las ecuaciones.

Regresión Lineal en spss

Para llevar a cabo un análisis de regresión lineal seleccionamos: Analizar, Regresión,


Lineal… Apareciendo el cuadro de diálogo de la ilustración 1:
Ilustración 1: Regresión lineal SPSS 1

En Dependiente se traslada la variable cuyos valores se desea predecir o resumir.

Bloque 1 de 1. Este recuadro nos sirve para introducir las variables independientes, nos
permite hacer varios análisis de regresión a la vez, alternando los botones anterior y
siguiente, y además no deja elegir el método de introducción de las variables
independientes.

• Independientes se trasladan las variables utilizadas para predecir el valor de la


variable dependiente. También se denominan variables predictoras o variables
explicativas. Para poder ejecutar este procedimiento, la lista debe contener al menos una
variable.

• Método: Permite seleccionar el método por el cual se introducen las variables


independientes en el análisis. Nos vale para elegir la mejor ecuación de regresión.
Permite construir una variedad de modelos de regresión a partir del mismo conjunto de
variables:

Miguel Elvis Guzhñay Rosales


- Introducir (Entry): Procedimiento para la selección de variables en el que todas las
variables de un bloque se introducen en un solo paso. Es el método por defecto.

- Pasos sucesivos (Stepwise): En cada paso se introduce la variable independiente que


no se encuentre ya en la ecuación y que tenga la probabilidad para F más pequeña, si esa
probabilidad es suficientemente pequeña. Las variables ya introducidas en la ecuación
de regresión se eliminan de ella si su probabilidad para F llega a ser suficientemente
grande. El método termina cuando ya no hay más variables candidatas a ser incluidas o
eliminadas.

- Eliminar (Remove): Procedimiento para la selección de variables en el que las


variables de un bloque se eliminan en un solo paso.

- Hacia atrás (Backward): Procedimiento de selección de variables en el que se


introducen todas las variables en la ecuación y después se van excluyendo una tras otra.
Aquella variable que tenga la menor correlación parcial con la variable dependiente será
la primera en ser considerada para su exclusión. Si satisface el criterio de eliminación,
será eliminada. Tras haber excluido la primera variable, se pondrá a prueba aquella
variable, de las que queden en la ecuación, que presente una correlación parcial más
pequeña. El procedimiento termina cuando ya no quedan en la ecuación variables que
satisfagan el criterio de exclusión.

- Hacia delante (Forward): Procedimiento de selección de variables en el que éstas


son introducidas secuencialmente en el modelo. La primera variable que se considerará
para ser introducida en la ecuación será aquélla que tenga mayor correlación, positiva o
negativa, con la variable dependiente. Dicha variable será introducida en la ecuación
sólo si satisface el criterio de entrada. Si ha entrado la primera variable, se considerará
como próxima candidata la variable independiente que no esté en la ecuación y cuya
correlación parcial sea la mayor. El procedimiento termina cuando ya no quedan
variables que satisfagan el criterio de entrada.

En Variable de selección se traslada una variable que limite el análisis a un subconjunto


de casos que tengan un valor particular para esta variable. Con Regla… podemos definir
el subconjunto de casos que se emplearán para estimar el modelo de regresión.

En Etiquetas de caso designamos una variable para identificar los puntos de los
gráficos. Para cada punto de un diagrama de dispersión podemos utilizar la herramienta
de selección de puntos y mostrar el valor de la variable de etiquetas de casos
correspondiente al caso seleccionado.

Ponderación MCP: Permite obtener un modelo de mínimos cuadrados ponderados.


Los puntos de los datos se ponderan por los inversos de sus varianzas. Esto significa
que las observaciones con varianzas grandes tienen menor impacto en el análisis que las
observaciones asociadas a varianzas pequeñas.

Estadísticos

Miguel Elvis Guzhñay Rosales


Con el botón Estadísticos accedemos al cuadro de diálogo que muestra la ilustración 2
que no nos vale para solicitar resultados estadísticos opcionales, incluyendo los
coeficientes de regresión, descriptivos, estadísticos de ajuste del modelo, la prueba de
Durbin-Watson y diagnósticos de la colinealidad.

Ilustración 2: Regresión lineal-Estadísticos

Coeficientes de regresión. En este recuadro podemos obtener tanto las estimaciones de


los coeficientes de regresión, la bondad del ajuste del modelo elegido, los intervalos de
confianza de cada coeficiente así como la matriz de covarianzas. Podemos elegir una o
más de las opciones:

- Estimaciones: nos muestra coeficientes de regresión y medidas relacionadas. Los


coeficientes no estandarizados (no tipificados) son los coeficientes de regresión parcial
que definen la ecuación de regresión en puntuaciones directas. Los coeficientes
estandarizados (β) son los coeficientes que definen la ecuación de regresión en
puntuaciones típicas. Estos coeficientes estandarizados ayudan a valorar la importancia
relativa de cada variable independiente dentro de la ecuación. Muestra las pruebas de
significación de cada coeficiente, el estadístico de contrate (t) así como su nivel crítico
(Sig.). Una significación pequeña nos permite afirmar que el coeficiente es significativo.

- Intervalos de confianza: nos muestra intervalos de confianza al 95% para los


coeficientes de regresión.

- Matriz de covarianzas: nos muestra la matriz de varianza-covarianza de los


coeficientes de regresión, las varianzas en la diagonal y las covarianzas por debajo y por
encima de la diagonal.

Ajuste del modelo. Muestra el coeficiente de correlación múltiple (R múltiple), y su


cuadrado (R2 , coeficiente de determinación, que expresa la proporción de varianza de
la variable dependiente que está explicada por la variable o variables independientes), la
R cuadrado corregida y el error típico de la estimación (desviación típica de los
residuos). También, una tabla de ANOVA muestra las sumas de cuadrados, los grados
de libertad, las medias cuadráticas, el valor del estadístico F y el nivel crítico (Sig.) de la
F.

Cambio en R cuadrado. Nos muestra el cambio en el estadístico R cuadrado que se


produce al añadir o eliminar una variable independiente. Si el cambio en R cuadrado

Miguel Elvis Guzhñay Rosales


asociado a una variable es grande, significa que esa variable es un buen predictor de la
variable dependiente.

Descriptivos. Muestra las medias de las variables, las desviaciones típicas y la matriz
de correlaciones con las probabilidades unilaterales.

Correlaciones parcial y semiparcial. Muestra las correlaciones de orden cero,


semiparcial y parcial. Los valores del coeficiente de correlación van de -1 a 1. El signo
del coeficiente indica la dirección de la relación y su valor absoluto indica la fuerza de
la relación. Los valores mayores indican que la relación es más estrecha.

Diagnósticos de colinealidad. Muestra las tolerancias para las variables individuales y


una variedad de estadísticos para diagnosticar los problemas de colinealidad. La
colinealidad (o multicolinealidad) es una situación no deseable en la que una de las
variables independientes es una función lineal de otras variables independientes.

Residuos. Este recuadro nos permite seleccionar una de las opciones:

-Durbin-Watson: Muestra la prueba de D-W para los residuos correlacionados


serialmente. Éste estadístico oscila entre 0 y 4 y toma el valor 2 cuando los residuos son
completamente independientes. Los valores mayores de 2 indican autocorrelación
positiva y los menores de 2 autocorrelación negativa. Suele asumirse que los residuos
son independientes si el estadístico de D-W está entre 1’5 y 2’5. También muestra
estadísticos de resumen para los residuos y los valores pronosticados.

- Diagnósticos por caso: Genera diagnósticos por casos, para todos los casos que
cumplan el criterio de selección (los valores atípicos por encima de n desviaciones
típicas).

Gráficos

Con el botón Gráficos… obtenemos el cuadro de diálogo de la ilustración 3

Ilustración 3: Regresión lineal-Gráficos

En la lista fuente tenemos la variable dependiente (DEPENDT), los valores predichos


estandarizados (ZPRED), los residuos estandarizados (ZRESID), los residuos

Miguel Elvis Guzhñay Rosales


eliminando la puntuación del sujeto (DRESID) y los valores predichos ajustados
(SDRESID).

Dispersión 1 de 1. Nos muestra los diagramas de dispersión que queramos de la lista de


la izquierda, para cada par de variables, alternando anterior y siguiente.

Gráficos de residuos tipificados. En este recuadro podemos elegir uno de los gráficos:

- Histograma: Crea un histograma de los residuos tipificados con una curva normal
superpuesta.

- Gráfico de probabilidad normal: Muestra un gráfico de probabilidad normal de los


residuos tipificados. Se usa para comprobar la normalidad. Si la variable se distribuye
normalmente, los puntos representados forman una línea recta diagonal.

Generar todos los gráficos parciales. Genera todos los diagramas de dispersión de la
variable dependiente con cada una de las variables independientes.

Guardar

El botón Guardar… nos permite guardar los valores pronosticados, los residuos y
medidas relacionadas como nuevas variables que se añaden al archivo de datos de
trabajo. En los resultados, una tabla muestra el nombre de cada nueva variable y su
contenido.

Opciones

El botón Opciones…nos permite controlar los criterios por los que se eligen las
variables para su inclusión o exclusión del modelo de regresión, suprimir el término
constante y controlar la manipulación de los valores perdidos.

Bibliografía

Astorga Gómez, J. M. (2014). Aplicación de modelos de regresión lineal para determinar las
armónicas de tensión y corriente. XXXV, 234-241.

Birkes, D., & Dobge, Y. (1993). Alternative methods of regression.

Cardona Madariaga, D. F., González Rodríguez, J. L., Rivera Lozano, M., & Cárdenas Vallejo, E.
H. (2013). Aplicación de la regresión lineal en un problema de pobreza. Interacción.

Torres, C., & Juan, C. (2001). Comparación de tres métodos de regresión lineal usando
procedimientos de simulación. Revista Colombiana de Estadística, XXIV(1), 33-43.

Miguel Elvis Guzhñay Rosales

Você também pode gostar