Você está na página 1de 8

Tema: Correlación y Regresión lineal en Excel y SPSS danielmavila@yahoo.

es
Ejemplo 1. Vilma Traca SA fabricante de equipos médicos dentales ha construido en los
últimos años la cantidad de equipos que se indican a continuación:

Tabla N° 1 Equipos fabricados años 1 al 8


Años 1 2 3 4 5 6 7 8
# Equipos 12 11 19 17 19 18 20 23

a) Determina la ecuación lineal de estimación que mejor describa la tendencia de la


empresa.
b) Realiza la gráfica de dispersión y la línea de tendencia asociada.
c) ¿Cuántos equipos deberá programar Vilma para los años 9 y 10 respectivamente?

Propuesta de solución en Excel


a) Calculamos la ecuación lineal por el método de mínimos cuadrados
Paso 1 Digita el cuadro de datos
Celda B1: 1 Celda C1: 2 etc.
Celda B2:12 Celda C2: 11 etc.

Paso 2 Digita en la celda A5: Ordenada en el origen


Para determinar la intercepción de una recta al eje Y, se utilizará la función
estadística INTERCEPCION.EJE, la cual pide dos parámetros:
 Conocido_Y: Selecciona el rango comprendido entre las celdas B2 hasta I2
 Conocido_X: Selecciona el rango de la variable independiente.
 En la celda A6 utiliza la función indicada y te debe salir: 10,89

Paso 3: Para determinar la pendiente de la recta utiliza la función estadística


PENDIENTE, la cual tiene los mismos parámetros que la función anterior.
 En la celda A7 digita: Pendiente y
 En la celda A8 utiliza la función PENDIENTE, debe salir 1,44 como
resultado.
La ecuación de regresión es: Y = 1,44X + 10,89

b) Calculamos las ordenadas de la recta de regresión y graficamos los valores

Paso 1. Digita:
En la celda B3: =10.89+1.44*b1 (Esta fórmula es la recta de regresión encontrada)
Copia la fórmula contenida en la celda B3 en las celdas comprendidas entre C3
hasta I3

DescExcel
Paso2 Para la gráfica selecciona las celdas desde A1 hasta I3 luego Insertar / Gráfico:
Dispersión.
Equipos vendidos Vilma Traca

30
s # equipos
o 20
p
i 10
u Rec. Regres.
q
E 0
0 1 2 3 4 5 6 7 8 9
Años

c) Para analizar la bondad del ajuste calculamos el coeficiente de correlación. Utiliza


la función estadística COEF.DE.CORREL y cuando pida Matriz1 seleccionas el
rango B1:I1; cuando la función pida Matriz2 selecciona el rango entre B2 y I2.
d) Pronóstico para los años 9 y 10
Paso 1 Digita en la:
 Celda J1: 9 y Celda K1: 10
Paso 2 Copia la fórmula de la celda I3 a las celdas J3 y K3. Debe salir como
resultado 24 y 25
Alternativamente el análisis de regresión en Excel se puede simplificar de la siguiente
forma: Datos/Análisis de datos/Regresión. Los datos de cada variable deben estar en
columnas.
Si no estuviera activado: Haz clic en la pestaña Archivo, elige Opciones y después clic en
la categoría Complementos. En el cuadro Administrar, selecciona Complementos de Excel,
después clic en Ir y activa “Herramientas para análisis”.
Ejemplo 2. Análisis de regresión lineal simple en SPSS
El laboratorio En El Dolor Hermanos SA está experimentando un nuevo fármaco para el
tratamiento del píloro (Abertura inferior del estómago); en la siguiente tabla se muestran
los resultados:
Tabla N°2 Efectos de la dosis en el Ritmo cardiaco
Paciente Dosis del Reducción del ritmo
medicamento cardiaco
1 0,50 10
2 0,75 8
3 1,00 12
4 1,25 12
5 1,50 14
6 1,75 12
7 2,00 16
8 2.25 18
9 2,50 17
10 2,75 20
11 3,00 18
12 3,25 20
13 3,50 21
Se pide realizar el análisis de regresión correspondiente, para un α = 0,05.
DescExcel
Propuesta de solución
Antes de realizar el análisis de regresión lineal simple, en primer lugar se debe elaborar un
diagrama de dispersión de puntos para evaluar si los datos se ajustan a una recta de
regresión lineal simple. Para tal efecto, luego de digitar los datos de la Tabla N° 2, elige:
Gráficos/Generador de gráficos/En Galería elegir Dispersión simple y arrastrar al
Eje X la variable independiente (Dosis) y al Eje Y la variable Ritmocar y Aceptar

El gráfico indica que para evaluar el tipo de relación entre la variable dependiente y la
variable independiente se debe utilizar el modelo de la regresión lineal simple y que el tipo
de relación es positivo. (Verifica)

2.1 Análisis de Regresión lineal simple.

Para estimar los parámetros de la regresión Analizar/Regresión/Lineales. Luego en la


ventana Dependiente arrastra la variable Ritmocar, y en el recuadro Independientes arrastra
la variable Dosis. Método a utilizar elige “introducir” y clic en Aceptar, deben aparecer los
siguientes resultados:

Tabla 1
Regresión

Variables introducidas/eliminadasb

Variables Variables
Modelo introducidas eliminadas Método
1 Dosis (mg) a . Introducir
a. Todas las variables solicitadas introducidas
b. Variable dependiente: Reducción del ritmo cardiaco

Tabla 2
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregi da es timación
1 .951a .904 .895 1.35579
a. Variabl es predictoras: (Constante), Dosis (mg)

DescExcel
Tabla 3
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regres ión 190.088 1 190.088 103.412 .000a
Residual 20.220 11 1.838
Total 210.308 12
a. Variables predictoras: (Constante), Dosis (mg)
b. Variable dependiente: Reducción del ritmo c ardiaco

Tabla 4

Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 7.055 .888 7.949 .000
Dosis (mg) 4.088 .402 .951 10.169 .000
a. Variable dependiente: Reducción del ritmo cardiaco

Descripción de resultados:
La Tabla 2 indica que el ajuste del modelo es bueno porque el coeficiente de determinación
R² = 90,4% indica que el 90,4% de la variabilidad de las disminuciones del ritmo cardiaco
es explicado por la regresión cuando se toma como variable independiente la dosis.
La Tabla 3 indica la prueba de hipótesis H0: ß = 0; aplica la estadística F y el cual en Sig.
muestra un valor de la probabilidad p = 0,000 y es menor a 0,05, por consiguiente
rechazamos H0, el coeficiente de regresión ß es diferente de cero y como es positivo, está
señalando que la relación es positiva.
En la Tabla 4; podemos construir la regresión lineal simple estimada teniendo en cuenta la
columna de los Coeficientes no estandarizados y la sub columna encabezada por B nos
proporciona los coeficientes estimados, es decir:
a = 7,055 (constante) y b = 4,088 (Dosis)
Por consiguiente, la regresión estimada será:

Y = 7,055 + 4,088X
El coeficiente de regresión estimado b indica que por cada unidad que se incremente en la
dosis, la disminución en el ritmo cardiaco será de 4,088.
Para una dosis de x = 3,75 el ritmo cardiaco disminuirá aproximadamente en 23.

Y = 7,055 + 4,088*3,75 = 22,385 = 23

DescExcel
Beta (0,951) representa el B hallado y se estandariza para hacerlo comparable con otros
modelos se halla multiplicando el coeficiente no estandarizado por la desviación estándar
de la variable de interés y dividiendo entre la desviación estándar de la variable
dependiente.
Sin embargo, podemos estar interesados en la prueba de hipótesis H0: ß=0 y en la Tabla 4
nos ubicamos en la columna encabezada por t y Sig. En la fila que corresponde a Dosis se
tiene un valor de t = 10,169 y p = 0,000, por consiguiente, como p < 0,05, rechazamos H0 y
se concluye que el coeficiente de regresión ß es diferente de cero.

2.2 Análisis de correlación lineal simple

Analizar/Correlaciones/Bivariadas… :
Arrastra las variables Dosis y Ritmocar, luego clic en Opciones, clic en Medias y
desviaciones típicas, posteriormente clic en Continuar y después clic en Aceptar,
deben aparecer los siguientes resultados:
Estadí sticos d escripti vos

Desviación
Media típica N
Dosis (mg) 2.0000 .97361 13
Reduc ción del
15.2308 4.18636 13
ritm o c ardi aco

Co rrel acio nes

Reduc ción
del ritm o
Dosis (mg) cardiac o
Dosis (mg) Correlación de Pearson 1 .951**
Sig. (bilateral) . .000
N 13 13
Reduc ción del Correlación de Pearson .951** 1
ritm o c ardi aco Sig. (bilateral) .000 .
N 13 13
**. La correlac ión es s ignifi cativa al nivel 0,01 (bilateral).

El diagrama de dispersión de puntos es idéntico al gráfico que se ha considerado al inicio.


La segunda tabla de resultados nos muestra que el coeficiente de correlación es de 0,95 el
cual indica que la asociación es positiva y muy buena y además el “**” señala que el
coeficiente de correlación es estadísticamente significativo, por consiguiente, el coeficiente
es diferente de cero.
Ejemplo 3. el modelo de regresión lineal ha de cumplir una serie de supuestos que
garanticen su correcta aplicación, a saber, a) linealidad, b) normalidad, c)
homocedasticidad y d) independencia de errores. Una última condición de
ausencia de multicolinealidad hace referencia a la regresión múltiple.
Prueba de normalidad.
Gráficos…
Con el botón Gráficos… obtenemos el cuadro de diálogo de la figura 3
Figura 3
DescExcel
En la lista fuente tenemos la variable dependiente (DEPENDT), los valores predichos
estandarizados (ZPRED), los residuos estandarizados (ZRESID), los residuos eliminando la
puntuación del sujeto (DRESID) y los valores predichos ajustados (SDRESID).
Dispersión 1 de 1. Nos muestra los diagramas de dispersión que queramos de la lista de la
izquierda, para cada par de variables, alternando anterior y siguiente.
Gráficos de residuos tipificados. En este recuadro podemos elegir uno de los gráficos:
- Histograma: Crea un histograma de los residuos tipificados con una curva normal
superpuesta.
- Gráfico de probabilidad normal: Muestra un gráfico de probabilidad normal de los
residuos tipificados. Se usa para comprobar la normalidad. Si la variable se distribuye
normalmente, los puntos representados forman una línea recta diagonal.
Generar todos los gráficos parciales. Genera todos los diagramas de dispersión de la variable
dependiente con cada una de las variables independientes.
Tareas: Presenta tu informe interpretando los resultados (Solo muestra los valores que
interpretas, no toda la información que arroja el paquete) y envías a Campus tus archivos
“zipeados” antes de las 11:45 h.
1) Los costos de operación mensual de la empresa de transporte de pasajeros Combat
Orión, durante 36 meses, se muestran en la siguiente tabla:
Mes 1 2 3 4 5 6 7 8 9 10 11 12
US$ 418,7 416,2 421,4 421,4 421,6 446,7 480,8 508,8 491,1 459,0 403,0 396,8
km 5064,6 5085,5 5145,0 5106,4 5297,9 5730,8 6458,2 6830,0 6693,2 6076,8 5201,3 5054,9

Mes 13 14 15 16 17 18 19 20 21 22 23 24
US$ 388,6 382,9 392,3 931,7 412,0 417,3 429,7 477,0 513,5 493,9 439,3 421,4
km 4712,1 4929,4 4982,5 4982,5 5082,3 5371,9 5619,8 6467,9 7071,4 7071,4 6841,3 5272,2

Mes 25 26 27 28 29 30 31 32 33 34 35 36
US$ 396,4 392,2 395,0 395,6 932,3 409,7 418,7 444,4 482,3 350,4 450,2 489,8+PD
km 5124,1 4887,5 5056,5 5083,9 5051,7 5154,7 5322,1 5769,4 6554,8 5002,8 6004,8 6208,2

Utiliza la función Regresión del Excel y contesta las siguientes preguntas:


a. ¿Cuál es el costo marginal de recorrer un km adicional?
DescExcel
b. ¿Cuál es el costo mensual aproximado que no varía con la cantidad de km
recorridos?
c. ¿Qué porcentaje de la variación total de los costos de transporte se debe a los km
recorridos?
d. Emite un informe general respecto a los resultados

2) La resistencia del cemento (r) depende del tiempo de secado del cemento (t). En un
experimento realizado por la cementera La Vida en Concreto se obtuvo la resistencia de
bloques de cemento con diferente tiempo de secado; los resultados fueron los de la tabla
adjunta. Analiza la relación lineal entre estas dos variables con SPSS.

Tiempo (días) Resistencia (kg/cm2)


1 13.0 13.3 11.8
2 21.9 24.5 24.7
3 29.8 28.0 24.1 24.2 26.2
7 32.4 30.4 34.5 33.1 35.7
28 41.8 42.6 40.3 35.7 (37.3 + PD)
3) Se Toma una muestra aleatoria de 10 envíos por camioneta del depósito de la ONG
Somos Derechos y Humanos registrándose la distancia en kilómetros y el tiempo de
entrega, al mediodía más cercano, y a partir del momento en que el embarque estuvo listo
para su transporte. Los datos se muestran a continuación:

Envíos muestreados 1 2 3 4 5 6 7 8 9 10
Distancia(X) en km 825 215 1070 550 480 920 1350 325 670 1215
Tiempo de entrega 3,5 1,0 4,0 2,0 1,0 3,0 4,5 1,5 3,0 5,0
(Y), en días
Desarrolla en Excel:
a) El diagrama de dispersión
b) La recta de mínimos cuadrados
c) Para un viaje de 1000 km ¿cuál será el tiempo estimado de entrega?
d) El coeficiente de determinación. Interpreta.
e) El coeficiente de correlación. Interpreta.

4) Desarrolla en SPSS y en Excel el siguiente caso, indicando los comandos y parámetros


en cada paso:

En la Revista Industrial Data de la Facultad de Ingeniería Industrial se publicó el trabajo


“Diseñando plantas en climas difíciles” los datos usados en la investigación fueron:

Duración 92 92 96 100 102 102 106 106 121 143


Rendimiento 1,7 2,3 1,9 2,0 1,5 1,7 1,6 1,8 1,0 0,3

Con X = duración de la cosecha de porotos, en días; Y = rendimiento de la cosecha, en


toneladas por hectárea, encuentra:

DescExcel
a) Estima la recta de regresión mediante el método de mínimos cuadrados.
Interpreta los estimadores.
b) ¿Existe una relación lineal significativa entre la duración y el rendimiento de
la cosecha? Interpreta.
c) Verifica los supuestos (Normalidad, homocedasticidad, etc.)
d) Estima el rendimiento si la duración de la cosecha fue de 104 días.

DescExcel