Você está na página 1de 11

Universidad de Santiago de Chile

Departamento de Ingeniera Industrial.


Ingeniera Civil Industrial.
Mtodos Multivariados

Control N2: Regresin Lineal

Integrantes: Javiera Gonzlez.


Profesor:
Ivan Derpich.
Carlos Castillo.

Ayudante:

Marcos Maldonado.

Santiago, Noviembre, 2012

Tabla de contenido
3. Introduccin ...................................................................................................................... 3
4. Marco terico ................................................................................................................... 4
Anlisis de la regresin lineal ........................................................................................ 4
Coeficiente de Correlacin ............................................................................................. 4
Mnimos cuadrados ordinarios....................................................................................... 4
Propiedades de la regresin .......................................................................................... 4
5. Descripcin y presentacin de datos ........................................................................... 5
5.1 Descripcin de variables .......................................................................................... 5
5.2 Presentacin de datos .............................................................................................. 5
6. Anlisis multivariable (3 Hojas) ..................................................................................... 7
6.1 Especificacin del modelo ....................................................................................... 7
6.2 Anlisis de significancia del modelo global ........................................................... 7
6.3 Anlisis de significancia de cada estadstico ........................................................ 8
6.4 Variables que se recomienda a eliminar ............................................................... 9
6.5 Modelo recomendado ............................................................................................... 9
7. Conclusin ...................................................................................................................... 10
8. Bibliografa ...................................................................................................................... 11

3. Introduccin

Con el motivo de realizar la segunda evaluacin de la ayudanta de mtodos


multivariados, es que se realiza este informe.
El que tiene como objetivo general determinar el mejor conjunto de variables para una
ecuacin de regresin con datos reales. En este caso los datos son obtenidos en la
pgina web del Banco Central, de las bases de datos estadsticos en la categora de
precios. Especficamente el valor de la Unidad Tributaria Mensual (UTM) y algunos IPC
por divisiones.
La UTM Es una unidad definida en Chile que corresponde a un monto de dinero
expresado en pesos ( CLP ) y determinado por ley, el cual se actualiza en forma
permanente por el ndice de Precios al Consumidor ( IPC ) y se utiliza como medida
tributaria. Es por esto que se pretender visualizar que divisiones del IPC afectan de forma
ms directa a la UTM. Se espera que las divisiones de alimentos y trasporte sean ms
significativas que las de comunicaciones o prendas de vestir.
Para realizar este anlisis se importaran los datos obtenidos en la pgina web al Excel,
para poder aplicar la regresin lineal y luego poder realizar los anlisis de significancia del
modelo y el anlisis de significancia de cada estadstico.

Dentro de los objetivos especficos se destaca;

Realizar el anlisis de significancia del modelo global.

Realizar el anlisis de significancia de cada estadstico.

Recomendar un nuevo modelo considerando las variables ms significativas.

Aprender a utilizar las herramientas de Excel.

4. Marco terico
Anlisis de la regresin lineal
Es la asociacin cuantitativa entre un nmero de variables. La regresin surge de la
distribucin conjunta de probabilidad de dos variables aleatorias y de la necesidad de
ajustar alguna funcin a un conjunto de datos.
Coeficiente de Correlacin
Este indicador muestra el grado de certeza con la cual las variables estimadas son por la
regresin. Escrito en forma matemtica.

Mnimos cuadrados ordinarios


Se denomina a la tcnica del anlisis numrico, en la que, un conjunto dado de pares
ordenados

se intenta encontrar la funcin que mejor se aproxime a los datos de

acuerdo con el criterio de minimizar el error cuadrtico.


Propiedades de la regresin
Cuando se obtiene una recta de regresin por el mtodo de mnimos cuadrados, surgen
cierto nmero de propiedades. Alguna de las siguientes son:

TABLA ANOVA
Fuente de

Grado de

Suma de

Cuadrados

Variacin

Libertad

Cuadrados

Medios

F observado

Regresin

Errores
Total

5. Descripcin y presentacin de datos


5.1 Descripcin de variables

Para el caso de estudio se utilizaran 7 variables independientes que pretender explicar a


la variable Y, que en este caso es la Unidad Tributaria Mensual.
A continuacin se presentan las 8 variables que se van a utilizar clasificadas por si van a
ser las variables explicadas o la explicativa.

5.1.1 Tabla de clasificacin de las variables.

Variable

Tipo

Unidad tributaria mensual (UTM) (Pesos)

Variable explicada

IPC Alimentos y bebidas no alcohlicas (ndice

Variable Explicativa

promedio 2009=100)
IPC Prendas de vestir y calzado (ndice promedio

Variable Explicativa

2009=100)
IPC Alojamiento, agua, electricidad, gas y otros

Variable Explicativa

combustibles (ndice promedio 2009=100)


IPC Salud (ndice promedio 2009=100)

Variable Explicativa

IPC Transporte (ndice promedio 2009=100)

Variable Explicativa

IPC Comunicaciones (ndice promedio 2009=100)

Variable Explicativa

IPC Educacin (ndice promedio 2009=100)

Variable Explicativa

Fuente: Elaboracin propia.

5.2 Presentacin de datos

Los datos se obtuvieron de la base de datos estadsticos del Banco Central.


(www.bcentral.cl). Especficamente en la seccin de Precios.

5.2.1 Imagen de la obtencin de datos del Banco Central.

Fuente: http://si3.bcentral.cl/Siete/secure/search/ViewBasket_NEW.aspx

6. Anlisis multivariable (3 Hojas)


Ocuparemos el mtodo de regresin lineal con mltiples variables. Por medio de los
mnimos cuadrados.

6.1 Especificacin del modelo


Por medio del Excel, realizamos la regresin lineal. Y verificamos el coeficiente de
correlacin para ver el grado de certeza con el cual las variables estimadas son
explicadas por la regresin.
En este caso es alto el grado de certeza con que las variables explicativas explican a la
variable explicada, con un 99%. Esto quiere decir que tiene un buen ajuste lineal.

Estadsticas de la regresin
Coeficiente de correlacin mltiple

0,993895185

Coeficiente de determinacin R^2

0,987827638

R^2 ajustado

0,984419377

Error tpico

128,4664722

Observaciones

33

6.2 Anlisis de significancia del modelo global


Para realizar el anlisis de significancia del modelo global se utiliza la distribucin de
Fisher, donde se plantean las pruebas de hiptesis nula y alternativa.

Hiptesis nula: H0: Y = Bo

Hiptesis alternativa: H1 : Y = B0 + B1X1 + B2X2 + B3X3


Grados de

Suma de

Promedio de los

libertad

cuadrados

cuadrados

Valor crtico de
F

Regresin

33483120,77

4783302,968 289,83331

Residuos

25

412590,8619

16503,63447

Total

32

33895711,64

F de tabla

2,404728108

F observado

289,8333076

F
2,61017E-22

Por lo tanto se rechaza la hiptesis nula y el modelo global es significativo. Debido a que
el F de tabla es menor al F observado.
6.3 Anlisis de significancia de cada estadstico
Para realizar el anlisis e significancia de cada estadstico se utiliza la distribucin T
Student. Para ello se aplican los mnimos cuadrados, analizando las siguientes hiptesis:

Hiptesis nula: H0: bi =0

Hiptesis alternativa: H1: bi 0


Error

Intercepcin

Coeficientes

tpico

Estadstico t

5056,566634

13047,4652

0,387551647

46,56849828 21,22815764

2,193713608

IPC Alimentos y bebidas no alcohlicas (ndice


promedio 2009=100)
IPC Prendas de vestir y calzado (ndice
promedio 2009=100)

21,01884517

11,8077152 -1,780094185

IPC Alojamiento, agua, electricidad, gas y otros


combustibles (ndice promedio 2009=100)

23,10588945 25,71708008

0,898464732

IPC Salud (ndice promedio 2009=100)

114,8058265 35,62503977

3,222616095

IPC Transporte (ndice promedio 2009=100)

47,58266832 26,18064729

1,817474862

2009=100)

67,53130193 105,7212617

0,638767461

IPC Educacin (ndice promedio 2009=100)

34,17884575 17,32381056

1,972940401

IPC Comunicaciones (ndice promedio

T de tabla

1,708140745

T observado
Para b1

2,193713608

Para b2

-1,780094185

Para b3

0,898464732

Para b4

3,222616095

Para b5

1,817474862

Para b6

0,638767461

Para b7

1,972940401

Como el T observado es mayor que el T de tabla en b1, b4, b5 y b7. Por lo tanto estos
son los estimadores significativos, donde se rechaza la hiptesis nula.
6.4 Variables que se recomienda a eliminar

Considerando el anlisis de significancia de cada estadstico realizado en el punto


anterior, nos damos cuenta que no todos los estimadores rechazan la hiptesis nula. Y
son justamente estas las variables que se recomienda eliminar.

IPC Alimentos y bebidas no alcohlicas (ndice

Aceptar

promedio 2009=100)
IPC Prendas de vestir y calzado (ndice promedio

Eliminar

2009=100)
IPC Alojamiento, agua, electricidad, gas y otros

Eliminar

combustibles (ndice promedio 2009=100)


IPC Salud (ndice promedio 2009=100)

Aceptar

IPC Transporte (ndice promedio 2009=100)

Aceptar

IPC Comunicaciones (ndice promedio 2009=100)

Eliminar

IPC Educacin (ndice promedio 2009=100)

Aceptar

6.5 Modelo recomendado


El modelo recomendado, se obtiene utilizando solo las cuatro variables explicativas
aceptadas.

Estadsticas de la regresin
Coeficiente de correlacin mltiple

0,99281765

Coeficiente de determinacin R^2

0,9856869

R^2 ajustado

0,98364217

Error tpico

131,631636

Observaciones

33

7. Conclusin
Una vez finalizado el trabajo nos damos cuenta que todos los objetivos han sido
cumplidos. Se determinaron los conjuntos de variables con datos reales y se realizaron
los distintos anlisis.
En el modelo inicial nos damos cuenta que el modelo es significativo y que tiene un ajuste
lineal del 99%, que es lo que se esperaba debido a que la UTM depende del IPC.
Al analizar la significancia de los estadsticos nos damos cuenta que en tres de las 7
divisiones del IPC utilizadas son menos significativas. Las cuales coinciden con lo
esperado al comienzo de esta actividad.

Lo sorprende ocurre cuando se realiza el anlisis del modelo recomendado. Esto debido a
que a pesar de que se quitan del modelo las variables menos significativas, el coeficiente
de correlacin y el coeficiente de determinacin disminuyes de manera poco relevante.
Esto se explica debido a que sabemos que la UTM depende del IPC considerando todas
sus divisiones. Por lo que al extraer algunas dimensiones aunque sean las menos
significativas disminuye el ajuste lineal. Pero si al modelo le quitamos las variables ms
significativas la disminucin es considerable y si se le van agregando algunas de las
dimensiones del IPC que no se consideraron en el modelo inicial va aumentando. Esto no
ocurre en modelos donde se utilizan variables distintas.

A lo mejor no fue el mejor ejemplo para el tema en estudio, pero sirve para darse cuenta
lo que ocurre en casos ms especficos.
De todas maneras el modelo recomendado tiene un ajuste lineal de aproximadamente el
99%, es un modelo significativo y sus variables tambin son muy significativas.

A modo particular considero que la mayor dificultar presente en el trabajo era encontrar
los datos que se requeran, ya que el Excel es una herramienta muy til que disminuye
considerablemente los tiempos de realizacin del ejercicio.

10

8. Bibliografa

www.bcentral.cl

www.slideshare.net/smedinat/regresin-por-mnimos-cuadrados

Apuntes de las clases

11

Você também pode gostar