Escolar Documentos
Profissional Documentos
Cultura Documentos
Integrantes: Miguel Astorga, David Fuchs, Gabriela Miranda, Matías Riveros, Benjamín Segovia
Ejercicio número 1
1) Baje la base de datos de la encuesta LAPOP 2016/17 para Chile:
a) Explique la metodología (3 puntos)
La metodología ocupada por Lapop (Latin American Public Opinión Project) se basa en un diseño
probabilístico estratificado por las principales regiones del país, el tamaño de los municipios y áreas
urbanas y rurales para América Latina, el Caribe, Estados Unidos y Canadá. Tal metodología se
concibió en base a entrevistas a 43.454 de los 29 países seleccionados. Las encuestas son
representativas a nivel nacional para los adultos pertenecientes al rango de edad permitido para
sufragar. El universo donde se encuentra la cobertura nacional de los adultos en edad de votar está
compuesto por la población que vive en municipios y por áreas urbanas y rurales y es representativo
entonces tanto a nivel nacional como regional. La unidad estadística para encuestar a los adultos en
edad de votar es el hogar.
El diseño de la muestra es representativa a nivel de todos los estratos mencionados, esto es,
cada persona elegida en el país, dentro cada estrato (o subgrupo), tiene probabilidad igual de ser
incluida en la muestra de la encuesta. Los estratos de la muestra se clasifican en tres factores: el
tamaño de los municipios, áreas urbanas/rurales y regiones. Se realizó la estratificación porque mejora
la calidad de las estimaciones. En otras palabras, el muestreo estratificado mejora la confiabilidad de
la muestra al reducir la varianza de las estimaciones.
Por último, el error de muestro es parte del diseño metodológico cuyo resultado es parte
inevitable del proceso de estudio de una muestra y no de la población. Cuando se recopilan
información mediante encuestas, es inevitable que los resultados tengan este tipo de error de
muestreo. En el diseño de investigación, el error de de muestro se estima mediantel a varianza de la
muestra.
1b)
Cargar la base de datos y paquetes correspondientes
lapop <- read_dta("Lapop2017.dta")
library(tidyverse)
library(skimr)
library(haven)
library(expss)
library(stargazer)
View(lapop$soct2)
Supuestos:
Variable categórica
Muestra aleatoria
Muestra grande
Bajo h0 probamos independencia
Hipótesis:
Test estadístico:
chisq.test(lapop$m1, lapop$sit.eco)
1C)
Supuestos:
Variable categórica
Muestra aleatoria
Muestra grande
Bajo h0 probamos independencia
Hipótesis:
H0: Existe independencia entre las variables
Ha: No existe independencia entre las variables
Test estadístico:
Conclusión:
Dado que son variables categóricas, es necesario hacer un test de asociación de variables en donde se
pruebe la fuerza de la asociación entre ambas variables IMMIG1 y IDIO2 La última variable ha sido
subdividida y reagrupada en 3 categorías, creando así una nueva variable sit.ecoactual.
A modo de conclusión, dado que el valor p es menor a alfa (5%), se rechaza la hipótesis nula, dado
que hay asociación entre las variables.
Ejercicio número 2
Carl Gauss y Andrei Markov fueron los dos matemáticos que establecieron en conjunto los
supuestos del modelo clásico de regresión con los cuales es posible estimar los parámetros más
eficientes de una función poblacional mediante una muestra de datos. En otras palabras, a partir del
aporte hecho por ambos se pueden calcular los mejores coeficientes “Bo” y “Bi” que forman parte de
la ecuación de la recta con la que se puede trazar la línea que relaciona la serie de datos pertenecientes
o resultantes de las dos variables en cuestión, la independiente y la dependiente, todo esto enmarcado
en la idea de establecer una asociación determinista entre ellas.
En concreto, el teorema de Gauss- Markov incluye 10 supuestos, pero a efectos de este curso,
se van a explicar los cinco primeros, los que describen la forma del modelo y la relación entre sus
distintos componentes, junto con abordar la forma en que los datos fueron generados. Antes de
explicar uno por uno, es necesario añadir que la particularidad de estos es que va a hacer que el
estimador posea dos propiedades fundamentales: la insesgadez y la eficiencia, las que se relacionan
con los conceptos de esperanza y varianza, respectivamente.. La primera hace referencia a que si
realizamos una estimación de manera repetida, el promedio de los estimadores será igual al parámetro
poblacional, mientras que la segunda se relaciona con una mínima varianza (o mayor precisión) en
términos del error ui, el cual difícilmente sea cero, por ello es que se busca un estimador con la menor
varianza posible.
De esta manera, los supuestos son los siguientes: en primer lugar, se debe cumplir la
linealidad de los parámetros, lo que implica en que el modelo de regresión es lineal en ellos, es decir,
que están elevados a la primera potencia, aunque puede ser o no lineal en las variables bajo la forma
de: Yi = β1 + β2 Xi + ui. En segundo lugar, se plantea que X tendrá valores fijos a muestras repetidas,
por lo que X se va a suponer “no estocástica”, sino deterministica, y así el análisis será considerado
condicional al valor de X. En tercer lugar, se establece que: E(µ|x) = 0, esta fórmula se refiere a que
el valor medio de la perturbación ui es igual a cero, esto quiere decir que los factores que no están
considerados en el modelo se tienden a neutralizar, dejando con un efecto igual a 0 la incidencia sobre
y. En cuarto lugar, se plantea que no existe autocorrelación entre los errores, esto implica que a un x
dado, las desviaciones de los ui no van evidenciar patrones sistemáticos. En este sentido, si la muestra
es aleatoria, no existirá autocorrelación. En quinto lugar, este consiste en que var(ui |Xi) = E[ui −
E(ui)|Xi ] ^2. La varianza de ui es constante, esto significa que la varianza alrededor de la regresión
establecida entre x e y será la misma para todos los valores de X, no aumentará ni disminuirá conforme
varía x.
Es importante señalar que cada propiedad va a tener supuestos asociados para su
cumplimiento, específicamente, los primeros cuatro supuestos del teorema de Gauss- Markov tienen
relación con la insesgadez, mientras que el principio de homocedasticidad (quinto principio) se
vincula con la propiedad de mínima varianza o eficiencia. Es decir, en el caso de que falle alguno
de los cuatro primeros supuestos el estimador MCO deja de ser insesgado. Ahora bien, si solo fallan
el 4 o el 5 (no autocorrelación y homocedasticidad) el estimador sigue siendo lineal e insesgado, sin
embargo, ya no es el más preciso. En conclusión, si se cumplen estos 5 supuestos podemos afirmar
que el estimador es el de mínima varianza de entre todos los estimadores lineales e insesgados.
lapop<-read.csv("base_tarea3.csv")
> summary(modelo_lapop)
## Residuals:
Min 1Q Median 3Q Max
## -119.049 -32.837 -1.593 38.326 152.426
## Coefficients:
Estimate Std. Error t value Pr(>|t|)
## (Intercept) 517.60 24.57 21.063 <2e-16 ***
## per_urb 93.06 40.61 2.292 0.0264 *
-------------------------------------------------------------------------
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## Residual standard error: 55.7 on 48 degrees of freedom
## Multiple R-squared: 0.09861, Adjusted R-squared: 0.07983
## F-statistic: 5.251 on 1 and 48 DF, p-value: 0.02636
>A continuación, usaremos la función stargazer para armar una tabla con
los valores anteriores
nivel de contaminación
Modelo 1
-------------------------------------------------------------------------
-----
% urbano 93.060**
(40.610)
Constant 517.596***
(24.574)
-------------------------------------------------------------------------
-----
Observations 50
R2 0.099
Adjusted R2 0.080
Residual Std. Error 55.702 (df = 48)
F Statistic 5.251** (df = 1; 48)
=========================================================================
e. Explique cómo se calcula el indicador de bondad de ajuste del modelo, calcúlelo (debe
obtener los valores y mostrar su cálculo). Interprételo.
El indicador de bondad de ajuste se calcula así: la diferencia de 1 menos
la suma residual de cuadrados, divididos por la suma total de cuadrados.
En otras palabras: (1-SRC)/STC.
También puede calcularse como el cuadrado de los coeficientes de
correlación entre las yi, reales y los valores y ajustados
En el caso del modelo poblacional planteado, la bondad de ajuste es la
siguiente:
>Calculamos los valores STC, SEC y SRC:
> (sumas_modelo_lapop <- modelo_lapop_aug %>%
## + mutate(obs_menos_media_cuadrado = (NC - mean(NC)) ^ 2,
## + pred_menos_media_cuadrado = (.fitted - mean(NC)) ^ 2) %>%
## + summarise(SCT = sum(obs_menos_media_cuadrado),
## + SCE = sum(pred_menos_media_cuadrado),
## + SCR = sum(.resid ^ 2)) )
## A tibble: 1 x 3
SCT SCE SCR
<dbl> <dbl> <dbl>
## 165222. 16293. 148929