Você está na página 1de 7

Análisis de Datos Políticos – Tarea 3

Integrantes: Miguel Astorga, David Fuchs, Gabriela Miranda, Matías Riveros, Benjamín Segovia

Ejercicio número 1
1) Baje la base de datos de la encuesta LAPOP 2016/17 para Chile:
a) Explique la metodología (3 puntos)

La metodología ocupada por Lapop (Latin American Public Opinión Project) se basa en un diseño
probabilístico estratificado por las principales regiones del país, el tamaño de los municipios y áreas
urbanas y rurales para América Latina, el Caribe, Estados Unidos y Canadá. Tal metodología se
concibió en base a entrevistas a 43.454 de los 29 países seleccionados. Las encuestas son
representativas a nivel nacional para los adultos pertenecientes al rango de edad permitido para
sufragar. El universo donde se encuentra la cobertura nacional de los adultos en edad de votar está
compuesto por la población que vive en municipios y por áreas urbanas y rurales y es representativo
entonces tanto a nivel nacional como regional. La unidad estadística para encuestar a los adultos en
edad de votar es el hogar.
El diseño de la muestra es representativa a nivel de todos los estratos mencionados, esto es,
cada persona elegida en el país, dentro cada estrato (o subgrupo), tiene probabilidad igual de ser
incluida en la muestra de la encuesta. Los estratos de la muestra se clasifican en tres factores: el
tamaño de los municipios, áreas urbanas/rurales y regiones. Se realizó la estratificación porque mejora
la calidad de las estimaciones. En otras palabras, el muestreo estratificado mejora la confiabilidad de
la muestra al reducir la varianza de las estimaciones.
Por último, el error de muestro es parte del diseño metodológico cuyo resultado es parte
inevitable del proceso de estudio de una muestra y no de la población. Cuando se recopilan
información mediante encuestas, es inevitable que los resultados tengan este tipo de error de
muestreo. En el diseño de investigación, el error de de muestro se estima mediantel a varianza de la
muestra.

1b)
Cargar la base de datos y paquetes correspondientes
lapop <- read_dta("Lapop2017.dta")
library(tidyverse)
library(skimr)
library(haven)
library(expss)
library(stargazer)
View(lapop$soct2)

Crear un objeto para luego crear tres categorías en la variable


lapop <- lapop%>%mutate(soct2, sit.eco = case_when(soct2 == 1~"mejor", so
ct2 == 2~ "igual", soct2 == 3 ~"peor" ))
View(lapop$sit.eco)
skim(lapop$sit.eco)

Supuestos:
 Variable categórica
 Muestra aleatoria
 Muestra grande
 Bajo h0 probamos independencia

Hipótesis:

Crear un test de asociación para ver la fuerza de la asociación.


La hipótesis nula es:
# h0: hay independencia
# h1: no hay independencia entre la evaluación al trabajo que está realiz
ando la Presidenta Michelle Bachelet (M1 ) y percepción de la situación e
conómica del país con respecto a doce meses atrás (SOCT2)

Test estadístico:

chisq.test(lapop$m1, lapop$sit.eco)

Pearson's Chi-squared test

data: lapop$m1 and lapop$sit.eco


X-squared = 137.33, df = 8, p-value < 2.2e-16
se rechaza H0 dado que el valor p es menor a alfa.
Valor P: Se rechaza h0 dado que el valor P es menor a alfa.
Conclusión:
Dado que son variables categóricas, es necesario hacer un test de asociación de variables en donde se
pruebe la fuerza de la asociación entre ambas variables M1 y SOCT2. La última variable ha sido
subdividida y reagrupada en 3 categorías, creando así una nueva variable sit.eco.
A modo de conclusión, dado que el valor p es menor a alfa (5%), se rechaza la hipótesis nula, dado
que hay asociación entre las variables.

1C)

Cargar la base de datos y paquetes correspondientes


lapop <- read_dta("Lapop2017.dta")
library(tidyverse)
library(skimr)
library(haven)
library(expss)
library(stargazer)

Crear un objeto para luego crear tres categorías en la variable


lapop <- lapop%>%mutate(idio2,sit.ecoactual = case_when(idio2== 1~"mejor
", soct2 == 2~ "igual", soct2 == 3 ~"peor" ))
View(lapop$sit.ecoactual)
skim(lapop$sit.ecoactual)
chisq.test(lapop$immig1, lapop$sit.eco)

Supuestos:
 Variable categórica
 Muestra aleatoria
 Muestra grande
 Bajo h0 probamos independencia

Hipótesis:
H0: Existe independencia entre las variables
Ha: No existe independencia entre las variables

Test estadístico:

Pearson's Chi-squared test


data: lapop$immig1 and lapop$sit.eco
X-squared = 37.694, df = 8, p-value = 8.575e-06
se rechaza H0 dado que el valor p es menor a alfa
Valor P: Se rechaza H0 ya que el valor p es menor a alfa

Conclusión:
Dado que son variables categóricas, es necesario hacer un test de asociación de variables en donde se
pruebe la fuerza de la asociación entre ambas variables IMMIG1 y IDIO2 La última variable ha sido
subdividida y reagrupada en 3 categorías, creando así una nueva variable sit.ecoactual.
A modo de conclusión, dado que el valor p es menor a alfa (5%), se rechaza la hipótesis nula, dado
que hay asociación entre las variables.

Ejercicio número 2

2) Expliquen los supuestos Gauss-Markov. Identifique aquellos necesarios para la propiedad de


insesgadez, y aquellos para la propiedad de mínima varianza. Para ello, se puede basar en las lecturas
requeridas y recomendadas.

Carl Gauss y Andrei Markov fueron los dos matemáticos que establecieron en conjunto los
supuestos del modelo clásico de regresión con los cuales es posible estimar los parámetros más
eficientes de una función poblacional mediante una muestra de datos. En otras palabras, a partir del
aporte hecho por ambos se pueden calcular los mejores coeficientes “Bo” y “Bi” que forman parte de
la ecuación de la recta con la que se puede trazar la línea que relaciona la serie de datos pertenecientes
o resultantes de las dos variables en cuestión, la independiente y la dependiente, todo esto enmarcado
en la idea de establecer una asociación determinista entre ellas.
En concreto, el teorema de Gauss- Markov incluye 10 supuestos, pero a efectos de este curso,
se van a explicar los cinco primeros, los que describen la forma del modelo y la relación entre sus
distintos componentes, junto con abordar la forma en que los datos fueron generados. Antes de
explicar uno por uno, es necesario añadir que la particularidad de estos es que va a hacer que el
estimador posea dos propiedades fundamentales: la insesgadez y la eficiencia, las que se relacionan
con los conceptos de esperanza y varianza, respectivamente.. La primera hace referencia a que si
realizamos una estimación de manera repetida, el promedio de los estimadores será igual al parámetro
poblacional, mientras que la segunda se relaciona con una mínima varianza (o mayor precisión) en
términos del error ui, el cual difícilmente sea cero, por ello es que se busca un estimador con la menor
varianza posible.
De esta manera, los supuestos son los siguientes: en primer lugar, se debe cumplir la
linealidad de los parámetros, lo que implica en que el modelo de regresión es lineal en ellos, es decir,
que están elevados a la primera potencia, aunque puede ser o no lineal en las variables bajo la forma
de: Yi = β1 + β2 Xi + ui. En segundo lugar, se plantea que X tendrá valores fijos a muestras repetidas,
por lo que X se va a suponer “no estocástica”, sino deterministica, y así el análisis será considerado
condicional al valor de X. En tercer lugar, se establece que: E(µ|x) = 0, esta fórmula se refiere a que
el valor medio de la perturbación ui es igual a cero, esto quiere decir que los factores que no están
considerados en el modelo se tienden a neutralizar, dejando con un efecto igual a 0 la incidencia sobre
y. En cuarto lugar, se plantea que no existe autocorrelación entre los errores, esto implica que a un x
dado, las desviaciones de los ui no van evidenciar patrones sistemáticos. En este sentido, si la muestra
es aleatoria, no existirá autocorrelación. En quinto lugar, este consiste en que var(ui |Xi) = E[ui −
E(ui)|Xi ] ^2. La varianza de ui es constante, esto significa que la varianza alrededor de la regresión
establecida entre x e y será la misma para todos los valores de X, no aumentará ni disminuirá conforme
varía x.
Es importante señalar que cada propiedad va a tener supuestos asociados para su
cumplimiento, específicamente, los primeros cuatro supuestos del teorema de Gauss- Markov tienen
relación con la insesgadez, mientras que el principio de homocedasticidad (quinto principio) se
vincula con la propiedad de mínima varianza o eficiencia. Es decir, en el caso de que falle alguno
de los cuatro primeros supuestos el estimador MCO deja de ser insesgado. Ahora bien, si solo fallan
el 4 o el 5 (no autocorrelación y homocedasticidad) el estimador sigue siendo lineal e insesgado, sin
embargo, ya no es el más preciso. En conclusión, si se cumplen estos 5 supuestos podemos afirmar
que el estimador es el de mínima varianza de entre todos los estimadores lineales e insesgados.

Ejercicio número 3 – Tarea 3


Análisis de Datos Políticos
_________________________________________________________________________
3) Usando los datos de “base_tarea3.csv”, y suponiendo que el modelo poblacional
corresponde a NC1= β0 + β1Per_urb + µi, donde NC corresponde al nivel de
contaminación de una zona geográfica, y per_urb corresponde al porcentaje de esa zona
que son zonas urbanas.
a. Estimen los parámetros mediante el programa elegido y reporten tabla con los resultados.

> En primer lugar, abrimos la base de datos “base_tarea3.csv”

lapop<-read.csv("base_tarea3.csv")

>Para estimar los parámetros poblacionales, es necesario realizar un


modelo de regresión lineal simple que agrupe la variable NC (nivel de
contaminación – V. DEPENDIENTE) y per_urb (% de zona urbana –
V. INDEPENDIENTE). Para esto, ocupamos lo siguiente:

> modelo_lapop <- lm(NC ~ per_urb, data = lapop)

> summary(modelo_lapop)

## lm(formula = NC ~ per_urb, data = lapop)

## Residuals:
Min 1Q Median 3Q Max
## -119.049 -32.837 -1.593 38.326 152.426

## Coefficients:
Estimate Std. Error t value Pr(>|t|)
## (Intercept) 517.60 24.57 21.063 <2e-16 ***
## per_urb 93.06 40.61 2.292 0.0264 *
-------------------------------------------------------------------------
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## Residual standard error: 55.7 on 48 degrees of freedom
## Multiple R-squared: 0.09861, Adjusted R-squared: 0.07983
## F-statistic: 5.251 on 1 and 48 DF, p-value: 0.02636

>A continuación, usaremos la función stargazer para armar una tabla con
los valores anteriores

> stargazer(modelo_lapop, type = "text",


+ title = "Tabla 1: Relación entre el nivel de contaminación y
% urbano",
+ out = "tabla.html",
+ column.labels = c("Modelo 1"),
+ covariate.labels = c("% urbano"),
+ dep.var.caption = "",
+ dep.var.labels = "nivel de contaminación
",
+ notes = "Fuente: Elaboración Propia en b
ase a datos de Lapop (2016)")

>Se obtiene la siguiente tabla con los parámetros en su interior:

Tabla 1: Relación entre el nivel de contaminación y % urbano


=========================================================================

nivel de contaminación
Modelo 1
-------------------------------------------------------------------------
-----
% urbano 93.060**
(40.610)
Constant 517.596***
(24.574)
-------------------------------------------------------------------------
-----
Observations 50
R2 0.099
Adjusted R2 0.080
Residual Std. Error 55.702 (df = 48)
F Statistic 5.251** (df = 1; 48)
=========================================================================

Note: *p<0.1; **p<0.05; ***p<0.01


Fuente: Elaboración Propia en base a datos de Lapop (2016)

b. Interprete el intercepto del modelo.


Por su definición, el intercepto corresponde a la unión con la línea del
eje Y e indica el valor promedio de la variable de respuesta Y cuando X es
cero. En el caso del modelo de regresión entre NC y per_urb, indica que,
si la variable independiente es cero, es decir el porcentaje de
contaminación que corresponde a zona urbana, el nivel de contaminación
sería de 517.60 unidades, con un nivel de significancia de 0.01.

c. Interprete el valor del coeficiente de X.


El valor del coeficiente de X se traduce en que si se aumenta en una unidad
el porcentaje de zonas contaminadas que son urbanas, el nivel de
contaminación aumenta en 93.06 unidades, en este caso, con un nivel de
significancia del 0.05.

d. Realice test de significancia estadística de β1.


> Para llevar a cabo el test de significancia estadística, se calcula la
correlación, y se realiza un test de significancia de correlación:

## h0: hay dependencia


## h1: no dependencia entre el porcentaje de contaminación urbana y el ni
vel de contaminación

> cor.test(lapop$NC,lapop$per_urb, alternative = "greater", method = "pea


rson")

Pearson's product-moment correlation

data: lapop$NC and lapop$per_urb


t = 2.2916, df = 48, p-value = 0.01318
alternative hypothesis: true correlation is greater than 0
95 percent confidence interval:
0.08487366 1.00000000
sample estimates:
cor
0.3140253

>A un nivel de significancia del 0.05, el valor p obtenido en el cálculo


es mayor (0.0.01318) a un α=0.05, por lo tanto, la hipótesis nula no se
rechaza y hay evidencia para aceptar h0, es decir, que hay dependencia
entre el porcentaje de contaminación urbana y el nivel de contaminación.

e. Explique cómo se calcula el indicador de bondad de ajuste del modelo, calcúlelo (debe
obtener los valores y mostrar su cálculo). Interprételo.
El indicador de bondad de ajuste se calcula así: la diferencia de 1 menos
la suma residual de cuadrados, divididos por la suma total de cuadrados.
En otras palabras: (1-SRC)/STC.
También puede calcularse como el cuadrado de los coeficientes de
correlación entre las yi, reales y los valores y ajustados
En el caso del modelo poblacional planteado, la bondad de ajuste es la
siguiente:
>Calculamos los valores STC, SEC y SRC:
> (sumas_modelo_lapop <- modelo_lapop_aug %>%
## + mutate(obs_menos_media_cuadrado = (NC - mean(NC)) ^ 2,
## + pred_menos_media_cuadrado = (.fitted - mean(NC)) ^ 2) %>%
## + summarise(SCT = sum(obs_menos_media_cuadrado),
## + SCE = sum(pred_menos_media_cuadrado),
## + SCR = sum(.resid ^ 2)) )
## A tibble: 1 x 3
SCT SCE SCR
<dbl> <dbl> <dbl>
## 165222. 16293. 148929

>Luego, calculamos la bondad de ajuste:


>(sumas_modelo_lapop$SCE / sumas_modelo_lapop$SCT)
## [1] 0.09861192

El valor de la bondad de ajuste coincide con el R2 que está en la tabla


número 1. Este valor corresponde a la proporción de la variación muestral
en yi que es explicada por el modelo de regresión. Es un número entre 0 y
1. Por lo tanto, sirve para ver qué tanto de la varianza de Y es explicada
por el modelo. Mientras más cercana esté de 1, significa que la variación
de la variable Y es explicada por el modelo de regresión. En el caso de NC
y per_urb, la varianza de la variable Y no es explicada por el modelo de
regresión, ya que la bondad de ajuste corresponde, aproximadamente, a un
0.1 y está más cercana a 0.

Você também pode gostar