Escolar Documentos
Profissional Documentos
Cultura Documentos
CARREGANDO DADOS
dadosP <- get_pnadc(year = 2019, quarter = 1, design = F, labels = F)
EXPORTANDO OS DADOS
export(dadosP, file = "dadosPc2.csv")
IMPORTANDO OS DADOS
dadosP <-
import("C:/Users/grazi/Documents/R/win-library/4.1/markdown/doc/dadospc2.
csv")
```
##
## Attaching package: 'dplyr'
RENOMEANDO VARIÁVEIS
library(dplyr)
library(tidyverse)
## ── Conflicts ──────────────────────────────────────────
tidyverse_conflicts() ──
## x tidyr::extract() masks magrittr::extract()
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
## x purrr::set_names() masks magrittr::set_names()
glimpse(dadosP)
## Rows: 553,308
## Columns: 6
## $ sexo <int> 2, 1, 2, 2, 1, 1, 1, 2, 2, 1, 1, 2, 1, 1, 2, 1, 2, 1,
1, 1, 1,…
## $ raxa <int> 4, 4, 1, 4, 4, 1, 1, 4, 4, 4, 4, 4, 1, 1, 4, 4, 1, 1,
4, 4, 4,…
## $ idade <int> 44, 61, 26, 17, 6, 48, 54, 54, 29, 15, 11, 16, 23, 26,
20, 58,…
## $ anosEst <int> 16, 9, 12, 12, 0, 16, 4, 12, 14, 8, 4, 5, 12, 12, 12,
12, 8, 1…
## $ renda <dbl> 1583, NA, NA, NA, NA, 2800, NA, 1400, NA, NA, NA, NA,
2000, 25…
## $ peso <dbl> 125.3039, 125.3039, 125.3039, 125.3039, 125.3039,
134.0281, 12…
SEXO
summary(dadosP$sexo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.000 2.000 1.512 2.000 2.000
COMANDOS SEPARADOS
MÉDIA
mean(dadosP$idade)
## [1] 35.39333
## [1] 8.263054
## [1] 1977.273
MEDIANA
median(dadosP$idade)
## [1] 34
## [1] 9
## [1] 1200
VARIANCIA
var(dadosP$idade)
## [1] 470.5826
## [1] 23.46245
## [1] 8977378
DESVIO PADRÃO
sd(dadosP$idade)
## [1] 21.69292
## [1] 2996.227
QUARTIS
quantile(dadosP$idade,na.rm = TRUE)
quantile(dadosP$anosEst,na.rm = TRUE)
quantile(dadosP$renda,na.rm = TRUE)
DECIS
quantile(x = dadosP$idade, probs = seq(0, 1, .1), na.rm = T)
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 0 7 14 20 27 34 41 48 56 66 114
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 0 1 4 5 7 9 11 12 12 15 16
##
## 1 2
## 269827 283481
RACA
table(dadosP$raxa)
##
## 1 2 3 4 5 9
## 212519 47294 2838 288088 2554 15
##
## Attaching package: 'Hmisc'
quantis
dadosP %>% select(idade, anosEst, renda) %>%
apply(2, wtd.quantile, weights = dadosP$peso)
variancia
dadosP %>% select(idade, anosEst, renda) %>%
apply(2, wtd.var, weights = dadosP$peso)
## [1] 3399.939
## [1] 0
sum(is.na(dadosP$raxa))
## [1] 0
sum(is.na(dadosP$idade))
## [1] 0
sum(is.na(dadosP$anosEst))
## [1] 34898
sum(is.na(dadosP$renda))
## [1] 330715
CALCULANDO NA MÃO
g <- na.omit(dadosP$renda)
h <- dadosP$idade
i <- dadosP$peso
## [1] 8754745
## [1] -552837.4
## [1] -409771.7
CARREGANDO GGPLOT
library(ggplot2)
HISTOGRAMA VARIÁVEL RENDA
library(Hmisc)
library(ggplot2)
library(dplyr)
ggplot (data = dadosP) +
geom_histogram (aes(x=renda))
##
Histograma variá vel Idade
ggplot (data = dadosP) +
geom_histogram (aes(x = idade))
RECODIFICANDO VARIÁVEIS
SEXO
filtre$sexo <- factor(filtre$sexo, label = c("Masculino", "Feminino"),
levels = c(1, 2))
glimpse(filtre)
## Rows: 211,242
## Columns: 6
## $ sexo <fct> Feminino, Masculino, Feminino, Masculino, Masculino,
Feminino,…
## $ raxa <int> 4, 1, 4, 1, 1, 4, 1, 4, 4, 4, 4, 1, 4, 4, 4, 4, 1, 4,
4, 4, 4,…
## $ idade <int> 44, 48, 54, 23, 26, 20, 30, 28, 25, 27, 46, 42, 25,
51, 32, 21…
## $ anosEst <int> 16, 16, 12, 12, 12, 12, 12, 16, 12, 9, 12, 16, 12, 9,
12, 9, 1…
## $ renda <dbl> 1583, 2800, 1400, 2000, 2500, 998, 1500, 1800, 998,
1100, 5000…
## $ peso <dbl> 125.3039, 134.0281, 122.4971, 173.4096, 173.4096,
173.4096, 14…
RAÇA
filtre$raxa[filtre$raxa == 1] <- "brancos"
filtre$raxa[filtre$raxa == 2] <- "não brancos "
IDADE
filtre <- filtre %>%
mutate(idade_cut = idade %>%
cut(breaks = c(18, 24, 29, 39, 49, 59, 64),
labels = c("18 a 24 anos", "25 a 29 anos", "30 a 39 anos", "40 a 49
anos", "50 a 59 anos", "60 a 64 anos"), include.lowest = TRUE))
table(filtre$idade_cut)
##
## 18 a 24 anos 25 a 29 anos 30 a 39 anos 40 a 49 anos 50 a 59 anos 60 a
64 anos
## 27107 24558 58331 52285 38791
10170
FAIXAS DE ESCOLARIDADE
filtre <- filtre %>%
mutate(anos_cut = anosEst %>%
cut(breaks = c(0, 1, 7, 10, 14, 16),
labels = c("sem instrução", "fundamento incompleto",
"fundamental completo/medio completo", "medio completo/superior
incompleto", "medio superior/completo"), include.lowest = TRUE))
table(filtre$anos_cut)
##
## sem instrução fundamento
incompleto
## 7898
44952
## fundamental completo/medio completo medio completo/superior
incompleto
## 30776
85483
## medio superior/completo
## 42133
filtre %>%
count(anos_cut, wt = peso) %>%
mutate(prop = n/sum(n))
## anos_cut n prop
## 1 sem instrução 2173842 0.02512954
## 2 fundamento incompleto 14914341 0.17240933
## 3 fundamental completo/medio completo 12304177 0.14223591
## 4 medio completo/superior incompleto 37907967 0.43821495
## 5 medio superior/completo 19205091 0.22201027
filtre %>%
count(idade_cut, wt = peso) %>%
mutate(prop = n/sum(n))
## idade_cut n prop
## 1 18 a 24 anos 11781970 0.13619921
## 2 25 a 29 anos 11534551 0.13333906
## 3 30 a 39 anos 25022055 0.28925419
## 4 40 a 49 anos 20663954 0.23887468
## 5 50 a 59 anos 14036447 0.16226090
## 6 60 a 64 anos 3466441 0.04007196
filtre %>%
select(log_renda) %>%
apply (2, wtd.mean, weight = filtre$peso)
## log_renda
## 7.263901
filtre %>%
select(log_renda) %>%
apply(2, wtd.var, weight = filtre$peso)
## log_renda
## 0.8163726
filtre %>%
select(log_renda) %>%
apply(2, wtd.quantile, weight = filtre$peso)
## log_renda
## 0% 1.386294
## 25% 6.905753
## 50% 7.244228
## 75% 7.696213
## 100% 12.429216
dadosP %>%
select (-raxa, -sexo,-idade,-anosEst,-peso)
ggplot(data = filtre) +
geom_bar(aes(x = anos_cut), width = 0.5, weight = var(filtre$peso))
ggplot(data = filtre) +
geom_bar(aes(x = idade_cut), width = 0.5, weight = var(filtre$peso))
Função COR
cor(filtre$anosEst, filtre$renda)
## [1] 0.3105982
cor(filtre$anosEst, filtre$log_renda)
## [1] 0.4619979
CORELAÇÃO DE PEARSON
a <- filtre$anosEst
mean(a)
## [1] 10.46614
sd(a)
## [1] 4.250374
sum(a)
## [1] 2210888
## [1] 1978.912
sd(b)
## [1] 2887.562
sum(b)
## [1] 418029286
## [1] 0.3105982
library(weights)
view(filtrex)
mediarendaie %>%
pivot_wider(names_from = anos_cut, values_from = idade)
## # A tibble: 235 × 6
## renda_media `sem instrução` `fundamento incompleto` `fundamental
completo/m…`
## <dbl> <int> <int>
<int>
## 1 984. 18 NA
NA
## 2 642. 19 NA
NA
## 3 684. 20 NA
NA
## 4 903. 21 NA
NA
## 5 796. 22 NA
NA
## 6 897. 23 NA
NA
## 7 796. 24 NA
NA
## 8 835. 25 NA
NA
## 9 978. 26 NA
NA
## 10 853. 27 NA
NA
## # … with 225 more rows, and 2 more variables:
## # `medio completo/superior incompleto` <int>, `medio
superior/completo` <int>
CARREGANDO GDATOOLS
library(GDAtools)
POR PORCENTAGENS
wtable(mediarendaie$idade, mediarendaie$anos_cut, weights =
mediarendaie$renda_media, stat = "prop")