Lista

title: lista de lego author: “Graziela Souza Da Silva” output: word_document: default
pdf_document: default html_document: default
LISTA DE EXERCÍCIOS LEGO 1

CARREGANDO PNAD
library(PNADcIBGE)
CARREGANDO DADOS
dadosP <- get_pnadc(year = 2019, quarter = 1, design = F, labels = F)
RODANDO O PACOTE RIO

library(rio)
EXPORTANDO OS DADOS
export(dadosP, file = "dadosPc2.csv")
IMPORTANDO OS DADOS
dadosP <-
import("C:/Users/grazi/Documents/R/win-library/4.1/markdown/doc/dadospc2.
csv")
```
CARREGANDO PACOTE DPLYR

library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':

##
## filter, lag
## The following objects are masked from 'package:base':

##
## intersect, setdiff, setequal, union
CARREGANDO PACOTE MAGRITTR

library(magrittr)
RENOMEANDO VARIÁVEIS
library(dplyr)
library(tidyverse)
## ── Attaching packages ───────────────────────────────────────

tidyverse 1.3.1 ──
## ✓ ggplot2 3.3.5 ✓ purrr 0.3.4
## ✓ tibble 3.1.6 ✓ stringr 1.4.0
## ✓ tidyr 1.2.0 ✓ forcats 0.5.1
## ✓ readr 2.1.2
## ── Conflicts ──────────────────────────────────────────
tidyverse_conflicts() ──
## x tidyr::extract() masks magrittr::extract()
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
## x purrr::set_names() masks magrittr::set_names()
dadosP <-dadosP %>%

select (V2007, V2010, V2009, VD3005, VD4016, V1028)%>%
rename(sexo = V2007, raxa = V2010, idade = V2009, anosEst = VD3005, renda
= VD4016, peso = V1028)
glimpse(dadosP)
## Rows: 553,308
## Columns: 6
## $ sexo <int> 2, 1, 2, 2, 1, 1, 1, 2, 2, 1, 1, 2, 1, 1, 2, 1, 2, 1,
1, 1, 1,…
## $ raxa <int> 4, 4, 1, 4, 4, 1, 1, 4, 4, 4, 4, 4, 1, 1, 4, 4, 1, 1,
4, 4, 4,…
## $ idade <int> 44, 61, 26, 17, 6, 48, 54, 54, 29, 15, 11, 16, 23, 26,
20, 58,…
## $ anosEst <int> 16, 9, 12, 12, 0, 16, 4, 12, 14, 8, 4, 5, 12, 12, 12,
12, 8, 1…
## $ renda <dbl> 1583, NA, NA, NA, NA, 2800, NA, 1400, NA, NA, NA, NA,
2000, 25…
## $ peso <dbl> 125.3039, 125.3039, 125.3039, 125.3039, 125.3039,
134.0281, 12…
CONHECENDO AS VARIÁVEIS COM A FUNÇÃO SAPPLY

sapply(dadosP, class)
## sexo raxa idade anosEst renda peso

## "integer" "integer" "integer" "integer" "numeric" "numeric"
SUMMARY EM VARIÁVEIS QUALITATIVAS

RAÇA
summary(dadosP$raxa)
## Min. 1st Qu. Median Mean 3rd Qu. Max.

## 1.000 1.000 4.000 2.676 4.000 9.000
SEXO
summary(dadosP$sexo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.000 2.000 1.512 2.000 2.000
O r vai calcular os dados como se os números não fossem representações de elementos

qualitativos, o que não é uma boa forma de analisar as variáveis raça e sexo que estão
sendo representadas por números.
COMANDOS SEPARADOS
MÉDIA
mean(dadosP$idade)
## [1] 35.39333
mean(dadosP$anosEst, na.rm = TRUE)
## [1] 8.263054
mean(dadosP$renda, na.rm = TRUE)
## [1] 1977.273
MEDIANA
median(dadosP$idade)
## [1] 34
median(dadosP$anosEst, na.rm = TRUE)
## [1] 9
median(dadosP$renda, na.rm = TRUE)
## [1] 1200
VARIANCIA
var(dadosP$idade)
## [1] 470.5826
var(dadosP$anosEst, na.rm = TRUE)
## [1] 23.46245
var(dadosP$renda, na.rm = TRUE)
## [1] 8977378
DESVIO PADRÃO
sd(dadosP$idade)
## [1] 21.69292
sd(dadosP$anosEst, na.rm = TRUE)

## [1] 4.843805
sd(dadosP$renda, na.rm = TRUE)
## [1] 2996.227
QUARTIS
quantile(dadosP$idade,na.rm = TRUE)
## 0% 25% 50% 75% 100%

## 0 17 34 52 114
quantile(dadosP$anosEst,na.rm = TRUE)
## 0% 25% 50% 75% 100%

## 0 5 9 12 16
quantile(dadosP$renda,na.rm = TRUE)
## 0% 25% 50% 75% 100%

## 2 954 1200 2000 250000
DECIS
quantile(x = dadosP$idade, probs = seq(0, 1, .1), na.rm = T)
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 0 7 14 20 27 34 41 48 56 66 114
quantile(x = dadosP$anosEst, probs = seq(0, 1, .1), na.rm = T)
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 0 1 4 5 7 9 11 12 12 15 16
quantile(x = dadosP$renda, probs = seq(0, 1, .1), na.rm = T)
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90%

100%
## 2 400 700 998 1000 1200 1500 1950 2500 4000
250000
FREQUÊNCIAS DAS VARIÁVEIS QUALITATIVAS

SEXO
table(dadosP$sexo)
##
## 1 2
## 269827 283481
RACA
table(dadosP$raxa)
##
## 1 2 3 4 5 9
## 212519 47294 2838 288088 2554 15
CARREGANDO PACOTES TIDYVERSE E HMISC

library(tidyverse)
library(Hmisc)
## Carregando pacotes exigidos: lattice
## Carregando pacotes exigidos: survival
## Carregando pacotes exigidos: Formula
##
## Attaching package: 'Hmisc'
## The following objects are masked from 'package:dplyr':

##
## src, summarize
## The following objects are masked from 'package:base':

##
## format.pval, units
CALCULANDO ESTATÍSTICAS AS VARIÁVEIS QUANTITATIVAS COM O PACOTE

HMISC
média
dadosP %>% select(idade, anosEst, renda) %>%
apply(2, wtd.mean, weights = dadosP$peso)
## idade anosEst renda

## 34.089650 8.856269 2197.950286
quantis
apply(2, wtd.quantile, weights = dadosP$peso)

## 0% 0 0 2
## 25% 17 5 998
## 50% 32 9 1400
## 75% 49 12 2200
## 100% 114 16 250000
variancia
apply(2, wtd.var, weights = dadosP$peso)

## 4.468390e+02 2.291781e+01 1.155958e+07
desvio padrão
sqrt(wtd.var(x = dadosP$renda, weights = dadosP$peso))
## [1] 3399.939
FREQUENCIAS COM PESO AMOSTRAL DE VARIÁVEIS QUALITATIVAS (RAÇA E

SEXO)
library(tidyverse)
library(dplyr)
a <- dadosP %>% count (dadosP$sexo, weights= peso)
NÚMERO MISSING DE CADA VARIÁVEL

sum(is.na(dadosP$sexo))
## [1] 0
sum(is.na(dadosP$raxa))
## [1] 0
sum(is.na(dadosP$idade))
## [1] 0
sum(is.na(dadosP$anosEst))
## [1] 34898
sum(is.na(dadosP$renda))
## [1] 330715
CALCULANDO NA MÃO
g <- na.omit(dadosP$renda)
h <- dadosP$idade
i <- dadosP$peso
sum((g - mean(g)) ^2/ length(g) -1)
## [1] 8754745
sum((h - mean(h)) ^2 /length(h)-1)
## [1] -552837.4
sum((i - mean(i)) ^2 /length(i)-1)
## [1] -409771.7
CARREGANDO GGPLOT
library(ggplot2)
HISTOGRAMA VARIÁVEL RENDA
library(Hmisc)
library(ggplot2)
library(dplyr)
ggplot (data = dadosP) +
geom_histogram (aes(x=renda))
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
##
Histograma variá vel Idade
geom_histogram (aes(x = idade))

Histograma Variável Anos de Estudo
geom_histogram (aes(x = anosEst))
## Warning: Removed 34898 rows containing non-finite values (stat_bin).

Gráfico de Barras, Variável Raça
ggplot(data= dadosP)+
geom_bar(aes(x = raxa))
Gráfico de Barras, Variável Sexo
ggplot(data= dadosP)+
geom_bar(aes(x = sexo))
Histograma variável idade com peso amostral

geom_histogram (aes(x = idade, weight= peso))

FILTRANDO BANCO DE DADOS
filtre = dadosP %>%
select(sexo, raxa, idade, anosEst, renda, peso) %>%
filter(idade >=18 & idade <= 64, renda >0)
Observando a classe das variáveis do filtro

sapply(filtre, class)
## sexo raxa idade anosEst renda peso

## "integer" "integer" "integer" "integer" "numeric" "numeric"
RECODIFICANDO VARIÁVEIS
SEXO
filtre$sexo <- factor(filtre$sexo, label = c("Masculino", "Feminino"),
levels = c(1, 2))
glimpse(filtre)
## Rows: 211,242
## Columns: 6
## $ sexo <fct> Feminino, Masculino, Feminino, Masculino, Masculino,
Feminino,…
## $ raxa <int> 4, 1, 4, 1, 1, 4, 1, 4, 4, 4, 4, 1, 4, 4, 4, 4, 1, 4,
4, 4, 4,…
## $ idade <int> 44, 48, 54, 23, 26, 20, 30, 28, 25, 27, 46, 42, 25,
51, 32, 21…
## $ anosEst <int> 16, 16, 12, 12, 12, 12, 12, 16, 12, 9, 12, 16, 12, 9,
12, 9, 1…
## $ renda <dbl> 1583, 2800, 1400, 2000, 2500, 998, 1500, 1800, 998,
1100, 5000…
## $ peso <dbl> 125.3039, 134.0281, 122.4971, 173.4096, 173.4096,
173.4096, 14…
RAÇA
filtre$raxa[filtre$raxa == 1] <- "brancos"
filtre$raxa[filtre$raxa == 2] <- "não brancos "
filtre$raxa[filtre$raxa == 3] <- "brancos"

filtre$raxa[filtre$raxa == 4] <- "não brancos"

IDADE
filtre <- filtre %>%
mutate(idade_cut = idade %>%
cut(breaks = c(18, 24, 29, 39, 49, 59, 64),
labels = c("18 a 24 anos", "25 a 29 anos", "30 a 39 anos", "40 a 49
anos", "50 a 59 anos", "60 a 64 anos"), include.lowest = TRUE))
table(filtre$idade_cut)
##
## 18 a 24 anos 25 a 29 anos 30 a 39 anos 40 a 49 anos 50 a 59 anos 60 a
64 anos
## 27107 24558 58331 52285 38791
10170
FAIXAS DE ESCOLARIDADE
mutate(anos_cut = anosEst %>%
cut(breaks = c(0, 1, 7, 10, 14, 16),
labels = c("sem instrução", "fundamento incompleto",
"fundamental completo/medio completo", "medio completo/superior
incompleto", "medio superior/completo"), include.lowest = TRUE))
table(filtre$anos_cut)
##
## sem instrução fundamento
incompleto
## 7898
44952
## fundamental completo/medio completo medio completo/superior
incompleto
## 30776
85483
## medio superior/completo
## 42133
CRIANDO VARIÁVEL LOG DE RENDA

mutate(log_renda = log(renda))
filtre %>%
count(anos_cut, wt = peso) %>%
mutate(prop = n/sum(n))
## anos_cut n prop
## 1 sem instrução 2173842 0.02512954
## 2 fundamento incompleto 14914341 0.17240933
## 3 fundamental completo/medio completo 12304177 0.14223591
## 4 medio completo/superior incompleto 37907967 0.43821495
## 5 medio superior/completo 19205091 0.22201027
filtre %>%
count(idade_cut, wt = peso) %>%
mutate(prop = n/sum(n))
## idade_cut n prop
## 1 18 a 24 anos 11781970 0.13619921
## 2 25 a 29 anos 11534551 0.13333906
## 3 30 a 39 anos 25022055 0.28925419
## 4 40 a 49 anos 20663954 0.23887468
## 5 50 a 59 anos 14036447 0.16226090
## 6 60 a 64 anos 3466441 0.04007196
filtre %>%
select(log_renda) %>%
apply (2, wtd.mean, weight = filtre$peso)
## log_renda
## 7.263901
filtre %>%
apply(2, wtd.var, weight = filtre$peso)
## log_renda
## 0.8163726
filtre %>%
apply(2, wtd.quantile, weight = filtre$peso)
## log_renda
## 0% 1.386294
## 25% 6.905753
## 50% 7.244228
## 75% 7.696213
## 100% 12.429216
dadosP %>%
select (-raxa, -sexo,-idade,-anosEst,-peso)
ggplot(data = filtre) +
geom_bar(aes(x = anos_cut), width = 0.5, weight = var(filtre$peso))
## Warning: Ignoring unknown parameters: weight
geom_bar(aes(x = idade_cut), width = 0.5, weight = var(filtre$peso))
## Warning: Ignoring unknown parameters: weight

geom_histogram(aes(x = log_renda))

###
Conforme visto em sala, utilizar o log de renda pode ser benéfico para efeitos de
visualizaçã o de dados.
ggplot(filtre, aes(x = anosEst, y = renda)) + geom_point()
CALCULANDO A MÉDIA PONDERADA E DIAGRAMA DE DISPERSÃO
dadosn <- filtre %>%
group_by(anosEst) %>%
summarise(renda_media = weighted.mean(renda, peso))
ggplot(dadosn, aes(x = anosEst, y = renda_media)) +

geom_point()
dadosx <- filtre %>%

group_by(anosEst) %>%
summarise(log_renda_media = weighted.mean(log_renda))
ggplot(dadosx, aes(x = anosEst, y = log_renda_media)) +

geom_point()
dadosY <- filtre %>%
group_by(idade_cut) %>%
summarise(renda = weighted.mean(renda))
ggplot(dadosY, aes(x = idade_cut, y = renda)) +

geom_point()
### média da
renda
renda_media <- mean(filtre$renda)
Função COR
cor(filtre$anosEst, filtre$renda)
## [1] 0.3105982
cor(filtre$anosEst, filtre$log_renda)
## [1] 0.4619979
CORELAÇÃO DE PEARSON
a <- filtre$anosEst
mean(a)
## [1] 10.46614
sd(a)
## [1] 4.250374
sum(a)
## [1] 2210888
vara <- a - mean(a)

b <- filtre$renda
mean(b)
## [1] 1978.912
sd(b)
## [1] 2887.562
sum(b)
## [1] 418029286
varb <- b - mean(b)
correlacao_person <- sum(vara * varb)/ sqrt(sum(vara ^2) * sum(varb^2))

cor(filtre$anosEst, filtre$renda)
## [1] 0.3105982
library(weights)
Calculando a correlação ponderada e média ponderada com peso amostral

wtd.cor(filtre$idade, filtre$anosEst, weight = filtre$peso)
## correlation std.err t.value p.value

## Y -0.2348575 0.002114908 -111.0486 0
Calculando a média da renda a partir de faixas de escolaridade com pesos

filtrex <- filtre %>%
group_by(anos_cut) %>%
summarise(renda = mean(renda, weight = peso, na.rm= TRUE))
view(filtrex)
Calculando a média de escolaridade por idade

filtren <- filtre %>%
group_by(idade_cut) %>%
summarise(renda = mean(renda, weight = peso, na.rm =TRUE))
Calculando média renda do trabalho para faixas de escolaridade e idade

filtreb <- filtre %>%
group_by(filtre$anos_cut) %>%
summarise(wtd.mean(renda, weights = peso))
Calculando a média da renda do trabalho para faixa de escolaridade/idade

mediarendaie <- filtre %>%
group_by(anos_cut, idade) %>%
summarise(wtd.mean(renda, weights = peso)) %>%
rename(renda_media = "wtd.mean(renda, weights = peso)")
## `summarise()` has grouped output by 'anos_cut'. You can override using
the
## `.groups` argument.
mediarendaie %>%
pivot_wider(names_from = anos_cut, values_from = idade)
## # A tibble: 235 × 6
## renda_media `sem instrução` `fundamento incompleto` `fundamental
completo/m…`
## <dbl> <int> <int>
<int>
## 1 984. 18 NA
NA
## 2 642. 19 NA
NA
## 3 684. 20 NA
NA
## 4 903. 21 NA
NA
## 5 796. 22 NA
NA
## 6 897. 23 NA
NA
## 7 796. 24 NA
NA
## 8 835. 25 NA
NA
## 9 978. 26 NA
NA
## 10 853. 27 NA
NA
## # … with 225 more rows, and 2 more variables:
## # `medio completo/superior incompleto` <int>, `medio
superior/completo` <int>
CARREGANDO GDATOOLS
library(GDAtools)
com numeros absolutos

wtable(mediarendaie$idade, mediarendaie$anos_cut, weights =
mediarendaie$renda_media)
## sem instrução fundamento incompleto fundamental completo/medio

completo
## 18 984.0 653.5
759.6
## 19 642.1 741.5
885.9
## 20 683.8 697.0
955.5
## 21 902.5 822.7
1009.6
## 22 796.1 790.4
1078.8
## 23 897.2 851.3
1142.2
## 24 795.6 995.9
1154.3
## 25 835.5 873.8
1165.9
## 26 977.6 920.2
1153.4
## 27 852.8 971.2
1268.8
## 28 892.9 1003.6
1188.3
## 29 1523.9 942.9
1213.5
## 30 803.7 1063.7
1263.4
## 31 1370.8 1017.2
1277.9
## 32 937.7 970.1
1320.8
## 33 1058.4 977.1
1360.5
## 34 1054.1 974.3
1275.9
## 35 922.6 1066.3
1337.3
## 36 969.2 1054.2
1409.2
## 37 851.9 1099.4
1425.3
## 38 1074.0 1116.1
1458.8
## 39 857.1 1192.5
1479.9
## 40 1239.0 1190.3
1569.2
## 41 780.2 1200.0
1502.4
## 42 853.4 1219.0
1499.5
## 43 1139.6 1250.5
1477.9
## 44 897.8 1200.7
1555.5
## 45 863.2 1384.7
1655.1
## 46 928.7 1322.8
1503.6
## 47 1060.6 1377.7
1654.7
## 48 816.0 1335.0
1552.7
## 49 963.0 1271.0
1574.9
## 50 934.2 1287.7
1710.1
## 51 826.4 1324.0
1685.0
## 52 897.0 1262.8
1714.3
## 53 849.8 1283.2
1683.2
## 54 814.6 1295.2
1706.7
## 55 814.2 1265.4
1617.1
## 56 742.3 1206.7
1681.0
## 57 929.3 1336.7
1640.4
## 58 864.9 1267.7
1735.7
## 59 933.2 1358.3
1899.6
## 60 1058.9 1258.8
1481.1
## 61 926.4 1379.1
2029.6
## 62 948.9 1247.0
1702.7
## 63 825.8 1262.5
1978.4
## 64 957.0 1223.3
1413.7
## Sum 43547.8 52804.9
67809.0
## medio completo/superior incompleto medio superior/completo
Sum
## 18 891.1 1146.8
4434.9
## 19 1004.8 993.1
4267.4
## 20 1063.9 1229.0
4629.1
## 21 1141.1 1229.7
5105.6
## 22 1193.9 1599.9
5459.1
## 23 1311.8 1829.6
6032.2
## 24 1348.7 1922.9
6217.4
## 25 1397.6 2077.8
6350.5
## 26 1405.7 2549.3
7006.3
## 27 1512.0 2660.2
7265.0
## 28 1577.7 3068.1
7730.6
## 29 1583.7 3097.8
8361.8
## 30 1597.4 3510.0
8238.2
## 31 1691.4 3664.1
9021.5
## 32 1706.9 3752.2
8687.7
## 33 1758.7 4101.1
9255.8
## 34 1855.2 4639.0
9798.6
## 35 1867.0 4488.2
9681.5
## 36 1784.1 4685.3
9902.0
## 37 1883.7 6041.0
11301.3
## 38 1848.6 4801.5
10299.1
## 39 1907.4 5105.0
10541.8
## 40 1899.8 5029.6
10927.8
## 41 1957.2 5299.2
10739.1
## 42 1995.1 5057.6
10624.6
## 43 1965.9 5239.1
11073.1
## 44 2270.0 5311.3
11235.3
## 45 2090.2 5452.6
11445.9
## 46 2069.0 5380.1
11204.2
## 47 2164.7 6040.0
12297.7
## 48 2175.9 5763.9
11643.5
## 49 2073.0 5316.0
11197.9
## 50 2208.8 5565.4
11706.3
## 51 2248.2 5725.1
11808.7
## 52 2294.7 5710.2
11879.0
## 53 2487.9 5564.2
11868.4
## 54 2519.5 5846.6
12182.5
## 55 2509.4 6688.1
12894.2
## 56 2333.0 6306.5
12269.5
## 57 2524.7 7166.4
13597.3
## 58 2553.9 7223.9
13646.0
## 59 2281.3 6680.1
13152.6
## 60 2727.7 6261.6
12788.2
## 61 2781.6 7161.3
14277.9
## 62 2394.6 5497.2
11790.4
## 63 2542.4 7077.9
13687.0
## 64 2715.7 5954.3
12264.1
## Sum 91116.8 216509.6
471788.2
POR PORCENTAGENS
mediarendaie$renda_media, stat = "prop")

completo
## 18 0.2 0.1
0.2
## 19 0.1 0.2
0.2
## 20 0.1 0.1
0.2
## 21 0.2 0.2
0.2
## 22 0.2 0.2
0.2
## 23 0.2 0.2
0.2
## 24 0.2 0.2
0.2
## 25 0.2 0.2
0.2
## 26 0.2 0.2
0.2
## 27 0.2 0.2
0.3
## 28 0.2 0.2
0.3
## 29 0.3 0.2
0.3
## 30 0.2 0.2
0.3
## 31 0.3 0.2
0.3
## 32 0.2 0.2
0.3
## 33 0.2 0.2
0.3
## 34 0.2 0.2
0.3
## 35 0.2 0.2
0.3
## 36 0.2 0.2
0.3
## 37 0.2 0.2
0.3
## 38 0.2 0.2
0.3
## 39 0.2 0.3
0.3
## 40 0.3 0.3
0.3
## 41 0.2 0.3
0.3
## 42 0.2 0.3
0.3
## 43 0.2 0.3
0.3
## 44 0.2 0.3
0.3
## 45 0.2 0.3
0.4
## 46 0.2 0.3
0.3
## 47 0.2 0.3
0.4
## 48 0.2 0.3
0.3
## 49 0.2 0.3
0.3
## 50 0.2 0.3
0.4
## 51 0.2 0.3
0.4
## 52 0.2 0.3
0.4
## 53 0.2 0.3
0.4
## 54 0.2 0.3
0.4
## 55 0.2 0.3
0.3
## 56 0.2 0.3
0.4
## 57 0.2 0.3
0.3
## 58 0.2 0.3
0.4
## 59 0.2 0.3
0.4
## 60 0.2 0.3
0.3
## 61 0.2 0.3
0.4
## 62 0.2 0.3
0.4
## 63 0.2 0.3
0.4
## 64 0.2 0.3
0.3
## Sum 9.2 11.2
14.4
## medio completo/superior incompleto medio superior/completo Sum
## 18 0.2 0.2 0.9
## 19 0.2 0.2 0.9
## 20 0.2 0.3 1.0
## 21 0.2 0.3 1.1
## 22 0.3 0.3 1.2
## 23 0.3 0.4 1.3
## 24 0.3 0.4 1.3
## 25 0.3 0.4 1.3
## 26 0.3 0.5 1.5
## 27 0.3 0.6 1.5
## 28 0.3 0.7 1.6
## 29 0.3 0.7 1.8
## 30 0.3 0.7 1.7
## 31 0.4 0.8 1.9
## 32 0.4 0.8 1.8
## 33 0.4 0.9 2.0
## 34 0.4 1.0 2.1
## 35 0.4 1.0 2.1
## 36 0.4 1.0 2.1
## 37 0.4 1.3 2.4
## 38 0.4 1.0 2.2
## 39 0.4 1.1 2.2
## 40 0.4 1.1 2.3
## 41 0.4 1.1 2.3
## 42 0.4 1.1 2.3
## 43 0.4 1.1 2.3
## 44 0.5 1.1 2.4
## 45 0.4 1.2 2.4
## 46 0.4 1.1 2.4
## 47 0.5 1.3 2.6
## 48 0.5 1.2 2.5
## 49 0.4 1.1 2.4
## 50 0.5 1.2 2.5
## 51 0.5 1.2 2.5
## 52 0.5 1.2 2.5
## 53 0.5 1.2 2.5
## 54 0.5 1.2 2.6
## 55 0.5 1.4 2.7
## 56 0.5 1.3 2.6
## 57 0.5 1.5 2.9
## 58 0.5 1.5 2.9
## 59 0.5 1.4 2.8
## 60 0.6 1.3 2.7
## 61 0.6 1.5 3.0
## 62 0.5 1.2 2.5
## 63 0.5 1.5 2.9
## 64 0.6 1.3 2.6
## Sum 19.3 45.9 100.0
PELO PERCENTUAL DAS LINHAS

mediarendaie$renda_media, stat = "rprop")

completo
## 18 22.2 14.7
17.1
## 19 15.0 17.4
20.8
## 20 14.8 15.1
20.6
## 21 17.7 16.1
19.8
## 22 14.6 14.5
19.8
## 23 14.9 14.1
18.9
## 24 12.8 16.0
18.6
## 25 13.2 13.8
18.4
## 26 14.0 13.1
16.5
## 27 11.7 13.4
17.5
## 28 11.5 13.0
15.4
## 29 18.2 11.3
14.5
## 30 9.8 12.9
15.3
## 31 15.2 11.3
14.2
## 32 10.8 11.2
15.2
## 33 11.4 10.6
14.7
## 34 10.8 9.9
13.0
## 35 9.5 11.0
13.8
## 36 9.8 10.6
14.2
## 37 7.5 9.7
12.6
## 38 10.4 10.8
14.2
## 39 8.1 11.3
14.0
## 40 11.3 10.9
14.4
## 41 7.3 11.2
14.0
## 42 8.0 11.5
14.1
## 43 10.3 11.3
13.3
## 44 8.0 10.7
13.8
## 45 7.5 12.1
14.5
## 46 8.3 11.8
13.4
## 47 8.6 11.2
13.5
## 48 7.0 11.5
13.3
## 49 8.6 11.4
14.1
## 50 8.0 11.0
14.6
## 51 7.0 11.2
14.3
## 52 7.6 10.6
14.4
## 53 7.2 10.8
14.2
## 54 6.7 10.6
14.0
## 55 6.3 9.8
12.5
## 56 6.1 9.8
13.7
## 57 6.8 9.8
12.1
## 58 6.3 9.3
12.7
## 59 7.1 10.3
14.4
## 60 8.3 9.8
11.6
## 61 6.5 9.7
14.2
## 62 8.0 10.6
14.4
## 63 6.0 9.2
14.5
## 64 7.8 10.0
11.5
## Sum 9.2 11.2
14.4
## 18 20.1 25.9 100
## 19 23.5 23.3 100
## 20 23.0 26.5 100
## 21 22.4 24.1 100
## 22 21.9 29.3 100
## 23 21.7 30.3 100
## 24 21.7 30.9 100
## 25 22.0 32.7 100
## 26 20.1 36.4 100
## 27 20.8 36.6 100
## 28 20.4 39.7 100
## 29 18.9 37.0 100
## 30 19.4 42.6 100
## 31 18.7 40.6 100
## 32 19.6 43.2 100
## 33 19.0 44.3 100
## 34 18.9 47.3 100
## 35 19.3 46.4 100
## 36 18.0 47.3 100
## 37 16.7 53.5 100
## 38 17.9 46.6 100
## 39 18.1 48.4 100
## 40 17.4 46.0 100
## 41 18.2 49.3 100
## 42 18.8 47.6 100
## 43 17.8 47.3 100
## 44 20.2 47.3 100
## 45 18.3 47.6 100
## 46 18.5 48.0 100
## 47 17.6 49.1 100
## 48 18.7 49.5 100
## 49 18.5 47.5 100
## 50 18.9 47.5 100
## 51 19.0 48.5 100
## 52 19.3 48.1 100
## 53 21.0 46.9 100
## 54 20.7 48.0 100
## 55 19.5 51.9 100
## 56 19.0 51.4 100
## 57 18.6 52.7 100
## 58 18.7 52.9 100
## 59 17.3 50.8 100
## 60 21.3 49.0 100
## 61 19.5 50.2 100
## 62 20.3 46.6 100
## 63 18.6 51.7 100
## 64 22.1 48.6 100
## Sum 19.3 45.9 100
PELO PERCENTUAL DAS COLUNAS

mediarendaie$renda_media, stat = "cprop")

completo
## 18 2.3 1.2
1.1
## 19 1.5 1.4
1.3
## 20 1.6 1.3
1.4
## 21 2.1 1.6
1.5
## 22 1.8 1.5
1.6
## 23 2.1 1.6
1.7
## 24 1.8 1.9
1.7
## 25 1.9 1.7
1.7
## 26 2.2 1.7
1.7
## 27 2.0 1.8
1.9
## 28 2.1 1.9
1.8
## 29 3.5 1.8
1.8
## 30 1.8 2.0
1.9
## 31 3.1 1.9
1.9
## 32 2.2 1.8
1.9
## 33 2.4 1.9
2.0
## 34 2.4 1.8
1.9
## 35 2.1 2.0
2.0
## 36 2.2 2.0
2.1
## 37 2.0 2.1
2.1
## 38 2.5 2.1
2.2
## 39 2.0 2.3
2.2
## 40 2.8 2.3
2.3
## 41 1.8 2.3
2.2
## 42 2.0 2.3
2.2
## 43 2.6 2.4
2.2
## 44 2.1 2.3
2.3
## 45 2.0 2.6
2.4
## 46 2.1 2.5
2.2
## 47 2.4 2.6
2.4
## 48 1.9 2.5
2.3
## 49 2.2 2.4
2.3
## 50 2.1 2.4
2.5
## 51 1.9 2.5
2.5
## 52 2.1 2.4
2.5
## 53 2.0 2.4
2.5
## 54 1.9 2.5
2.5
## 55 1.9 2.4
2.4
## 56 1.7 2.3
2.5
## 57 2.1 2.5
2.4
## 58 2.0 2.4
2.6
## 59 2.1 2.6
2.8
## 60 2.4 2.4
2.2
## 61 2.1 2.6
3.0
## 62 2.2 2.4
2.5
## 63 1.9 2.4
2.9
## 64 2.2 2.3
2.1
## Sum 100.0 100.0
100.0
## 18 1.0 0.5 0.9
## 19 1.1 0.5 0.9
## 20 1.2 0.6 1.0
## 21 1.3 0.6 1.1
## 22 1.3 0.7 1.2
## 23 1.4 0.8 1.3
## 24 1.5 0.9 1.3
## 25 1.5 1.0 1.3
## 26 1.5 1.2 1.5
## 27 1.7 1.2 1.5
## 28 1.7 1.4 1.6
## 29 1.7 1.4 1.8
## 30 1.8 1.6 1.7
## 31 1.9 1.7 1.9
## 32 1.9 1.7 1.8
## 33 1.9 1.9 2.0
## 34 2.0 2.1 2.1
## 35 2.0 2.1 2.1
## 36 2.0 2.2 2.1
## 37 2.1 2.8 2.4
## 38 2.0 2.2 2.2
## 39 2.1 2.4 2.2
## 40 2.1 2.3 2.3
## 41 2.1 2.4 2.3
## 42 2.2 2.3 2.3
## 43 2.2 2.4 2.3
## 44 2.5 2.5 2.4
## 45 2.3 2.5 2.4
## 46 2.3 2.5 2.4
## 47 2.4 2.8 2.6
## 48 2.4 2.7 2.5
## 49 2.3 2.5 2.4
## 50 2.4 2.6 2.5
## 51 2.5 2.6 2.5
## 52 2.5 2.6 2.5
## 53 2.7 2.6 2.5
## 54 2.8 2.7 2.6
## 55 2.8 3.1 2.7
## 56 2.6 2.9 2.6
## 57 2.8 3.3 2.9
## 58 2.8 3.3 2.9
## 59 2.5 3.1 2.8
## 60 3.0 2.9 2.7
## 61 3.1 3.3 3.0
## 62 2.6 2.5 2.5
## 63 2.8 3.3 2.9
## 64 3.0 2.8 2.6
## Sum 100.0 100.0 100.0
percebe-se que somar em linhas é a melhor forma de somar os percentuais, porque a

comparação é ilustrada de forma mais qualitativa

Lista

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Lista

Enviado por

Direitos autorais:

Formatos disponíveis

title: lista de lego author: “Graziela Souza Da Silva” output: word_document: default

pdf_document: default html_document: default

LISTA DE EXERCÍCIOS LEGO 1

RODANDO O PACOTE RIO

CARREGANDO PACOTE DPLYR

## The following objects are masked from 'package:stats':

## The following objects are masked from 'package:base':

CARREGANDO PACOTE MAGRITTR

## ── Attaching packages ───────────────────────────────────────

dadosP <-dadosP %>%

CONHECENDO AS VARIÁVEIS COM A FUNÇÃO SAPPLY

## sexo raxa idade anosEst renda peso

SUMMARY EM VARIÁVEIS QUALITATIVAS

## Min. 1st Qu. Median Mean 3rd Qu. Max.

O r vai calcular os dados como se os números não fossem representações de elementos

mean(dadosP$anosEst, na.rm = TRUE)

mean(dadosP$renda, na.rm = TRUE)

median(dadosP$anosEst, na.rm = TRUE)

median(dadosP$renda, na.rm = TRUE)

var(dadosP$anosEst, na.rm = TRUE)

var(dadosP$renda, na.rm = TRUE)

sd(dadosP$anosEst, na.rm = TRUE)

sd(dadosP$renda, na.rm = TRUE)

## 0% 25% 50% 75% 100%

## 0% 25% 50% 75% 100%

## 0% 25% 50% 75% 100%

quantile(x = dadosP$anosEst, probs = seq(0, 1, .1), na.rm = T)

quantile(x = dadosP$renda, probs = seq(0, 1, .1), na.rm = T)

## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90%

FREQUÊNCIAS DAS VARIÁVEIS QUALITATIVAS

CARREGANDO PACOTES TIDYVERSE E HMISC

## Carregando pacotes exigidos: lattice

## Carregando pacotes exigidos: survival

## Carregando pacotes exigidos: Formula

## The following objects are masked from 'package:dplyr':

## The following objects are masked from 'package:base':

CALCULANDO ESTATÍSTICAS AS VARIÁVEIS QUANTITATIVAS COM O PACOTE

## idade anosEst renda

## idade anosEst renda

## idade anosEst renda

FREQUENCIAS COM PESO AMOSTRAL DE VARIÁVEIS QUALITATIVAS (RAÇA E

NÚMERO MISSING DE CADA VARIÁVEL

sum((g - mean(g)) ^2/ length(g) -1)

sum((h - mean(h)) ^2 /length(h)-1)

sum((i - mean(i)) ^2 /length(i)-1)

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## Warning: Removed 34898 rows containing non-finite values (stat_bin).

Histograma variável idade com peso amostral

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Observando a classe das variáveis do filtro

## sexo raxa idade anosEst renda peso

filtre$raxa[filtre$raxa == 3] <- "brancos"

filtre$raxa[filtre$raxa == 5] <- "não brancos"

CRIANDO VARIÁVEL LOG DE RENDA

## Warning: Ignoring unknown parameters: weight

## Warning: Ignoring unknown parameters: weight

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

ggplot(dadosn, aes(x = anosEst, y = renda_media)) +

dadosx <- filtre %>%

ggplot(dadosx, aes(x = anosEst, y = log_renda_media)) +

ggplot(dadosY, aes(x = idade_cut, y = renda)) +