Secao 4 B

Tratamento: o pacote tidyr
Vítor Wilher
Cientista de Dados | Mestre em Economia

Plano de Voo
Introdução
O que é tidy data?
Gathering
Spreading
Separate
Unite
Introdução
“Tidy datasets are all alike, but every messy dataset is messy in its
own way”, Hadley Wickham parafraseando Tolstoy
Introdução
Nessa subseção, vamos aprender um pouco mais sobre tidy data,

i.e., dados arrumados. Para chegar nesse formato, porém,
precisaremos de algum esforço de tratamento de dados, de modo a
tornar nossos dados prontos para a parte de análise.
De modo a cumprir esse objetivo, conheceremos o pacote tidyr.1
1
Essa subseção está baseada em Grolemund and Wickham [2017]. Para saber
mais sobre a filosofia por trás do pacote, leia
http://www.jstatsoft.org/v59/i10/paper.
O que é tidy data?
Como convenção, chamamos de dados arrumados aqueles que

satisfazem as seguintes regras:
• Cada coluna representa uma variável;
• Cada linha representa as observações dessas variáveis;
• Cada célula representa um valor.
Essas regras estão interrelacionadas, posto que é impossível
satisfazer apenas duas das três. De modo a cumpri-las, precisamos:
• Colocar cada dataset em um tibble;
• Colocar cada variável em uma coluna.
O que é tidy data?
library(tidyverse)
table1
## # A tibble: 6 x 4
## country year cases population
## <chr> <int> <int> <int>
## 1 Afghanistan 1999 745 19987071
## 2 Afghanistan 2000 2666 20595360
## 3 Brazil 1999 37737 172006362
## 4 Brazil 2000 80488 174504898
## 5 China 1999 212258 1272915272
## 6 China 2000 213766 1280428583
Gathering
Observe, porém, o tibble abaixo.

table4a
## country `1999` `2000`
## * <chr> <int> <int>
## 1 Afghanistan 745 2666
## 2 Brazil 37737 80488
## 3 China 212258 213766
De modo a arrumar o dataset acima, nós precisaremos reunir as

últimas colunas em um novo par de variáveis. Para isso, utilizamos
a função gather do pacote tidyr.
Gathering
table4a %>%
gather(`1999`, `2000`, key='year', value='cases')
## country year cases
## <chr> <chr> <int>
## 2 Brazil 1999 37737
## 3 China 1999 212258
## 5 Brazil 2000 80488
## 6 China 2000 213766
Spreading
Em algumas vezes, podemos ter o seguinte caso:

table2
## # A tibble: 12 x 4
## country year type count
## <chr> <int> <chr> <int>
## 1 Afghanistan 1999 cases 745
## 2 Afghanistan 1999 population 19987071
## 3 Afghanistan 2000 cases 2666
## 4 Afghanistan 2000 population 20595360
## 5 Brazil 1999 cases 37737
## 6 Brazil 1999 population 172006362
## 7 Brazil 2000 cases 80488
## 8 Brazil 2000 population 174504898
## 9 China 1999 cases 212258
## 10 China 1999 population 1272915272
## 11 China 2000 cases 213766
## 12 China 2000 population 1280428583
Spreading
Podemos arrumar os dados utilizando a função spread.

spread(table2, key=type, value=count)
## <chr> <int> <int> <int>
## 1 Afghanistan 1999 745 19987071
## 2 Afghanistan 2000 2666 20595360
## 3 Brazil 1999 37737 172006362
## 4 Brazil 2000 80488 174504898
## 5 China 1999 212258 1272915272
## 6 China 2000 213766 1280428583
Separate
Observe agora o seguinte tibble:

table3
## country year rate
## * <chr> <int> <chr>
## 1 Afghanistan 1999 745/19987071
## 2 Afghanistan 2000 2666/20595360
## 3 Brazil 1999 37737/172006362
## 4 Brazil 2000 80488/174504898
## 5 China 1999 212258/1272915272
## 6 China 2000 213766/1280428583
Separate
Podemos resolver esse problema com a função separate:

table3 %>%
separate(rate, into=c('cases', 'population'))
## <chr> <int> <chr> <chr>
## 1 Afghanistan 1999 745 19987071
## 2 Afghanistan 2000 2666 20595360
## 3 Brazil 1999 37737 172006362
## 4 Brazil 2000 80488 174504898
## 5 China 1999 212258 1272915272
## 6 China 2000 213766 1280428583
Unite
A função unite por seu turno faz o inverso da função separate:

table5
## country century year rate
## * <chr> <chr> <chr> <chr>
## 1 Afghanistan 19 99 745/19987071
## 2 Afghanistan 20 00 2666/20595360
## 3 Brazil 19 99 37737/172006362
## 4 Brazil 20 00 80488/174504898
## 5 China 19 99 212258/1272915272
## 6 China 20 00 213766/1280428583
Unite
table5 %>%
unite(new, century, year)
## country new rate
## <chr> <chr> <chr>
## 1 Afghanistan 19_99 745/19987071
## 2 Afghanistan 20_00 2666/20595360
## 3 Brazil 19_99 37737/172006362
## 4 Brazil 20_00 80488/174504898
## 5 China 19_99 212258/1272915272
## 6 China 20_00 213766/1280428583
G. Grolemund and H. Wickham. R for Data Science. O’Reilly
Media, 2017.

Secao 4 B

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Secao 4 B

Enviado por

Direitos autorais:

Formatos disponíveis

Tratamento: o pacote tidyr

Cientista de Dados | Mestre em Economia

O que é tidy data?

Nessa subseção, vamos aprender um pouco mais sobre tidy data,

De modo a cumprir esse objetivo, conheceremos o pacote tidyr.1

Como convenção, chamamos de dados arrumados aqueles que

Observe, porém, o tibble abaixo.

De modo a arrumar o dataset acima, nós precisaremos reunir as

Em algumas vezes, podemos ter o seguinte caso:

Podemos arrumar os dados utilizando a função spread.

Observe agora o seguinte tibble:

Podemos resolver esse problema com a função separate:

A função unite por seu turno faz o inverso da função separate:

Você também pode gostar