Escolar Documentos
Profissional Documentos
Cultura Documentos
Data Wrangling PT
Data Wrangling PT
1013
A
1010
A 1013
A
1010
A
dplyr::arrange(mtcars, mpg)!
!
Source: local data frame [150 x 5]
dplyr::glimpse(iris)!
Sumário denso dos dados em tbl.!
Extração de Observações (Linhas) Extração de Variáveis (Colunas)
utils::View(iris)!
!
Visualiza os dados em um visor no formato de planilha
(note o V maiúsculo). w
110w
110w
110ww wwww
110
110 wp
110pw
1007
1007
110
dplyr::filter(iris, Sepal.Length > 7)!
Extrai as linhas que satisfazem o critério lógico.!
1009
45
1009
45
dplyr::select(iris, Sepal.Width, Petal.Length, Species)!
Seleciona colunas por nome ou funções auxiliares.
dplyr::distinct(iris)!
Remove linhas duplicadas.!
dplyr::sample_frac(iris, 0.5, replace = TRUE)!
!
Funções auxiliares para a seleção- ?select
select(iris, contains("."))!
Seleciona colunas cujo nome contém caracteres string.!
Seleciona frações de linhas aleatoriamente.! select(iris, ends_with("Length"))!
dplyr::sample_n(iris, 10, replace = TRUE)! Seleciona colunas cujo nomes terminam com caracteres string.!
Seleciona n linhas aleatoriamente.! select(iris, everything())!
Seleciona todas as colunas.!
dplyr::%>%! dplyr::slice(iris, 10:15)! select(iris, matches(".t."))!
Passa o objeto do lado esquerdo como o primeiro Seleciona linhas pela posição.! Seleciona colunas cujos nomes se adequam a uma expressão
regular.!
argumento (ou o argumento .) da função do lado direito. dplyr::top_n(storms, 2, date)!
select(iris, num_range("x", 1:5))!
Seleciona e ordena as top n entradas (por grupo se os Seleciona colunas nomeadas x1, x2, x3, x4, x5.!
x %>% f(y) é o mesmo que f(x, y) dados estiverem agrupados). select(iris, one_of(c("Species", "Genus")))!
y %>% f(x, ., z) é o mesmo que f(x, y, z) Seleciona colunas cujos nomes estão em um grupo de nomes.!
x1 x2 x3 dplyr::inner_join(a, b, by = "x1")!
A 1 T
summary! window! B 2 F Junção de dados. Mantém apenas as
function function linhas em ambos os conjuntos.
x1 x2 x3 dplyr::full_join(a, b, by = "x1")!
A 1 T
Summarise usa funções de resumo, as quais recebem Mutate usa funções de janelamento, as quais recebem um B 2 F Junção de dados. Mantém todos os
C 3 NA
um vetor de valores e retornam um único valor, como: vetor de valores e retornam outro vetor de valores, como: D NA T valores, todas as linhas.
dplyr::lead! dplyr::cumall! Uniões como Filtros
dplyr::first! min!
Copia com valores adiantados por 1.! all cumulativo! x1 x2 dplyr::semi_join(a, b, by = "x1")!
Primeiro valor de um vetor.! Mínimo de um vetor.! A 1
dplyr::lag! dplyr::cumany! Todas as linhas em a presentes em b.
dplyr::last! max! B 2
Copia com valores atrasados por 1.! any cumulativo!
Último valor de um vetor.! Máximo de um vetor.! x1 x2 dplyr::anti_join(a, b, by = "x1")!
dplyr::dense_rank! dplyr::cummean! C 3
dplyr::nth! mean! Todas as linhas em a ausentes em b.
Ranking sem brechas.! mean cumulativo!
N-ésimo valor de um vetor.! Média de um vetor.!
dplyr::min_rank! cumsum! y z
dplyr::n! median!
Ranking. Empates recebem o sum cumulativo! x1 x2 x1 x2
# de valores de um vetor.! Mediana de um vetor.! rank mínimo.! A 1 B 2
dplyr::n_distinct!
# de valores distintos de
var!
Variância de um vetor.!
dplyr::percent_rank!
Ranking redimensionado para [0, 1].!
cummax!
max cumulativo!
Operações em Conjuntos
B
C
2
3 + C
D
3
4 =
um vetor.! sd! cummin!
dplyr::row_number!
IQR! Desvio padrão de um min cumulativo! x1 x2
Ranking. Empates recebem o B 2
dplyr::intersect(y, z)!
IQR de um vetor. vetor. primeiro valor.! cumprod! C 3 Linhas que aparecem em ambos y e z.
dplyr::ntile! prod cumulativo!
x1 x2
pmax! dplyr::union(y, z)!
Agrupar Dados Separa vetor em n partes.!
max por elementos!
A
B
1
2
Linhas que aparecem em um ou em
dplyr::between! C 3
dplyr::group_by(iris, Species)! pmin! D 4 ambos y e z.
Os valores estão entre a e b?!
Agrupa dados em linhas com iguais valores de Species.! dplyr::cume_dist! min por elementos x1 x2 dplyr::setdiff(y, z)!
dplyr::ungroup(iris)! Distribuição cumulativa.
A 1
Linhas que aparecem em y mas não em z.
Remove a informação do grupo do data frame.!
! Juntar
x1 x2
iris %>% group_by(Species) %>% summarise(…)! iris %>% group_by(Species) %>% mutate(…)! A 1
Calcula resumos separados para cada grupo. Calcula novas variáveis por grupo.
B
C
2
3
dplyr::bind_rows(y, z)!
B 2 Junta z em y como novas linhas.
C 3
D 4
ir ir dplyr::bind_cols(y, z)!
C x1 x2 x1 x2
A 1 B 2 Junta z em y como novas colunas. !
B 2 C 3
C 3 D 4
Cuidado: coincide linhas pela posição.
RStudio® é uma marca registrada da RStudio, Inc. • CC BY RStudio • info@rstudio.com • 844-448-1212 • rstudio.com! devtools::install_github("rstudio/EDAWR") para bases de dados Aprenda mais com browseVignettes(package = c("dplyr", "tidyr")) • dplyr 0.4.0• tidyr 0.2.0 • Atualizado: 3/16!
Traduzido por Augusto Queiroz de Macedo • br.linkedin.com/in/augusto-queiroz-de-macedo-552b9822