Você está na página 1de 43

Ciência de Dados Pablo Florentino

para iniciantes (5) e Luis Borges


Outubro 2023
Visualização de dados com R
Exportando os gráficos - salvando no formato PNG em uma pasta
Criar uma pasta chamada “imagens”

O caminho até a pasta é definido no código:


# Salva o gráfico na pasta imagens
ggsave(filename = "./imagens/meu_grafico.png", plot = grafico, width = 6,
height = 4, dpi = 300)

Abrir o arquivo na pasta “imagens”.


Visualização de dados com R
Exportando os gráficos - salvando no formato PNG

Exercício - exportar os gráficos anteriores no formato PNG


alterando os parâmetros width, height e dpi.

Comparar os resultados - novos arquivos, novos nomes.


Observar as alterações de tamanho (em kb) e de
qualidade das imagens ao diminuir e aumentar o
parâmetro dpi.
Visualização de dados com R
Exportando os gráficos - salvando no formato PDF
Criar uma pasta chamada “pdfs”

Para salvar em PDF a estrutura do código é semelhante, com


uma pequena diferença
# Salva o gráfico no formato pdf na pasta pdfs
ggsave(filename = "./pdfs/meu_grafico.pdf", plot = grafico, width = 6, height =
4, dpi = 300, device = "pdf")

Abrir o arquivo na pasta “pdfs”


Visualização de dados com R
Exportando os gráficos - salvando no formato PDF

Exercício - exportar os gráficos anteriores no formato PDF


alterando os parâmetros width, height e dpi.

Comparar os resultados - novos arquivos, novos nomes.


Observar as alterações de tamanho (em kb) e de
qualidade das imagens ao diminuir e aumentar o
parâmetro dpi.
Manipulando Dados com o dplyr
Pacote DPLYR
Desenvolvido por Hadley Wickham - o mesmo desenvolvedor do
ggplot2 - Um dos pacotes mais populares e poderosos da
linguagem R para manipulação e transformação de dados.
É parte do conjunto de pacotes "tidyverse":
inúmeros recursos para análise e
visualização de dados.

Recursos “summarize” e “rename “ ✓


Consultando Dados com o dplyr

O comando pull
- Extrai uma única coluna de uma tabela na forma de um
vetor;
- A coluna pode ser identificada pelo nome ou posição.
coluna_extraida <- dados %>%
pull(sexo)
ou
coluna_extraida <- pull(dados, sexo)
Consultando Dados com o dplyr

Os números em
colchetes se referem à
posição que o próximo
valor se encontra no
vetor. Ex.: o número 7
indica que o item à
direita deste
corresponde ao sétimo
valor (sétima posição)
no vetor.
Consultando Dados com o dplyr
O comando pull
Formatos:
# Extrai a primeira coluna de um dataframe
coluna_extraida <- dados %>%
pull(1)
ou
coluna_extraida <- pull(dados, 1)
Consultando Dados com o dplyr
Consultando Dados com o dplyr
O comando pull
Formatos:
# Extrai a primeira coluna da direita para a esquerda de um
dataframe
coluna_extraida3 <- dados %>%
pull(-1)
ou
coluna_extraida3 <- pull(data_frame, -1)
Consultando Dados com o dplyr
Consultando Dados com o dplyr
O comando select
- Seleciona várias colunas de uma tabela sob a forma de um
dataframe.
# Seleciona as colunas 'Nome' e 'Idade'
dfs <- select(dados, idade, peso, altura)

- A ordem das colunas não precisa corresponder


à ordem encontrada na base de dados.

- Ordem na base de dados:


idade, sexo, nota, altura, peso, disciplinas, cor.
Consultando Dados com o dplyr
Consultando Dados com o dplyr
O comando select
Selecionando um intervalo entre as colunas - operador “:”

# Seleciona as colunas nota até peso


df_nota_peso <- select(dados, nota:peso)
Consultando Dados com o dplyr
Consultando Dados com o dplyr
O comando select
Excluindo colunas de uma seleção

# Exclui as colunas peso e idade da seleção


df_exc_pi <- select(dados, -peso, -idade)
Consultando Dados com o dplyr
Consultando Dados com o dplyr
O comando select
Selecionando colunas que iniciem com uma determinada letra

# Selecionando todas as colunas que comecem com a letra "p"


df_swp <- select(dados, starts_with("p"))
Consultando Dados com o dplyr
Consultando Dados com o dplyr
O comando select
Selecionando colunas que terminam com uma determinada letra

# Selecionando todas as colunas que terminam com a letra "o"


df_ewo <- select(dados, ends_with("o"))
Consultando Dados com o dplyr
Consultando Dados com o dplyr
O comando select
Selecionando e renomeando colunas

# Seleciona a coluna "sexo" renomeada para para "Genero" e “idade”


para “Idade”
df_genero_idade <- select(dados, Genero=sexo, Idade=idade)
Consultando Dados com o dplyr
Consultando Dados com o dplyr
O comando filter
- Utilizado para filtragem de dados em linhas de um dataframe
a partir de condições pré-determinadas.
- Exemplo:
# Filtrar as linhas em que a idade seja maior que 20 e o gênero seja
Feminino
dados_filtrados <- dados %>%
filter(idade > 20, sexo == "feminino")
Consultando Dados com o dplyr
Consultando Dados com o dplyr
Principais diferenças entre filter e subset
Pacotes Diferentes:
O comando filter faz parte do pacote dplyr, necessitando ser
instalado;
O comando subset faz parte do pacote base do R e está
disponível sem a necessidade de instalação.
Consultando Dados com o dplyr
Principais diferenças entre filter e subset
Sintaxe:
A sintaxe do filter permite encadear operações com o operador
%>%, tornando o código mais legível e mais fácil de entender no
caso de várias operações em sequência.
Consultando Dados com o dplyr

Principais diferenças entre filter e subset


Dependência de Pacotes:
O dplyr (e, portanto, o filter) precisa ser carregado explicitamente
(library(dplyr)) ou prefixando as funções com dplyr::, visando
evitar conflitos com outras funções de mesmo nome.
Já o subset é parte do pacote base de R, então não é preciso se
preocupar com a dependência de pacotes adicionais.
Consultando Dados com o dplyr

Principais diferenças entre filter e subset


Tratamento de Valores Ausentes:
O filter do pacote dplyr lida melhor com valores ausentes (NA).
Podemos especificar condições de seleção que ignoram ou
incluem valores NA com facilidade.
O subset pode não ser tão eficiente no tratamento de valores
ausentes, podendo ser necessário adicionar condições
extras para lidar com isso.
Consultando Dados com o dplyr

Tratamento de Valores Ausentes


# Criar um exemplo de conjunto de dados com valores ausentes NA (not available)

nome_idade<- data.frame(nome= c("João", "José", "Jorge", "Joaquim", "Josué"),

idade = c(35, 28, NA, 42, NA))

# Filtrar as linhas com idade maior que 30, incluindo valores NA

dados_filtrados2 <- nome_idade %>% filter(is.na(idade) | idade > 30)

dados_filtrados2
Consultando Dados com o dplyr

Todos os valores da coluna idade maiores que 30 anos (condição estabelecida)


estão presentes, além dos valores NA (ausentes). O que aconteceria se não
usássemos a condição is.na(idade)?
Consultando Dados com o dplyr

Tratamento de Valores Ausentes


dados_filtrados3 <- nome_idade %>% filter(idade > 30)

dados_filtrados3
Consultando Dados com o dplyr

O filter obedeceu a condição estabelecida, idade acima de 30 anos. Os valores NA,


por não satisfazerem essa condição, não estão incluídos.
Consultando Dados com o dplyr

Percentual de valores ausentes


# Calcular o percentual total de dados NA em relação a todas as colunas

percentual_na_total <- mean(is.na(nome_idade)) * 100

percentual_na_total
Consultando Dados com o dplyr

Percentual de valores ausentes para a coluna idade


# Calcular o percentual de dados NA na coluna "idade"

percentual_na_idade <- mean(is.na(nome_idade$idade)) * 100

percentual_na_idade
Consultando Dados com o dplyr

O operador de negação “!” é utilizado quando não queremos a


inclusão de um determinado valor ou condição. Exemplo:
# Exemplo de um dataframe com dados categóricos

dados_pessoais <- data.frame(

nome = c("João", "Maria", "Pedro", "Ana"),

genero = c("Masculino", "Feminino", "Masculino", "Feminino"),

estado_civil = c("Solteiro", "Casada", "Casado", "Solteira"),

nacionalidade = c("Brasileira", "Estrangeira", "Brasileira", "Brasileira")

)
Consultando Dados com o dplyr

# Excluindo as nacionalidades estrangeiras


dados_pessoais1 <- dados_pessoais %>% filter(nacionalidade != "Estrangeira")
dados_pessoais1
Consultando Dados com o dplyr

Operador IN: permite definir um conjunto de valores condicionantes a


uma seleção (filtro):
#Filtrar as ocorrências de determinados valores no campo idade
dados_filtrados <- dados %>%
filter((idade %in% c(18,23,24,27)))
Consultando Dados com o dplyr
> dados_filtrados
# A tibble: 44 × 7
idade sexo nota altura peso disciplinas cor
<dbl> <chr> <dbl> <dbl> <dbl> <dbl> <chr>
1 23 feminino 7.8 160 55 4 rosa
2 23 masculino 4.5 166 69.5 4 azul
3 23 masculino 5.4 172 70.7 4 azul
4 24 masculino 6.1 170 73.2 3 azul
5 24 masculino 4.5 164 69.8 5 vermelho
6 24 masculino 4.2 166 70 3 vermelho
7 23 masculino 8.7 171 75.8 4 rosa
8 27 feminino 7.3 168 66 2 azul
9 24 masculino 6.1 165 69.6 4 rosa
10 24 feminino 7.5 160 63.6 4 rosa
# ℹ 34 more rows
Consultando Dados com o dplyr

O operador %in% funciona verificando se um valor está contido em um vetor


ou em um conjunto de valores, retornando um vetor de valores lógicos
(TRUE/FALSE). Exemplo:
# Verificar se o valor 4 está em um vetor
vetor <- c(1, 2, 3, 4, 5)
esta_presente <- 4 %in% vetor
# A variável 'esta_presente' será TRUE, pois 4 está no vetor.
Consultando Dados com o dplyr

Verificando dois ou mais valores


# Verificar se os valores 3 e 4 estão em presentes um vetor
vetor <- c(1, 2, 3, 4, 5)
valores_a_verificar <- c(3, 4)
resultado <- valores_a_verificar %in% vetor
resultado

> resultado
[1] TRUE TRUE
Contato

pablovf@ifba.edu.br

luisborges.contato@gmail.com

Photo by Dave Hoefler on Unsplash

Você também pode gostar