Ciência de Dados para Iniciantes (5) : Pablo Florentino e Luis Borges

Ciência de Dados Pablo Florentino
para iniciantes (5) e Luis Borges

Outubro 2023
Visualização de dados com R
Exportando os gráficos - salvando no formato PNG em uma pasta
Criar uma pasta chamada “imagens”
O caminho até a pasta é definido no código:

# Salva o gráfico na pasta imagens
ggsave(filename = "./imagens/meu_grafico.png", plot = grafico, width = 6,
height = 4, dpi = 300)
Abrir o arquivo na pasta “imagens”.

Exportando os gráficos - salvando no formato PNG
Exercício - exportar os gráficos anteriores no formato PNG

alterando os parâmetros width, height e dpi.
Comparar os resultados - novos arquivos, novos nomes.

Observar as alterações de tamanho (em kb) e de
qualidade das imagens ao diminuir e aumentar o
parâmetro dpi.
Exportando os gráficos - salvando no formato PDF
Criar uma pasta chamada “pdfs”
Para salvar em PDF a estrutura do código é semelhante, com

uma pequena diferença
# Salva o gráfico no formato pdf na pasta pdfs
ggsave(filename = "./pdfs/meu_grafico.pdf", plot = grafico, width = 6, height =
4, dpi = 300, device = "pdf")
Abrir o arquivo na pasta “pdfs”

Exportando os gráficos - salvando no formato PDF
Exercício - exportar os gráficos anteriores no formato PDF

alterando os parâmetros width, height e dpi.
Comparar os resultados - novos arquivos, novos nomes.

Observar as alterações de tamanho (em kb) e de
qualidade das imagens ao diminuir e aumentar o
parâmetro dpi.
Manipulando Dados com o dplyr
Pacote DPLYR
Desenvolvido por Hadley Wickham - o mesmo desenvolvedor do
ggplot2 - Um dos pacotes mais populares e poderosos da
linguagem R para manipulação e transformação de dados.
É parte do conjunto de pacotes "tidyverse":
inúmeros recursos para análise e
visualização de dados.
Recursos “summarize” e “rename “ ✓

Consultando Dados com o dplyr
O comando pull
- Extrai uma única coluna de uma tabela na forma de um
vetor;
- A coluna pode ser identificada pelo nome ou posição.
coluna_extraida <- dados %>%
pull(sexo)
ou
coluna_extraida <- pull(dados, sexo)
Os números em
colchetes se referem à
posição que o próximo
valor se encontra no
vetor. Ex.: o número 7
indica que o item à
direita deste
corresponde ao sétimo
valor (sétima posição)
no vetor.
O comando pull
Formatos:
# Extrai a primeira coluna de um dataframe
coluna_extraida <- dados %>%
pull(1)
ou
coluna_extraida <- pull(dados, 1)
O comando pull
Formatos:
# Extrai a primeira coluna da direita para a esquerda de um
dataframe
coluna_extraida3 <- dados %>%
pull(-1)
ou
coluna_extraida3 <- pull(data_frame, -1)
O comando select
- Seleciona várias colunas de uma tabela sob a forma de um
dataframe.
# Seleciona as colunas 'Nome' e 'Idade'
dfs <- select(dados, idade, peso, altura)
- A ordem das colunas não precisa corresponder

à ordem encontrada na base de dados.
- Ordem na base de dados:

idade, sexo, nota, altura, peso, disciplinas, cor.
O comando select
Selecionando um intervalo entre as colunas - operador “:”
# Seleciona as colunas nota até peso

df_nota_peso <- select(dados, nota:peso)
O comando select
Excluindo colunas de uma seleção
# Exclui as colunas peso e idade da seleção

df_exc_pi <- select(dados, -peso, -idade)
O comando select
Selecionando colunas que iniciem com uma determinada letra
# Selecionando todas as colunas que comecem com a letra "p"

df_swp <- select(dados, starts_with("p"))
O comando select
Selecionando colunas que terminam com uma determinada letra
# Selecionando todas as colunas que terminam com a letra "o"

df_ewo <- select(dados, ends_with("o"))
O comando select
Selecionando e renomeando colunas
# Seleciona a coluna "sexo" renomeada para para "Genero" e “idade”

para “Idade”
df_genero_idade <- select(dados, Genero=sexo, Idade=idade)
O comando filter
- Utilizado para filtragem de dados em linhas de um dataframe
a partir de condições pré-determinadas.
- Exemplo:
# Filtrar as linhas em que a idade seja maior que 20 e o gênero seja
Feminino
dados_filtrados <- dados %>%
filter(idade > 20, sexo == "feminino")
Principais diferenças entre filter e subset
Pacotes Diferentes:
O comando filter faz parte do pacote dplyr, necessitando ser
instalado;
O comando subset faz parte do pacote base do R e está
disponível sem a necessidade de instalação.
Sintaxe:
A sintaxe do filter permite encadear operações com o operador
%>%, tornando o código mais legível e mais fácil de entender no
caso de várias operações em sequência.

Dependência de Pacotes:
O dplyr (e, portanto, o filter) precisa ser carregado explicitamente
(library(dplyr)) ou prefixando as funções com dplyr::, visando
evitar conflitos com outras funções de mesmo nome.
Já o subset é parte do pacote base de R, então não é preciso se
preocupar com a dependência de pacotes adicionais.

Tratamento de Valores Ausentes:
O filter do pacote dplyr lida melhor com valores ausentes (NA).
Podemos especificar condições de seleção que ignoram ou
incluem valores NA com facilidade.
O subset pode não ser tão eficiente no tratamento de valores
ausentes, podendo ser necessário adicionar condições
extras para lidar com isso.
Tratamento de Valores Ausentes

# Criar um exemplo de conjunto de dados com valores ausentes NA (not available)
nome_idade<- data.frame(nome= c("João", "José", "Jorge", "Joaquim", "Josué"),
idade = c(35, 28, NA, 42, NA))
# Filtrar as linhas com idade maior que 30, incluindo valores NA
dados_filtrados2 <- nome_idade %>% filter(is.na(idade) | idade > 30)
dados_filtrados2
Todos os valores da coluna idade maiores que 30 anos (condição estabelecida)

estão presentes, além dos valores NA (ausentes). O que aconteceria se não
usássemos a condição is.na(idade)?
Tratamento de Valores Ausentes

dados_filtrados3 <- nome_idade %>% filter(idade > 30)
dados_filtrados3
O filter obedeceu a condição estabelecida, idade acima de 30 anos. Os valores NA,

por não satisfazerem essa condição, não estão incluídos.
Percentual de valores ausentes

# Calcular o percentual total de dados NA em relação a todas as colunas
percentual_na_total <- mean(is.na(nome_idade)) * 100
percentual_na_total
Percentual de valores ausentes para a coluna idade

# Calcular o percentual de dados NA na coluna "idade"
percentual_na_idade <- mean(is.na(nome_idade$idade)) * 100
percentual_na_idade
O operador de negação “!” é utilizado quando não queremos a

inclusão de um determinado valor ou condição. Exemplo:
# Exemplo de um dataframe com dados categóricos
dados_pessoais <- data.frame(
nome = c("João", "Maria", "Pedro", "Ana"),
genero = c("Masculino", "Feminino", "Masculino", "Feminino"),
estado_civil = c("Solteiro", "Casada", "Casado", "Solteira"),
nacionalidade = c("Brasileira", "Estrangeira", "Brasileira", "Brasileira")
)
# Excluindo as nacionalidades estrangeiras

dados_pessoais1 <- dados_pessoais %>% filter(nacionalidade != "Estrangeira")
dados_pessoais1
Operador IN: permite definir um conjunto de valores condicionantes a

uma seleção (filtro):
#Filtrar as ocorrências de determinados valores no campo idade
dados_filtrados <- dados %>%
filter((idade %in% c(18,23,24,27)))
> dados_filtrados
# A tibble: 44 × 7
idade sexo nota altura peso disciplinas cor
<dbl> <chr> <dbl> <dbl> <dbl> <dbl> <chr>
1 23 feminino 7.8 160 55 4 rosa
2 23 masculino 4.5 166 69.5 4 azul
3 23 masculino 5.4 172 70.7 4 azul
4 24 masculino 6.1 170 73.2 3 azul
5 24 masculino 4.5 164 69.8 5 vermelho
6 24 masculino 4.2 166 70 3 vermelho
7 23 masculino 8.7 171 75.8 4 rosa
8 27 feminino 7.3 168 66 2 azul
9 24 masculino 6.1 165 69.6 4 rosa
10 24 feminino 7.5 160 63.6 4 rosa
# ℹ 34 more rows
O operador %in% funciona verificando se um valor está contido em um vetor

ou em um conjunto de valores, retornando um vetor de valores lógicos
(TRUE/FALSE). Exemplo:
# Verificar se o valor 4 está em um vetor
vetor <- c(1, 2, 3, 4, 5)
esta_presente <- 4 %in% vetor
# A variável 'esta_presente' será TRUE, pois 4 está no vetor.
Verificando dois ou mais valores

# Verificar se os valores 3 e 4 estão em presentes um vetor
vetor <- c(1, 2, 3, 4, 5)
valores_a_verificar <- c(3, 4)
resultado <- valores_a_verificar %in% vetor
resultado
> resultado
[1] TRUE TRUE
Contato
pablovf@ifba.edu.br
luisborges.contato@gmail.com
Photo by Dave Hoefler on Unsplash

Ciência de Dados para Iniciantes (5) : Pablo Florentino e Luis Borges

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Ciência de Dados para Iniciantes (5) : Pablo Florentino e Luis Borges

Enviado por

Direitos autorais:

Formatos disponíveis

Ciência de Dados Pablo Florentino

para iniciantes (5) e Luis Borges

O caminho até a pasta é deﬁnido no código:

Abrir o arquivo na pasta “imagens”.

Exercício - exportar os gráﬁcos anteriores no formato PNG

Comparar os resultados - novos arquivos, novos nomes.

Para salvar em PDF a estrutura do código é semelhante, com

Abrir o arquivo na pasta “pdfs”

Exercício - exportar os gráﬁcos anteriores no formato PDF

Comparar os resultados - novos arquivos, novos nomes.

Recursos “summarize” e “rename “ ✓

- A ordem das colunas não precisa corresponder

- Ordem na base de dados:

# Seleciona as colunas nota até peso

# Exclui as colunas peso e idade da seleção

# Selecionando todas as colunas que comecem com a letra "p"

# Selecionando todas as colunas que terminam com a letra "o"

# Seleciona a coluna "sexo" renomeada para para "Genero" e “idade”

Principais diferenças entre ﬁlter e subset

Principais diferenças entre ﬁlter e subset

Tratamento de Valores Ausentes

nome_idade<- data.frame(nome= c("João", "José", "Jorge", "Joaquim", "Josué"),

idade = c(35, 28, NA, 42, NA))

# Filtrar as linhas com idade maior que 30, incluindo valores NA

dados_filtrados2 <- nome_idade %>% filter(is.na(idade) | idade > 30)

Todos os valores da coluna idade maiores que 30 anos (condição estabelecida)

Tratamento de Valores Ausentes

O filter obedeceu a condição estabelecida, idade acima de 30 anos. Os valores NA,

Percentual de valores ausentes

percentual_na_total <- mean(is.na(nome_idade)) * 100

Percentual de valores ausentes para a coluna idade

percentual_na_idade <- mean(is.na(nome_idade$idade)) * 100

O operador de negação “!” é utilizado quando não queremos a

dados_pessoais <- data.frame(

nome = c("João", "Maria", "Pedro", "Ana"),

genero = c("Masculino", "Feminino", "Masculino", "Feminino"),

estado_civil = c("Solteiro", "Casada", "Casado", "Solteira"),

nacionalidade = c("Brasileira", "Estrangeira", "Brasileira", "Brasileira")

# Excluindo as nacionalidades estrangeiras

Operador IN: permite deﬁnir um conjunto de valores condicionantes a

O operador %in% funciona veriﬁcando se um valor está contido em um vetor

Veriﬁcando dois ou mais valores

Photo by Dave Hoeﬂer on Unsplash

Você também pode gostar