Escolar Documentos
Profissional Documentos
Cultura Documentos
2º semestre - 2022
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Agenda
Na aula de hoje...
Técnicas de visualização
Manipulação de strings com stringr Tipos de gráficos
Manipulação de datas com lubridate Análise univariada
Manipulação de dataframes com dplyr Análise bivariada
Prática no RStudio Prática no RStudio
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Tipos de variáveis
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Tipos de variáveis
Overview
• Em estatística, variáveis são classificadas em 2 tipos básicos: quantitativas e qualitativas. Estas por suas
vez possuem dois subgrupos distintos.
https://www.statsandr.com/blog/variable-types-and-examples/
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Tipos de variáveis
Conceitos
Variável qualitativa onde não há ordenação possível ou implícita nos níveis. Pode possuir
apenas dois níveis ou múltiplos níveis.
Qualitativa
Nominal Exemplo: sexo, cor dos olhos, sim/não (para vars indicadoras), UF, estado civil, profissão,
marca do carro
Discreta número de possibilidade. Exemplo: número de filhos por família, população de um país,
número de cigarros fumados, bactérias/litro
Variável quantitativa na qual os valores não são de contagem e possui um infinito número
Contínua de possibilidades. São resultado de medições. Exemplo: idade, peso, altura, renda,
faturamento, salário, nota de avaliação, preço, gastos com cartão
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Tipos de variáveis
Conceitos
Variável qualitativa onde não há ordenação possível ou implícita nos níveis. Pode possuir
apenas dois níveis ou múltiplos níveis.
Qualitativa
Nominal Exemplo: sexo, cor dos olhos, sim/não (para vars indicadoras), UF, estado civil, profissão,
marca do carro
Discreta número de possibilidade. Exemplo: número de filhos por família, população de um país,
número de cigarros fumados, bactérias/litro
Variável quantitativa na qual os valores não são de contagem e possui um infinito número
Contínua de possibilidades. São resultado de medições. Exemplo: idade, peso, altura, renda,
faturamento, salário, nota de avaliação, preço, gastos com cartão
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Tipos de variáveis
Conceitos
Variável qualitativa onde não há ordenação possível ou implícita nos níveis. Pode possuir
apenas dois níveis ou múltiplos níveis.
Qualitativa
Nominal Exemplo: sexo, cor dos olhos, sim/não (para vars indicadoras), UF, estado civil, profissão,
marca do carro
Variável quantitativa na qual os valores não são de contagem e possui um infinito número
Contínua de possibilidades. São resultado de medições. Exemplo: idade, peso, altura, renda,
faturamento, salário, nota de avaliação, preço, gastos com cartão
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Tipos de variáveis
Conceitos
Variável qualitativa onde não há ordenação possível ou implícita nos níveis. Pode possuir
apenas dois níveis ou múltiplos níveis.
Qualitativa
Nominal Exemplo: sexo, cor dos olhos, sim/não (para vars indicadoras), UF, estado civil, profissão,
marca do carro
Discreta número de possibilidade. Exemplo: número de filhos por família, população de um país,
número de cigarros fumados, bactérias/litro
Variável quantitativa na qual os valores não são de contagem e possui um infinito número
Contínua de possibilidades. São resultado de medições. Exemplo: idade, peso, altura, renda,
faturamento, salário, nota de avaliação, preço, gastos com cartão
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Overview
• A estatística descritiva preocupa-se em sumarizar e descrever qualquer conjunto de dados, sendo o
primeiro passo para gerar informação relevante.
• É a ferramenta que tenta responder: “o que aconteceu?”, “como aconteceu?” , “em que região aconteceu?”
• Com ela podemos conhecer a distribuição das variáveis, entender o comportamento e o relacionamento
entre elas.
• Existem diversas estatísticas que denotam localidade (ou centralidade) e dispersão dos dados.
Nosso foco!
Metadados
maker: fabricante do veículo
car_age: idade do veículo (anos)
mileage: distância percorrida (milhas)
engine_power: potência do motor (kW)
transmission: tipo de transmissão
door_count: número de portas
seat_count: número de assentos
price_eur: preço do veículos (Euros)
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Arquivo de trabalho
• Para essa etapa será utilizada uma base de dados de preços de carros usados na Europa em 2015.
• 111.726 observações e 8 variáveis.
• Adaptado de: https://www.kaggle.com/mirosval/personal-cars-classifieds
Metadados
maker: fabricante do veículo
car_age: idade do veículo (anos)
mileage: distância percorrida (milhas)
engine_power: potência do motor (kW)
transmission: tipo de transmissão
door_count: número de portas
seat_count: número de assentos
price_eur: preço do veículos (Euros)
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Medidas de localização
• Permitem ver “onde” os dados estão localizados e entre quais valores, dando um entendimento de qual é a
tendência central e a “posição” como um todo.
• As medidas mais comuns são: mínimo, máximo, média, mediana, quartis e percentis.
Mínimo
Máximo
Exemplo
Aqui iremos calcular as métricas da variável
price_eur
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Medidas de localização
• Permitem ver “onde” os dados estão localizados e entre quais valores, dando um entendimento de qual é a
tendência central e a “posição” como um todo.
• As medidas mais comuns são: mínimo, máximo, média, mediana, quartis e percentis.
Média 8 9 10 11 12 13 14
σ 𝑥𝑖
É dada pela soma de todos os valores dividida pelo 𝑥ҧ =
número de observações: 𝑛
Exemplo
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Medidas de localização
• Permitem ver “onde” os dados estão localizados e entre quais valores, dando um entendimento de qual é a
tendência central e a “posição” como um todo.
• As medidas mais comuns são: mínimo, máximo, média, mediana, quartis e percentis.
Mediana 8 9 10 11 12 13 14
n ímpar n par
1
𝑚𝑒𝑑 = 𝑥𝑛+1 𝑚𝑒𝑑 = 𝑥𝑛 + 𝑥𝑛+1
2 2 2 2
Para calcular basta ordenar os dados do menor para o maior e tomar o ponto do meio como a mediana
Exemplo
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Medidas de localização
• Permitem ver “onde” os dados estão localizados e entre quais valores, dando um entendimento de qual é a
tendência central e a “posição” como um todo.
• As medidas mais comuns são: mínimo, máximo, média, mediana, quartis e percentis.
https://online.stat.psu.edu/stat100/book/export/html/639
Exemplo
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Centralidade vs dispersão
• A média não revela alguns fatos interessantes sobre a variabilidade dos dados.
• Observe o valor da temperatura máxima em duas localidades diferentes do globo (qual variou mais?).
Temp. máx. (ºC) - Temp. máx. (ºC) -
Dia (Mês de Abril)
Manaus NYC
Amplitude é o tamanho do intervalo que contém todo o dado e provê uma ideia de
dispersão. É útil para pequeno conjunto de dados.
O cálculo é feito pela diferença entre o maior e menor valor.
Exemplo
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Medidas de dispersão
• Medidas de dispersão permitem que se tenha uma sensibilidade da variabilidade dos dados (no sentido de
se a distribuição é mais “alongada” ou “achatada”).
• As medidas mais comuns são: amplitude, desvio padrão, variância, e intervalo interquartil.
Desvio
Padrão
1
𝑠= (𝑥𝑖 − 𝑥)ҧ 2
𝑛−1
Exemplo
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Propriedades do desvio padrão [extra]
• Apesar de ser difícil de se interpretar, o desvio padrão tem propriedades que são muito utilizadas na
estatística.
• Se a distribuição da variável for simétrica, podemos usar a regra empírica, que permite saber qual é a
probabilidade de um valor estar muito distante da média (em desvios padrão).
Exemplo
Se a média das vendas é 15 e o desvio
padrão é 3, sabemos que, com
aproximadamente 95% de probabilidade
as vendas do mês que vem estarão entre 9
e 21 unidades.
https://br.pinterest.com/pin/378443174930440633/
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Medidas de dispersão
• Medidas de dispersão permitem que se tenha uma sensibilidade da variabilidade dos dados (no sentido de
se a distribuição é mais “alongada” ou “achatada”).
• As medidas mais comuns são: amplitude, desvio padrão, variância, e intervalo interquartil.
Variância
1
𝑠2 = (𝑥𝑖 − 𝑥)ҧ 2
𝑛−1
Exemplo
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Medidas de dispersão
• Medidas de dispersão permitem que se tenha uma sensibilidade da variabilidade dos dados (no sentido de
se a distribuição é mais “alongada” ou “achatada”).
• As medidas mais comuns são: amplitude, desvio padrão, variância, e intervalo interquartil.
Trata-se de mais uma medida de dispersão e é relacionada com o 1º. e 3º. quartil.
Ele pode ser interpretado como uma amplitude (i.e. a diferença entre dois valores
extremos), porém do meio do distribuição dos dados.
Intervalo
Interquartil
Exemplo
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Medidas de associação
• Medidas de associação mostram como cada variável está relacionada a outra variável.
• Ajuda a responder a pergunta: o conhecimento de uma variável X ajuda a entender uma variávelY?
• Existem diversas medidas, por isso iremos focar em: correlação de Pearson e V de Crámer.
https://metodologia.ceie-br.org/wp-content/uploads/2019/02/livro2_cap9.pdf
Exemplo
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Medidas de associação
• Medidas de associação mostram como cada variável está relacionada a outra variável.
• Ajuda a responder a pergunta: o conhecimento de uma variável X ajuda a entender uma variávelY?
• Existem diversas medidas, por isso iremos focar em: correlação de Pearson e V de Crámer.
Exemplo
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Medidas de associação
• Medidas de associação mostram como cada variável está relacionada a outra variável.
• Ajuda a responder a pergunta: o conhecimento de uma variável X ajuda a entender uma variávelY?
• Existem diversas medidas, por isso iremos focar em: correlação de Pearson e V de Crámer.
https://towardsdatascience.com/eveything-you-need-to-know-about-interpreting-correlations-2c485841c0b8
Exemplo
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Medidas de associação
• Medidas de associação mostram como cada variável está relacionada a outra variável.
• Ajuda a responder a pergunta: o conhecimento de uma variável X ajuda a entender uma variávelY?
• Existem diversas medidas, por isso iremos focar em: correlação de Pearson e V de Crámer.
V de
Crámer
𝜒 2 Τ𝑛
𝑉 =
min(𝑘 − 1, 𝑟 − 1)
https://metodologia.ceie-br.org/wp-content/uploads/2019/02/livro2_cap9.pdf
Exemplo
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
Estatística descritiva
Medidas de associação
• Medidas de associação mostram como cada variável está relacionada a outra variável.
• Ajuda a responder a pergunta: o conhecimento de uma variável X ajuda a entender uma variávelY?
• Existem diversas medidas, por isso iremos focar em: correlação de Pearson e V de Crámer.
V de
Crámer
Exemplo
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
...foco de hoje
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto
MBA em Business Analytics e Big Data | Análise Exploratória de Dados Prof. Dr. João Rafael Dias Pinto