Você está na página 1de 87

Fundamentos de

estatística para ciência


de dados

JUSTIÇA 4.0: INOVAÇÃO E EFETIVIDADE NA REALIZAÇÃO DA JUSTIÇA PARA TODOS


PROJETO DE EXECUÇÃO NACIONAL BRA/20/015
Módulo 4

▸ Medidas de posição relativa.


▸ Medidas de dispersão.
▸ Tabelas de dupla entrada.
▸ Representações gráficas
(diagrama de dispersão, mosaic
plot, etc).
▸ Medindo associação
(covariância e correlação).
Medidas de posição
relativa

JUSTIÇA 4.0: INOVAÇÃO E EFETIVIDADE NA REALIZAÇÃO DA JUSTIÇA PARA TODOS


PROJETO DE EXECUÇÃO NACIONAL BRA/20/015
Medidas de posição relativa
(separatrizes)

▸ Descrevem posição relativa, em termos de frequência, de um particular


valor na amostra.
▸ As separatrizes são chamadas de medidas de posição relativa.
▸ São de importância prática 3 tipos de separatrizes.
▸ Os quartis: dividem a amostra em 4 partes com frequência ¼.
▸ Os decis: dividem a amostra em 10 partes com frequência 1/10.
▸ Os percentis: dividem a amostra em 100 partes com frequência 1/100.
Lembrando da mediana

Figura 23. Gráfico de frequência relativa acumulada.


Quartis

▸ Um quartil de um conjunto de n valores


(distintos), ordenados em ordem
crescente, é um número tal que
(100q/4)% das observações se localizam
abaixo dele.
▸ Dessa forma, tem-se o primeiro, segundo
e terceiro quartis.
▸ O segundo quartil é a mediana.
▸ O gráfico de caixas e bigodes é uma
Figura 1. Gráfico de pontos empilhados (topo),
representação gráfica baseada nos frequência relativas (meio) e caixas e bigodes
quartis. (base). Linhas verticais indicam os quartis e valores
extremos.
Cálculo dos quartis

▸ Pode-se calcular os quartis 1 e 3 repetindo-se o


procedimento de cálculo da mediana, mas aplicado
a cada uma das metades da amostra.
▸ Cálculo do 1 quartil é a mediana da primeira porção
4, 7, 8, 8, 9, 10, 10, 10, 10, 11. Logo
▸ Cálculo do 3 quartil é a mediana da segunda
porção 11, 12, 12, 12, 13, 14, 15 ,15, 18, 24. Logo
▸ Essa é a forma mais simples, mas existem diversas
outras.
▸ A diferença se torna irrelevante para amostras
Figura 2. Gráfico de caixas com anotações dos
grandes. valores das separações e diagrama de pontos.
Ilustração do cálculo dos quartis

Figura 3. Cálculo dos quartis para as 4 situações possíveis conforme tamanho da


amostra pelo método dos 5 números de Tukey (Tukey’s hinge method).
Amplitude interquartílica

● A amplitude interquartílica (AIQ) é a distância


entre o primeiro e terceiro quartil.
● A partir da AIQ e dos quartis são delimitados
valores limites, além dos quais as
observações são representadas
isoladamente. Esses valores são

em que k é uma constante amplamente utilizada


com o valor 1,5.
Figura 4. Linhas limítrofes para destaque de pontos
individuais. Caixas feitas usando outro método
para determinação dos quartis (padrão R).
Percentis e decis

▸ Em um conjunto com n valores,


organizados de forma crescente, o p-ésimo
percentil é um número tal que p% dos
valores estejam à sua esquerda e (100 -
p)% à sua direita.
▸ Os decis nada mais são que os percentis
múltiplos de 10.
▸ Da mesma forma que os quartis são os
percentis múltiplos de 25.
▸ As separatrizes podem ser obtidas por Figura 5. Gráfico de probabilidade acumulada
indicando o uso para determinação de percentis.
meio do gráfico de frequências
acumuladas.
Questões?
Medidas de dispersão

JUSTIÇA 4.0: INOVAÇÃO E EFETIVIDADE NA REALIZAÇÃO DA JUSTIÇA PARA TODOS


PROJETO DE EXECUÇÃO NACIONAL BRA/20/015
Importância de quantificar a
dispersão

▸ O resumo de uma variável observada


apenas por uma medida de posição, ignora
a informação sobre a sua variabilidade.
▸ Não é seguro analisar um conjunto de
dados somente por meio de medidas de
tendência central.
▸ Por isso, precisamos de medidas que
caracterizam a dispersão ou variabilidade
dos dados em relação a um valor central. Figura 6. Histograma exibindo a avaliação do preço
de imóveis por corretores antes e após um
treinamento.
Amplitude total

▸ A amplitude é a diferença entre o maior e o menor valor da


variável.

▸ A amplitude está expressa na mesma unidade de medida da


variável.
▸ Apenas usar o máximo e mínimo torna sensível a valores extremos.
▸ Melhor medida de variabilidade: considerar todos os dados
disponíveis.
▸ Desvio de cada valor em relação à uma medida de posição
central (média ou mediana).
Desvio médio e mediano
Variância
Cálculo da variância
Desvio-padrão
Coeficiente de variação

▸ O coeficiente de variação é uma medida de variabilidade relativa à


média.
▸ É definido pelo quociente do desvio-padrão pela média, ou seja,

▸ É uma medida adimensional, e geralmente apresentada na forma de


porcentagem, como indica a expressão.
Cálculo do desvio-padrão e
coeficiente de variação
Quando usar cada medida de
dispersão

▸ Amplitude:
▸ Fácil de calcular.
▸ Influenciada por valores extremos.
▸ Desvios absolutos:
▸ São medidas robustas, ou seja, mais resilientes a outliers.
▸ Dá ideia do tamanho médio dos desvios.
▸ Variância ou desvio-padrão:
▸ Influenciados por valores extremos.
▸ Têm boas propriedades e significado em Inferência estatística.
▸ Coeficiente de variação:
▸ Comparar a variabilidade de variáveis de diferentes naturezas.
Questões?
Tabelas de dupla
entrada

JUSTIÇA 4.0: INOVAÇÃO E EFETIVIDADE NA REALIZAÇÃO DA JUSTIÇA PARA TODOS


PROJETO DE EXECUÇÃO NACIONAL BRA/20/015
Tabela de frequência cruzada

▸ Considera as combinações de duas


variáveis simultaneamente.
▸ Cada combinação de classes é chamada
cédula.
▸ Agora têm-se:
▸ As frequências das cédulas.
▸ As frequências marginais.

Figura 7. Esquema de disposição das frequências em uma


tabela para duas variáveis. Fonte: os autores.
A tabela dos dados

Figura 8. Tabela com registros ordenados alfabeticamente pelas classes da variável


Posição seguido da variável Amarelos.
Tabela de frequência cruzada para o recorte

Figura 9. Tabela de frequência (absoluta) cruzada para as


variáveis Posição e Amarelos considerando as observações do
recorte aleatório.
Tabela de frequência cruzada para o recorte

Figura 10. Tabela de frequência relativa cruzada para as


variáveis Posição e Amarelos considerando as observações do
recorte aleatório.
Tabela de frequência cruzada de todos os
respondentes

Figura 11. Tabela de frequência (absoluta) cruzada para as variáveis


Posição e Amarelos para todos os respondentes.
Tabela de frequência cruzada de todos os
respondentes

Figura 12. Tabela de frequência relativa cruzada, em percentual, para as variáveis Email
e Área para todos os respondentes.
Expressões

▸ Frequência absoluta de cédula ou combinação:

ƒa= número observado da combinação de classes.

▸ Frequência relativa de cédula ou combinação:

ƒr= (número observado da combinação de classes)/(número total


de observações).
Utilidade da tabela cruzada

▸ Considera duas ou mais variáveis


simultaneamente.
▸ Permite investigar relação de associação
entre as variáveis.
▸ As margens contém as distribuições de
frequência de cada variável.

Figura 13. Esquema de disposição das frequências em


uma tabela para duas variáveis. Fonte: os autores.
Questões?
Representações gráficas

JUSTIÇA 4.0: INOVAÇÃO E EFETIVIDADE NA REALIZAÇÃO DA JUSTIÇA PARA TODOS


PROJETO DE EXECUÇÃO NACIONAL BRA/20/015
Motivação

▸ IMPORTANTE: reconhecer a utilidade


do gráfico e saber interpretar.
▸ Saber diferenciar a função do gráfico
da sua forma.
▸ Saber escolher o melhor gráfico
conforme o contexto e mensagem.
▸ Catálogo de gráficos para duas ou
mais variáveis.
▸ Qualitativa x qualitativa.
▸ Quantitativa x qualitativa.
▸ Quantitativa x quantitativa.
Photo by nappy from Pexels. Fonte https://rb.gy/nigarg.
37
O conjunto de dados

Dados biométricos e esportivos de jogadores de futebol da liga


europeia. Fonte: www.whoscored.com
Representações gráficas:
Duas variáveis qualitativas

JUSTIÇA 4.0: INOVAÇÃO E EFETIVIDADE NA REALIZAÇÃO DA JUSTIÇA PARA TODOS


PROJETO DE EXECUÇÃO NACIONAL BRA/20/015
Gráfico de barras empilhadas

Figura 14. Quantidade de cartões amarelos e a relação com a função em campo.


Gráfico de barras agrupadas

Figura 15. Quantidade de cartões amarelos e a relação com a função em campo.


Gráfico de barras relativas empilhadas

Figura 16. Quantidade de cartões amarelos e a relação com a função em campo.


Gráfico de barras

▸ Nome: Gráfico de barras (bar plot).


▸ Função: permitir a comparação de valores
entre categorias.
▸ Tipo de escala: qualitativa x qualitativas.
▸ Variáveis visuais: posição 𝑥 x 𝑦.
▸ Geometria: barras.
Gráfico de mosaico

Figura 17. Quantidade de cartões amarelos e a relação com a função em campo.


Gráfico de mosaico

▸ Nome: Gráfico de mosaico (mosaic plot ou Marimekko chart).


▸ Função: exibir a frequência de combinações de categorias.
▸ Tipo de escala: qualitativa.
▸ Variáveis usuais: posição 𝑥 x 𝑦 e área.
▸ Geometria: retângulos.
▸ Variáveis calculadas: frequência relativa.
Recomendações

▸ Barras empilhadas. ▸ Barras relativas empilhadas.


▸ Comparar as frequências ▸ Para comparar a composição da
marginais da variável primária. variável secundária dentro das
▸ Comparar a composição da classes da variável primária.
variável secundária dentro das ▸ Mosaico.
classes da primária. ▸ Comparar as frequências relativas
▸ Barras agrupadas. marginais da variável primária.
▸ Comparar as frequências da ▸ Comparar a composição da variável
variável secundária dentro de secundária dentro das classes da
uma classe da primária. variável primária.
▸ Comparar entre combinações ▸ Comparar as frequências relativas
das variáveis. entre combinações.
▸ Verificar independência entre
variáveis qualitativas.
Questões?
Representações gráficas:
Duas variáveis
quantitativas

JUSTIÇA 4.0: INOVAÇÃO E EFETIVIDADE NA REALIZAÇÃO DA JUSTIÇA PARA TODOS


PROJETO DE EXECUÇÃO NACIONAL BRA/20/015
Diagrama de dispersão

Figura 18. Relação altura e peso dos goleiros. No gráfico da direita foi adicionada perturbação
para evitar sobreposição dos pontos.
Diagrama de dispersão

▸ Nome: Diagrama de dispersão (scatter plot).


▸ Função: retratar a relação entre as variáveis.
▸ Tipo de escala: quantitativa x quantitativa.
▸ Variáveis visuais: posição 𝑥 x 𝑦.
▸ Geometria: pontos.
▸ Variações: diagrama de dispersão 3D, diagrama ternário.
Análise do diagrama de dispersão

Figura 19. Exemplos de relação entre variáveis quantitativas.


Variações de diagrama de dispersão

Figura 20. Diagrama de dispersão 3D. Fonte: Figura 21. Diagrama de dispersão ternário. Fonte:
https://stackoverflow.com/questions/3090 http://www.ggtern.com/2013/12/16/pps-3-state-m
4198/how-to-export-an-interactive-rgl-3d- odel/.
plot-to-share-or-publish.
Bubble chart

Figura 22. Relação altura, peso e idade dos goleiros.


Bubble chart

▸ Nome: Diagrama de dispersão com bolhas (bubble chart).


▸ Função: retratar a relação entre variáveis quantitativas.
▸ Tipo de escala: todas quantitativas.
▸ Variáveis visuais: posição 𝑥 x 𝑦 e tamanho.
▸ Geometria: pontos.
Matriz de diagramas de dispersão

▸ Nome: matriz de diagramas de


dispersão (scatter plot matrix).
▸ Função: exibir a relação entre variáveis
e distribuições marginais.
▸ Tipo de escala: preferencialmente
quantitativas.
▸ Variáveis visuais: posição 𝑥 x 𝑦.
▸ Geometria: pontos, linhas e/ou barras.
▸ Inspiração: diagrama de dispersão e
gráficos para distribuição.

Figura 23. Matriz de diagramas de dispersão.


Correlograma

Figura 24. Correlograma das variáveis para os goleiros .


Correlograma

▸ Nome: Correlograma (correlogram).


▸ Função: mostrar a estrutura de correlação entre diversas variáveis
contínuas (admite qualitativas mas requer especificar apropriadamente
uma medida de correlação).
▸ Tipo de escala: preferencialmente para quantitativas.
▸ Variáveis visuais: área, inclinação ou outra retinal quantitativa.
▸ Geometria: elipses, círculos ou retângulos.
Densidade 2D

Figura 25. Densidade dos jogadores conforme a classificação por altura e peso.
Densidade 2D

▸ Nome: Densidade 2D.


▸ Função: relação entre variáveis e distribuição de valores agrupados em
classe.
▸ Tipo de escala: quantitativa.
▸ Variáveis visuais: posição 𝑥 x 𝑦, cor ou saturação.
▸ Geometria: pixels coloridos ou linhas de contorno.
▸ Requisitos definíveis: aspectos da determinação das classes (dimensões,
formas e posição dos pixels.
▸ Variáveis calculadas: frequência absoluta ou relativa.
Diagrama de dispersão com histogramas
marginais

Figura 26. Exemplo de diagrama de dispersão com histogramas


marginais. Fonte:
https://stackoverflow.com/questions/11022675/rotate-histogram-i
n-r-or-overlay-a-density-in-a-barplot.
Questões?
Representações gráficas:
Variáveis quantitativa e
qualitativa

JUSTIÇA 4.0: INOVAÇÃO E EFETIVIDADE NA REALIZAÇÃO DA JUSTIÇA PARA TODOS


PROJETO DE EXECUÇÃO NACIONAL BRA/20/015
Cleveland dot plot

Figura 27. Altura média por equipe para goleiros e jogadores da linha.
Cleveland dot plot

▸ Nome: Cleveland dot plot.

▸ Função: comparar variável contínua entre categorias.

▸ Tipo de escala: quantitativa x qualitativas.

▸ Variáveis visuais: posição 𝑥 x 𝑦.

▸ Geometria: pontos e segmentos.


Boxplot

Figura 28. Diagramas de caixa para altura, peso e idade dos jogadores por função.
Boxplot

▸ Nome: diagrama de caixas (boxplot).


▸ Função: comparar aspectos da distribuição de variável quantitativa entre
categorias.
▸ Tipo de escala: quantitativa x qualitativa.
▸ Variáveis visuais: boxplot para único grupo.
▸ Geometria: pontos e segmentos.
▸ Variação: minimal box plot.
Mapa de calor (heatmap)

Figura 29. Mapa de calor das variáveis para os goleiros.


Mapa de calor (heatmap)

▸ Nome: Mapa de calor (heatmap).


▸ Função: comparar variável quantitativa entre categorias.
▸ Tipo de escala: quantitativas x qualitativas.
▸ Variáveis visuais: posição 𝑥 x 𝑦, cor ou saturação.
▸ Geometria: pixels coloridos.
Diagrama de eixos coloridos (parallel plot)

Figura 30. Gráfico de eixos paralelos das variáveis para os goleiros.


Diagrama de eixos coloridos (parallel plot)

▸ Nome: parallel plot.


▸ Função: comparar variável quantitativa entre categorias e examinar a
relação entre variáveis (perfil).
▸ Tipo de escala: quantitativa.
▸ Variáveis visuais: posição 𝑥 x 𝑦.
▸ Geometria: linhas.
▸ Inspiração: slopegraph.
▸ Variações: radar/spider plot.
Radial/Spider plot

▸ Nome: Radar plot ou Spider plot.


▸ Função: comparar variável quantitativa
entre categorias.
▸ Tipo de escala: quantitativa.
▸ Variáveis visuais: posição 𝑟 x 𝛩.
▸ Geometria: linhas.
▸ Inspiração: parallel plot.

Figura 31. Gráfico de radar das variáveis para os goleiros.


Faces de Chernoff

▸ Nome: Faces de Chernoff (Chernoff faces).


▸ Função: comparação entre um conjunto de
variáveis quantitativas entre
categorias/elementos.
▸ Tipo de escala: quantitativas x categorias.
▸ Variáveis visuais: posição e comprimentos.
▸ Geometria: elementos do rosto humano.

Figura 32. Faces de Chernoff para medidas descritivas dos


jogadores conforme função em campo.
Recomendações

Diagrama de dispersão Boxplot Correlograma Cleveland dot plot

Qual usar para:


1. Examinar a forma da relação entre variáveis contínuas?
2. Comparar valores de variável contínua entre categorias?
3. Exibir a estrutura de correlação entre variáveis?
4. Comparar a distribuição entre categorias?
Questões?
Medindo associação:
Correlação de Pearson

JUSTIÇA 4.0: INOVAÇÃO E EFETIVIDADE NA REALIZAÇÃO DA JUSTIÇA PARA TODOS


PROJETO DE EXECUÇÃO NACIONAL BRA/20/015
Exemplo de graus de correlação

▸ É usado para determinar se existe relação linear entre variáveis aleatórias


quantitativas.
▸ A correlação 𝑟 assume valores entre -1 e 1.
▸ Quando 𝑟>0, então existe uma associação (linear) positiva.
▸ Quando 𝑟<0, então existe uma associação (linear) negativa.
▸ Quando 𝑟=0, então não existe uma associação (linear).

Figura 33. Correlação entre duas variáveis quantitativas.


Covariância e correlação

▸ A covariância amostral entre duas variáveis Y1 e Y2 é:

▸ A correlação amostral entre duas variáveis Y1 e Y2 é:


Interpretação gráfica

O coeficiente de correlação é

Figura 34. A interpretação do coeficiente de


correlação de Pearson.
Exemplo: comprimento radicular e produtividade

Figura 35. Valores de produtividade e comprimento de raízes


de plantas de milho.

Figura 36. Diagrama de dispersão entre


comprimento de raízes (y1) e produção (y2).
Solução

▸ A correlação é obtida por

que indica uma associação positiva entre as variáveis.


Outros tipos de correlação

▸ A correlação de Pearson descreve o grau de


associação linear entre variáveis.
▸ Associações diferentes da linear são descritas
impropriamente pelo coeficiente de correlação
de Pearson.
▸ Existem outros tipos de correlação.
▸ Correlação de Spearman.
▸ Correlação de Kendall.
▸ Teste de hipótese para a correlação será visto na
parte de Inferência Estatística.

Figura 37. Tipos de associação não lineares entre


variáveis.
Mais medidas de associação

Tipo das variáveis e medida de associação


1. Numérica x numérica → Coeficiente de correlação de Pearson.
2. Numérica x ordinal → Coeficiente de correlação de Kendall.
3. Numérica x nominal → Coeficiente de correlação ponto-bisserial.
4. Ordinal x ordinal → Coeficiente de correlação de Kendall.
5. Ordinal x nominal → Coeficiente de correlação rank-bisserial.
6. Numérica x ordinal → Coeficiente de correlação de Kendall.
7. Nominal x nominal → Coeficiente ɸ.

Fonte https://journals.sagepub.com/doi/pdf/10.1177/8756479308317006.
Questões?

Você também pode gostar