Você está na página 1de 79

Tendências Centrais

Introdução à Ciência dos Dados


https://icd-ufmg.github.io/

Pedro Olmo Stancioli Vaz de Melo


olmo@dcc.ufmg.br
1
Tendências centrais

Vamos começar explorando a base da Billboard de 2000 até 2018

2
Amostra vs. População

Considere todo o universo de músicas existentes

Universo de músicas
(tamanho = N)

3
Amostra vs. População

Dentro de todo o universo, existem subconjuntos de músicas

Músicas da
Billboard
(tamanho = n)

Universo de músicas
(tamanho = N)

4
Amostra vs. População

● Raramente teremos acesso a toda população


● Tipicamente teremos acesso a um subconjunto da população (amostra)
● Pode ou não ser representativa da população
○ Exploraremos mais tais conceitos nas aulas futuras

● Por enquanto, nosso foco é nas tendências da amostra

5
O Grande Problema da Ciência de Dados

● O quão representativas são as minhas estimativas nesta amostra?


● Em outras palavras, podemos generalizar as conclusões para a população?
● Precisamos de algumas medidas iniciais
● Depois vamos entender a generalização delas

6
Descrevendo um único conjunto de dados

Uma descrição óbvia de qualquer conjunto de dados é


simplesmente os dados em si

Problemas?

7
Descrevendo um único conjunto de dados

● Para um conjunto de dados pequeno o suficiente, isso pode até ser a


melhor descrição
● Mas, para um grande conjunto de dados, isso é difícil e provavelmente
opaco (imagine uma lista de 1 milhão de números)
● Por esse motivo, usamos estatísticas para destilar e comunicar
características relevantes dos nossos dados
Visualização de dados

● Já vimos que visualizações de dados podem oferecer boas descrições


iniciais dos dados
○ Histogramas

○ Gráficos de dispersão

○ CDF (Cumulative Distribution Function) empírica

9
Histogramas

Conta o número de observações dentro de uma faixa

Para isto temos que definir alguns bins

Ou seja, agrupar dados no eixo-x

188, 170, 189, 163, 183, 171, 185, 168, 173, ... O bin [185,190)

160 165 170 175 180 185 190

10
Histograma

Qual é a contagem de cada valor presente nos dados?

11
Histograma

Observe a duração típica e a variabilidade nos dados

as durações estão concentradas ao redor de 4 minutos

Poucas músicas com mais de 6 e menos de 2 minutos

12
Histograma

Há valores muitos distantes da duração típica?

Há algumas músicas bem longas!

13
Como escolher o número de bins?

● É uma arte
● Este é um problema de histogramas
● Alternativas
○ 1. Gráficos de distribuições cumulativas (CDF e CCDF)

○ 2. Sumarização de dados em boxplots/violinplots/beanplots

14
CDF Empírica

● Para dados numéricos contínuos, às vezes é melhor plotar a CDF empírica


● Significa Cumulative Distribution Function

15
CDF Empírica

Código

1. Ordene os dados
def ecdf(data):
2. x = []; y = []
x = np.sort(data)
3. Para i = 0 até |D| count = np.arange(len(data))
a. y[i] = conte quantos pontos < D[i] y = count.cumsum()
b. x[i] = D[i] y = y / y.max()
4. Normalize em y return x, y

Ou então: statsmodels.distributions.empirical_distribution.ECDF — statsmodels

16
CDF Empírica

● Ordene os valores
● Conte quantos vêm antes (são menores ou iguais)

163, 168, 170, 171, 173, 183, 185, 188, 189, ...

163 168 170

17
CDF Empírica

18
CDF Empírica
normalizamos o eixo y, fração de itens ≤ x

Podemos plotar uma linha, representa uma função

19
Leitura
Quase 100% dos valores <= 8

60% DOS VALORES


Menores ou iguais a 4.2

4.2
20
Na prática

from statsmodels.distributions.empirical_distribution import


ECDF
ecdf = ECDF(data)
x = ecdf.x
y = ecdf.y
plt.plot(x, y)
plt.xlabel('Duração em minutos')
plt.ylabel('$P(X \leq x)$')

MPL SUPORTA LATEX

https://www.statsmodels.org/devel/generated/statsmodels.distributions.empirical_distribution.ECDF.html
21
Descrevendo um único conjunto de dados

O histograma é bem descritivo, mas pode ser complicado para uma primeira
comunicação

Então você pode começar a gerar algumas estatísticas mais simples:

22
Tendências Centrais

Normalmente, queremos saber onde nossos dados


estão centralizados

23
Média
Média

A linha preta representa a média, que é


Um pouco menos de 4 minutos

O conjunto de músicas da billboard tem


alta concentração de pop

25
Mediana

● Considere uma lista ordenada de dados A = [a1, a2, …, an]


● A mediana é o valor que divide essa lista em duas listas de tamanhos iguais
● A fórmula usada para encontrar o número do meio de um conjunto de dados
de n números numericamente ordenados é (n + 1) ÷ 2
○ Para n=10 números, o número do meio é 5.5

○ Para n=11 números, o número do meio é 6

● Então a mediana pode ser calculada como:


Mediana vs. média

X = {1, 2, 3, 4, 5, 6}

27
Mediana vs. média

X = {1, 2, 3, 4, 5, 9}

28
Mediana vs. média

X = {1, 2, 3, 4, 5, 99}

29
Mediana vs. média

X = {1, 2, 3, 4, 5, 99, 100}

30
Mediana vs. média

X = {1, 2, 3, 4.5, 5, 99, 100}

31
Mediana vs. média

● Se tivermos n pontos de dados e um deles aumentar em alguma quantidade


pequena ε, o que acontece com a média?
● E com a mediana?

32
Mediana vs. média

● Média
○ Mais simples de calcular

○ Varia suavemente conforme nossos dados são alterados

■ Se tivermos n pontos de dados e um deles aumentar em alguma quantidade pequena ε,


então necessariamente a média aumentará em ε/n

■ Isso torna a média passível de todo tipo de truque de cálculo

● Mediana,
○ Temos que ordenar nossos dados

○ Alterar um dos nossos pontos de dados em uma pequena quantidade ε pode aumentar a
mediana por ε, por algum número menor que ε ou não a modificar de qualquer forma
33
Mediana vs. média

● Existem truques não óbvios para calcular eficientemente medianas sem


ordenar os dados
● A média é muito sensível a valores discrepantes (outliers) em nossos dados
○ Em meados da década de 1980, a graduação da Universidade da Carolina do Norte com a
maior média de salário inicial era a geografia

○ A razão disso?

○ A estrela da NBA (e outlier) Michael Jordan formou-se em geografia


Mediana vs. média

observe como a mediana é um pouco menor


do que a média

Para conjuntos de dados compostos


somente por valores > 0, sempre vai ser
assim

no máximo será igual

35
Mediana vs. média
Uma música do Dream Theater

36
Mediana vs. média

● A média dá um falso sentimento de igualdade


● Tende para o valor maior (para valores positivos)
● A mediana não!
● São próximas para distribuições simétricas

37
Quantil

● Uma generalização da mediana é o quantil, que representa o menor valor


maior que um certo percentual dos dados

● Alguns quantis têm nomes especiais:

○ Os 100-quantis são chamados percentis

○ Os 10-quantis são chamados decis

○ Os 5-quantis são chamados quintis

○ Os 4-quantis são chamados quartis

○ Os 3-quantis são chamados tercis


Quartis

Separa os dados em quatro partes iguais:

● primeiro quartil (designado por Q1/4) = quartil inferior


○ é o valor aos 25% da amostra ordenada = 25º percentil

● segundo quartil (designado por Q2/4) = mediana


○ é o valor até ao qual se encontra 50% da amostra ordenada = 50º percentil, ou 5º decil

● terceiro quartil (designado por Q3/4) = quartil superior


○ valor a partir do qual se encontram 25% dos valores mais elevados = valor aos 75% da
amostra ordenada = 75º percentil

39
Quartis

40
Quartis

41
Boxplot

É uma boa forma de sumarizar os quartis dos dados.

42
Boxplot

● Mostra os 3 quartis
● Mostra também whiskers superiores e inferiores
○ Mais complicado de interpretar, alguns usam +- 1.5 * Interquartile Range

○ Outros preferem usar P(X < x) = 95% no inferior e P(X > x) = 95% no superior

43
Boxplot das Músicas

44
Exemplo Seaborn

45
Moda

Outra medida para tendência central dos dados é a moda, que é(são) o(s)
valor(es) mais comum(ns):
Quais são os melhores descritores?
Quais são os melhores descritores?
Média
Mediana
Moda
Dispersão

● Medidas de como se espalham nossos dados


● Valores próximos de zero significam que os dados não se espalham de
forma alguma
● Grandes valores (seja lá o que isso signifique) significam que os dados
estão muito dispersos
Intervalo (range)
Intervalo (range)

● É zero precisamente quando max e min são iguais


○ Só pode acontecer se os elementos de X forem todos iguais, o que significa que os dados
são tão similares (ou não dispersos) quanto possível.

● Se o intervalo for grande, o max é muito maior que o min e os dados estão
mais espalhados
● Como a mediana, o intervalo não depende de todo o conjunto de dados
○ Um conjunto de dados cujos pontos são todos 0 ou 100 tem o mesmo intervalo que um
conjunto de dados cujos valores são 0, 100 e muitos 50s

○ Mas parece que o primeiro conjunto de dados "deveria" estar mais espalhado, certo?
Variância

● Uma medida mais complexa de dispersão é a variância


● Quando a variância da população é estimada usando n amostras aleatórias,
a fórmula seguinte é um estimador não enviesado:
Variância

● Observe uma simulação aqui


Variância

Parece que a variância é quase o desvio médio da média, exceto pelo fato de
estarmos dividindo por n-1 em vez de n

De fato, quando estamos lidando com uma amostra de uma população maior,
é apenas uma estimativa da média real

é uma subestimativa do desvio ao quadrado de em relação à média

Por isso que nós dividimos por n-1 ao invés de n

Mas será que isso faz sentido?


Variância

● Quaisquer que sejam as unidades em que nossos dados estão (por exemplo,
"# de amigos"), todas as nossas medidas de tendência central estão nessa
mesma unidade
● O intervalo será similarmente nessa mesma unidade
● A variância, por outro lado, tem unidades que são o quadrado das unidades
originais (por exemplo, " # de amigos ao quadrado")
Desvio padrão

Como pode ser difícil entender essa medida, muitas vezes olhamos para o
desvio padrão s:
Intervalo interquartil (interquartile range)

O intervalo, variância e o desvio padrão têm o mesmo problema discrepante


que vimos anteriormente para a média

Se nosso usuário mais amigável tivesse 2000 amigos, o desvio padrão seria
muito maior somente por causa desse usuário

Uma alternativa mais robusta calcula a diferença entre o valor do 75º e do 25º
percentil:
terceiro quartil primeiro quartil
Dispersão em dados bem comportados

61
Dispersão do “número de amigos”
Dica valiosa

Sempre visualize os dados (colunas, atributos) antes!

Histograma e CDF (ou 1-CDF) é o mínimo!!

63
Transformadas

● Em casos extremos, é complicado ver os dados


● Uma boa ideia é tomar log do eixo x e do eixo y
● Abaixo, expectativa de vida por acesso a um seguro saúde

64
Dispersão em dados de “cauda pesada”
Exemplo prático

● Mostre o número de músicas em que uma cada palavra ocorre

observe como algumas palavras ocorrem em todas


num músicas

← the euphoria → 66
mais fácil de ler em log
observe os eixos
código python meio chato, veja o notebook

67
Outras Medidas

68
Outras médias
média geométrica
é boa para dados em escalas diferentes!

A média HARMÔNICA É BOA PARA TAXAs

69
Problemas ao sumarizar dados

Leia o artigo de Fleming Wallace

70
Média Geométrica vs. Média Aritmética

● Suponha que você aplicou $500 e que o dinheiro teve os seguintes


rendimentos
○ 10% no primeiro ano
○ 20% no segundo ano
○ 90% no terceiro ano
● Qual o valor final?
○ Total = $500 * 1.1 * 1.2 * 1.9 = $1254.00
● Qual o rendimento médio segundo a média aritmética?
○ RM = (1.1 + 1.2 + 1.9) / 3 = 1.4
○ Total = $500 * 1.4 * 1.4 * 1.4 = $1372.00
● Qual o rendimento médio segundo a média geométrica?
○ RM = (1.1 * 1.2 * 1.9)⅓ = 1.36
○ Total = $500 * 1.36 * 1.36 * 1.36 = $1254.00
71
Valores em unidades diferentes

Dois serviços com unidades diferentes

Como agregar os dois?

72
Valores em unidades diferentes

Independente da unidade de medida, a média geométrica mantém a ordem

Nota 3 na Amazon 70% de Likes no Netflix

73
Valores em unidades diferentes

Média aritmética = (3 + 70) / 2 = 36.5

Média geométrica = (3 * 70)½ = 14.49

Considere um filme com nota 4 na Amazon e 69% na Netflix

Média aritmética = (4 + 69) / 2 = 36.5

Média geométrica = (4 * 69)½ = 16.61

74
Média Geométrica

● Vantagens
○ Uma média geométrica é baseada em todas as observações

○ É rigidamente definida

○ As flutuações das observações não afetam a média geométrica

○ Dá mais peso a itens pequenos

● Desvantagens da média geométrica


○ Uma média geométrica não é facilmente compreensível por uma pessoa não matemática

○ Se alguma das observações for zero, a média geométrica se torna zero

○ Se alguma observação for negativa, a média geométrica pode se tornar imaginária

75
Média Harmônica

● Eu dirigi a uma velocidade de 60km/h até o aeroporto e voltei para casa a


uma velocidade de 30km/h
● A distância da minha casa até o aeroporto é de 30 km
● Qual foi a velocidade média durante toda a viagem?
○ velocidade média = 60km (ida e volta) / 1.5 horas (tempo total) = 40 km/h

● Segundo a média aritmética


Se a volta fosse só de 15 km, então
○ velocidade média = 30 + 60 / 2 = 45 km/h a velocidade média seria:

● Segundo a média geométrica 1.5 / (1/30 + 0.5/60) = 36 km/h


○ velocidade média = 2 / (1/30 + 1/60) = 40 km/h
76
Média Harmônica

● Vantagens
○ Uma média harmônica é rigidamente definida

○ É baseado em todas as observações

○ As flutuações das observações não afetam a média harmônica

○ Mais peso é dado a itens menores

● Desvantagens
○ Não é facilmente compreensível

○ Difícil de calcular

77
Quando usar cada uma?!

Temos algumas regras que podem nos ajudar:

● A soma dos valores faz sentido. Isto


é, todos estão na mesma unidade?
○ Aritmética
● Estamos normalizando dados ou
trabalhando com dados em escalas
diferentes:
○ Geométrica
● Estamos trabalhando com taxas? Ou
queremos ponderar valores?
○ Harmônica
78
Referências

● Computational and Inferential Thinking


Chapter 10: Sampling and Empirical Distributions
https://www.inferentialthinking.com/
● Fundamentos Estatísticos de Ciência dos Dados
Capítulo 2 e 4: Estatística Básica e Vetores Aleatórios
https://homepages.dcc.ufmg.br/~assuncao/EstatCC/FECD.pdf

79

Você também pode gostar