05 - Tendencias Centrais

Tendências Centrais
Introdução à Ciência dos Dados

https://icd-ufmg.github.io/
Pedro Olmo Stancioli Vaz de Melo

olmo@dcc.ufmg.br
1
Tendências centrais
Vamos começar explorando a base da Billboard de 2000 até 2018
2
Amostra vs. População
Considere todo o universo de músicas existentes
Universo de músicas
(tamanho = N)
3
Dentro de todo o universo, existem subconjuntos de músicas
Músicas da
Billboard
(tamanho = n)
Universo de músicas
(tamanho = N)
4
● Raramente teremos acesso a toda população

● Tipicamente teremos acesso a um subconjunto da população (amostra)
● Pode ou não ser representativa da população
○ Exploraremos mais tais conceitos nas aulas futuras
● Por enquanto, nosso foco é nas tendências da amostra
5
O Grande Problema da Ciência de Dados
● O quão representativas são as minhas estimativas nesta amostra?

● Em outras palavras, podemos generalizar as conclusões para a população?
● Precisamos de algumas medidas iniciais
● Depois vamos entender a generalização delas
6
Descrevendo um único conjunto de dados
Uma descrição óbvia de qualquer conjunto de dados é

simplesmente os dados em si
Problemas?
7
● Para um conjunto de dados pequeno o suficiente, isso pode até ser a

melhor descrição
● Mas, para um grande conjunto de dados, isso é difícil e provavelmente
opaco (imagine uma lista de 1 milhão de números)
● Por esse motivo, usamos estatísticas para destilar e comunicar
características relevantes dos nossos dados
Visualização de dados
● Já vimos que visualizações de dados podem oferecer boas descrições

iniciais dos dados
○ Histogramas
○ Gráficos de dispersão
○ CDF (Cumulative Distribution Function) empírica
9
Histogramas
Conta o número de observações dentro de uma faixa
Para isto temos que definir alguns bins
Ou seja, agrupar dados no eixo-x
188, 170, 189, 163, 183, 171, 185, 168, 173, ... O bin [185,190)
160 165 170 175 180 185 190
10
Histograma
Qual é a contagem de cada valor presente nos dados?
11
Histograma
Observe a duração típica e a variabilidade nos dados
as durações estão concentradas ao redor de 4 minutos
Poucas músicas com mais de 6 e menos de 2 minutos
12
Histograma
Há valores muitos distantes da duração típica?
Há algumas músicas bem longas!
13
Como escolher o número de bins?
● É uma arte
● Este é um problema de histogramas
● Alternativas
○ 1. Gráficos de distribuições cumulativas (CDF e CCDF)
○ 2. Sumarização de dados em boxplots/violinplots/beanplots
14
CDF Empírica
● Para dados numéricos contínuos, às vezes é melhor plotar a CDF empírica

● Significa Cumulative Distribution Function
15
CDF Empírica
Código
1. Ordene os dados
def ecdf(data):
2. x = []; y = []
x = np.sort(data)
3. Para i = 0 até |D| count = np.arange(len(data))
a. y[i] = conte quantos pontos < D[i] y = count.cumsum()
b. x[i] = D[i] y = y / y.max()
4. Normalize em y return x, y
Ou então: statsmodels.distributions.empirical_distribution.ECDF — statsmodels
16
CDF Empírica
● Ordene os valores
● Conte quantos vêm antes (são menores ou iguais)
163, 168, 170, 171, 173, 183, 185, 188, 189, ...
163 168 170
17
CDF Empírica
18
CDF Empírica
normalizamos o eixo y, fração de itens ≤ x
Podemos plotar uma linha, representa uma função
19
Leitura
Quase 100% dos valores <= 8
60% DOS VALORES

Menores ou iguais a 4.2
4.2
20
Na prática
from statsmodels.distributions.empirical_distribution import

ECDF
ecdf = ECDF(data)
x = ecdf.x
y = ecdf.y
plt.plot(x, y)
plt.xlabel('Duração em minutos')
plt.ylabel('$P(X \leq x)$')
MPL SUPORTA LATEX
https://www.statsmodels.org/devel/generated/statsmodels.distributions.empirical_distribution.ECDF.html
21
O histograma é bem descritivo, mas pode ser complicado para uma primeira
comunicação
Então você pode começar a gerar algumas estatísticas mais simples:
22
Tendências Centrais
Normalmente, queremos saber onde nossos dados

estão centralizados
23
Média
Média
A linha preta representa a média, que é

Um pouco menos de 4 minutos
O conjunto de músicas da billboard tem

alta concentração de pop
25
Mediana
● Considere uma lista ordenada de dados A = [a1, a2, …, an]

● A mediana é o valor que divide essa lista em duas listas de tamanhos iguais
● A fórmula usada para encontrar o número do meio de um conjunto de dados
de n números numericamente ordenados é (n + 1) ÷ 2
○ Para n=10 números, o número do meio é 5.5
○ Para n=11 números, o número do meio é 6
● Então a mediana pode ser calculada como:

Mediana vs. média
X = {1, 2, 3, 4, 5, 6}
27
Mediana vs. média
X = {1, 2, 3, 4, 5, 9}
28
Mediana vs. média
X = {1, 2, 3, 4, 5, 99}
29
Mediana vs. média
X = {1, 2, 3, 4, 5, 99, 100}
30
Mediana vs. média
X = {1, 2, 3, 4.5, 5, 99, 100}
31
Mediana vs. média
● Se tivermos n pontos de dados e um deles aumentar em alguma quantidade

pequena ε, o que acontece com a média?
● E com a mediana?
32
Mediana vs. média
● Média
○ Mais simples de calcular
○ Varia suavemente conforme nossos dados são alterados
■ Se tivermos n pontos de dados e um deles aumentar em alguma quantidade pequena ε,

então necessariamente a média aumentará em ε/n
■ Isso torna a média passível de todo tipo de truque de cálculo
● Mediana,
○ Temos que ordenar nossos dados
○ Alterar um dos nossos pontos de dados em uma pequena quantidade ε pode aumentar a
mediana por ε, por algum número menor que ε ou não a modificar de qualquer forma
33
Mediana vs. média
● Existem truques não óbvios para calcular eficientemente medianas sem

ordenar os dados
● A média é muito sensível a valores discrepantes (outliers) em nossos dados
○ Em meados da década de 1980, a graduação da Universidade da Carolina do Norte com a
maior média de salário inicial era a geografia
○ A razão disso?
○ A estrela da NBA (e outlier) Michael Jordan formou-se em geografia

Mediana vs. média
observe como a mediana é um pouco menor

do que a média
Para conjuntos de dados compostos

somente por valores > 0, sempre vai ser
assim
no máximo será igual
35
Mediana vs. média
Uma música do Dream Theater
36
Mediana vs. média
● A média dá um falso sentimento de igualdade

● Tende para o valor maior (para valores positivos)
● A mediana não!
● São próximas para distribuições simétricas
37
Quantil
● Uma generalização da mediana é o quantil, que representa o menor valor

maior que um certo percentual dos dados
● Alguns quantis têm nomes especiais:
○ Os 100-quantis são chamados percentis
○ Os 10-quantis são chamados decis
○ Os 5-quantis são chamados quintis
○ Os 4-quantis são chamados quartis
○ Os 3-quantis são chamados tercis

Quartis
Separa os dados em quatro partes iguais:
● primeiro quartil (designado por Q1/4) = quartil inferior

○ é o valor aos 25% da amostra ordenada = 25º percentil
● segundo quartil (designado por Q2/4) = mediana

○ é o valor até ao qual se encontra 50% da amostra ordenada = 50º percentil, ou 5º decil
● terceiro quartil (designado por Q3/4) = quartil superior

○ valor a partir do qual se encontram 25% dos valores mais elevados = valor aos 75% da
amostra ordenada = 75º percentil
39
Quartis
40
Quartis
41
Boxplot
É uma boa forma de sumarizar os quartis dos dados.
42
Boxplot
● Mostra os 3 quartis
● Mostra também whiskers superiores e inferiores
○ Mais complicado de interpretar, alguns usam +- 1.5 * Interquartile Range
○ Outros preferem usar P(X < x) = 95% no inferior e P(X > x) = 95% no superior
43
Boxplot das Músicas
44
Exemplo Seaborn
45
Moda
Outra medida para tendência central dos dados é a moda, que é(são) o(s)
valor(es) mais comum(ns):
Quais são os melhores descritores?
Quais são os melhores descritores?
Média
Mediana
Moda
Dispersão
● Medidas de como se espalham nossos dados

● Valores próximos de zero significam que os dados não se espalham de
forma alguma
● Grandes valores (seja lá o que isso signifique) significam que os dados
estão muito dispersos
Intervalo (range)
Intervalo (range)
● É zero precisamente quando max e min são iguais

○ Só pode acontecer se os elementos de X forem todos iguais, o que significa que os dados
são tão similares (ou não dispersos) quanto possível.
● Se o intervalo for grande, o max é muito maior que o min e os dados estão
mais espalhados
● Como a mediana, o intervalo não depende de todo o conjunto de dados
○ Um conjunto de dados cujos pontos são todos 0 ou 100 tem o mesmo intervalo que um
conjunto de dados cujos valores são 0, 100 e muitos 50s
○ Mas parece que o primeiro conjunto de dados "deveria" estar mais espalhado, certo?
Variância
● Uma medida mais complexa de dispersão é a variância

● Quando a variância da população é estimada usando n amostras aleatórias,
a fórmula seguinte é um estimador não enviesado:
Variância
● Observe uma simulação aqui

Variância
Parece que a variância é quase o desvio médio da média, exceto pelo fato de
estarmos dividindo por n-1 em vez de n
De fato, quando estamos lidando com uma amostra de uma população maior,
é apenas uma estimativa da média real
é uma subestimativa do desvio ao quadrado de em relação à média
Por isso que nós dividimos por n-1 ao invés de n
Mas será que isso faz sentido?

Variância
● Quaisquer que sejam as unidades em que nossos dados estão (por exemplo,
"# de amigos"), todas as nossas medidas de tendência central estão nessa
mesma unidade
● O intervalo será similarmente nessa mesma unidade
● A variância, por outro lado, tem unidades que são o quadrado das unidades
originais (por exemplo, " # de amigos ao quadrado")
Desvio padrão
Como pode ser difícil entender essa medida, muitas vezes olhamos para o
desvio padrão s:
Intervalo interquartil (interquartile range)
O intervalo, variância e o desvio padrão têm o mesmo problema discrepante

que vimos anteriormente para a média
Se nosso usuário mais amigável tivesse 2000 amigos, o desvio padrão seria
muito maior somente por causa desse usuário
Uma alternativa mais robusta calcula a diferença entre o valor do 75º e do 25º
percentil:
terceiro quartil primeiro quartil
Dispersão em dados bem comportados
61
Dispersão do “número de amigos”
Dica valiosa
Sempre visualize os dados (colunas, atributos) antes!
Histograma e CDF (ou 1-CDF) é o mínimo!!
63
Transformadas
● Em casos extremos, é complicado ver os dados

● Uma boa ideia é tomar log do eixo x e do eixo y
● Abaixo, expectativa de vida por acesso a um seguro saúde
64
Dispersão em dados de “cauda pesada”
Exemplo prático
● Mostre o número de músicas em que uma cada palavra ocorre
observe como algumas palavras ocorrem em todas

num músicas
← the euphoria → 66
mais fácil de ler em log
observe os eixos
código python meio chato, veja o notebook
67
Outras Medidas
68
Outras médias
média geométrica
é boa para dados em escalas diferentes!
A média HARMÔNICA É BOA PARA TAXAs
69
Problemas ao sumarizar dados
Leia o artigo de Fleming Wallace
70
Média Geométrica vs. Média Aritmética
● Suponha que você aplicou $500 e que o dinheiro teve os seguintes

rendimentos
○ 10% no primeiro ano
○ 20% no segundo ano
○ 90% no terceiro ano
● Qual o valor final?
○ Total = $500 * 1.1 * 1.2 * 1.9 = $1254.00
● Qual o rendimento médio segundo a média aritmética?
○ RM = (1.1 + 1.2 + 1.9) / 3 = 1.4
○ Total = $500 * 1.4 * 1.4 * 1.4 = $1372.00
● Qual o rendimento médio segundo a média geométrica?
○ RM = (1.1 * 1.2 * 1.9)⅓ = 1.36
○ Total = $500 * 1.36 * 1.36 * 1.36 = $1254.00
71
Valores em unidades diferentes
Dois serviços com unidades diferentes
Como agregar os dois?
72
Independente da unidade de medida, a média geométrica mantém a ordem
Nota 3 na Amazon 70% de Likes no Netflix
73
Média aritmética = (3 + 70) / 2 = 36.5
Média geométrica = (3 * 70)½ = 14.49
Considere um filme com nota 4 na Amazon e 69% na Netflix
Média aritmética = (4 + 69) / 2 = 36.5
Média geométrica = (4 * 69)½ = 16.61
74
Média Geométrica
● Vantagens
○ Uma média geométrica é baseada em todas as observações
○ É rigidamente definida
○ As flutuações das observações não afetam a média geométrica
○ Dá mais peso a itens pequenos
● Desvantagens da média geométrica

○ Uma média geométrica não é facilmente compreensível por uma pessoa não matemática
○ Se alguma das observações for zero, a média geométrica se torna zero
○ Se alguma observação for negativa, a média geométrica pode se tornar imaginária
75
Média Harmônica
● Eu dirigi a uma velocidade de 60km/h até o aeroporto e voltei para casa a

uma velocidade de 30km/h
● A distância da minha casa até o aeroporto é de 30 km
● Qual foi a velocidade média durante toda a viagem?
○ velocidade média = 60km (ida e volta) / 1.5 horas (tempo total) = 40 km/h
● Segundo a média aritmética

Se a volta fosse só de 15 km, então
○ velocidade média = 30 + 60 / 2 = 45 km/h a velocidade média seria:
● Segundo a média geométrica 1.5 / (1/30 + 0.5/60) = 36 km/h

○ velocidade média = 2 / (1/30 + 1/60) = 40 km/h
76
Média Harmônica
● Vantagens
○ Uma média harmônica é rigidamente definida
○ É baseado em todas as observações
○ As flutuações das observações não afetam a média harmônica
○ Mais peso é dado a itens menores
● Desvantagens
○ Não é facilmente compreensível
○ Difícil de calcular
77
Quando usar cada uma?!
Temos algumas regras que podem nos ajudar:
● A soma dos valores faz sentido. Isto

é, todos estão na mesma unidade?
○ Aritmética
● Estamos normalizando dados ou
trabalhando com dados em escalas
diferentes:
○ Geométrica
● Estamos trabalhando com taxas? Ou
queremos ponderar valores?
○ Harmônica
78
Referências
● Computational and Inferential Thinking

Chapter 10: Sampling and Empirical Distributions
https://www.inferentialthinking.com/
● Fundamentos Estatísticos de Ciência dos Dados
Capítulo 2 e 4: Estatística Básica e Vetores Aleatórios
https://homepages.dcc.ufmg.br/~assuncao/EstatCC/FECD.pdf
79

05 - Tendencias Centrais

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

05 - Tendencias Centrais

Enviado por

Direitos autorais:

Formatos disponíveis

Tendências Centrais

Introdução à Ciência dos Dados

Pedro Olmo Stancioli Vaz de Melo

Vamos começar explorando a base da Billboard de 2000 até 2018

Considere todo o universo de músicas existentes

Dentro de todo o universo, existem subconjuntos de músicas

● Raramente teremos acesso a toda população

● Por enquanto, nosso foco é nas tendências da amostra

● O quão representativas são as minhas estimativas nesta amostra?

Uma descrição óbvia de qualquer conjunto de dados é

● Para um conjunto de dados pequeno o suficiente, isso pode até ser a

● Já vimos que visualizações de dados podem oferecer boas descrições

○ CDF (Cumulative Distribution Function) empírica

Conta o número de observações dentro de uma faixa

Para isto temos que definir alguns bins

Ou seja, agrupar dados no eixo-x

160 165 170 175 180 185 190

Qual é a contagem de cada valor presente nos dados?

Observe a duração típica e a variabilidade nos dados

as durações estão concentradas ao redor de 4 minutos

Poucas músicas com mais de 6 e menos de 2 minutos

Há valores muitos distantes da duração típica?

Há algumas músicas bem longas!

○ 2. Sumarização de dados em boxplots/violinplots/beanplots

● Para dados numéricos contínuos, às vezes é melhor plotar a CDF empírica

Ou então: statsmodels.distributions.empirical_distribution.ECDF — statsmodels

163 168 170

Podemos plotar uma linha, representa uma função

60% DOS VALORES

from statsmodels.distributions.empirical_distribution import

MPL SUPORTA LATEX

Então você pode começar a gerar algumas estatísticas mais simples:

Normalmente, queremos saber onde nossos dados

A linha preta representa a média, que é

O conjunto de músicas da billboard tem

● Considere uma lista ordenada de dados A = [a1, a2, …, an]

○ Para n=11 números, o número do meio é 6

● Então a mediana pode ser calculada como:

X = {1, 2, 3, 4, 5, 99, 100}

X = {1, 2, 3, 4.5, 5, 99, 100}

● Se tivermos n pontos de dados e um deles aumentar em alguma quantidade

○ Varia suavemente conforme nossos dados são alterados

■ Se tivermos n pontos de dados e um deles aumentar em alguma quantidade pequena ε,

■ Isso torna a média passível de todo tipo de truque de cálculo

● Existem truques não óbvios para calcular eficientemente medianas sem

○ A estrela da NBA (e outlier) Michael Jordan formou-se em geografia

observe como a mediana é um pouco menor

Para conjuntos de dados compostos

no máximo será igual

● A média dá um falso sentimento de igualdade

● Uma generalização da mediana é o quantil, que representa o menor valor

● Alguns quantis têm nomes especiais:

○ Os 100-quantis são chamados percentis

○ Os 10-quantis são chamados decis

○ Os 5-quantis são chamados quintis

○ Os 4-quantis são chamados quartis

○ Os 3-quantis são chamados tercis

Separa os dados em quatro partes iguais:

● primeiro quartil (designado por Q1/4) = quartil inferior

● segundo quartil (designado por Q2/4) = mediana

● terceiro quartil (designado por Q3/4) = quartil superior

É uma boa forma de sumarizar os quartis dos dados.

● Medidas de como se espalham nossos dados