Escolar Documentos
Profissional Documentos
Cultura Documentos
2
Amostra vs. População
Universo de músicas
(tamanho = N)
3
Amostra vs. População
Músicas da
Billboard
(tamanho = n)
Universo de músicas
(tamanho = N)
4
Amostra vs. População
5
O Grande Problema da Ciência de Dados
6
Descrevendo um único conjunto de dados
Problemas?
7
Descrevendo um único conjunto de dados
○ Gráficos de dispersão
9
Histogramas
188, 170, 189, 163, 183, 171, 185, 168, 173, ... O bin [185,190)
10
Histograma
11
Histograma
12
Histograma
13
Como escolher o número de bins?
● É uma arte
● Este é um problema de histogramas
● Alternativas
○ 1. Gráficos de distribuições cumulativas (CDF e CCDF)
14
CDF Empírica
15
CDF Empírica
Código
1. Ordene os dados
def ecdf(data):
2. x = []; y = []
x = np.sort(data)
3. Para i = 0 até |D| count = np.arange(len(data))
a. y[i] = conte quantos pontos < D[i] y = count.cumsum()
b. x[i] = D[i] y = y / y.max()
4. Normalize em y return x, y
16
CDF Empírica
● Ordene os valores
● Conte quantos vêm antes (são menores ou iguais)
163, 168, 170, 171, 173, 183, 185, 188, 189, ...
17
CDF Empírica
18
CDF Empírica
normalizamos o eixo y, fração de itens ≤ x
19
Leitura
Quase 100% dos valores <= 8
4.2
20
Na prática
https://www.statsmodels.org/devel/generated/statsmodels.distributions.empirical_distribution.ECDF.html
21
Descrevendo um único conjunto de dados
O histograma é bem descritivo, mas pode ser complicado para uma primeira
comunicação
22
Tendências Centrais
23
Média
Média
25
Mediana
X = {1, 2, 3, 4, 5, 6}
27
Mediana vs. média
X = {1, 2, 3, 4, 5, 9}
28
Mediana vs. média
X = {1, 2, 3, 4, 5, 99}
29
Mediana vs. média
30
Mediana vs. média
31
Mediana vs. média
32
Mediana vs. média
● Média
○ Mais simples de calcular
● Mediana,
○ Temos que ordenar nossos dados
○ Alterar um dos nossos pontos de dados em uma pequena quantidade ε pode aumentar a
mediana por ε, por algum número menor que ε ou não a modificar de qualquer forma
33
Mediana vs. média
○ A razão disso?
35
Mediana vs. média
Uma música do Dream Theater
36
Mediana vs. média
37
Quantil
39
Quartis
40
Quartis
41
Boxplot
42
Boxplot
● Mostra os 3 quartis
● Mostra também whiskers superiores e inferiores
○ Mais complicado de interpretar, alguns usam +- 1.5 * Interquartile Range
○ Outros preferem usar P(X < x) = 95% no inferior e P(X > x) = 95% no superior
43
Boxplot das Músicas
44
Exemplo Seaborn
45
Moda
Outra medida para tendência central dos dados é a moda, que é(são) o(s)
valor(es) mais comum(ns):
Quais são os melhores descritores?
Quais são os melhores descritores?
Média
Mediana
Moda
Dispersão
● Se o intervalo for grande, o max é muito maior que o min e os dados estão
mais espalhados
● Como a mediana, o intervalo não depende de todo o conjunto de dados
○ Um conjunto de dados cujos pontos são todos 0 ou 100 tem o mesmo intervalo que um
conjunto de dados cujos valores são 0, 100 e muitos 50s
○ Mas parece que o primeiro conjunto de dados "deveria" estar mais espalhado, certo?
Variância
Parece que a variância é quase o desvio médio da média, exceto pelo fato de
estarmos dividindo por n-1 em vez de n
De fato, quando estamos lidando com uma amostra de uma população maior,
é apenas uma estimativa da média real
● Quaisquer que sejam as unidades em que nossos dados estão (por exemplo,
"# de amigos"), todas as nossas medidas de tendência central estão nessa
mesma unidade
● O intervalo será similarmente nessa mesma unidade
● A variância, por outro lado, tem unidades que são o quadrado das unidades
originais (por exemplo, " # de amigos ao quadrado")
Desvio padrão
Como pode ser difícil entender essa medida, muitas vezes olhamos para o
desvio padrão s:
Intervalo interquartil (interquartile range)
Se nosso usuário mais amigável tivesse 2000 amigos, o desvio padrão seria
muito maior somente por causa desse usuário
Uma alternativa mais robusta calcula a diferença entre o valor do 75º e do 25º
percentil:
terceiro quartil primeiro quartil
Dispersão em dados bem comportados
61
Dispersão do “número de amigos”
Dica valiosa
63
Transformadas
64
Dispersão em dados de “cauda pesada”
Exemplo prático
← the euphoria → 66
mais fácil de ler em log
observe os eixos
código python meio chato, veja o notebook
67
Outras Medidas
68
Outras médias
média geométrica
é boa para dados em escalas diferentes!
69
Problemas ao sumarizar dados
70
Média Geométrica vs. Média Aritmética
72
Valores em unidades diferentes
73
Valores em unidades diferentes
74
Média Geométrica
● Vantagens
○ Uma média geométrica é baseada em todas as observações
○ É rigidamente definida
75
Média Harmônica
● Vantagens
○ Uma média harmônica é rigidamente definida
● Desvantagens
○ Não é facilmente compreensível
○ Difícil de calcular
77
Quando usar cada uma?!
79