Escolar Documentos
Profissional Documentos
Cultura Documentos
Aula06 Preparacao
Aula06 Preparacao
André C P L F de Carvalho 2
Atributo alvo
André C P L F de Carvalho 3 André C P L F de Carvalho 4
1
Exercício Quantidade de valores
Definir o tipo dos seguintes atributos: Atributos também se distinguem pela
Renda mensal quantidade de valores
Número de palavras de um texto Discretos
Número finito ou infinito e enumerável de valores
Fotografia Ex.: código postal, quantidade de algum elemento
Número de RG Caso especial: valores binários
Data de nascimento Contínuos
Assumem valores contínuos, como números reais
Código de disciplina
Ex.: temperatura, peso, distância
Posição em uma corrida
2
Exemplo Medidas de localidade
Febre Idade Mancha Dor Diagnóstico
Dados simbólicos ou categóricos
Moda
sim 23 grande sim doente
não 9 pequena não saudável
Dados numéricos
sim 61 grande não saudável Média
sim 32 pequena sim doente
Mediana
sim 21 grande sim saudável
não 48 grande sim doente Percentil
Exemplo Média
Febre Idade Mancha Dor Diagnóstico
Pode ser calculada facilmente
n
1
sim
não
23
9
grande
pequena
sim
não
doente
saudável
x =
n
∑
i =1
xi
sim 61 grande não saudável
sim 32 pequena sim doente
sim 21 grande sim saudável Problema: sensível a outliers
não 48 grande sim doente
3
Média Podada Exercício
Trimmed mean Dado o conjunto de dados {1, 2, 3, 4,
Minimiza problema da média 5, 80}, calcular:
descartando exemplos nos extremos Média
Define porcentagem p dos exemplos a Mediana
serem eliminados
Média podada com p = 33%
Ordena os dados
Elimina (p/2)% dos exemplos em cada
extremidade
4
Exemplo Exercício
Obter os quartis e a 95o percentil para Calcular quartis inferior e superior e o
o conjunto de dados abaixo: 60º percentil para os valores
6.2 7.67 8.3 9.0 9.4 16, 25, 4, 18, 11, 13, 20, 8, 11 e 9
9.8 10.5 10.7 11.0 12.3
Q1: np = 0.25x10+ 0.5= 3
usar o terceiro valor: Q1 = 8.3
Q2: np = 0.5x10 + 0.5 = 5.5
para a mediana, usar a média entre o quinto e o sexto valor: Q2 = 9.6
Q3: np = 0.75x10 + 0.5= 8
usar o oitavo valor: Q3 = 10.7
P0.95: np = 0.95x10 + 0.5= 10
usar o décimo valor: P0.95 = 12.3
Exercício Exercício
Calcular quartis inferior e superior para Dados os números abaixo, calcular a
os valores mediana, o primeiro quartil e o segundo
16, 25, 4, 18, 11, 13, 20, 8, 11 e 9 quartil
4, 8, 9, 11, 11, 13, 16, 18, 20, 25 23, 7, 12, 6, 10
Q1 = 23, 7, 12, 6, 10, 7
Q3 =
60º percentil =
Exercício Boxplot
Obter os quartis, o 30o percentil e o 95o Gráfico que resume informações dos
percentil para o conjunto de dados: quartis
3,20 11,70 13,64 15,60 15,89 28,44 29,07
37,34 41,81 43,35 43,94 49,51 49,82 51,20
Q1 Q2 Q3
51,43 52,47 53,72 53,92 54,03 56,89 63,80 mínimo máximo
66,40 68,64 70,15 70,98 74,52 76,68 77,84
80,91 84,04 85,70 86,48 88,92 89,28 91,36
91,62 98,79 102,39 104,21 124,27
5
Medidas de Espalhamento Intervalo
Medem dispersão ou espalhamento de um Medida mais simples, mostra
conjunto de valores espalhamento máximo
Indicam se os dados estão: Sejam {x1, ..., xn} os valores do atributo
Amplamente espalhados ou
x para n objetos
Relativamente concentrados em torno de um
ponto (ex. média) r ( x) = max( x) − min( x)
Medidas comuns Pode não ser uma boa medida
Intervalo Se a maioria dos valores forem próximos
Variância de um ponto, com um pequeno número de
Desvio padrão valores extremos
André C P L F de Carvalho 31 André C P L F de Carvalho 32
Variância Momento
Medida preferida para analisar espalhamento Estima parâmetros de uma população de
dos dados valores
n
1 n ∑ (x − x) k
var(v) = ∑ (vi − v ) 2
i n
momk = i =1
ou µ k = ∑ ( xi − µ ) k p( xi )
n − 1 i =1 ( n − 1) i =1
p( xi ) = f i
Denominador m-1: correção de Bessel, usada para Valor de k define a medida de momento
uma melhor estimativa da variância verdadeira
Desvio padrão: raiz quadrada da variância
Momento Obliquidade
K-ésimo momento central ou centrado Terceiro momento (Skewness)
K=1: 0 (primeiro momento em torno da Mede a simetria da distribuição dos dados em
origem – primeiro momento central) torno da média
Distribuição simétrica tem a mesma aparência à
K=2: variância (segundo momento central) direita e à esquerda do ponto central
K=3: obliquidade (terceiro momento n
central) ∑ (x − x)i
3
6
Curtose Curtose
Quarto momento (Kurtosis) Para uma distribuição normal padrão,
Medida de dispersão que captura o Curt = 3
achatamento da função de distribuição Média = 0 e desvio padrão = 1
Verifica se os dados apresentam um pico ou
são achatados em relação a uma distribuição
Para que a distribuição normal padrão
normal tenha curtose = 0, usa-se
n n
∑ (x − x)i
4
∑ (x − x)
i
4
Curt = i =1
Curt = i =1
−3
(n − 1)σ 4 (n − 1)σ 4
Histograma Exercício
Melhor forma para verificar Obter o valor dos 4 primeiros
graficamente curtose e obliquidade momentos centrais para os dados:
Obliquidade 3,20 11,70 13,64 15,60 15,89 28,44 29,07
Curtose
7
Dados Multivariados Exercício
Matriz de covariância S para um conjunto de Calcular a matriz de covariância para o
dados com n objetos conjunto de dados:
sij = covariância ( xi , x j )
1 n
sij = ∑ ( xki − xi )( xkj − x j )
n − 1 k =1
Peso Altura Temperatura
73,2 170 37,5
67,5 165 38
Onde:
90 190 37,2
xi: Valor médio do i-ésimo atributo
49 152 37,8
xki: Valor do i-ésimo atributo para o k-ésimo objeto
Obs: covariância (xi, xi) = variância (xi)
Matriz de covariância tem em sua diagonal as variâncias
dos atributos
Altura
Altura
Valor positivo:
Atributos diretamente relacionados
Peso Peso Peso
Quando o valor de um atributo aumenta, o do
outro também aumenta
8
Exercício Outras formas de sumarizar dados
Calcular a matriz de correlação para o Visualização gráfica
conjunto de dados: Em vários casos, facilita compreensão de
aspectos mais complicados dos dados
Peso Altura Temperatura
73,2 170 37,5 Ex.: Histogramas
67,5 165 38
90 190 37,2
49 152 37,8
9
Faces de Chernoff Exercício
Setosa Representar os dados a seguir usando
faces de Chernoff
Febre Idade Mancha Dor Diagnóstico
Versicolour
sim 23 grande sim doente
não 9 pequena não saudável
sim 61 grande não saudável
sim 32 pequena sim doente
sim 21 grande sim saudável
Virginica
não 48 grande sim doente
André C P L F de Carvalho 55 André C P L F de Carvalho 56
10