Você está na página 1de 10

Mineração de Dados em

Biologia Molecular Tópicos


Preparação de dados Dados
Caracterização de dados
Instâncias e Atributos
Tipos de Dados
Exploração de dados
Dados univariados
André C. P. L. F. de Carvalho Medidas de localidade, espalhamento e distribuição
Monitor: Valéria Carvalho Dados multivariados
Visualização

André C P L F de Carvalho 2

Conjuntos de dados Tipos de atributos


Atributos de entrada (preditivos) Nominal
Ex.: cor, código de identificação, profissão
Nome Temp. Idade Peso Altura Ordinal
João 37 70 94 190 Saudável Ex.: gosto (ruim, médio, bom), dias da semana
Maria 38 65 60 172 Doente Intervalar
Exemplos José 39 19 70 185 Doente
(objetos, Sílvia 38 25 65 160 Saudável Ex.: data, temperatura em Celsius
padrões) Pedro 37 70 90 168 Doente Racional
Ex.: peso, tamanho, idade

Atributo alvo
André C P L F de Carvalho 3 André C P L F de Carvalho 4

Exemplo Tipos de atributos


Nominal (=, ≠)
Valores são apenas nomes diferentes
Nome Temp Enjôo Mancha Dor Salário Diagnóstico
Ordinal (<, >)
João 37.7 sim pequena sim 1000 doente Existe uma relação de ordem entre valores
Pedro 37.0 não pequena não 1100 saudável
Maria 38.2 sim grande não 600 saudável Intervalar (+, -)
José 39.0 não pequena sim 2000 doente Diferença entre valores faz sentido
Ana 37.3 não grande sim 1800 saudável Racional (*, /)
Leila 37.7 não grande sim 900 doente
Razão e diferença entre valores fazem sentido

Nominal Intervalar Ordinal Racional


André C P L F de Carvalho 5 André C P L F de Carvalho 6

1
Exercício Quantidade de valores
Definir o tipo dos seguintes atributos: Atributos também se distinguem pela
Renda mensal quantidade de valores
Número de palavras de um texto Discretos
Número finito ou infinito e enumerável de valores
Fotografia Ex.: código postal, quantidade de algum elemento
Número de RG Caso especial: valores binários
Data de nascimento Contínuos
Assumem valores contínuos, como números reais
Código de disciplina
Ex.: temperatura, peso, distância
Posição em uma corrida

André C P L F de Carvalho 7 André C P L F de Carvalho 8

Exploração de dados Estatística descritiva


Exploração preliminar dos dados facilita Descreve dados
entendimento de suas características Produz valores que resumem
Principais motivações: características de um conjunto de
Ajudar a selecionar a melhor técnica para dados
pré-processamento ou modelagem Na maioria das vezes por meio de
Estatística descritiva cálculos simples
Visualização

André C P L F de Carvalho 9 André C P L F de Carvalho 10

Estatística descritiva Frequência


Pode capturar: Proporção de vezes que um
Frequência atributo assume um dado valor
Localização ou tendência central Para um determinado conjunto de
Ex.: Média dados
Dispersão ou espalhamento Muita usada para dados categóricos
Ex.: Desvio padrão Ex.: Em um conjunto de dados
Distribuição ou formato médicos, 40% dos pacientes moram
no interior
André C P L F de Carvalho 11 André C P L F de Carvalho 12

2
Exemplo Medidas de localidade
Febre Idade Mancha Dor Diagnóstico
Dados simbólicos ou categóricos
Moda
sim 23 grande sim doente
não 9 pequena não saudável
Dados numéricos
sim 61 grande não saudável Média
sim 32 pequena sim doente
Mediana
sim 21 grande sim saudável
não 48 grande sim doente Percentil

66% das manchas são manchas grandes


André C P L F de Carvalho 13 André C P L F de Carvalho 14

Exemplo Média
Febre Idade Mancha Dor Diagnóstico
Pode ser calculada facilmente
n
1
sim
não
23
9
grande
pequena
sim
não
doente
saudável
x =
n

i =1
xi
sim 61 grande não saudável
sim 32 pequena sim doente
sim 21 grande sim saudável Problema: sensível a outliers
não 48 grande sim doente

Moda para o atributo mancha: grande


André C P L F de Carvalho 15 André C P L F de Carvalho 16

Mediana Média versus Mediana


Menos sensível a outliers que média Média é um bom indicador do meio de
Necessário ordenar valores um conjunto de valores quando os
valores estão distribuídos simetricamente
x (r +1) se n é ímpar (n = 2r + 1) Mediana indica melhor o meio

mediana( x) =  1 Se distribuição é oblíqua (assimétrica)
 (x r + x (r +1) ) se n é par (n = 2r)
2 Skewed
Se existem outliers

André C P L F de Carvalho 17 André C P L F de Carvalho 18

3
Média Podada Exercício
Trimmed mean Dado o conjunto de dados {1, 2, 3, 4,
Minimiza problema da média 5, 80}, calcular:
descartando exemplos nos extremos Média
Define porcentagem p dos exemplos a Mediana
serem eliminados
Média podada com p = 33%
Ordena os dados
Elimina (p/2)% dos exemplos em cada
extremidade

André C P L F de Carvalho 19 André C P L F de Carvalho 20

Quartis e Percentis Percentis


Mediana divide os dados ao meio Valor da amostra 100po percentil é uma
Outras medidas usam pontos de divisão valor em que:
diferentes Pelo menos 100p% das observações
Quartis dividem um conjunto ordenado de possuem um valor menor ou igual a ela
dados em quartos Pelo menos 100(1-p)% das observações
Primeiro quartil, Q1, é o valor da observação tem um valor igual ou acima
para a qual 25% do conjunto (amostra) tem
valor menor ou igual a ela Mediana é o 50o percentil
Também é o valor da amostra 25o percentil
Para cálculo, usar fórmula da mediana
Segundo quartil, Q2, = mediana
André C P L F de Carvalho 21 André C P L F de Carvalho 22

Cálculo dos Percentis Exemplo


Ordenar os valores Obter os quartis e a 95o percentil para
Posição do p-percentil: o conjunto de dados abaixo:
 p 1 6.2 7.67 8.3 9.0 9.4
posição =  ×n+  9.8 10.5 10.7 11.0 12.3
100 2

Arredonda posição para o valor inteiro mais


próximo
Retornar o valor nessa posição

André C P L F de Carvalho 23 André C P L F de Carvalho 24

4
Exemplo Exercício
Obter os quartis e a 95o percentil para Calcular quartis inferior e superior e o
o conjunto de dados abaixo: 60º percentil para os valores
6.2 7.67 8.3 9.0 9.4 16, 25, 4, 18, 11, 13, 20, 8, 11 e 9
9.8 10.5 10.7 11.0 12.3
Q1: np = 0.25x10+ 0.5= 3
usar o terceiro valor: Q1 = 8.3
Q2: np = 0.5x10 + 0.5 = 5.5
para a mediana, usar a média entre o quinto e o sexto valor: Q2 = 9.6
Q3: np = 0.75x10 + 0.5= 8
usar o oitavo valor: Q3 = 10.7
P0.95: np = 0.95x10 + 0.5= 10
usar o décimo valor: P0.95 = 12.3

André C P L F de Carvalho 25 André C P L F de Carvalho 26

Exercício Exercício
Calcular quartis inferior e superior para Dados os números abaixo, calcular a
os valores mediana, o primeiro quartil e o segundo
16, 25, 4, 18, 11, 13, 20, 8, 11 e 9 quartil
4, 8, 9, 11, 11, 13, 16, 18, 20, 25 23, 7, 12, 6, 10
Q1 = 23, 7, 12, 6, 10, 7
Q3 =
60º percentil =

André C P L F de Carvalho 27 André C P L F de Carvalho 28

Exercício Boxplot
Obter os quartis, o 30o percentil e o 95o Gráfico que resume informações dos
percentil para o conjunto de dados: quartis
3,20 11,70 13,64 15,60 15,89 28,44 29,07
37,34 41,81 43,35 43,94 49,51 49,82 51,20
Q1 Q2 Q3
51,43 52,47 53,72 53,92 54,03 56,89 63,80 mínimo máximo
66,40 68,64 70,15 70,98 74,52 76,68 77,84
80,91 84,04 85,70 86,48 88,92 89,28 91,36
91,62 98,79 102,39 104,21 124,27

André C P L F de Carvalho 29 André C P L F de Carvalho 30

5
Medidas de Espalhamento Intervalo
Medem dispersão ou espalhamento de um Medida mais simples, mostra
conjunto de valores espalhamento máximo
Indicam se os dados estão: Sejam {x1, ..., xn} os valores do atributo
Amplamente espalhados ou
x para n objetos
Relativamente concentrados em torno de um
ponto (ex. média) r ( x) = max( x) − min( x)
Medidas comuns Pode não ser uma boa medida
Intervalo Se a maioria dos valores forem próximos
Variância de um ponto, com um pequeno número de
Desvio padrão valores extremos
André C P L F de Carvalho 31 André C P L F de Carvalho 32

Variância Momento
Medida preferida para analisar espalhamento Estima parâmetros de uma população de
dos dados valores
n

1 n ∑ (x − x) k

var(v) = ∑ (vi − v ) 2
i n
momk = i =1
ou µ k = ∑ ( xi − µ ) k p( xi )
n − 1 i =1 ( n − 1) i =1
p( xi ) = f i
Denominador m-1: correção de Bessel, usada para Valor de k define a medida de momento
uma melhor estimativa da variância verdadeira
Desvio padrão: raiz quadrada da variância

André C P L F de Carvalho 33 André C P L F de Carvalho 34

Momento Obliquidade
K-ésimo momento central ou centrado Terceiro momento (Skewness)
K=1: 0 (primeiro momento em torno da Mede a simetria da distribuição dos dados em
origem – primeiro momento central) torno da média
Distribuição simétrica tem a mesma aparência à
K=2: variância (segundo momento central) direita e à esquerda do ponto central
K=3: obliquidade (terceiro momento n

central) ∑ (x − x)i
3

Dividido por σ3 para tornar a


Obl = i =1
(n − 1)σ 3 medida independente de escala
K=4: curtose (quarto momento central)
n
1
µ3 =
σ3
∑ (x
i =1
i − µ ) 3 p ( xi )

André C P L F de Carvalho 35 André C P L F de Carvalho 36

6
Curtose Curtose
Quarto momento (Kurtosis) Para uma distribuição normal padrão,
Medida de dispersão que captura o Curt = 3
achatamento da função de distribuição Média = 0 e desvio padrão = 1
Verifica se os dados apresentam um pico ou
são achatados em relação a uma distribuição
Para que a distribuição normal padrão
normal tenha curtose = 0, usa-se
n n

∑ (x − x)i
4
∑ (x − x)
i
4

Curt = i =1
Curt = i =1
−3
(n − 1)σ 4 (n − 1)σ 4

André C P L F de Carvalho 37 André C P L F de Carvalho 38

Histograma Exercício
Melhor forma para verificar Obter o valor dos 4 primeiros
graficamente curtose e obliquidade momentos centrais para os dados:
Obliquidade 3,20 11,70 13,64 15,60 15,89 28,44 29,07

Positiva Simétrica Negativa

Curtose

Positiva Normal Negativa


André C P L F de Carvalho 39 André C P L F de Carvalho 40

Dados Multivariados Dados Multivariados


Aqueles que possuem vários atributos Medidas de espalhamento
Medidas de localização Podem ser calculadas para cada atributo
Podem ser obtidas calculando medida de independentemente dos demais
localização de cada atributo separadamente Usando qualquer medida de espalhamento
Ex.: média, mediana, ... Variáveis contínuas
Média dos objetos de um conjunto de dados Espalhamento de um conjunto de dados é
com m atributos é dada por: melhor capturado por uma matriz de
covariância
x = ( x1 ,..., xm )
Cada elemento é a covariância entre dois atributos

André C P L F de Carvalho 41 André C P L F de Carvalho 42

7
Dados Multivariados Exercício
Matriz de covariância S para um conjunto de Calcular a matriz de covariância para o
dados com n objetos conjunto de dados:
sij = covariância ( xi , x j )
1 n
sij = ∑ ( xki − xi )( xkj − x j )
n − 1 k =1
Peso Altura Temperatura
73,2 170 37,5
67,5 165 38
Onde:
90 190 37,2
xi: Valor médio do i-ésimo atributo
49 152 37,8
xki: Valor do i-ésimo atributo para o k-ésimo objeto
Obs: covariância (xi, xi) = variância (xi)
Matriz de covariância tem em sua diagonal as variâncias
dos atributos

André C P L F de Carvalho 43 André C P L F de Carvalho 44

Dados Multivariados Exemplo


Covariância de dois atributos
Mede o grau com que os atributos variam Peso Altura Peso Altura Peso Altura
juntos 60 170 60 190 60 170
Depende da magnitude dos atributos 70 180 70 180 70 190
80 190 80 170 80 180
Valor próximo de 0:
Atributos não têm um relacionamento linear
Altura

Altura

Altura
Valor positivo:
Atributos diretamente relacionados
Peso Peso Peso
Quando o valor de um atributo aumenta, o do
outro também aumenta

André C P L F de Carvalho 45 André C P L F de Carvalho 46

Dados Multivariados Dados Multivariados


Covariância de dois atributos Correlação
Indica força da relação entre dois atributos
Não é possível avaliar o relacionamento
Matriz de correlação R
entre dois atributos olhando apenas a
covariância covariância ( xi , x j )
rij = correlação( xi , x j ) =
Correlação entre dois atributos dá uma indicação si s j
Onde:
mais clara da força da relação linear entre eles xi: i-ésimo atributo
Mais popular que covariância si: Variância do atributo xi

Obs: correlação (xi, xi) = 1


Elementos da diagonal tem valor 1
Demais elementos têm valor entre –1 e +1
André C P L F de Carvalho 47 André C P L F de Carvalho 48

8
Exercício Outras formas de sumarizar dados
Calcular a matriz de correlação para o Visualização gráfica
conjunto de dados: Em vários casos, facilita compreensão de
aspectos mais complicados dos dados
Peso Altura Temperatura
73,2 170 37,5 Ex.: Histogramas
67,5 165 38
90 190 37,2
49 152 37,8

André C P L F de Carvalho 49 André C P L F de Carvalho 50

Diagrama de torta Scatter Plot


Frequências relativas podem ser vistas Usado para ilustrar correlação linear
no diagrama circular Cada objeto é associado a uma posição
em um gráfico
Diagrama de torta (pizza) Valores dos atributos definem sua posição
Os valores podem ser inteiros ou reais
Matrizes de scatter plot resumem relação
entre vários pares de atributos

André C P L F de Carvalho 51 André C P L F de Carvalho 52

Scatter Plot Faces de Chernoff


Matriz para atributos do conjunto iris Criado por Herman Chernoff
Mapeia os valores dos atributos para
Diferentes classes
são indicadas por imagens mais familiares: faces
cores diferentes Cada objeto é representado por uma face
Cada atributo é associado a uma
característica específica de uma face
Baseia-se na habilidade humana de
distinguir faces

André C P L F de Carvalho 53 André C P L F de Carvalho 54

9
Faces de Chernoff Exercício
Setosa Representar os dados a seguir usando
faces de Chernoff
Febre Idade Mancha Dor Diagnóstico
Versicolour
sim 23 grande sim doente
não 9 pequena não saudável
sim 61 grande não saudável
sim 32 pequena sim doente
sim 21 grande sim saudável
Virginica
não 48 grande sim doente
André C P L F de Carvalho 55 André C P L F de Carvalho 56

Considerações Finais Perguntas


Dados
Caracterização de dados
Instâncias e Atributos
Tipos de Dados
Exploração de dados
Dados univariados
Medidas de localidade, espalhamento e
distribuição
Dados multivariados
Visualização

André C P L F de Carvalho 57 André C P L F de Carvalho 58

10

Você também pode gostar