Você está na página 1de 32

Shell-neighbour method and its application in missing data imputation (Zhang, S.

)
Mrcio Vianna

Sumrio
Introduo Descrio do SNI (atributos numricos) Generalizao para atributos mistos Experimento Concluses Referncias adicionais

Introduo
Valores faltantes so comuns Para evitar descarte: imputao Suposies

MAR

(missing at random) MCAR (missing completely at random) NMAR (not missing at random)

Introduo

Alguns algoritmos:
Regresso

linear C4.5 (rvores de deciso) Expectation maximization (EM): estado da arte k-NNI

Introduo

O k-NN, apesar de til, tem limitaes:


k

fixo Pode incutir tendncias:

Introduo
O SNI se baseia no k-NNI e se prope a corrigir essas falhas. Vizinhos mais prximos direita e esquerda. Ponderao com a distncia.

Introduo

Notao:

Definimos:

Descrio do SNI
Para atributos numricos: distncia euclideana Nmero de vizinhos mais prximos de um ponto i: s Obteno de s: cross-validation

Descrio do SNI

Uma vez obtido s, resta coletar os vizinhos. Seja T um ponto com dados faltantes.

Descrio do SNI

Agora calcula-se a mdia ponderada dos valores de Y associados aos s pares T+ e T-. Esse valor imputado.

Descrio do SNI

Passos:
Para

cada dado faltante, coletar os s vizinhos mais prximos ( esquerda e direita) Calcular os pesos e a mdia ponderada de cada um dos pares. Repetir.

Generalizao
Pode-se generalizar o algoritmo para, alm de atributos numricos, abranger atributos binrios, categricos, ordinais, dentre outros. Necessidade de:

Definir

mtricas Normalizar dados

Generalizao

Normalizao:
Necessria

para que a ordem de grandeza dos atributos seja a mesma Influncia nas mtricas N(0,1)

Generalizao

Distncias para dados contnuos


Euclideana Minkowski

(generalizao)

Generalizao

Generalizao

Distncia para dados binrios

q:

1 para i e j r: 1 para i; 0 para j s: 0 para i; 1 para j t: 0 para i e j

Generalizao

Se os dados forem assimtricos (algum resultado mais importante, ex.: HIV)

Removemos t (0 para ambos)

Generalizao

Distncia para dados categricos (ex.: cor)

m: nmero de variveis em que que i e j pertencem mesma categoria p: nmero total de variveis

Generalizao

Distncia para dados ordinais Ordinais so dados categricos ordenados (ex.: qualidade)

Generalizao
The distance between A and B is measured by the ratio

between the amount of information needed to state the commonality of A and B and the information needed to fully describe what A and B are (Lin, 1998)

Generalizao

Distncia para dados mistos

Se o dado estiver faltando: Seno:

Generalizao

Para dados no numricos, no podemos fazer

Soluo: votao. Como no caso do k-NNI, observamos qual a categoria mais frequente entre os dados faltantes.

Experimento

Comparou-se a performance do SNI com a do k-NNI


Bancos

de dados extrados dos arquivos do UCI e do software WEKA Bancos de dado sem dados faltantes (foram removidos artificialmente, segundo o modelo MAR) Para cada banco de dados, o experimento foi feito 1000 vezes

Experimento

Medida da performance da imputao: RMSE

ei: valor original do atributo i: valor imputado

Experimento

Resultados

Resultados

Resultados

Resultados
O SNI superou o k-NN em todos os bancos de dados cujos atributos eram numricos. A diferena mxima ocorre para valores de aproximadamente 10% de dados faltantes.

Resultados

Para dados categricos:

As diferenas foram mais estreitas

Concluses

O uso do SNI parece ser mais razovel que o uso do k-NN.


Trabalhos futuros: aprendizado de mquinas.

Referncias
ZHANG, S., Shell-neighbour method and its application in missing data imputation. Applied Intelligence, 35, p.123-133 (2011). LIN, D., Na information-theoretic definition of similarity. In: ICML-98, p. 2803-2808.

Você também pode gostar