Shell-Neighbour Method and Its Application in Missing Data

Shell-neighbour method and its application in missing data imputation (Zhang, S.
)
Mrcio Vianna
Sumrio
Introduo Descrio do SNI (atributos numricos) Generalizao para atributos mistos Experimento Concluses Referncias adicionais
Introduo
Valores faltantes so comuns Para evitar descarte: imputao Suposies
MAR
(missing at random) MCAR (missing completely at random) NMAR (not missing at random)
Introduo
Alguns algoritmos:
Regresso
linear C4.5 (rvores de deciso) Expectation maximization (EM): estado da arte k-NNI
Introduo
O k-NN, apesar de til, tem limitaes:

k
fixo Pode incutir tendncias:
Introduo
O SNI se baseia no k-NNI e se prope a corrigir essas falhas. Vizinhos mais prximos direita e esquerda. Ponderao com a distncia.
Introduo
Notao:
Definimos:
Descrio do SNI
Para atributos numricos: distncia euclideana Nmero de vizinhos mais prximos de um ponto i: s Obteno de s: cross-validation
Descrio do SNI
Uma vez obtido s, resta coletar os vizinhos. Seja T um ponto com dados faltantes.
Descrio do SNI
Agora calcula-se a mdia ponderada dos valores de Y associados aos s pares T+ e T-. Esse valor imputado.
Descrio do SNI
Passos:
Para
cada dado faltante, coletar os s vizinhos mais prximos ( esquerda e direita) Calcular os pesos e a mdia ponderada de cada um dos pares. Repetir.
Generalizao
Pode-se generalizar o algoritmo para, alm de atributos numricos, abranger atributos binrios, categricos, ordinais, dentre outros. Necessidade de:
Definir
mtricas Normalizar dados
Generalizao
Normalizao:
Necessria
para que a ordem de grandeza dos atributos seja a mesma Influncia nas mtricas N(0,1)
Generalizao
Distncias para dados contnuos

Euclideana Minkowski
(generalizao)
Generalizao
Generalizao
Distncia para dados binrios
q:
1 para i e j r: 1 para i; 0 para j s: 0 para i; 1 para j t: 0 para i e j
Generalizao
Se os dados forem assimtricos (algum resultado mais importante, ex.: HIV)
Removemos t (0 para ambos)
Generalizao
Distncia para dados categricos (ex.: cor)
m: nmero de variveis em que que i e j pertencem mesma categoria p: nmero total de variveis
Generalizao
Distncia para dados ordinais Ordinais so dados categricos ordenados (ex.: qualidade)
Generalizao
The distance between A and B is measured by the ratio
between the amount of information needed to state the commonality of A and B and the information needed to fully describe what A and B are (Lin, 1998)
Generalizao
Distncia para dados mistos
Se o dado estiver faltando: Seno:
Generalizao
Para dados no numricos, no podemos fazer
Soluo: votao. Como no caso do k-NNI, observamos qual a categoria mais frequente entre os dados faltantes.
Experimento
Comparou-se a performance do SNI com a do k-NNI

Bancos
de dados extrados dos arquivos do UCI e do software WEKA Bancos de dado sem dados faltantes (foram removidos artificialmente, segundo o modelo MAR) Para cada banco de dados, o experimento foi feito 1000 vezes
Experimento
Medida da performance da imputao: RMSE
ei: valor original do atributo i: valor imputado
Experimento
Resultados
Resultados
Resultados
Resultados
O SNI superou o k-NN em todos os bancos de dados cujos atributos eram numricos. A diferena mxima ocorre para valores de aproximadamente 10% de dados faltantes.
Resultados
Para dados categricos:
As diferenas foram mais estreitas
Concluses
O uso do SNI parece ser mais razovel que o uso do k-NN.

Trabalhos futuros: aprendizado de mquinas.
Referncias
ZHANG, S., Shell-neighbour method and its application in missing data imputation. Applied Intelligence, 35, p.123-133 (2011). LIN, D., Na information-theoretic definition of similarity. In: ICML-98, p. 2803-2808.

Shell-Neighbour Method and Its Application in Missing Data

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Shell-Neighbour Method and Its Application in Missing Data

Enviado por

Direitos autorais:

Formatos disponíveis

Shell-neighbour method and its application in missing data imputation (Zhang, S.

O k-NN, apesar de til, tem limitaes:

fixo Pode incutir tendncias:

mtricas Normalizar dados

Distncias para dados contnuos

Distncia para dados binrios

1 para i e j r: 1 para i; 0 para j s: 0 para i; 1 para j t: 0 para i e j

Se os dados forem assimtricos (algum resultado mais importante, ex.: HIV)

Removemos t (0 para ambos)

Distncia para dados categricos (ex.: cor)

Distncia para dados mistos

Se o dado estiver faltando: Seno:

Para dados no numricos, no podemos fazer

Comparou-se a performance do SNI com a do k-NNI

Medida da performance da imputao: RMSE

ei: valor original do atributo i: valor imputado

Para dados categricos:

As diferenas foram mais estreitas

O uso do SNI parece ser mais razovel que o uso do k-NN.

Você também pode gostar