Escolar Documentos
Profissional Documentos
Cultura Documentos
Shell-Neighbour Method and Its Application in Missing Data
Shell-Neighbour Method and Its Application in Missing Data
)
Mrcio Vianna
Sumrio
Introduo Descrio do SNI (atributos numricos) Generalizao para atributos mistos Experimento Concluses Referncias adicionais
Introduo
Valores faltantes so comuns Para evitar descarte: imputao Suposies
MAR
(missing at random) MCAR (missing completely at random) NMAR (not missing at random)
Introduo
Alguns algoritmos:
Regresso
linear C4.5 (rvores de deciso) Expectation maximization (EM): estado da arte k-NNI
Introduo
Introduo
O SNI se baseia no k-NNI e se prope a corrigir essas falhas. Vizinhos mais prximos direita e esquerda. Ponderao com a distncia.
Introduo
Notao:
Definimos:
Descrio do SNI
Para atributos numricos: distncia euclideana Nmero de vizinhos mais prximos de um ponto i: s Obteno de s: cross-validation
Descrio do SNI
Uma vez obtido s, resta coletar os vizinhos. Seja T um ponto com dados faltantes.
Descrio do SNI
Agora calcula-se a mdia ponderada dos valores de Y associados aos s pares T+ e T-. Esse valor imputado.
Descrio do SNI
Passos:
Para
cada dado faltante, coletar os s vizinhos mais prximos ( esquerda e direita) Calcular os pesos e a mdia ponderada de cada um dos pares. Repetir.
Generalizao
Pode-se generalizar o algoritmo para, alm de atributos numricos, abranger atributos binrios, categricos, ordinais, dentre outros. Necessidade de:
Definir
Generalizao
Normalizao:
Necessria
para que a ordem de grandeza dos atributos seja a mesma Influncia nas mtricas N(0,1)
Generalizao
(generalizao)
Generalizao
Generalizao
q:
Generalizao
Generalizao
m: nmero de variveis em que que i e j pertencem mesma categoria p: nmero total de variveis
Generalizao
Distncia para dados ordinais Ordinais so dados categricos ordenados (ex.: qualidade)
Generalizao
The distance between A and B is measured by the ratio
between the amount of information needed to state the commonality of A and B and the information needed to fully describe what A and B are (Lin, 1998)
Generalizao
Generalizao
Soluo: votao. Como no caso do k-NNI, observamos qual a categoria mais frequente entre os dados faltantes.
Experimento
de dados extrados dos arquivos do UCI e do software WEKA Bancos de dado sem dados faltantes (foram removidos artificialmente, segundo o modelo MAR) Para cada banco de dados, o experimento foi feito 1000 vezes
Experimento
Experimento
Resultados
Resultados
Resultados
Resultados
O SNI superou o k-NN em todos os bancos de dados cujos atributos eram numricos. A diferena mxima ocorre para valores de aproximadamente 10% de dados faltantes.
Resultados
Concluses
Referncias
ZHANG, S., Shell-neighbour method and its application in missing data imputation. Applied Intelligence, 35, p.123-133 (2011). LIN, D., Na information-theoretic definition of similarity. In: ICML-98, p. 2803-2808.