Você está na página 1de 19

Neurocomputação 239 (2017) 39-57

listas de conteúdos disponíveis em ScienceDirect

Neurocomputação

Página inicial do jornal: www.elsevier.com/locate/neucom

UMA Pesquisa sobre dados pré-processamento para mineração fluxo de dados: Estado actual e futuro instruções

Sergio Ramírez-Gallego uma , * , Bartosz Krawczyk b , Salvador García uma , Michał Wo ' zniak c ,
Francisco Herrera uma , d
uma Departamento de Ciência da Computação e Arti fi cial Intelligence, CITIC-UGR, Universidade de Granada, Granada 18071, Espanha

b Departamento de Ciência da Computação, Virginia Commonwealth University, Richmond, VA 23284, EUA


c Departamento de Sistemas e Redes de Computadores, Wroclaw University of Science and Technology, Wyb. Wyspia '
nskiego 27, Wrocław 50-370, Polônia
d Faculdade de computação e Tecnologia da Informação, King Abdulaziz Universidade, Jeddah, Arábia Saudita

artigo informações abstrato

Artigo história: pré-processamento de dados e redução tornaram-se técnicas essenciais em cenários de descoberta de conhecimento atual, dominado por cada vez mais grandes conjuntos de dados. Estes
recebeu 28 Dezembro 2016 Revista 31 Janeiro
métodos visam reduzir a complexidade inerente aos conjuntos de dados do mundo real, para que eles possam ser facilmente processados ​por soluções de mineração de dados atuais.
2017 Accepted 31 Janeiro 2017 Disponível on-line
Vantagens de tais abordagens incluem, entre outros, um processo de aprendizagem mais rápida e precisa, e estrutura mais compreensível dos dados brutos. No entanto, no contexto de
14 fev 2017
dados pré-processamento técnicas para fluxos de dados têm um longo caminho pela frente, apesar de aprendizagem on-line está crescendo em importância graças ao desenvolvimento da

Internet e tecnologias para a coleta de dados em massa. Ao longo deste estudo, resumimos, categorizar e analisar essas contribuições sobre os dados de pré-processamento que lidar com

Comunicada pelo Zidong Wang streaming de dados. Este trabalho também leva em conta as relações existentes entre as diferentes famílias de métodos (recurso e seleção exemplo, e discretização). Para enriquecer nosso

estudo, realizamos experimentos completos utilizando os mais relevantes contribuições e apresentar uma análise de seu desempenho preditivo, taxas de redução, o tempo computacional, e
Palavras-chave:
uso de memória. Finalmente, oferecemos conselhos gerais sobre os dados existentes córrego pré-processamento de algoritmos, bem como discutir emergentes desafios futuros a serem
Dados Data Mining Conceito

corrente deriva de dados dados enfrentados no domínio de dados de fluxo de pré-processamento. e uso de memória. Finalmente, oferecemos conselhos gerais sobre os dados existentes córrego pré-processamento de

pré-processamento Característica algoritmos, bem como discutir emergentes desafios futuros a serem enfrentados no domínio de dados de fluxo de pré-processamento. e uso de memória. Finalmente, oferecemos conselhos

redução selecção Instância dados gerais sobre os dados existentes córrego pré-processamento de algoritmos, bem como discutir emergentes desafios futuros a serem enfrentados no domínio de dados de fluxo de

selecção discretização online Aprendendo pré-processamento.

© 2017 Elsevier BV Todos os direitos reservados.

1. Introdução processo ing a seguir. A preparação é considerado como um passo obrigatório e inclui técnicas tais
como a integração, de normalização, de limpeza e de transformação.
Dados pré-processando [1,2] é uma das principais fases dentro do conhecimento descoberta processo.

Apesar de ser menos conhecido do que outros passos como dados mineração, dados pré-processamento Atualmente, os dados valor gerado está crescendo exponencialmente após o surgimento de
realmente muito frequentemente envolve Mais esforço e tempo dentro do processo de análise de dados inteiro fenômeno Big Data [4,5] . conjuntos de dados contemporâneos crescer em três dimensões -Recursos,
exemplos e redução tomada de complexidade cardinality- um passo obrigatório se algoritmos padrão são
( > 50% do esforço total) [3] . Os dados em bruto geralmente vem com muitas imperfeições, tais como inconsistências,

valores, ruído e / ou redundâncias faltando. Performance de algoritmos de aprendizagem subsequentes será, para ser usados. técnicas de redução de dados executar esta fi cação simplificada através da selecção e
exclusão redundante e funcionalidades e / ou instâncias ruidosos, ou por discretização espaços contínuos
assim, prejudicada se eles são apresentados com dados de baixa qualidade. assim, por realização adequada pré-processamento

apresentam complexos. Isso permite manter a estrutura original e significado da entrada, mas ao mesmo
passos que são capazes de significativamente influenciar a qualidade e confiabilidade do automática posterior descobertas

e decisões. tempo a obtenção de um tamanho muito mais manejável. Faster melhoradas capacidades de
generalização de algoritmos de aprendizagem, bem como uma melhor compreensibilidade e facilidade de
interpretação dos resultados de treinamento e, estão entre os muitos benefícios da redução de dados.

Dados preparação, como parte de pré-processando [1] , Destina-se a transformar a matéria em entrada um
de alta qualidade que devidamente fi ts o min-

Com o advento do Big Data vem não só um aumento no volume de dados, mas também a noção de sua
* Autor correspondente.
velocidade. Em muitos problemas do mundo real emergentes não podemos assumir que vamos lidar com um
O email endereços: sramirez@decsai.ugr.es (S. Ramírez-Gallego),
conjunto estático de casos. Em vez disso, eles podem chegar de forma contínua,
bkrawczyk@vcu.edu (B. Krawczyk), salvagl@decsai.ugr.es (S. García),
michal.wozniak@pwr.edu.pl (M. Wo ' zniak), herrera@decsai.ugr.es (F. Herrera).

http://dx.doi.org/10.1016/j.neucom.2017.01.078
0925-2312 / © 2017 Elsevier BV Todos os direitos reservados.
40 S. Ramirez-Gallego et ai. / Neurocomputação 239 (2017) 39-57

levando a uma potencialmente ilimitada e conjunto de dados cada vez maior. Será expandir -se ao longo do 2. Dados córregos e conceito deriva
tempo e novas instâncias chegará continuamente em lotes ou um por um. Tais problemas são conhecidos
como fluxos de dados [6] e colocam muitos novos desafia a métodos de mineração de dados. 1 deve estar corrente de dados é uma sequência potencialmente ilimitada e ordenada de casos que chegam ao
longo do tempo [14] . Por isso, impõe específico restrições sobre o sistema de aprendizagem que não
apto a atualizar constantemente o algoritmo de aprendizagem com Novo dados, para trabalhar dentro condicionalismos
pode ser fi ful encheram por algoritmos canônicos deste domínio. Vamos listar as principais diferenças
de tempo ligado com o velocidade de chegada de casos, e para lidar com limitações de memória. Adicionalmente,
dados riachos pode ser não-estacionária, levando a ocorrências do fenômeno chamado conceito deriva , onde entre estática e streaming de cenários:
a estatística características do os dados de entrada podem mudar ao longo do tempo. Portanto, Aprendendo
algoritmos deve levar isso em consideração e ter capacidade de adaptação que permitem a aprendizagem
• exemplos não são dados de antemão, mas tornam-se sequencialmente disponível (um por um) ou sob a
on-line a partir de novos casos, mas também para mudanças rápidas de subjacentes mecanismos de
forma de blocos de dados (bloco por bloco) como os avanços de transmissão;
decisão [7] . apesar da importância da redução de dados, não muitas propostas em esta domínio pode ser
encontrada na literatura para a aprendizagem on-line de dados streams [8] . A maioria dos métodos são
• casos pode chegar rapidamente e com diversos intervalos de tempo entre si;
algoritmos apenas incrementais, originalmente projetado para gerenciar conjuntos de dados finito.
adaptação direta de estático redução técnicas não é simples já que a maioria dos técnicas assumir todo o
• riachos são de potencialmente em tamanho finito, portanto, é impossível para armazenar todos os dados de
conjunto de treinamento está disponível no começando e propriedades dos dados não mudam ao longo do
entrada na memória;
tempo:
• cada instância só podem ser acedidos um número limitado de vezes (em especí fi cos casos apenas uma vez) e,
em seguida, descartado para limitar o uso de memória e espaço de armazenamento;

• instâncias devem ser processadas dentro de uma quantidade limitada de tempo para oferecer a capacidade de
resposta em tempo real e filas de dados evitar;

• acesso aos rótulos de classe verdadeiros é limitado devido ao alto custo da consulta rótulo para cada instância de
entrada;

• acesso aos verdadeiros rótulos pode ser adiada, bem como, em muitos casos, eles estão disponíveis após um longo
período, ou seja, para aprovação de crédito poderia ser de 2-3 anos;
• O máximo de estático instância selectores requerem várias passagens sobre os dados, no mesmo
tempo sendo baseado principalmente em demorado vizinho pesquisas que os torna inúteis para lidar
• características estatísticas de casos que chegam a partir do fluxo pode estar sujeito a mudanças ao longo
com alta velocidade dados streams [1] .
do tempo. Vamos supor que o nosso fluxo consiste em um conjunto de estados S =

• Em a contrário, característica seleção técnicas são facilmente adaptáveis ​a conectados cenários. No


{S 1 , S 2 , . . . , S n}, Onde está a Eu é gerado por uma distribuição D Eu . Ao transmitir um conjunto de dados estacionários
entanto, eles sofrem de outros problemas, como conceito evolução ou dinâmico [9] e deriva [10] característica
vamos considerar uma sequência de casos caracterizados por uma transição de S j → S j + 1 , onde d j = D j + 1 . No entanto,
espaço.
na maioria dos problemas da vida real modernos a natureza dos dados pode evoluir ao longo do tempo devido a

várias condições. Este fenómeno é conhecido como o conceito deriva [7,15] e pode ser definida como alterações
• Conectados supervisionada métodos de discretização também permanecem bastante inexplorado. O
nas distribuições e de definições fi de conceitos aprendidos ao longo do tempo. Presença de desvio pode afetar
máximo de padrão soluções exigem várias iterações de afiado ajustes antes de obter uma solução
as propriedades subjacentes de classes que os objectivos do sistema de aprendizagem para descobrir, reduzindo
totalmente operacional [11] .
assim a relevância do usado classi fi er como os avanços de mudança. Em algum momento, a deterioração da

qualidade do modelo usado pode ser muito signi fi cativa para considerá-lo mais como um componente

significativo. Portanto, métodos para lidar com desvios em fluxos de dados são de importância crucial para esta

área de pesquisa.
Portanto, mais longe desenvolvimento de dados técnicas de pré-processamento dados corrente ambientes é,

portanto, uma grande preocupação para os profissionais e cientistas em áreas de mineração de dados.

este objetivos da pesquisa em um completo enumeração, classi fi cação, e análise de existir contribuições
Vamos agora apresentar em breve uma taxonomia de conceito deriva. Existem dois principais aspectos
para a corrente de dados pré-processando. Apesar há existir estudos anteriores que tenham realizado um
que devem ser levados em consideração quando se analisa a natureza das mudanças que ocorrem no estado
coarsegrained análise sobre algumas tarefas individualmente (por exemplo, selecção ou característica instância
atual de qualquer fluxo de dados:
seleção) [12,13] , Este trabalho é um primeiro profunda visão geral dos avanços neste fi levou, Além disso
delineando os futuros desafios vitais que precisa ser abordadas para garantir progresso e desenvolvimento
de significativa romance métodos. • In fl uência sobre os limites cação classi fi aprendidas - aqui podemos distinguir dois tipos de conceito
deriva. UMA real conceito deriva afeta os limites de decisão (probabilidades posteriores) e pode afetar a

função de densidade de probabilidade incondicional, assim, representa uma ameaça para o sistema de

Dentro adição à discutindo a literatura em pré-processamento de métodos para mineração de aprendizagem. UMA virtual conceito deriva não tem impacto sobre os limites de decisão (probabilidades

dados riachos, propomos um estudo experimental completa para mais longe enriquecer este posteriores), mas afetam as funções de densidade de probabilidade condicional, portanto, não

levantamento. Analisamos preditivo, redução, tempo e memória desempenho do selecionado mais influenciando os modelos de aprendizagem atualmente utilizados. No entanto, ainda deve ser detectado.

relevante algoritmos neste campo. Além disso, não paramétrico estatístico testes são usado para dar apoiar Visualização destes tipos de desvio é apresentado na Figura 1 .

as conclusões fi nal. a discutido experimental quadro envolve um total de 20 conjuntos de dados e 10 redução
métodos: três seletores metragens, três discretizers e quatro instância seletores.

• Tipos de mudança - aqui podemos distinguir três tipos principais de conceito deriva levando em
consideração a sua rapidez. De repente
o estrutura deste trabalho é a seguinte. Primeiro, apresentamos conceitos relacionados tais como: conceito deriva é caracterizado por S j sendo rapidamente substituído por S j + 1 , onde d j = D j + 1 . Gradual conceito

dados streaming e conceito de deriva ( Seção 2 ), e os dados redução ( seção 3 ). Então contribuições desvio pode ser considerado como uma fase de transição em que os exemplos em S j + 1 são gerados por

de redução online estão agrupados por tarefa e descrito em secção 4 . Para avaliar o desempenho e utilidade uma mistura de D j e D j + 1 com as suas proporções variáveis. incremental conceito deriva tem uma

de métodos, um completo quadro experimental é proposto em seção 5 , Também agrupadas por tarefa. seção proporção muito mais lento de mudanças, em que a diferença entre D j e D j + 1 não é por isso não podem

6 resume o lições aprendidas com este levantamento e experimentais do estudo, e discute aberto desafia signi fi, geralmente não estatisticamente signi fi cativo.

em dados pré-processamento para a mineração de fluxo de dados, enquanto secção 7 conclui este
trabalho.
• Nós também pode enfrentar com o chamado recorrentes conceito deriva, o que significa que um
conceito de k th iteração anterior pode
S. Ramirez-Gallego et ai. / Neurocomputação 239 (2017) 39-57 41

FIG. 1. Dois tipos principais de conceito deriva com relação aos seus limites influência sobre a decisão.

FIG. 2. Seis tipos de desvios em relação à proporção de mudanças. Os gráficos mostram as transições entre os conceitos ao longo durante o progresso fluxo de dados.

reaparecem D j + 1 = D j - k e pode acontecer uma vez ou periodicamente. e reciclagem classi fi er somente quando o grau de mudanças tem sido considerado como significante o

blips , Além disso conhecido como valores atípicos que devem ser ignorados como a mudança que representa
suficiente; e (c), utilizando método de aprendizagem adaptativa que pode seguir as mudanças e desvios no

é aleatória [16] . Ruído , que representa insignificantes flutuações do conceito e deve ser filtradas para córrego por conta própria. Obviamente, a primeira abordagem é caracterizado por um custo computacional

fora [17] . Misturado conceito deriva é um híbrido fenómeno, onde mais do que um único tipo de inaceitável e, portanto, duas soluções restantes são utilizados neste campo.

conceito deriva podem aparecer durante a transmissão mineração processo. Deve-se notar que, em
situações da vida real tipos de mudanças apareçam são previamente desconhecido e deve ser determinado
durante o processamento de fluxo. visualização de estes tipos de desvios são apresentado em Figura 2 . Vamos agora discutir quatro abordagens principais para e ffi cientemente abordando dados deriva córregos:

• Os detectores de deriva conceito são ferramentas externas utilizadas em conjunto com o módulo
• Minku et al. [18] proposto gravidade critério que permite distinguir entre local e global deriva. Os
de classi fi cação. Medem várias propriedades de fluxo de dados, tais como o desvio padrão [20] ,
desvios locais significa que muda afeta apenas a pequena região do espaço de características, enquanto
Erro preditivo
deriva global afeta o espaço característica geral, o que causa que é mais fácil detectou que o
[21] , Distribuição instância [22] , Ou estabilidade [23] . Todas as alterações nestas propriedades são
local, [19] . Além disso, também pode enfrentar com o chamado “desvio de recurso” [10] , onde o mudanças
atribuídos à presença potencial de desvio e, assim, permitir a monitorizar o progresso contínuo de fluxo
afetam atributos seleccionados.
de dados. A maioria dos detectores de deriva trabalhar em um ambiente de dois estágios. Um sinal de

alerta é emitido quando as mudanças começam a ocorrer, sendo um único para o sistema de

aprendizagem que uma nova classi fi er devem ser treinados sobre os casos mais recentes. Um sinal de
• Infelizmente, em tempo real classi fi cação tarefas conceito deriva pode aparecer como um mistura de mencionado
detecção informa o sistema de aprendizagem que atual grau de mudanças é grave eo velho classi fi
acima alterações.
cador deve ser substituído por um novo. Esta solução é também conhecida como manipulação deriva

Como mencionado antes, gestão conceito deriva é uma questão crucial na Aprendendo a partir de explícita. Deve-se notar que conjuntos de detectores de começar a atrair o

dados riachos. Aqui podemos trabalhar com uma de três soluções: (a) retrain classi fi cação do zero a
cada vez que um novo instância ou naco torna-se disponível; (b) detectar alterações
42 S. Ramirez-Gallego et ai. / Neurocomputação 239 (2017) 39-57

atenção de pesquisa comunidade, embora ainda haja muito trabalho precisava ser feito nesta procedimentos erally aceites a empreender [45] . No contexto de mineração de fluxo de dados, especialmente

área [24,25] . em ambientes não-estacionário, as métricas e procedimentos canónicos deixam de ser aplicáveis. Nós

• deslizamento janelas assumir que mantemos um tampão de fi tamanho fixo contendo a maioria recente lidamos com dados massivos, continuamente recebidas e em evolução que exige atualização do modelo de

exemplos [26] . Eles são usados ​para a classi fi cação propósitos e depois descartado quando novas aprendizagem e de adaptação à mudanças e desvios. Novas classes podem aparecer, mudança espaço de

instâncias tornado acessível. Isso nos permite manter um controle sobre o progresso da dados transmitir características e regras de decisão perdem relevância ao longo do tempo. Além disso, as métricas de

por armazenar seu estado atual na memória [27] . Isto é realizado quer pela de corte de casos mais canônicas para medir a qualidade do processo de ensino não são su ciente FFI para realizar uma avaliação

antigos ou ponderação eles dinamicamente de acordo com a sua relevância [28] . Contudo, o tamanho significativa de modelos [46] . Vamos discutir as métricas corretas a serem utilizados para algoritmos aplicados

do janela tem um impacto crucial sobre seu desempenho. UMA pequeno janela será capaz de à mineração fluxo de dados. É preciso entender que bom algoritmo deve ter como objectivo encontrar um

ajustar-se pequena e rápida mudanças, mas pode perder o contexto geral do problema analisado e equilíbrio entre todos esses critérios.

ser propenso a sobre fi tting. Uma grande janela pode e ffi cientemente loja mais informação, mas
pode conter instâncias originário a partir de diferente conceitos. Para resolver esse estudos recente
edição focar em dinamicamente tamanho adaptando [29] ou usando várias janelas ao mesmo tempo [30]
. Deve-se notar que uma configurado corretamente deslizamento janela será capaz de se adaptar às
• poder preditivo é um critério óbvio medido em todos os sistemas de aprendizagem. No entanto, na
mudanças no fluxo. Isto é conhecida como manipulação implícita deriva.
mineração de fluxo de dados que deve acomodar o fato de que a relevância das instâncias diminui
ao longo do tempo. Portanto, simplesmente usando qualquer medida média não refletem a forma
como o sistema de aprendizagem foi capaz de se adaptar e reagir a mudanças no fluxo e aumento
constante do número de casos processados. Portanto, é necessário utilizar a métrica prequential
que apenas são calculados ao longo dos exemplos mais recente com um mecanismo de
esquecimento incorporado. exatidão Prequential
• Conectados aprendizes estamos exemplo actualizado por exemplo, acomodando assim mudanças no
fluxo assim que eles ocorrem. Tais modelos devem fi ful ll um conjunto de requisitos [31] : Cada objecto tem

de ser processado apenas uma vez no curso de formação, de complexidade computacional manuseamento
[47] e sob a área prequential Características da curva Receiver Operating (AUC) [48] são os dois
de cada exemplo tem de ser tão pequena quanto possível, e os seus precisão não deve ser menor do que
mais amplamente utilizados.
o de um classificador fi treinados sobre os dados do lote Recolheu-se para o tempo determinado. aviso de
• O consumo de memória é um critério necessário devido às limitações de hardware durante
um must que um conjunto de padrão classi fi cação algoritmos podem trabalhar em conectados modo, por
processamento de fluxo de dados potencialmente ilimitada [49] . Não só o uso médio de memória
exemplo, Neural Networks [32] ou Naive Bayes. Contudo, existe um pletora de métodos fi modi ed para
deve ser levado em consideração, mas também como ela muda ao longo do tempo e com a
fornecer eficientes conectados Modo de Operação [33,34] . Estes métodos também oferecem im plicit deriva manipulação.
específica ações feitas por cada algoritmo.

• Tempo de recuperação nos informa quanto tempo um algoritmo precisa para acomodar novas
instâncias e atualizar sua estrutura. Esta é uma medida crucial que pode ser um gargalo de muitos
métodos. Assumindo que novas instâncias chegar rapidamente, um bom algoritmo de mineração
• Conjunto aprendizes são uma família popular de métodos para fluxo de dados mineração [35,36] .
de fluxo deve ser capaz de instâncias de processo antes de novos chegará para evitar filas [50] .
Devido à sua estrutura composto que pode facilmente acomodar as mudanças no fluxo,
oferecendo ganhos de ambos fl exibilidade e poder preditivo. Duas abordagens principais aqui assumir
uma alterando-linha para cima do conjunto [37-39] ou actualização base classi ers fi [40,41] . Na
• tempo de decisão é uma outra medida de tempo-complexidade utilizado. Aqui estamos interessados
primeira solução uma nova classi fi er é ser treinados em dados chegados recentemente
​quanto tempo certo algoritmos precisa fazer uma previsão para cada nova instância. Como fase de
(normalmente recolhidos numa forma de bloco) e adicionou-se o conjunto. A poda é costumava controlar
reconhecimento geralmente precede a fase de actualização, pode ser outro gargalo para o sistema.
o tamanho do comitê e remover irrelevante ou mais velho modelos. UMA esquema de ponderação
Além disso, em muitas aplicações que exigem uma resposta em tempo real e não pode permitir um
permite atribuir Altíssima importância a mais novos componentes do conjunto, embora Mais sofisticado
atraso quando a velocidade é a velocidade de decisão é vital [51] .
soluções permitem aumentar o peso de classi fi cadores que são recentemente melhor
desempenho. Aqui pode-se usar estático classi fi er, como a dinâmica line-up mantém uma faixa
de fluxo progresso. último soluções assumem que um conjunto fi xado-size é mantido, mas
• Exigência para rótulos de classe verdadeiros pode limitar fortemente a aplicabilidade reallife de muitos
atualizar cada componente quando novos dados se tornem acessível. Aqui gerir a diversidade do
algoritmos de mineração de fluxo de dados. Muitos trabalhos sobre aprendizagem supervisionada em
conjunto é crucial para alcançar um bom poder preditivo [42] . Adicionalmente, conjuntos devo consiste
streaming cenários pressupõem que os rótulos de classe tornam-se disponível logo após a instância
em classi fi cadores trabalhando em incremental ou on-line modos. Também existem abordagens
estava sendo classificadas pelo sistema, ou chegar com algum atraso. No entanto, os custos de rotular
híbridas que combinam ambos estes As soluções no interior da estrutura de conjunto [43,44] .
todo o fluxo de dados estão longe de ser realista e, portanto, temos de lidar com disponibilidade limitada

de rótulos de classe verdadeiros. É útil para examinar a in fl uência do orçamento disponível (número de

amostras rotuladas) sobre a eficácia dos algoritmos. estratégias de aprendizagem activa permitem

selecionar apenas as amostras mais relevantes para a rotulagem [52,53] . métodos semi-supervisionado e

não supervisionado, tanto para classi fi cação [54,55] e detecção deriva [56,57] são também de interesse a

fim de lidar com esta questão.

adequado delineamento experimental e avaliação dos algoritmos analisados ​é uma questão-chave na domínio
de aprendizagem de máquina. Um precisa de uma imparcial, justo e maneira reproduzível de comparar
algoritmos que testados vai permitir a lançar luzes sobre a sua força e fraquezas, no mesmo Tempo levando
a valioso conclusões para melhor compreensão do usado métodos. Podemos avaliar determinado método
para avaliar alguns dos nossos hipótese sobre isso, ou para verificar sua usabilidade para um especial Vida 3. Redução dos dados

real inscrição. Antes de iniciar qualquer um computações devo razoavelmente objetivos estaduais da experimentar
para ser realizado, escolher relevante conjuntos de dados, selecione métricas adequadas que refletem a natureza Redução de dados [2] é um importante passo de pré-processamento na mineração de dados, à medida
de examinaram os dados e estabelecer um procedimento correcto para aprendendo e comparando modelos que visam obter rápido e adaptável modelo preciso, que ao mesmo tempo é caracterizada por uma baixa
diferentes. Esta questão tem sido bem discutido na estática cenários e existe um número de ge- complexidade computacional, a fim de responder rapidamente a mudanças objectos recebidos, e. Portanto,
reduzindo a complexidade de forma dinâmica dos dados de entrada é crucial para a obtenção de tais
modelos. Além disso, devido à presença do conceito deriva do número e relevância de
S. Ramirez-Gallego et ai. / Neurocomputação 239 (2017) 39-57 43

casos e recursos podem mudar ao longo do tempo. Este também deve ser tomado para dentro consideração 4.1. Redução de dimensionalidade
ao manter e atualizar um modelo online. Deixe-nos agora discutir as principais áreas em dados de
pré-processamento para reduzir o complexidade de dados. Muitos algoritmos FS para fluxos de dados têm sido propostos na literatura. A maioria deles são

naturalmente algoritmos incrementais projetados para o off-line de processamento [1] , Enquanto outros são

especificamente pensado para lidar com fluxos fluindo [12] . Todos os métodos FS podem ser divididos em
• dimensionalidade redução : Existe uma vasta gama de técnicas na literatura que visam reduzir três grupos: lters fi, envoltórios, e híbridos; de acordo com quando a selecção é realizada: antes e de forma
o número de recursos, entre outros: Feature Selection (FS), Feature Extraction (FE) ou localidade projecção
independente para o passo de aprendizagem, ou firmemente acoplado com ele.
preservando [58-60] . Neste artigo, nós se concentrar em FS e FE técnicas. FS [61] elimina
irrelevantes ou redundante características / colunas, enquanto recurso de extração (FE) gera um
espaço de características mais simples através de transformações do original. O objectivo aqui é A maioria dos seletores on-line propostos na literatura são adaptações incrementais do off-line fi ltros.
o de proporcionar um conjunto mínimo de apresenta de forma que o subsequente probabilidade Como estes filtros a contar com funções cumulativas (baseado principalmente em informações ou medidas
de distribuição de aulas permanece como inalterados possível. Como FS mantém o original características,
estatísticas), estes são facilmente adaptáveis ​ao ambiente online. Apesar de ser simples, fi ltros on-line
é mais conveniente para a interpretação do modelo. Dependendo do relação entre o selector e o parece adaptar-se bem à deriva, e não precisam de ingerir todos os dados de uma só vez como seus o ffl
preditivo algoritmos, podemos classificar FS algoritmos em três categorias: fi ltros, que agem homólogos INE. Além disso, os métodos on-line geralmente enfrentam problemas derivados de correntes
antes do processo de aprendizagem, sendo independente dela; wrappers, que usam o especi fi que não podem ser abordados pelo ffl métodos INE, como a chegada de novos recursos ou classes.
cado aprendizagem algoritmo para Avalie subgrupos de recursos; e incorporado, onde o Pesquisa
é uma parte do próprio processo de aprendizagem. invólucros métodos tendem a ser mais
preciso do que fi ltros, mas mais complexa. embutido métodos são menos caros do que os
invólucros, mas requerem direto modi fi cações do processo de aprendizagem. Concentrando-se em FS on-line, outras distinções podem ser feitas dependendo das propriedades de

córregos. Alguns métodos FS supor que características chegar um por um ( streaming de recursos ) enquanto

vetores de características são inicialmente disponível [68,69] ; enquanto outros assumem que as instâncias

sempre chegam sequencialmente, e o conjunto de recursos pode estar sujeito a mudanças potenciais [70] ( FS

on-line ). Novas classes também pode surgir a partir de fluxos sem conhecimento prévio (evolução do conceito),
exigindo uma redefinição completa do modelo usado. Em mineração fluxo de dados, o espaço característica

também pode ser afectada por alterações na distribuição de dados. desvios de recursos ocorrer sempre que a

• Instância redução : Seleção Instância (IS) ou Geração Instância (IG) [62] . IS visa reduzir o relevância de um determinado atributo muda ao longo do tempo quando novos casos chegam ao sistema [71] .

número de treinamento casos por selecionando os mais exemplos representativos. IG podem Como em outros desvios de conceito, as mudanças na relevância aplicar algoritmos para descarte ou adaptar

métodos gerar novas instâncias para preencher as lacunas no conceito de definições fi. É difere o modelo já aprendeu, removendo a maioria dos recursos irrelevantes no novo cenário [72] , Bem como,

da amostragem de dados em que o ex categoriza casos dependendo do problema, enquanto incluindo a maioria dos mais relevantes ( dinâmica FS ). Como mudanças na relevância afetam diretamente os

amostragem é Mais estocástica. Com base no tipo de busca implementado pelo IS algoritmos, limites de decisão, recurso de desvio pode ser visto como uma especi fi c tipo de deriva conceito real.

eles podem ser classificados em três categorias: condensação, o que elimina pontos
redundantes longe do fronteiras; edição, que remove pontos ruidosos perto do classe limites; ou
híbrido, que combina tanto barulho e redundância remoção.

Como o conjunto de recursos evolui selecionados ao longo do tempo, é provável que o espaço de
recurso em casos de teste difere da seleção atual. Portanto, quando uma nova instância está sendo
• Característica espaço simplificação: Normalização, Discretização, e etc. discretização [63] sumariza classificadas, precisamos realizar uma conversão entre os espaços de recursos para fins de
um conjunto de valores contínuos para um conjunto finito de intervalos discretos. Este processo homogeneização [9] . Os tipos de conversão a considerar são os seguintes:
retorna nominal recursos que podem ser usados ​por qualquer processo de mineração. Embora a
maior parte da mineração trabalho algoritmos com contínua dados, muitos deles só pode lidar com
características nominais, especialmente aqueles baseados em medidas estatísticas e de informação
• Lossy fixo (lossy-F): o mesmo conjunto de recursos é usado para todo o fluxo. É gerado a partir do lote
(por exemplo: Naive Bayes (NB)) [64] . Outros algoritmos, como à base de árvores classi fi cadores [65]
primeiros. Todos os seguintes instâncias (treinamento e teste) será mapeado para este conjunto,
, gerar resultados mais precisos e compacto quando utilização valores discretos. Boas discretizers
resultando em uma perda clara em informações futuras.
tentar alcançar o melhor profético desempenho derivado a partir de dados discretos, ao mesmo
tempo reduzir o número intervalos, tanto quanto possível [66,67] . Podemos distinguir dois principais categorias,
• Lossy Local (lossy-L): um espaço característica diferente é usado para cada novo lote de treinamento.
com base em como os intervalos são gerado por discretizers: métodos de separação, os quais
instâncias de teste são, portanto, mapeado para o espaço de formação em cada iteração. Esta conversão
dividem o mais promissor intervalo em cada iteração em duas partições; e fusão métodos, que se
também é problemático porque as características relevantes no ensaio pode ser omitido.
fundem as duas melhores intervalos adjacentes em cada iteração.

• Lossless homogeneização (lossless): Lossless é semelhante à conversão anterior, exceto que o


espaço recurso no conjunto de teste está sendo considerado aqui. Existe uma homogeneização entre os

espaços, por exemplo, ao unificar os dois espaços e preenchimento com zeros qualquer característica

ausente no outro conjunto. Esta conversão resulta em utilizar toda a informação atual e anterior, por isso

pode ser visto como a melhor opção. Neste artigo, vamos nos concentrar em conectados técnicas que

permitem a chegada de novas instâncias e recursos, ao mesmo tempo, porque eles representam um

cenário presente em problemas do mundo real. Vamos agora apresentar uma lista formada pelos maioria
4. Dados redução de fluxos de dados
dos algoritmos relevantes sobre este tema:

Dentro transmissão cenários técnicas de redução são exigidos para um modo preferido processo elementos
online ou na modalidade de grupo o mais rápido possível e sem fazer qualquer hipóteses sobre a
distribuição dos dados no avançar. Nas próximas seções, nós descrevemos os redução propostas que
foram adaptados para mineração fluxos de dados. Estes métodos são agrupadas por família / tarefa: redução
de dimensionalidade ( Seção 4.1 ), instância redução ( Seção 4,2 ), E espaço recurso simplificação ( Seção 4.3• Katakis et al. [70] foi um dos primeiros a introduzir o problema de espaço característica dinâmica em
). fluxos de dados. Eles propuseram uma técnica que inclui um método para selecionar características
relevantes recurso escalão (fi ltro). Como a pontuação importância de cada recurso
44 S. Ramirez-Gallego et ai. / Neurocomputação 239 (2017) 39-57

pode ser medido utilizando muitos funções cumulativas como Informações Ganho (IG), χ 2 ou mútua informações,
rando. Isto leva a uma significante aumento de velocidade computacional deste método.

ele pode ser visto como um versátil solução para o ranking recurso online.
• Wang et al. [76,77] propôs um método guloso em linha FS (chamados OFS) baseado em uma
• Carvalho et al. [73] proposto Extremal função de selecção (EFS), uma FS on-line método que usa técnica clássica que faz a-trade off entre a exploração e aproveitamento de recursos. O
os pesos computados por uma linha classi fi er (Modi fi ed Equilibrada Winnow) para medir a algoritmo gasta ε iterações sobre a exploração, escolhendo aleatoriamente N atributos de todo o
relevância de características. A pontuação é calculada como a diferença absoluta Entre o pesos conjunto de atributos, e as etapas restantes na exploração de escolher o N atributos para os
positivos e negativos de cada recurso. quais o er linear classi fi tem valores diferentes de zero. Neste trabalho, não deriva recurso é
abordada de forma explícita, e nenhuma comparação com trabalhos anteriores é realizada.

• Masud et al. [9] propôs um transmissão técnica classi fi cação (DXMiner), que utiliza o medida peso
desvio para características Ranking durante o classi fi cação fase. Além disso, DXMiner
naturalmente abordar a problema de novas classes (conceptevolution) por a construção de uma • Um método de seleção de recursos on-line baseado na análise de estrutura do grupo foi proposta em [78]
fronteira de decisão em torno da formação dados. Dentro contrasta com métodos anteriores, . Este trabalho foi baseado em suposição de que recursos podem chegar em específico grupos, como
DXMiner utiliza sem perdas conversão, que é útil para a detecção de novidades. Para texturas, cores etc. autores propuseram Característica Grupo on-line Seleção (OFGS) algoritmo que
características classificar no espaço de teste, DXMiner usa um técnica sem supervisão (Por critérios intragrupo utilizados e inter-grupos. O ex critério utilizado análise espectral para selecionar
exemplo, a Altíssima frequência no lote) que selecciona apresenta Mais representante para os características discriminativos em cada grupo. O último aplicado um modelo de regressão linear para
conceitos de entrada. Note que isto requer uma definição do modo de lote para computar tais escolher um subconjunto de óptima de todas as características pré-seleccionadas. Vale a pena notar
estatísticas. que um problema semelhante foi discutido por Li et al. [79] .

• Nguyen et ai. [72] projetou uma técnica de conjunto baseado em janelas para detectar desvios de recursos.
O algoritmo é baseado em um conjunto de classi fi cadores, onde cada fi classi er tem a sua própria

característica conjunto. Se uma deriva é detectado, o conjunto é atualizado com um novo classi fi er em tabela 1 detalha o tipo de conversão de seleção e espaço realizada por cada algoritmo. Duas
conjunto com um novo subconjunto característica; de outro modo, cada classi fi er é Atualizada adequadamente. estratégias de selecção notáveis ​emerge deste resumo: uma baseada na informação fi ltragem e

Rápido Filtro baseado em correlação (FCBF) baseado em Simétrico A incerteza está sendo usado aqui. FCBF heuristicamente
outro baseado no uso de pesos fi classificador (invólucro).
aplica-se uma técnica para trás com uma sequencial procurar estratégia para remover características

irrelevantes e redundantes. Além dos já mencionados algoritmos mais relevantes existem uma série de outras propostas de
seleção de recurso on-line e de streaming na literatura. Vamos agora discutir-los em breve. Yan et al. [80]
proposta de extração de características simultânea e selecção usando o algoritmo centroid ortogonais.
Tadeuchi et al. [81] propôs uma seleção de recursos online rápido que costumava fi ltros para gerar
• Dentro [74] , autores propor uma algoritmo para conceitos mina recorrentes (chamado MREC-DFS). vários subgrupos potenciais e um invólucro para escolher o melhor deles. Autores especularam que
Aqui, eles adotam a mesma solução selecção proposto em [70] . Hover, em vez de selecionar um fi esta solução deve ser capaz de lidar com conceito deriva aparência. Cai et ai. [82] propôs a utilização eu regularização
xo número de características, que se propõem a usar um fi xo limite ou um um adaptativo baseado 1-norma para selecção variável contínua. abordagem semelhante foi usada por Ooi e Ninomiya, no
em percentis. Eles também comparar o efeitos da utilização espaço diferente conversões [9] (Como entanto, havia empregado uma regressão regularizada para esta tarefa [83] . Ventilador e Bouguila [84,85]
lossy-F, com perdas de L ou Sem perdas). apresentada uma combinação de aglomeração baseado numa mistura de Dirichlet processo de
distribuições Dirichlet generalizadas e selecção de características não supervisionada em cenários de
aprendizagem incrementais. Amayri e Bouguila [86] discutido combinação similar de descoberta grupo e
• Wu et al. [75] propôs dois abordagens para lidar com fluxos com crescimento de característica volumes ao redução característica utilizando misturas finito de distribuições de von Mises, enquanto Yao e Liu [87] seleção
longo do tempo, chamado Streaming Online Característica Selection (OSFS) e recurso Fast Online on-line combinada com a estimativa de densidade. Um problema de seleção de recursos on-line para a
Streaming Seleção (Fast-OSFS). Eles baseiam-se numa óptima de duas fases subconjunto esquema de aprendizagem multi-tarefa foi discutido em [88] . A questão da escalabilidade da família discutido de
descoberta: análise on-line de relevância e então redundância. relevância à base de classe é usada para modelos para a grande mineração de dados foi abordado no [89] . Roy [90] discutimos como usar
selecionar ou descartar uma nova característica. Em seguida, um novo e alargado conjunto de recursos conjunto de neurônios Kohonen para a escolha de características de correntes elevadas dimensões.
é analisada para detectar se existe um subconjunto de recursos que podem tornar uma das Recentemente, Yang et al. [91] introduziu um método paralelo usando memória limitada, enquanto
características usadas e variável de classe condicionalmente independente. Se sim, então esse recurso Hammoodi et al. [92] discutida uma abordagem de detecção conceito deriva utilizando recursos
é descartado. este permite a controlar a expansão do espaço de características. Dentro Fast-OSFS o análise seleccionados. Extensão da OSFS
de redundância é dividido em duas partes. em primeiro lugar um redundância de novo recurso está

sendo verificado, a fim de decidir se este recurso deve ser selecionada. Só se novo recurso foi incluído, o redundância

de recursos anteriores está sendo ana-

tabela 1

resumo descrição de streaming de métodos FS. Informações sobre o tipo de selecção (invólucro ou fi ltro), a conversão recurso realizado (se apropriado), e se aparece
conceito-evolução, é apresentada abaixo.

Método Tipo de selecção (medida) características de fluxo contínuo (conversão) Conceito-evolução

método Katakis' [70] Filter (IG, χ 2 , etc) não (lossy-F) não

EFS [73] Wrapper (pesos classi fi linha de er) não (lossy-F) não

DXMiner [9] Filtro (peso desvio) + sem supervisão sim (Lossless) sim
HEFT-Stream [72] Filtro (SU) não (lossy-F) não

MREC-DFS [74] Filter (IG, χ 2 , etc) sim (todos) não

OSFS / Fast-OSF [75] Filter (relevância e redundância) não (lossy-F) não

OFS [77] Wrapper (pesos classi fi linha de er) não (lossy-F) não

OFGS [78] Filter (agrupamento espectral e de regressão) não (lossy-F) não


S. Ramirez-Gallego et ai. / Neurocomputação 239 (2017) 39-57 45

método utilização conjunto áspero abordagem para fluxos de dados foi analisado em [93] , enquanto um combinação é marcado como apropriado. Remoção do casos é efectuada sempre que a precisão de um caso
de on-line discretização com seleção de recursos para neural redes foi representado na [94] . 1 pode ver um é abaixo (em certo grau) a sua frequência classe. Devido à IB3 adia a inclusão de exemplos, é
vídeo sequência como um fluxo de imagens e em esta domínio seleção de recursos on-line também tem adequado apenas para a deriva conceito gradual.
sido explorada, a fim de lidar com detecção de objectos dinâmicos. Yeh et al. [95] um introduzido conectados
seleção de características impulsionar-base, onde novos recursos estavam seleccionado um de cada vez • O Forgetting localmente ponderada (FLM) algoritmo [112] é uma técnica exemplo de ponderação
de compensar as alterações no fundo. Yang et al. [96] descreveu uma discriminação Fisher on-line impulsionar com base em k vizinhos mais próximos (KNN). Em FLM, os casos com um peso abaixo de um
característica seleção mecanismo para acompanhamento visual em tempo real. limiar são removidos. algoritmo FLM tem sido criticado por sua menor assintótica classi fi cação
em ambientes estáticos e por sua tendência a longo fi tting [113] . Este método tem mostrado
bom desempenho para ambas as variações graduais e súbitas conceito.

Finalmente, é vale a pena mencionar o trabalho por Yu et al. [97] , • Salganicoff [114] desenhou o algoritmo Contexto Previsão de erro Switching (PECS), que é projetado
Onde autores vários seleção de recursos em linha popular implementado métodos e criou um pacote de para trabalhar em ambos dinâmica e ambientes estáticos. PECS algoritmo baseia-se nas mesmas
software aberto para Matlab. medidas utilizadas pelo IB3, também adotando o mesmo teste ança con fi. De modo a introduzir
Além FS, dimensionalidade a redução pode ser realizada por meio de um arti fi cial mapeamento dimensão de tempo em suas decisões, PECS considerar apenas as mais recentes previsões em
entre o espaço original de recursos e um novo espaço de menos dimensões. técnicas de extração de seus cálculos. Além disso PECS imediatamente adicionar novos casos para a base para acelerar o
características, embora menos popular do que os FS, têm demonstrado sua capacidade em muitos profético processo de adaptação lenta. PECS desativa casos, em vez de excluí-los permanentemente. Nesses
problemas. Uma das mais importantes contribuições aqui é Diretor Análise de Componentes (PCA) [98] . casos pode ser re-introduzido se o seu pode contribuir mais uma vez em direção a uma maior
Dentro [99] , dois conectados versões baseados em gradiente de PCA são estudadas em profundidade. precisão. Argumenta-se em [115] que PECS mantém elevados requisitos de memória e um processo
A mira de trabalho anterior é a obtenção de um modelo on-line com o menor diferença em perdas de remoção lenta, como novas instâncias são mantidas logo depois que eles chegam.
acumuladas em relação à melhor o off-line alternativo. Uma análise de novo propriedades teóricas de
Oja de streaming de PCA foi discutido em [100] . Embora ideal, on-line PCA não é capaz de atualizar saliências
em menos do que Em 3 ) por iteração [101] . Assim, mais e ffi cientes técnicas precisa ser desenvolvido
no futuro, se queremos uma verdadeira solução em recurso de streaming Extração. Até agora, vale a
pena mencionando versões de streaming de kernel do PCA proposto por Joseph et ai. [102] e por • Iterativo Caso algoritmo de filtragem (ICF) [116] é uma técnica de remoção de redundância que descarta
Ghashami et al. [103] . Além disso, o PCA foi aplicado com sucesso para o conceito de deriva detecção essas instâncias com um tamanho de conjunto de cobertura menor do que o seu conjunto de

em fluxos de dados não estacionárias por Kuncheva e Faithfull [104] , Bem como por Qahtan et al. [105] . acessibilidade. Autores incluíram repetida Editado-NN [117] para remover o ruído em torno das fronteiras.

aviso de um must naquela característica extração de fluxos de dados não se limita apenas a PCA e de
outros trabalho, embora poucos em número, existe. Allahyar e Yazdi [106] descrito on-line Análise de
Componentes discriminativo para contínuo cálculo de Linear Análise discriminante. Sheikholeslami et al. [107] Embora existam propostas mais complexas na literatura [110] , A lista anterior inclui os métodos
propôs um extração de características baseada no kernel para mineração riachos com limitado recursos que têm servido como uma pedra angular para futuros desenvolvimentos na IS para o conceito de
computacionais. Li et al. [108] introduzido canônico A análise de correlação com a incerteza adequado deriva [13] . O próximo negócio lista com as técnicas que abordam explicitamente conceito deriva:
para multi-vista classi fi cação de fluxos de dados.

• Delany et al. [118] proposto um mecanismo de controle de deriva com dois níveis, chamado
Competência-Based Edição (CBE). No nível primeira, um híbrido de dois métodos de edição baseados
na competência 1 :
é lançado culpa de remoção com base Ruído (BBNR) e conservador Redundância Redução
(CRR),. BBNR visa eliminar esses casos cujo afastamento não implicam perda de cobertura,
enquanto CRR seleciona misclassi fi cou casos com a menor cobertura. Note-se que ambos os
métodos são concebidos para ambientes estacionários, que podem causar alguns problemas
como a remoção de novos conceitos quando aparece graduais de deriva, ou o esquecimento de
4.2. Instância redução
pequenos grupos de casos em que os exemplos abrange uns aos outros mas misclassi fi ca todos
os vizinhos circundantes. BBNR não manter o modelo de competências up-to-date, ele só
Preguiçoso aprendizagem tem sido amplamente utilizada na análise preditiva [109] . Ainda, de
reconstruir o modelo no segundo nível. Um modelo de competência ultrapassada pode produzir
caso-bases naturalmente deteriorar-se e crescer em tamanho ao longo Tempo. nos dados corrente cenário,
inconsistências durante a fase de avaliação, tal como o modelo não re precisão reflectir o actual
passado casos preservados que pertencem a um anterior conceito pode degradar o desempenho do aluno
conceito.
se um novo conceito aparece. Da mesma forma, os novos casos que representam um Novo conceito pode
ser classificada como ruído e removido por um mau comportamento do IS mecanismo, porque eles não
concordam com os conceitos do passado [13] . Alguns Aprimoramento ( edição ) e manutenção ( condensação )
[ 1] deve ser assim realizada em casos de bases em forma de sofisticado IS processos, que selecionam os
• Instância Aprendizagem Baseada em Fluxos de Dados (IBL-DS) [115] e IBLStreams [120] são
casos que melhor representem a estado atual do fluxo de dados. No entanto, a maioria dos actuais técnicas
apresentados como a primeira soluções que considerem tanto tempo e factores de espaço para
são concebido para estacionário ambientes e ignorar a conceito deriva fenômeno. Em primeiro lugar, nós
controlar a forma e tamanho do caso de base. Em ambos os algoritmos, cada vizinho em um intervalo
apresentamos um subconjunto de IS técnicas que incrementalmente ou de um modo em lotes seleccionar
de teste é removido se a classe da nova instância é dominante neste intervalo. IBL-DS também
casos de um caso a base de [110] :
apresenta um método de detecção de desvio explícito desenvolvido por Gama [20] , Que determina
quando para remover um fi xo número de instâncias considerando espaço e tempo. Número de
remoções é calculado considerando a taxa mínima de erro e o erro agregado das últimas previsões.
Ambos os algoritmos de controlar o tamanho da base de caso-removendo os casos mais antiga. No
entanto, a estratégia de remoção com base no tempo

• Instance-Based Aprendendo Algoritmo 3 (IB3) [111] é um dos primeiros tentativas de lidar com natureza
não-estacionária de dados. Baseia-se precisão e medidas de frequência de recuperação. Por
meio de um con fi ança teste de intervalo, IB3 decide se um caso deve ser adicionado ao caso-base
ou ele precisa esperar até sua inserção
1 conceitos básicos sobre modelos de competência pode ser revisto em [119]
46 S. Ramirez-Gallego et ai. / Neurocomputação 239 (2017) 39-57

mesa 2
Descrição sumária do streaming é métodos. Informação sobre a medida de selecção, se a detecção de deriva é utilizado ou não, e o tipo de
selecção é mostrada aqui.

Método tipo de seleção detecção deriva Edição / condensação

IB3 [111] exactidão caso não sim não


LWF [112] Instância ponderação não sim não
PECS [114] exactidão caso não sim não
ICF [116] Competência não sim Sim
CBE [118] Competência não sim Sim
IBL-DS [115] distância espaço-tempo sim sim Sim
PEIXE [121] distância espaço-tempo não sim Sim
AES [122] Bio-inspirado sim não / sim

COMPOR [123] Geometria não não / sim

Šimc [124] distância espaço-tempo de precisão / case não sim Sim


NEFCS-SRR [13] Competência e caso a precisão sim sim Sim

implementadas por eles tem sido criticado porque algum velho, mas ainda relevante casos pode amples de forma recursiva até que a cobertura O caso-bases começa a se deteriorar.

ser eliminadas neste processo.


• PEIXE algoritmos [121] Também são baseados em uma combinação de tempo e espaço, neste caso, computado
mesa 2 listas da maioria dos seletores de instâncias relevantes para deriva córregos. Podemos tirar
como distâncias. A idéia por trás desses algoritmos é selecionar dinamicamente os exemplos mais
três tipos principais de seleção a partir desta tabela: baseado em competências-e baseada em
relevantes, que servirá como treinamento para o próximo modelo. três diferentes versões de peixes
ponderação, e baseada em precisão. métodos baseados nas competências (como CBE ou ICF) tendem a
foram proposto. Em Fish1, o tamanho de formação é fixado no início. Fish2 seleciona o melhor
ser mais preciso, mas demorado, porque eles exigem uma atualização constante do modelo de
tamanho de formação de acordo com o precisão (através leave-one-out validação cruzada). Fish3
competência. estratégias de seleção baseado em distância podem exigir ainda mais tempo do que os
também pesos tempo e no espaço, utilizando um circuito diferente de Cruz validação. fish2 é considerado
modelos baseados na competência, quando o número de distâncias e / ou os recursos envolvidos são
como o líder da família. PEIXE representa um demorado opção, uma vez que armazena todas visto EXEMPLOS
elevados. métodos baseados em precisão tem difi di ffi na identificação exemplos ruidosos próximos
A fim de distâncias espaço / tempo de computação.
durante derivas. Finalmente, característica ponderação técnicas tende a dados fi t sobre- e a um
desempenho pior do que o exemplo de acordo com selectores [113] . Outro tema relevante a ser
considerado ao eleger seletores exemplo é se tarefas de melhoramento e / ou de manutenção são
aplicadas ou não. métodos baseados na competência geralmente consiste de duas técnicas, um para a
• Zhao et al. [122] apresentar um novo algoritmo de vizinho mais próximo para os dados Streaming, com
remoção de ruído e um outro para fins de redundância. Redundância é ignorado principalmente em
base em um sistema de arti fi cial do sistema endócrino; chamado AES. este sistema elimina a
técnicas baseadas em exatidão já que a maioria deles selecionar instâncias acordo com o número
necessidade de uma casebase completa como em anterior modelos, substituindo-base de caso por
predições incorretas cometidos por cada um. algoritmos baseados distância remove implicitamente
representante células. UMA processo à base de condensação também é uma característica chave na AES.
redundância através do fator de espaço na fórmula de distância.
o algoritmo mantém única K protótipos de fronteira ou células. Estes protótipos manter em movimento

durante todo o processo em para adaptar conceito limites para desvios de entrada.

• COMPOR [123] é um estrutura baseada em geometria para semisupervised aprendizagem e


aprendizagem activa. A idéia por trás COMPOSE é a etiqueta entrada casos através de um abordagem
semi-supervisionado, e, em seguida, criar e selecionar aqueles α- formas que melhor modelar o Estado
atual. Esta seleção é, de fato, uma compactação processo que mantém apenas aqueles formas /
protótipos mais representantes para o estado atual. COMPOSE é projetado principalmente para endereço4.3. espaço de características simplificação
variações graduais.

algoritmos de discretização para cenários de fluxo de dados também deve ser capaz de lidar com o

aparecimento de desvios de conceito. De fi nição e número de intervalos de discretização podem mudar ao


• Šimc [124] visa criar grupos de casos para cada classe assim naquela cada um representa uma longo do tempo, acompanhando as mudanças nas características de dados. Portanto, é desejável que os
região diferente do espaço. Barulhento e velho exemplos são removidos por selecção e descarte a intervalos de discretização são capazes de adaptar-se sem problemas ao conceito deriva, sem impor aumento
mínimo relevante exemplo no grupo mais velho. Como conceito deriva aparece, o algoritmo cria do custo computacional quando está a ser recalculada.
novos grupos para alocar exemplos naquela representa novo conceitos. Relevância em grupos é
medida usando o espaço distâncias e as suas idades. para indivíduo casos, a é empregado
precisão usando a regra mais próximo. discretização igual frequência (baseado em histogramas) pode ser considerado como uma das
primeira técnicas para lidar com discretização incremental. Ao utilizar quantis como pontos de corte,
o espaço de características pode ser repartida em intervalos de igual frequência. Estimativa de
• Lu et al. [13] propor um técnica de edição caso base baseada na competência preservação e Aprimoramento
quantiles em fluxos foram estudados em profundidade na literatura, em aproximada [11125] e exata [126,127]
[119] . sua solução consiste de três fases: a primeira uma compara a distribuição Entre dois janelas, formas. Uma das alternativas agilest e mais eficazes de discretização é Incremental Discretization
a fim de detectar se existe um deriva ou não. Além de detecção da deriva, este método também Algorithm (IDA) [11] . IDA aproxima quantis através da manutenção de um reservatório de amostra do
limita a área onde o distribuição de muda mais. Depois que o Noise-avançado troca de contexto fluxo de entrada. Intervalos aqui são estruturados utilizando montões de intervalo, um e ffi ciente
Rápido (NEFCS) método é aplicado. NEFCS examina todos os novos casos e determina se há ruído estrutura de dados que permite inserir e elementos de exclusão em O (log (n )), e para recuperar o
ou não (Aprimoramento). No entanto, apenas os casos ruidosos aquela mentira fora do detectada áreasmáximo e mínimo (os limites de intervalo) em tempo constante. Como na maioria dos casos, não é
de competência são removidos, porque eles podem ser parte de novos conceitos. stepwise possível manter um registo completo de todos os dados, soluções aproximativos mostraram muito
Redundância Remoção método (SRR) destina-se a controlar o tamanho da caso a base de (preservação).
mais adequado para o processamento de alto rendimento fluxos do que soluções exactas.
SRR remove redundante ex-
S. Ramirez-Gallego et ai. / Neurocomputação 239 (2017) 39-57 47

De outros técnicas baseadas em frequência se baseou em tamanho estabelecendo limiares bins Tabela 3

Descrição sumária de streaming de métodos de discretização. Informações


atribuídos a lidar com a evolução discretização. Lu et al. [128] apresentou o Discretização Frequency
sobre o nome eo tipo de estratégia de discretização é mostrado aqui.
Incremental flexível (IFFD) algoritmo. IFFD define um intervalo em vez de um número restrito de quantil.
Se a frequência dos intervalos atualizados atinge o e o máximo resultando frequências não estão
Método estratégia de discretização
abaixo do mínimo (a fim de evitar uma elevada classi fi cação variância), IFFD divide o intervalo em
dois partições. PiD [129] Binning e informações (split & merge)
OC [130] Estatística (intercalação)

De igual largura discretizer é outra abordagem sem supervisão que só exige como entrada a gama
de características e o número de divisão intervalos. No entanto, a principal desvantagem é que ambas dows. Várias estruturas de dados estão sendo utilizados para emular o mesmo comportamento

as abordagens exigir transmitidos registros que chegam em ordem aleatória, o que é impossível em realizada pela versão original. Apesar da grande eficácia reivindicada pelos autores, um elevado

muitos problemas de aprendizagem. aumento do uso de memória derivado do conjunto de estruturas de dados é exibida por esta
versão online. Este fato pode impedir seu uso em transmitir cenários com recursos

Outro importante exigência a ser considerado é que alguns incrementais algoritmos requerem para computacionais limitados alguns dados.

manter o mesmo conjunto de pontos de corte (número, estrutura e sentido) ao longo do tempo [11] . Essa é
a caso da maioria algoritmos de aprendizagem discriminativa. Aqui o uso de quer um de igual largura ou
um discretizer igual frequência é sugerido, como ambos de fi ne o número de caixas com antecedência.
Um cação breve classi fi sobre streaming de discretizers é dada em Tabela 3 . Duas alternativas
De outros estático algoritmos: não (por exemplo, NB) não exigem a conservação de intervalos durante subseqüente
que representam diferentes tipos de discretização [1] são mostrados aqui. Classi fi cação é realizada de
fases de previsão, mas apenas para poupar algum estatísticas para a corrente passo discretização. No
acordo com dois factores: medidas de avaliação
entanto, a generalização capacidades de tais classi fi cadores ainda são afetados por tais deslocamentos
(estatistica-
em definições fi de, especialmente se eles são nítidas.
cal / binning / informação / outros) e o tipo de geração intervalo (fusão / intervalos de divisão). A lição
mais importante aqui é que não existe wrapper de solução discretização online. Uma abordagem que
gerar intervalos por meio de uma linha pesos fi classificador, como proposto antes por alguns
seletores metragens, seria muito apropriado para esta tarefa. Uma abordagem invólucro poderia
De acordo com [129] , Um dos principais problemas de discretizers sem supervisão é a necessidade
mesmo resolver o problema dos deslocamentos em intervalos de definições fi devido à relação mais
de definindo o número de intervalos de antecedência. Tal decisão pode ser assistido por algumas regras
estreita entre a er fi classi e discretizer.
pré-definidas (por exemplo, regra Sturges) ou por um processo de análise exploratória. Contudo, exploratório
análise já não é possível nos dias presentes é onde o número de casos é muito grande e pré-definidas
regras têm mostrado ao trabalho apenas com conjuntos de dados de pequeno porte. No entanto, sem
supervisão discretizers são naturalmente projetado para streaming de ambientes desde o número de 5. Experimentos
intervalos permanece invariável.

Nesta seção, avaliamos a utilidade eo desempenho dos dados de pré-processamento de


algoritmos para fluxos de dados de mineração de diferentes perspectivas:
O máximo de supervisionada abordagens tendem a executar várias fusões e splits antes a obtenção de
um fi funcional esquema nal. mudanças bruscas de intervalos definição, pode negativamente influenciar o
• Eficácia: medido como o número de fi cado casos corretamente classi dividido pelo número total
aprendizado on-line processo. Portanto, os métodos devem esforçar-se por transições mais suaves. Nós apresentar
de casos no conjunto de treinamento (precisão). Ele pode ser considerado como o fator mais
uma pequena lista de abordagens discretização supervisionados:
relevante na medição utilidade de propostas.

• Tempo e memória desempenho: medido como o tempo total gasto pelo algoritmo na fase de
redução / discretização. Geralmente realizada antes da fase de aprendizagem, embora às vezes
• Gama et ai. [129] apresentou o Partition Incremental Discretization algoritmo (PID), que consiste em
ele é executado simultaneamente para a fase de previsão. Além disso, a utilização da memória
duas camadas. O primeiro um resume os dados e cria os intervalos preliminares, que serão optimizado
para o passo de pré-processamento está a ser medido para mostrar o consumo de recursos
na camada seguinte. Uma estratégia de igual largura pode ser usado para inicializar este passo.
exibida por cada um dos métodos testados.
Em seguida, a primeira camada é atualizado através de um processo de separação de, sempre que
o número de elementos em uma intervalo acima é um pré-de limiar definido. O segundo camada executa
uma processo de fusão através da fase anterior em a fim de se obter o fi nal esquema de
• Taxa de redução: medido como a quantidade de redução realizado com respeito ao conjunto original
discretização. Qualquer discretizer pode ser utilizada na segunda camada, uma vez que os
(em percentagem). Para os métodos de selecção, que está relacionada com o número de linhas /
intervalos gerado em a fase anterior são usados ​como entradas. mínimo Descrição comprimento Discretizer
colunas removida, ao passo que para a discretização, ela está relacionada com o grau de simplificação
é usada como referência no artigo original. No entanto, existem três razões principais para a crítica
do espaço de características.
da abordagem PID. Em primeiro lugar, não há exato correspondência entre os primeiros camada e a
segunda, que produz imprecisões que irá e cadeia aumentar com o tempo. Em segundo lugar, se a
distribuição de dados é altamente enviesada, o número de intervalos será gerado dramaticamente aumentar, O quadro experimental é definida em Seção 5.1 . Aqui, são apresentados na lista de conjuntos de
devido à frequência transbordando. Finalmente, a divisão processo pode tornar-se ainda mais dados e métodos, e outras considerações. Os resultados e discussão de algoritmos examinados são
imprecisa se muitas repetições de um único valor de aparecer. Neste caso, um tal ponto de corte apresentadas em relação com o tipo de tarefas a ser realizado. Cada tarefa requer configurações
pode ser gerado que divide casos com o mesmo recurso valores em dois contentores diferentes, diferentes, devido às suas especificações características fi cos, que serão explicados em cada seção.
que conduzem a inconsistências. A ordem é a seguinte: FS ( Seção 4.1 ), É ( Seção 4,2 ), E discretização ( Seção 4.3 ).

5.1. quadro Experimental: conjuntos de dados, métodos e parâmetros

tabela 4 mostra a lista completa de arti cial fi e conjuntos de dados reais utilizados em nossos
• Dentro [130] a versão online do ChiMerge (OC), que mantém a O ( nlog (n )) Tempo complexidade experimentos para avaliar as técnicas de redução. Arti fi conjuntos de dados oficiais foram gerados
realizada pelo algoritmo original, é proposto. A fim de garantir a igualdade de Resultados de usando Análise on-line de referência maciça (MOA) [131] , Fornecendo uma ampla gama de deriva
discretização, autores implementar uma abordagem on-line baseado em deslizamento-ganha ambientes (blips, súbita e gradual, entre outros descritos na
48 S. Ramirez-Gallego et ai. / Neurocomputação 239 (2017) 39-57

tabela 4 Table 5
Relevante informação sobre classi fi cação conjuntos de dados. Para cada linha, o número de casos avaliadas (#Inst.), O Parameters of methods. Default values for each block of methods are detailed in first rows. Unless specified, these
número de atributos (#Atts.) (Quais são numérica (#Num.) E quais os que nominal (#Nom.)), O número de classes values are common to every method in block.
(#Cl), e se o conjunto de dados é artificialmente gerado ou não (arti fi cial) são mostrados.
Method Parameters

Feature selection window size = 1 (default)


conjunto de dados # Inst. # ATTS. # Num. #Nom. # Cl. Arti fi cial
NB –
blips 50 0,0 0 0 20 20 0 4 sim IG [70] –
gradual_drift 50 0,0 0 0 3 3 0 2 sim SU [72] –
gradual_recurring_drift 50 0,0 0 0 20 20 0 4 sim OFS [77] η = 0.2, λ = 0.01
incremental_fast 50 0,0 0 0 10 10 0 4 sim
Instance selection k = 3, window size = 100 (default)
incremental_slow 50 0,0 0 0 10 10 0 4 sim
kNN window size = 1
no_drift 50 0,0 0 0 24 0 24 10 sim
NEFCS-SRR [13] l = 10, pmax = 0.5, size limit = 10 0 0
sudden_drift 50 0,0 0 0 3 3 0 2 sim
CBE [118] –
companhias aéreas 539383 6 3 3 2 não
ICF [116] –
covtypeNorm 581011 54 10 44 7 não
FISH [121] learner = kNN, distance proportion (time/space) = 0.5, window size = 1
elecNormNew 45,311 8 7 1 2 no
kddcup_10 494,020 41 39 2 2 no
Discretization initial elements = 100, window size = 1 (default)
poker-lsn 829,201 10 5 5 10 no
NB –
spambase 4601 57 57 0 2 no
OC [130] –
spam_nominal 9324 40,0 0 0 0 40,0 0 0 2 no
usenet_recurrent 5931 659 0 659 2 no
PiD [129] α = 0.75, initial bins = 500, instances to update layer
# 2 = 10,0 0 0, min/max = 0/1
spam_data 9324 499 0 499 2 no
usenet1 1500 100 0 100 2 no
usenet2 1500 100 0 100 2 no
usenet3 5997 27,893 0 27,893 2 no
power_supply 29,928 2 2 0 24 no
established according to the authors’ criteria. Common parameters, like window size or the number of
initial elements to consider before starting the reduction process, tends to have common values within
the same group. A window size equal to one means that the algorithms work in an online manner,
whereas a value higher than one implies a batch-based processing. For instance, FS and
Section 2 ). Each artificial dataset has been created using different combinations of generators and
discretization methods are suitable for online scenarios, whereas most of instance selectors process
different parameter values. For a complete description of datasets, and source code, please refer to
elements in batches (except FISH and kNN).
our GitHub repository 2 .

Real datasets come from different sources:

As most of feature selectors and discretizers are focused on NB, it has been elected as a base
• airlines, elecNormNew, poker-lsn , and covtypeNorm can be found in MOA’s streams repository.
classifier for these groups. Likewise, kNN serves as reference for instance selectors. Training and
testing processes are performed differently for each task.
• spam_data, usenet1, usenet2 , and usenet3 are e-mail datasets affected by concept drift, collected by
The Machine Learning and Knowledge Discovery (MLKD) group ( http://mlkd.csd.auth. gr/concept
In FS contingency tables in NB are updated whenever an example arrives. During the
_ drift.html ).
classification phase NB only makes predictions by considering the most relevant features.

• spambase is a collection of e-mails classified as spam [132] .


Training in discretization is also accomplished following the previous scheme, with the
• kddcup_10, spam_nominal ( SpamAssasin), and usenet_recurrent
particularity that the structure of contingency tables may change whenever new intervals are
were collected by Dr. Gama and his research group KDUS ( http:
generated. A new discretization scheme means old model will be outdated and the amount of errors
//www.liaad.up.pt/kdus/products/datasets-for-concept-drift ).
will sharply increase.
• Last dataset ( power_supply ) comes from Stream Data Mining Repository ( http://www.cse.fau.edu/ ∼
xqzhu/stream.html ), and contains power supply registers collected hourly from an electricity company.
As to IS, those methods with best results according to [13] have been selected for our
experiments. Different update schemes have been adopted depending on the original design held by
each selector. For kNN and FISH, an instant-update scheme has been adopted. In this scheme new

Not all datasets described above have been used for every experiment. Some algorithms are instances are immediately added to the casebase. Note that this approach gives kNN a clear

designed to deal with a particular data types. For instance, most of feature selectors require discrete advantage over the rest of methods since an ever-updated case-base tends to adapt well to changes.

features, especially if they utilize information-based measures. Because MOA generators [131] only However, it also introduces a lot of redundancy which does not affect accuracy.

generate datasets with continuous attributes, these datasets will not be considered for FS. The final choice
of datasets and any detail concerned to their features will be described in further sections.

FISH selects a different training set whenever a new example arrives, thus acting in an online
way. In counterpart, NEFCS shows a batch-like behavior which requires two windows for drift

No previous fixed partitioning has been performed on datasets, instead an online evaluation approach detection. Here, the updating of the case-base is deferred until a complete batch of examples is
available. For a fair comparison between competence models (CBE, ICF, NEFCS-SRR), we have
has been elected to asses the quality of methods, known as interleaved test-then-train . This technique, proposed
by Bifet et al. in [133] , defines a model in which each example/batch (arriving at time t ) is evaluated adopted a model based on batches for all these algorithms. New instances are immediately added to

against the case-base in CBE and ICF, but reduction is only performed when the batch size condition is met.

t − 1 -model, and then it serves as input to update that model and forms the subsequent t - model.

Reduction techniques used in experiments are listed and grouped by task in Table 5 . The default The whole experimental environment has been executed in a single standard machine, with the

parameter values has been following features: 2 processors Intel Core i7 CPU 930 (4 cores/8 threads, 2.8 GHz, 8 MB cache), 24
GB of DDR2 RAM, 1 TB SATA HDD (3 Gb/s), Ethernet network connection, CentOS 6.4 (Linux).
Examined algorithms have been
2 https://github.com/sramirez/MOAReduction
S. Ramirez-Gallego et ai. / Neurocomputação 239 (2017) 39-57 49

tabela 6

Teste final exactidão pelo método (FS). O melhor resultado para cada conjunto de dados é destacado em negrito. A segunda linha de cabeçalho representa o número de recurso seleccionado. Não selecção é realizada para o NB.

Baías ingénuas Infogain SU OFS

10 100 10 0 0 10 100 10 0 0 10 100 10 0 0

spam_data 90,6692 89,2750 90,8516 90,6692 88 0,9103 90 0,4333 90 0,6692 90 0,0579 91 0,7417 90 0,6692
spam_nominal 10 0.0 0 0 0 10 0.0 0 0 0 10 0.0 0 0 0 10 0.0 0 0 0 100 .0 0 0 0 100 .0 0 0 0 100 .0 0 0 0 100 .0 0 0 0 100 .0 0 0 0 100 .0 0 0 0
usenet1 63,3333 53,6667 63,3333 63,3333 53 0,2667 63 0,3333 63 0,3333 58 0,3333 63 0,3333 63 0,3333
usenet2 72,1333 66,9333 72,1333 72,1333 66 0,6667 72 0,1333 72 0,1333 68 0,20 0 0 72 0,1333 72 0,1333
usenet3 84,6038 68,8073 78,2319 82,9024 69 0,0242 77 0,8816 82 0,8691 54 0,0951 57 0,4646 70 0,5922
usenet_recurrent 10 0.0 0 0 0 10 0.0 0 0 0 10 0.0 0 0 0 10 0.0 0 0 0 100 .0 0 0 0 100 .0 0 0 0 100 .0 0 0 0 100 .0 0 0 0 100 .0 0 0 0 100 .0 0 0 0
no_drift 51,4120 51,4240 51,4120 51,4120 51 0,4240 51 0,4120 51 0,4120 32 0,5830 51 0,4120 51 0,4120
SIGNIFICAR 80,3074 75,7295 79,4232 80,0643 75 0,6131 79 0,3134 80 0,0596 71 0,8956 76 0,5836 78 0,3057

FIG. 3. representação box-plot de tempo selecção e redução (FS).

integrado no MOA software (16.04v) como uma biblioteca de extensão 3 . MOA tem Além disso servido como referência e usenet_recurrent casos, onde mesmo com palavras somente dez a classi fi er é capaz de prever

para o nosso experimentos. perfeitamente todos os exemplos.

Para afirmar que nenhum método é melhor do que o NB, que transmitem uma análise estatística
5.2. Característica seleção
dos resultados de precisão classi fi cação através de dois testes não paramétricos: Wilcoxon
Signed-Rank Test (um uma vs) e Friedman-Holm teste (uma vs. todo) [134135] . Teste de Wilcoxon
Aqui nós avaliar como seleção bem de características relevantes é realizada pela streaming de
realiza comparações par a par entre o método de referência e o resto. Um nível de significância α=0.
métodos. Como a maioria dessas abordagens presumir recursos são discretos, temos apenas selecionado
05 foi escolhido para esta experiência. O primeiro em duas colunas tabela 7 mostram resultados de
a partir
Wilcoxon para exatidão, onde o símbolo '+' indica o número de métodos superado por cada algoritmo
tabela 4 Essa benchmarks sem atributos numéricos. Observe isso tudo estes conjuntos de dados vem da
em linha. símbolo ' ± 'Representa o número de vitórias e laços gerados por cada um dos métodos. O
mineração de texto fi eld, em que cada atributo representa a presença ou a ausência de um dado palavra. Estes
melhor valor por coluna é destacada por um fundo sombreado. As restantes colunas mostram os
ts conjuntos de dados fi bem para FS como o corpus de palavras / características é normalmente bastante
resultados para o teste de Friedman. A primeira uma mostra eficácia classificação de métodos,
grande.
encomendado a melhor marca (linha superior) para o pior. Note-se que o melhor método é
estabelecido como o algoritmo de controle. A segunda coluna contém o ajustada p - Os valores para
Em primeiro lugar, tabela 6 nós Medir o classi fi cação precisão realizada por a três característica seletores
cada método de teste de acordo com Holm de post hoc. O mesmo nível de significância ( α = 0 . 05 )
considerada no âmbito experimental: IG, SU, e OFS; além NB nativa usando todos os recursos. A
Foi estabelecida para este teste.
partir destes resultados, podemos Conclua isto:

• NB rendimentos Melhor exatidão quando todos os recursos estão disponíveis durante predição. Nenhum
dos esquemas de seleção mostram eficácia melhor do que NB.

• No entanto, IG e SU gerar resultados muito perto de NB, com o vantagem de geração de soluções De acordo com os resultados apresentados na tabela 7 , Podemos afirmar que nenhum método é

muito mais simples (como pode ser visto nas A Fig. 3 b). fi signi cativamente melhor do NB sem discretização ao usar 10 recursos. Como a 100 e 10 0 0
recursos, o novo método Outperforming é SU, embora sem mostrar estatisticamente significância em

• Informações baseadas métodos são mais precisos que OFS (com base em característica ponderação). relação à maioria das alternativas.
Especialmente notáveis ​são o spam_data
A Fig. 3 retrata tempo selecção gasto por cada algoritmo, bem como a quantidade de redução
realizado por cada método de selecção, variando de dez a mil recursos. Não há estandes de seleção
3 http://moa.cms.waikato.ac.nz/moa-extensions/
50 S. Ramirez-Gallego et ai. / Neurocomputação 239 (2017) 39-57

FIG. 4. parcelas de exatidão prequential (em%), tempo de CPU processamento (em segundos) e uso de memória (em Ram-horas) sobre o progresso fluxo de dados (casos processados) para recurso seleção métodos em spam_data benchmark.

FIG. 5. parcelas de exatidão prequential (em%), tempo de CPU processamento (em segundos) e uso de memória (em Ram-horas) sobre o progresso fluxo de dados (casos processados) para recurso seleção métodos em usenet3 benchmark.

tabela 7 ceptable ( > 25%). Por favor note que nenhuma seleção é realizado em 4/7 problemas quando escolhemos o 10
os resultados dos testes de Wilcoxon e rankings médios de recurso seletores (Procedimento
0 0-features esquema de uma vez que não são atributos suficientes para selecionar.
Friedman & Ajustado

p - valor com o teste de Holm) para a exatidão.


Em conclusão, SU-10 0 0 pode ser eleito como a melhor escolha por causa de seus resultados de
precisão competitivos semelhantes aos gerados pelo NB e taxas de redução apresentadas. Tempo
resultados não mostram diferenças significativas entre os métodos examinados.

Resultados detalhados sobre todo o fluxo de dados para spam_data e


usenet3 benchmarks com respeito a precisões prequential obtidos, o uso da CPU e uso de memória
estão representados na Figos. 4 e 5 .

5.3. selecção Instância

Aqui, nós avaliar como são os métodos executar em ambientes não-estacionárias. Ao contrário de Seção
4.1 , Neste experimento nós incluímos conjuntos de dados com ambos os atributos numéricos e
nominais. Em experiências anteriores [13] selectores exemplo, demonstraram ser impraticáveis ​quando
se lida com os conjuntos de dados médias. Por causa disso nós descartamos esses problemas com
um número de instâncias > 10 0, 0 0 0. Adicionalmente, criaram novos conjuntos de dados arti fi cial com
um menor número de exemplos (10,0 0 0 casos).

Precisão exibida por métodos examinados são dadas em Quadro 8 .


tabela 9 mostra os resultados sobre a precisão para o teste de Wilcoxon e Friedman- Holm, seguindo o
mesmo esquema apresentado nas Seção 4.1 . A partir destes resultados, podemos concluir que:

Como a o mais rápido alternativo. Apesar do conjunto completo de recurso é usado para previsões, este ofertas
alternativas melhores resultados devido à prevenção de característica relevância computações. Entre as • O melhor método, em média, é o kNN atualizado sem selecção (80,49%). O concorrente mais
alternativas de seleção, OFS desempenho mais rápido do que o seletores baseada na informação. No próximo (CBE) é cinco unidades abaixo kNN. Outros métodos on-line, como peixes ou ICF, não
entanto, tem mostrado na OFS tabela 6 obter esquemas menos precisos que o seu concorrentes. respondem bem aos desvios de conceito.

• Nenhum método é estatisticamente melhor do que kNN atualizado. Embora kNN ganha em cada
embora um Melhor taxa de redução é alcançada em 10-features comparação aos pares no testes de Wilcoxon, só fi signi cativamente Supera ( α = 0 . 05 ) FISH e ICF
esquema (Perto de 100% em média), escolhendo 10 0 0 características que podem originar Melhor precisão, de acordo com testes Friedman-Holm.
enquanto que a taxa de redução obtida ainda é ac-
S. Ramirez-Gallego et ai. / Neurocomputação 239 (2017) 39-57 51

FIG. 6. representação box-plot de tempo selecção e redução (IS).

Quadro 8 tabela 10
total do teste exactidão pelo método de (IS). a precisão do teste Classi fi cação depois de discretização.

NEFCSSRR ICF CBE PEIXE kNN PiD IDA OC Baías ingénuas

elecNormNew 67 0,7652 43 0,7882 73 0,8105 60 0,0455 84 0,0815 companhias aéreas 63 0,0057 64 0,1563 65 0,0723 64 0,5504
fonte de energia 11 0,9400 4 0,2502 12 0,3800 5 0,4435 15 0,1296 fonte de energia 2 0,9237 13 0,5793 11 0,2938 16 0,1087
spambase 81 0,6779 39 0,3827 97 0,5440 95 0,9139 95 0,1532 elecNormNew 71 0,9522 76 0,6905 74 0,0731 73 0,3625
spam_data 88 0,8782 25 0,6113 91 0,1197 77 0,3488 93 0,9833 spambase 98 0,0439 97 0,8700 97 0,6744 82 0,8081
spam_nominal 100 0,0 0 0 0 100 0,0 0 0 0 100 0,0 0 0 0 100 0,0 0 0 0 100 .0 0 0 0 kddcup_10 99 0,1474 98 0,4644 98 0,1404 97 0,1908
usenet1 56 0,6667 54 0,5333 54 0,0667 55 0,20 0 0 56 0,4667 poker-LSN 55 0,0335 59 0,4337 58 0,5465 59 0,5528
usenet2 61 0,20 0 0 63 0,4667 48 .40 0 0 69 .80 0 0 68 0,20 0 0 covtypeNorm 66 0,6306 62 0,7235 64 0,2254 60 0,5208
usenet_recurrent 100 0,0 0 0 0 100 0,0 0 0 0 100 0,0 0 0 0 100 0,0 0 0 0 100 .0 0 0 0 blips 74 0,5680 66 0,4494 64 0,2148 60 0,9060
blips 90 0,8900 34 0,1300 94 0,2300 31 0,3200 97 0,1800 sudden_drift 65 0,7736 81 0,3168 77 0,8808 83 0,8144
sudden_drift 76 0,5300 61 0,7300 74 0,2300 60 0,8700 82 0,6600 gradual_drift_med 60 0,8404 82 0,8908 80 0,1032 84 .70 0 0
gradual_drift 68 0,2700 52 0,3600 74 0,4500 52 0,0200 81 0,2700 gradual_recurring_drift 65 0,1678 58 0,5250 58 0,5612 56 0,7450
gradual_recurring_drift 87 0,5800 28 0,9400 92 0,6500 28 0,8400 96 0,3300 incremental_fast 73 0,9900 75 0,6472 75 0,6036 76 0,3642
incremental_fast 65 0,8900 51 0,7700 68 0,40 0 0 55 0,8300 77 0,2800 incremental_slow 65 0,6074 76 0,9186 75 0,4316 78 0,0688
incremental_slow 72 0,4300 50 0,9800 68 0,70 0 0 56 0,5800 79 0,10 0 0 SIGNIFICAR 66 0,3603 70 0,3589 69 0,2939 68 0,8225
SIGNIFICAR 73 0,5513 50 0,7816 74 0,9986 60 0,6580 80 0,4882

tabela 9
taxas de redução mais altos, à custa do aumento da complexidade de tempo. NEFCSSRR também
os resultados dos testes de Wilcoxon e rankings médios de métodos (Friedman Procedimento & Ajustado p - valor
representa uma opção interessante porque este método mostra precisos, e um desempenho mais rápido do
com o teste de Holm) para a exatidão.
que CBE. A taxa de redução notável de FISH é explicado porque normalmente selecciona o kNN para cada
novo exemplo. Este fato também explica seu mau resultado na precisão.

Resultados detalhados sobre todo o fluxo de dados para sudden_drift e


gradual_drift benchmarks com respeito a precisões prequential obtidos, o uso da CPU e uso de
memória estão representados na Figos. 7
e8.

5.4. discretização

Para avaliar a capacidade de discretizers supervisionadas para reduzir o espaço recurso


• Seleção métodos de fazer decisões sobre a relevância ou dificuldade de uma dada instância sem
contínuo, propomos um novo estudo com três métodos de discretização para fluxos de dados. NB e
saber o estado futuro da corrente. É normal que o há-selecção opção sempre executa melhor do
incremental de discretização Algoritmo (IDA) [11] have been elected as benchmark to assess the
que outros. É só depende da quantidade de ruído introduzido por cada problema e não por
quality of supervised discretization schemes. The first one employs a gaussian estimation method,
outros fatores como redundância.
whereas the second one employs an unsupervised scheme based on quantileestimation. In this
experiment, only datasets with at least one numerical attribute have been considered. Email-based
dataset used in Section 4.1 are thus discarded.
A respeito de redução e tempo, A Fig. 3 mostra a distribuição para ambos variáveis. A partir dessas
parcelas, podemos afirmar que CBE pode ser considerado como o mais solução precisa, e também
oferece a
52 S. Ramírez-Gallego et al. / Neurocomputing 239 (2017) 39–57

Fig. 7. Plots of prequential accuracy (in %), CPU processing time (in s.) and memory usage (in RAM-hours) over the data stream progress (processed instances) for instance selection methods on sudden_drift benchmark.

Fig. 8. Plots of prequential accuracy (in %), CPU processing time (in s.) and memory usage (in RAM-hours) over the data stream progress (processed instances) for instance selection methods on gradual_drift benchmark.

Table 11 This parameter is essential as determines the expansion rate for new intervals, thus it may be
Wilcoxon test results and average rankings of methods (Friedman Procedure
possible to tailor it specifically for some datasets.
& Adjusted p-value with Holm’s Test) for accuracy.

Apart from the previous deficiencies, Fig. 9 a shows a high timecomplexity of OC, as a result of a
high number of data structures (binary tree, several queues, etc.) to be managed. IDA holds a similar
time performance to NB.

Fig. 9 b illustrates the reduction performed by each method, represented as number of intervals
generated per method. In this case, OC obtains the simplest solutions thanks to the control performed
by χ 2 . IDA defines the number of intervals before launching any process and PiD’s inaccuracy is
explained by a huge number of intervals generated initially ( ≈ 500 per feature), as well as during the
splitting process. Please notice that the subsequent merging process launched by the second layer is
Tables 10 and 11 contain test accuracy results for NB classification with and without explicit discretization.
just not able to efficiently reduce such many input intervals.
From these results, we can conclude the following statements:

• The most accurate method (in average) is IDA, an unsupervised method based on quantile-estimation
and a sampling approach. However, its results are pretty close to those obtained by OC and NB. As discussed before, evolving intervals sharply affect streaming classification since new and

OC also outperforms the base solution, but with smaller margin than presented by IDA. deleted intervals normally imply dramatic changes in the learning process. New models and
techniques with a better interaction between discretization and classification must be designed if we
want to transform online discretization into a truly useful tool for data analytics.

• According to the Wilcoxon test, we can statistically assert that IDA is only better than OC. Nevertheless
this claim is rejected by Friedman’s procedure, with a p - value far from the standard acceptance thresholds:
0.9 or 0.95. Although some improvement can be achieved by using supervised discretization, it can Detailed results on the entire data stream for sudden_drift and

be deemed as superfluous and likely suboptimal. gradual_drift benchmarks with respect to obtained prequential accuracies, CPU usage and memory
usage are depicted in Figs. 10
and 11 .

• PiD represents the worst choice in this framework. Yet, it is specially remarkable that PiD is able
to obtain the best accuracy mark in 5/13 datasets, with an outstanding mark in the blip dataset. This 6. Data preprocessing for data stream mining: lessons learned and future directions
fact can be explained by the high number of parameters to be tuned in PiD and the high
dependency on their values. Among the list of parameters, a global minimum and the maximum
value need to be defined for the whole set of features, which is unfeasible in streaming In this section we will discuss observations made on the basis of the presented survey of existing
environments. preprocessing methods for data streams, as well as the accompanying experimental study. Then, we
will outline open challenges and future directions in this field.
S. Ramírez-Gallego et al. / Neurocomputing 239 (2017) 39–57 53

Fig. 9. Box-plot representation for discretization time and reduction (discretization).

Fig. 10. Plots of prequential accuracy (in %), CPU processing time (in s.) and memory usage (in RAM-hours) over the data stream progress (processed instances) for discretization methods on sudden_drift benchmark.

Fig. 11. Plots of prequential accuracy (in %), CPU processing time (in s.) and memory usage (in RAM-hours) over the data stream progress (processed instances) for discretization methods on gradual_drift benchmark.

6.1. Lessons learned through a combined strategy based on an information-based FS and an unsupervised selection
method.
Some important outcomes and guidelines can be inferred from the study, which we enumerate • As expected FS does not improve accuracy results presented by the option with the full set of
below: features. Nevertheless FS solutions are able to yield simpler solutions with similar predictive
performance, which is of crucial importance to stream mining frameworks. SU, the selector
included in DXMiner, can be elected as the best method for FS because of its outstanding results
• A wide range of phenomenons specific to data stream mining, ranging from concept-evolution to
in accuracy and its low complexity.
dynamic feature space, directly affects the features describing incoming instances. DXMiner is the
only system that address all these problem
54 S. Ramirez-Gallego et ai. / Neurocomputação 239 (2017) 39-57

• orientada por competência métodos para a IS tendem a manter-bases caso lustrado na mais alto bilizes, a seleção exemplo pode ser repetido para se adaptar ao conceito atual. Outra solução
grau, livre de ruído e redundância. Contudo eles são caracterizado por um muito elevado complexidade potencial é ter protótipos ponderada, onde o peso que refletem como há muito tempo eles foram
computacional. Dentro soluções baseadas na distância, essa sobrecarga é ainda maior, embora não criados e como eles são úteis para mineração estado atual do fluxo. Isso permitiria esquecer
sendo equilibrado pelo quaisquer ganhos na precisão geral. Dentro geral, todos instância selectores suavemente protótipos desatualizados, mantendo na memória aqueles ainda útil. trações locais
mostraram uma desfavorável comportamento com relação a requisitos de tempo e memória, portanto impedindoque ocorrem apenas dentro de um subconjunto de classes também devem ser considerados.
a sua aplicações significativas em alta velocidade dados corrente mineração. Em tal caso uma só protótipos seleccionados deve ser modi fi cado nas áreas da presença
deriva. Isso exigiria métodos protótipo de poda baseadas em classe e um método para ignorar a
in fl uência desses protótipos à deriva em classes estacionárias.

• CBE pode ser eleito como melhor opção para é em termos de precisão e redução. NEFCSSRR
também se apresenta como uma opção interessante, com resultados semelhantes aos CBE, porém
que exige mais computacional Recursos.
• Há uma necessidade de novos métodos de pré-processamento em desenvolvimento caracterizado
• Quando seleção métodos de pré-processamento para nós mineração fluxo de dados devo considerar por um baixo requisitos computacionais que permitiria uma tomada de decisão em tempo real ao
não apenas a precisão obtida, mas também os custos computacionais que são associado a este lidar com fluxos de dados grande e de alta velocidade [137] . Em caso de uma mineração de fluxo de
método. Como nosso estude claramente mostrou alguns dos métodos considerados são caracterizados dados deve sempre equilibrar a precisão obtida com a quantidade de tempo gasto com os cálculos.
pela gargalos em qualquer CPU ou uso de memória, assim, tornando-os para inadequados dados de Portanto, o desenvolvimento de soluções aproximadas com critérios de parada poderia ser benéfico,
alta velocidade córregos. especialmente em casos de mudanças bruscas.

• Não existem soluções que levem diretamente em conta a possibilidade de desvios conceito
6.2. Desafios e futuro instruções
recorrentes. Portanto, parece promissor para o desenvolvimento de métodos de pré-processamento
que poderia acomodar o fato de que conjunto anteriormente utilizado de recursos / casos / caixas
Aqui nós delinear o principal desafios que devem ser abordados por a pesquisa comunidade, a fim
discretas pode ser útil novamente no futuro. maneira mais simples de abordar esta seria a criação de
de obter um progresso significativo na área de pré-processamento técnicas para problemas de fluxo
um buffer secundário armazenar esses itens para um determinado período de tempo, o que permite
de dados:
reutilizá-los quando necessário. Para evitar os requisitos de memória inaceitáveis ​este tampão deve
ser fl ushed após um determinado período de tempo com nenhuma ação.

• UMA escasso número de linha e discretizers supervisionadas ter sido proposto no literatura até o
momento. A maioria dos métodos atuais são sem supervisão técnicas baseadas em quantis,
usando uma adaptação estratégia com alisar mudanças na intervalos de definição ea anterior definição
de intervalos. Adicionando informações de classe ao discretização processo permitiria acomodar • Há uma necessidade de desenvolver métodos para dados mais complexos tipos de fluxo de dados
para locais drifts, Onde Propriedades de apenas algumas mudanças de classe. Além disso, enVision de pré-processamento. Tais técnicas são cruciais para imbalanced [138139] , Multi-label [140] e

o potencial de aprendizado conjunto que vontade permitem utilizar vários intervalos de discretização multi-instância

para permitir a formação de um conjunto diversificado de classi fi cadores. [141] problemas e deve ser alargado no quadro de streaming.

7. Observações finais
• Atual conectados discretizers têm mostrado a executar mal como seu ajustes tendem a ser mais
abrupta do que aqueles gerados pelo quantil baseada- técnicas (ver Seção 4.3 ). No entanto, este
Nós apresentamos um estudo aprofundado de métodos de redução de dados aplicadas à
problema tem sido compensada pela inclusão de informações de classe na discretização processo.
mineração fluxo de dados. conceitos básicos, obras existentes e desafios presentes e futuros foram
ajustes abruptos e bulas são dois principal preocupações que devem ser abordadas através de uma
analisados ​neste trabalho. Baseado em uma série de características relevantes, propusemos um
maior desenvolvimentos nesta área. Isso mostra que há uma necessidade de combinando discretização
simples, mas taxonomia útil dos actuais desenvolvimentos na pré-processamento de dados online.
com soluções de aprendizagem activa. Isso seria permitido para marcação selectiva de apenas
estas amostras que produzem Altíssima probabilidade de influenciando dos intervalos de definições
fi.
A maioria dos métodos relevantes também foram analisados ​empiricamente através de um quadro

experimental consciente, que inclui uma lista de arti cial fi e bases de dados reais, com diferentes tipos de

derivação a longo e diversificado. Uma análise estatística com base em testes não paramétricos de ter sido
• Não puro invólucro à base de As soluções foram propostas para on-line problemas ainda. E ffi
transmitida para suportar as conclusões resultantes.
ciente implementações destes métodos pode ser desafiando matriz à sua maior custo
computacional, mas esta talvez compensado pelo capacidade inerente de discriminativo conectados
Concluindo este trabalho, podemos afirmar que os dados de pré-processamento para os fluxos de
alunos e sua adaptabilidade para desvios. um potencial solução seria combinar fi ltro e invólucro
dados ainda está em seus primeiros dias. métodos novos e mais sofisticados que lidar com os desafios
abordagens em a fim de reduzir o número de vezes que o mais dispendiosos método vai ser
anteriormente não resolvidos devem ser concebidos nos anos a seguir. Grande progresso foi feito na
usado e para permitir uma contínua classi fi cação até durante o invólucro computação. outro
instância e seleção de recursos, mas outras tarefas como discretização continua ainda a ser devidamente
potencial mentiras solução na utilização soluções de alto desempenho com base em GPU ou distribuído
tratados.
computação para reduzir o carga computacional conectados com este abordagem [136] .

Agradecimentos

• Existe um necessidade de mais pesquisas sobre seleção de recursos e instância métodos que Este trabalho é apoiado pela Espanhol Nacional de Pesquisa
podem abordar directamente o problema do conceito deriva. Uma maneira de abordar este seria Projeto TIN2014-57251-P , O projeto Fundação BBVA 75/2016 BigDaPTOOLS, o plano andaluz
combinar instância seleção aproxima-se com o módulo de detecção de desvio que poderia diretamente Research P11-TIC-7765, eo Nacional de Ciência polonês Centro sob nenhuma concessão. DEC2013 /
influenciar a usabilidade de protótipos. sempre que um Forte deriva está sendo detectada, pode 09 / B / ST6 / 02264 . S. Ramírez-Gallego detém uma bolsa FPU do Ministério espanhol da Educação
descartar os protótipos anteriores e utilizar apenas os objectos que chegam. Depois de fluxo e Ciência (FPU13 / 0 0 047).
estabili-
S. Ramirez-Gallego et ai. / Neurocomputação 239 (2017) 39-57 55

Referências [29] L. Du , Q. Song , X. Jia , Detecting concept drift: an information entropy based
method using an adaptive sliding window, Intell. Data Anal. 18 (3) (2014) 337–364 .

[1] S. García , J. Luengo , F. Herrera , Data Pré-processamento em Data Mining, Springer,


[30] O. Mimran , A. Even , Data stream mining with multiple sliding windows for
2015 .
continuous prediction, in: 22st European Conference on Information Systems, ECIS 2014, Tel Aviv, Israel,
[2] S. García , J. Luengo , F. Herrera , Tutorial on practical tips of the most influ-
9–11, 2014, 2014 .
ential data preprocessing algorithms in data mining, Knowl. Based Syst. 98 (2016) 1–29 .
[31] P. Domingos , G. Hulten , Mining high-speed data streams, in: I. Parsa, R. Ra-
makrishnan, S. Stolfo (Eds.), Proceedings of the ACM Sixth International Conference on Knowledge Discovery
[3] D. Pyle , Data Preparation for Data Mining, Morgan Kaufmann Publishers Inc.,
and Data Mining, ACM Press, Boston, USA, 20 0 0, pp. 71–80 .
1999 .
[4] V. Mayer-Schnberger , K. Cukier , Big Data: A Revolution That Will Transform
[32] W. Liu , Z. Wang , X. Liu , N. Zeng , Y. Liu , F.E. Alsaadi , A survey of deep neu-
How We Live, Work and Think., 2013 .
ral network architectures and their applications, Neurocomputing 234 (2017) 11–26 .
[5] S. García , S. Ramírez-Gallego , J. Luengo , J.M. Benítez , F. Herrera , Big data pre-
processing: methods and prospects, Big Data Anal. 1 (1) (2016) 9 .
[33] W.M. Czarnecki , J. Tabor , Online extreme entropy machines for streams clas-
[6] J.a. Gama , Knowledge Discovery from Data Streams, Chapman & Hall/CRC,
sification and active learning, in: Proceedings of the 9th International Conference on Computer Recognition
2010 .
Systems CORES 2015, Wroclaw, Poland, 25–27 May 2015, 2015, pp. 371–381 .
[7] J. Gama , I. Zliobaite , A. Bifet , M. Pechenizkiy , A. Bouchachia , A survey on con-
cept drift adaptation, ACM Comput. Surv. 46 (4) (2014) 4 4:1–4 4:37 .
[34] B. Lakshminarayanan , D.M. Roy , Y.W. Teh , Mondrian forests: efficient on-
[8] I. Zliobaite , B. Gabrys , Adaptive preprocessing for streaming data, IEEE Trans.
line random forests, in: Advances in Neural Information Processing Systems 27: Annual Conference on
Knowl. Data Eng. 26 (2) (2014) 309–321 .
Neural Information Processing Systems 2014, 8–13
[9] M.M. Masud , Q. Chen , J. Gao , L. Khan , J. Han , B. Thuraisingham , Classifica-
2014, Montreal, Quebec, Canada, 2014, pp. 3140–3148 .
tion and novel class detection of data streams in a dynamic feature space, in: Proceedings of the 2010
[35] M. Wo ´ niak , Application of combined classifiers to data stream classification, in: Computer Information
European Conference on Machine Learning and Knowledge Discovery in Databases: Part II,
Systems and Industrial Management - 12th IFIP TC8 International Conference, CISIM 2013, Krakow, Poland,
in: ECML PKDD’10, 2010,
25–27, 2013. Proceedings, 2013, pp. 13–23 .
pp. 337–352 .
[10] J.P. Barddal , H.M. Gomes , F. Enembreck , B. Pfahringer , A. Bifet , On dynamic
[36] M. Wo ´ niak , M. Graña , E. Corchado , A survey of multiple classifier systems as hybrid systems, Inf. Fusion 16
feature weighting for feature drifting data streams, in: Machine Learning and Knowledge Discovery in
(2014) 3–17 .
Databases - European Conference, ECML PKDD
[37] R. Elwell , R. Polikar , Incremental learning of concept drift in nonstationary
2016, Riva del Garda, Italy, September 19–23, 2016, Proceedings, Part II, 2016, pp. 129–144 .
environments, IEEE Trans. Neural Netw. 22 (10) (2011) 1517–1531 .
[38] Y. Sun , K. Tang , L.L. Minku , S. Wang , X. Yao , Online ensemble learning of data
[11] G. Webb , Contrary to popular belief incremental discretization can be sound,
streams with gradually evolved classes, IEEE Trans. Knowl. Data Eng. 28 (6) (2016) 1532–1545 .
computationally efficient and extremely useful for streaming data, in: IEEE International Conference on Data
Mining (ICDM), 2014, pp. 1031–1036 .
[39] G. Song , Y. Ye , H. Zhang , X. Xu , R.Y. Lau , F. Liu , Dynamic clustering forest: an
[12] V. Bolón-Canedo , N.S.-M. no , A. Alonso-Betanzos , Recent advances and emerg-
ensemble framework to efficiently classify textual data stream with concept drift, Inf. Sci. 357 (2016) 125–143 .
ing challenges of feature selection in the context of big data, Knowl. Based Syst. 86 (2015) 33–45 .

[40] L. Canzian , Y. Zhang , M. van der Schaar , Ensemble of distributed learners for
[13] N. Lu , J. Lu , G. Zhang , R.L. de Mantaras , A concept drift-tolerant case-base
online classification of dynamic data streams, IEEE Trans. Signal Inf. Process. Netw. 1 (3) (2015) 180–194 .
editing technique, Artif. Intell. 230 (2016) 108–133 .
[14] M.M. Gaber , Advances in data stream mining, Wiley Interdisc. Rew.: Data Min.
[41] L.L. Minku , X. Yao , DDD: a new ensemble approach for dealing with concept
Knowl. Discov. 2 (1) (2012) 79–85 .
drift, IEEE Trans. Knowl. Data Eng. 24 (4) (2012) 619–633 .
[15] E. Lughofer , P.P. Angelov , Handling drifts and shifts in on-line data streams
[42] L.L. Minku , A.P. White , X. Yao , The impact of diversity on online ensemble
with evolving fuzzy systems, Appl. Soft Comput. 11 (2) (2011) 2057–2068 .
learning in the presence of concept drift, IEEE Trans. Knowl. Data Eng. 22 (5) (2010) 730–742 .
[16] L.I. Kuncheva , Classifier ensembles for detecting concept change in streaming
data: overview and perspectives, in: 2nd Workshop SUEMA 2008 (ECAI 2008),
[43] A. Bifet , G. Holmes , B. Pfahringer , Leveraging bagging for evolving data
2008, pp. 5–10 .
streams, in: Machine Learning and Knowledge Discovery in Databases, European Conference, ECML PKDD 2010,
[17] D. Brzezinski , Block-based and Online Ensembles for Concept-drifting Data
Barcelona, Spain, 20–24, 2010, Proceedings, Part I, 2010, pp. 135–150 .
Streams, Poznan University of Technology, 2015 Ph.D. thesis .
[18] L.L. Minku , X. Yao , A.P. White , The impact of diversity on online ensemble
[44] D. Brzezinski , J. Stefanowski , Combining block-based and online methods in
learning in the presence of concept drift, IEEE Trans. Knowl. Data Eng. 22 (2009) 730–742 .
learning ensembles from concept drifting data streams, Inf. Sci. 265 (2014) 50–67 .

[19] I. Khamassi, M. Sayed-Mouchaweh, M. Hammami, K. Ghédira, Self-adaptive


[45] N. Japkowicz , M. Shah , Evaluating learning algorithms: a classification per-
windowing approach for handling complex concept drift, Cogn. Comput. 7 (6) (2015) 772–790, doi: 10.1007/s12559-
spective, Cambridge University Press, 2011 .
015- 9341- 0 .
[46] A. Shaker , E. Hüllermeier , Recovery analysis for adaptive learning from non-s-
[20] J. Gama , P. Medas , G. Castillo , P.P. Rodrigues , Learning with drift detection,
tationary data streams: experimental design and case study, Neurocomputing 150 (2015) 250–264 .
in: Advances in Artificial Intelligence - SBIA 2004, 17th Brazilian Symposium on Artificial Intelligence, São Luis,
Maranhão, Brazil, 29 - October 1, 2004, Proceedings, 2004, pp. 286–295 .
[47] J. Gama , R. Sebastião , P.P. Rodrigues , On evaluating stream learning algo-
rithms, Mach. Learn. 90 (3) (2013) 317–346 .
[21] A. Bifet , R. Gavaldà, Learning from time-changing data with adaptive win-
[48] D. Brzezinski , J. Stefanowski , Prequential AUC for classifier evaluation and
dowing, in: Proceedings of the Seventh SIAM International Conference on Data Mining, April 26–28, 2007, Minneapolis,
drift detection in evolving data streams, in: New Frontiers in Mining Complex Patterns - Third International
Minnesota, USA, 2007, pp. 4 43–4 48 .
Workshop, NFMCP 2014, Held in Conjunction with ECML-PKDD 2014, Nancy, France, 19, 2014, Revised
Selected Papers,
[22] P. Sobolewski , M. Wo ´ niak , Concept drift detection and model selection with
2014, pp. 87–101 .
simulated recurrence and ensembles of statistical detectors, J. Univ. Comput. Sci. 19 (4) (2013) 462–483 .
[49] M. Salehi , C. Leckie , J.C. Bezdek , T. Vaithianathan , X. Zhang , Fast memory effi-
cient local outlier detection in data streams, IEEE Trans. Knowl. Data Eng. 28 (12) (2016) 3246–3260 .
[23] R.M.M. Vallim , R.F. de Mello , Proposal of a new stability concept to de-
tect changes in unsupervised data streams, Expert Syst. Appl. 41 (16) (2014) 7350–7360 .
[50] I. Zliobaite , M. Budka , F.T. Stahl , Towards cost-sensitive adaptation: When is it
worth updating your predictive model? Neurocomputing 150 (2015) 240–249 .
[24] B.I.F. Maciel , S.G.T. de Carvalho Santos , R.S.M. de Barros , A lightweight con-
[51] A. Bifet , G.D.F. Morales , J. Read , G. Holmes , B. Pfahringer , Efficient online eval-
cept drift detection ensemble, in: 27th IEEE International Conference on Tools with Artificial Intelligence, ICTAI 2015,
uation of big data stream classifiers, in: Proceedings of the 21th ACM SIGKDD International Conference on
Vietri sul Mare, Italy, 9–11, 2015, 2015, pp. 1061–1068 .
Knowledge Discovery and Data Mining, Sydney, NSW, Australia, 10–13, 2015, 2015, pp. 59–68 .

[25] M. Wo ´ niak , P. Ksieniewicz , B. Cyganek , K. Walkowiak , Ensembles of heterogeneous concept drift detectors - experimental
[52] M. Wo ´ niak , P. Ksieniewicz , B. Cyganek , A. Kasprzak , K. Walkowiak , Active learning classification of drifted
study, in: Computer Information Systems and Industrial Management - 15th IFIP TC8 International Conference,
streaming data, in: International Conference on Computational Science 2016, ICCS 2016, 6–8 June 2016, San
CISIM 2016, Vilnius, Lithuania, 14–16, 2016, Proceedings, 2016, pp. 538–549 .
Diego, California, USA, 2016, pp. 1724–1733 .

[26] G. Hulten , L. Spencer , P.M. Domingos , Mining time-changing data streams, in:
[53] I. Zliobaite , A. Bifet , B. Pfahringer , G. Holmes , Active learning with drifting
Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining,
streaming data, IEEE Trans. Neural Netw. Learn. Syst. 25 (1) (2014) 27–39 .
San Francisco, CA , USA , 26–29, 2001, 2001, pp. 97–106 .
[54] Y. Dong , N. Japkowicz , Threaded ensembles of supervised and unsupervised
neural networks for stream learning, in: Advances in Artificial Intelligence 29th Canadian Conference on
[27] J. Shan , J. Luo , G. Ni , Z. Wu , W. Duan , CVS: fast cardinality estimation for
Artificial Intelligence, Canadian AI 2016, Victoria, BC, Canada, May 31 - 3, 2016. Proceedings, 2016, pp.
large-scale data streams over sliding windows, Neurocomputing 194 (2016) 107–116 .
304–315 .
[55] M.J. Hosseini , A. Gholipour , H. Beigy , An ensemble of cluster-based classifiers
[28] B. Krawczyk , M. Wo ´ niak , One-class classifiers with incremental learning and
for semi-supervised classification of non-stationary data streams, Knowl. Inf. Syst. 46 (3) (2016) 567–597 .
forgetting for data streams with concept drift, Soft Comput. 19 (12) (2015) 3387–3400 .
56 S. Ramírez-Gallego et al. / Neurocomputing 239 (2017) 39–57

[56] B.S. Parker , L. Khan , Detecting and tracking concept class drift and emergence [84] W. Fan , N. Bouguila , Online learning of a dirichlet process mixture of gener-
in non-stationary fast data streams, in: Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence, alized dirichlet distributions for simultaneous clustering and localized feature selection, in: Proceedings of the
25–30, 2015, Austin, Texas, USA., 2015, pp. 2908–2913 . 4th Asian Conference on Machine Learning, ACML 2012, Singapore, Singapore, 4–6, 2012, 2012, pp. 113–128 .

[57] P. Sobolewski , M. Wo ´ zniak , Ldcnet: minimizing the cost of supervision for [85] W. Fan , N. Bouguila , Online variational learning of generalized dirichlet mix-
various types of concept drift, in: Proceedings of the 2013 IEEE Symposium on Computational Intelligence in ture models with feature selection, Neurocomputing 126 (2014) 166–179 .
Dynamic and Uncertain Environments, CIDUE 2013, IEEE Symposium Series on Computational Intelligence [86] O. Amayri , N. Bouguila , On online high-dimensional spherical data clustering
(SSCI), 16–19 April 2013, Singapore, 2013, pp. 68–75 . and feature selection, Eng. Appl. AI 26 (4) (2013) 1386–1398 .
[87] Z. Yao , W. Liu , Extracting robust distribution using adaptive gaussian mixture
[58] G. Shikkenawis , S.K. Mitra , 2D orthogonal locality preserving projection for model and online feature selection, Neurocomputing 101 (2013) 258–274 .
image denoising, IEEE Trans. Image Process. 25 (1) (2016) 262–273 . [88] H. Yang , M.R. Lyu , I. King , Efficient online learning for multitask feature se-
[59] A .A . Mohamad AL-Shiha , W. Woo , S. Dlay , Multi-linear neighborhood preserv- lection, Trans. Knowl. Discov. Data 7 (2) (2013) 6 .
ing projection for face recognition, Pattern Recogn. 47 (2) (2014) 544–555 . [89] K. Yu , X. Wu , W. Ding , J. Pei , Towards scalable and accurate online feature
[60] H. Zhang , Q.M. Jonathan Wu , T.W.S. Chow , M. Zhao , A two-dimensional neigh- selection for big data, in: 2014 IEEE International Conference on Data Mining, ICDM 2014, Shenzhen, China,
borhood preserving projection for appearance-based face recognition, Pattern Recogn. 45 (5) (2012) 1866–1876 . 14–17, 2014, 2014, pp. 660–669 .
[90] A. Roy , Automated online feature selection and learning from high-dimen-
[61] G. Doquire , M. Verleysen , Feature selection with missing data using mutual sional streaming data using an ensemble of kohonen neurons, in: 2015 International Joint Conference on
information estimators, Neurocomputing 90 (2012) 3–11 . Neural Networks, IJCNN 2015, Killarney, Ireland, July 12–17, 2015, 2015, pp. 1–8 .
[62] V. Lopez , I. Triguero , C.J. Carmona , S. Garcia , F. Herrera , Addressing imbal-
anced classification with instance generation techniques: ipade-id, Neurocomputing 126 (2014) 15–28 . [91] H. Yang , R. Fujimaki , Y. Kusumura , J. Liu , Online feature selection: a limit-
ed-memory substitution algorithm and its asynchronous parallel variation, in: Proceedings of the 22nd ACM
[63] A. Ferreira , M. Figueiredo , Incremental filter and wrapper approaches for fea- SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA , USA ,
ture discretization, Neurocomputing 123 (2014) 60–74 . 13–17, 2016, 2016, pp. 1945–1954 .
[64] Y. Yang , G.I. Webb , Discretization for Naive–Bayes learning: managing dis-
cretization bias and variance, Mach. Learn. 74 (1) (2009) 39–74 . [92] M. Hammoodi , F.T. Stahl , M. Tennant , Towards online concept drift detection
[65] H.-W. Hu , Y.-L. Chen , K. Tang , A dynamic discretization approach for con- with feature selection for data stream classification, in: ECAI 2016 - 22nd European Conference on Artificial
structing decision trees with a continuous label, IEEE Trans. Knowl. Data Eng. 21 (11) (2009) 1505–1514 . Intelligence, 29 August-2 September 2016, The Hague, The Netherlands - Including Prestigious Applications of
Artificial Intelligence (PAIS 2016), 2016, pp. 1549–1550 .
[66] A. Cano , D.T. Nguyen , S. Ventura , K.J. Cios , ur-caim: improved CAIM discretiza-
tion for unbalanced and balanced data, Soft Comput. 20 (1) (2016) 173–188 . [93] S. Eskandari , M.M. Javidi , Online streaming feature selection using rough sets,
[67] A. Cano , J.M. Luna , E.L.G. Galindo , S. Ventura , LAIM discretization for multi- Int. J. Approx. Reason. 69 (2016) 35–57 .
- label data, Inf. Sci. 330 (2016b) 370–384 . [94] V. Bolón-Canedo , D. Fernández-Francos , D. Peteiro-Barral , A. Alonso-Betanzos ,
[68] X. Wu , K. Yu , H. Wang , W. Ding , Online streaming feature selection, in: B. Guijarro-Berdiñas , N. Sánchez-Maroño , A unified pipeline for online feature selection and classification,
Proceedings of the 27th International Conference on Machine Learning (ICML-10), 2010, pp. 1159–1166 . Expert Syst. Appl. 55 (2016) 532–545 .
[95] Y. Yeh , C. Hsu , Online selection of tracking features using adaboost, IEEE
[69] S. Eskandari , M. Javidi , Online streaming feature selection using rough sets, Trans. Circuits Syst. Video Technol. 19 (3) (2009) 4 42–4 46 .
Int. J. Approx. Reason. 69 (C) (2016) 35–57 . [96] J. Yang , K. Zhang , Q. Liu , Robust object tracking by online fisher discrimination
[70] I. Katakis , G. Tsoumakas , I.P. Vlahavas , On the utility of incremental feature boosting feature selection, Comput. Vis. Image Underst. 153 (2016) 100–108 .
selection for the classification of textual data streams, in: Advances in Informatics, 10th Panhellenic Conference [97] K. Yu , W. Ding , X. Wu , LOFS: a library of online streaming feature selection,
on Informatics, PCI 2005, Volos, Greece, November 11–13, 2005, Proceedings, 2005, pp. 338–348 . Knowl.-Based Syst. 113 (2016) 1–3 .
[98] I. Jolliffe , Principal Component Analysis, Springer Verlag, 1986 .
[71] J.P. Barddal , H.M. Gomes , F. Enembreck , A survey on feature drift adaptation, [99] J. Nie , W. Kotlowski , M.K. Warmuth , Online PCA with optimal regret, J. Mach. Learn. Res. 17 (173) (2016) 1–49 .
in: IEEE 27th International Conference on Tools with Artificial Intelligence (ICTAI), 2015, pp. 1053–1060 .
[100] P. Jain , C. Jin , S.M. Kakade , P. Netrapalli , A. Sidford , Streaming PCA: match-
[72] H.-L. Nguyen , Y.-K. Woon , W.-K. Ng , L. Wan , Heterogeneous ensemble for fea- ing matrix bernstein and near-optimal finite sample guarantees for oja’s algorithm, in: Proceedings of the 29th
ture drifts in data streams, in: Proceedings of the 16th Pacific-Asia Conference on Advances in Knowledge Conference on Learning Theory, COLT
Discovery and Data Mining - Volume Part II, in: PAKDD’12, 2012, pp. 1–12 . 2016, New York, USA, June 23–26, 2016, 2016, pp. 1147–1164 .
[101] E. Hazan , S. Kale , M.K. Warmuth , On-line variance minimization in O( n 2 ) per
[73] V.R. Carvalho , W.W. Cohen , Single-pass online learning: performance, vot- trial, in: Proceedings of the 23rd Annual Conference on Learning Theory, in: COLT ’10, 2010, pp. 314–315 .
ing schemes and online feature selection, in: Proceedings of the 12th ACM SIGKDD International Conference
on Knowledge Discovery and Data Mining, in: KDD ’06, 2006, pp. 548–553 . [102] A .A . Joseph , T. Tokumoto , S. Ozawa , Online feature extraction based on accel-
erated kernel principal component analysis for data stream, Evol. Syst. 7 (1) (2016) 15–27 .
[74] J. Gomes , M. Gaber , P. Sousa , E. Menasalvas , Mining recurring concepts in a
dynamic feature space, IEEE Trans. Neural Netw. Learn. Syst. 25 (1) (2014) 95–110 . [103] M
M. G
Ghashami
m ,D
D.J. P
Perry , J.M.
M PPhillips , S
Streaming
m kernel princi
principal compo-
m
P C A S
[75] X. Wu , K. Yu , W. Ding , H. Wang , X. Zhu , Online feature selection with stream- AS A S C S
ing features, IEEE Trans. Pattern Anal. Mach. Intell. 35 (5) (2013) 1178–1192 .
[76] S.C.H. Hoi , J. Wang , P. Zhao , R. Jin , Online feature selection for mining big K W PCA
data, in: Proceedings of the 1st International Workshop on Big Data, Streams and Heterogeneous Source m m m P C P
Mining: Algorithms, Systems, Programming Models and Applications, BigMine 2012, Beijing, China, 12, 2012, 2012, R CPR
pp. 93–100 .
[77] J. Wang , P. Zhao , S. Hoi , R. Jin , Online feature selection and its applications, A A Q B A S W X A
IEEE Trans. Knowl. Data Eng. 26 (3) (2014) 698–710 . m w m m m m m m
[78] J. Wang , M. Wang , P. Li , L. Liu , Z. Zhao , X. Hu , X. Wu , Online feature selection P ACM S GKDD C K w D D M
with group structure analysis, IEEE Trans. Knowl. Data Eng. 27 (11) (2015) 3029–3041 . S NSW A

[79] H. Li , X. Wu , Z. Li , W. Ding , Online group feature selection from feature A A HS Y O m m


streams, in: Proceedings of the Twenty-Seventh AAAI Conference on Artificial Intelligence, 14–18, 2013, m m w m w D A
Bellevue, Washington, USA., 2013 .
[80] J. Yan , B. Zhang , N. Liu , S. Yan , Q. Cheng , W. Fan , Q. Yang , W. Xi , Z. Chen , Effective and efficient dimensionality S m D B GB G K w
reduction for large-scale and streaming data preprocessing, IEEE Trans. Knowl. Data Eng. 18 (2) (2006) m EEE G C S m
320–333 . P G SP O USA
[81] Y. Tadeuchi , R. Oshima , K. Nishida , K. Yamauchi , T. Omori , Quick online
feature selection method for regression -a feature selection method inspired by human behavior-, in: Proceedings W Y U m w
of the IEEE International Conference on Systems, Man and Cybernetics, Montréal, Canada, 7–10 20 07, 20 07, m m N m
pp. 1895–1900 .
M C PE H N EEE
[82] Y. Cai , Y. Sun , J. Li , S. Goodison , Online feature selection algorithm with
bayesian l1 regularization, in: Advances in Knowledge Discovery and Data Mining, 13th Pacific-Asia Conference, S G D C H P
PAKDD 2009, Bangkok, Thailand, 27–30, m m EEE P A M
2009, Proceedings, 2009, pp. 401–413 .
[83] K. Ooi , T. Ninomiya , Efficient online feature selection based on l1-regularized DW A D K MK A m M
logistic regression, in: ICAART 2013 - Proceedings of the 5th International Conference on Agents and Artificial
Intelligence, Volume 2, Barcelona, Spain, 15–18, 2013, 2013, pp. 277–282 . M S D M
P M K m
S. Ramírez-Gallego et al. / Neurocomputing 239 (2017) 39–57 57

[113] R. Klinkenberg , Learning drifting concepts: example selection vs. example Bartosz Krawczyk is an assistant professor in the Department of Computer

weighting, Intell. Data Anal. 8 (3) (2004) 281–300 . Science, Virginia Commonwealth University, Richmond VA, USA, where he heads

[114] M. Salganicoff, Tolerating concept and sampling shift in lazy learning using the Machine Learning and Stream Mining Lab. He obtained his MSc and PhD

prediction error context switching, Artif. Intell. Rev. 11 (1) (1997) 133–155 . degrees from Wroclaw University of Science and Technology, Wroclaw, Poland, in

[115] J. Beringer , E. Hüllermeier , Efficient instance-based learning on data streams, 2012 and 2015 respectively. His research is focused on machine learning, data

Intell. Data Anal. 11 (6) (2007) 627–650 . streams, ensemble learning, class imbalance, oneclass classifiers, and

[116] H. Brighton , C. Mellish , Advances in instance selection for instance-based interdisciplinary applications of these methods. He has authored 35+ international

learning algorithms, Data Min. Knowl. Discov. 6 (2) (2002) 153–172 . journal papers and 80+ contributions to conferences. Dr Krawczyk was awarded

[117] I. Tomek , Two modifications of CNN, IEEE Trans. Syst., Man, Cybern. 6 (11) with numerous prestigious awards for his scientific achievements like IEEE

(1976) 769–772 . Richard Merwin Scholar-

[118] S.J. Delany , P. Cunningham , A. Tsymbal , L. Coyle , A case-based technique for


tracking concept drift in spam filtering, Knowl. Based Syst. 18 (45) (2005) 187–195 .

[119] B. Smyth , M.T. Keane , Remembering to forget: a competence-preserving case ship and IEEE Outstanding Leadership Award among others. He served as a Guest Editor in four journal special issues

deletion policy for case-based reasoning systems, in: Proceedings of the 14th International Joint Conference and as a chair of ten special session and workshops. He is a member of Program Committee for over 40 international

on Artificial Intelligence - Volume 1, in: IJCAI’95, 1995, pp. 377–382 . conferences and a reviewer for 30 journals.

[120] A. Shaker , E. Hüllermeier , Iblstreams: a system for instance-based classifica-


tion and regression on data streams, Evolv. Syst. 3 (4) (2012) 235–249 . Salvador Garcıa received the M.Sc. and Ph.D. degrees in Computer Science from

[121] I. Žliobait ˙ e , Combining similarity in time and space for training set formation under concept drift, Intell. Data the University of Granada, Granada, Spain, in 2004 and 2008, respectively. He is

Anal. 15 (4) (2011) 589–611 . currently an Associate Professor in the Department of Computer Science and

[122] L. Zhao , L. Wang , Q. Xu , Data stream classification with artificial endocrine Artificial Intelligence, University of Granada, Granada, Spain. He has published

system, Appl. Intell. 37 (3) (2012) 390–404 . more than 45 papers in international journals. As edited activities, he has

[123] K.B. Dyer , R. Capo , R. Polikar , Compose: a semisupervised learning framework co-edited two special issues in international journals on different Data Mining

for initially labeled nonstationary streaming data, IEEE Trans. Neural Netw. Learn. Syst. 25 (1) (2014) 12–26 . topics and is a member of the editorial board of the Information Fusion journal. He
is a co-author of the book entitled “Data Preprocessing in Data Mining” published

[124] D. Mena-Torres , J.S. Aguilar-Ruiz , A similarity-based approach for data stream in Springer. His research interests include data mining, data preprocessing, data

classification, Expert Syst. Appl. 41 (9) (2014) 4224–4234 . complexity,

[125] Y. Ben-Haim , E. Tom-Tov , A streaming parallel decision tree algorithm, J. Mach. Learn. Res. 11 (2010) 849–872 .

[126] A. Gupta , F.X. Zane , Counting inversions in lists, in: Proceedings of the 14th
Annual ACM-SIAM Symp. on Discrete Algorithms, 2003, pp. 253–254 . imbalanced learning, semi-supervised learning, statistical inference, evolutionary algorithms and biometrics.

[127] S. Guha , A. McGregor , Stream order and order statistics: quantile estimation
in random-order streams, SIAM J. Comput. 38 (5) (2009) 2044–2059 .
Michal Wozniak is a professor of computer science at the Department of Systems
[128] J. Lu , Y. Yang , G.I. Webb , Incremental discretization for Naïve-bayes classi-
and Computer Networks, Wroclaw University of Science and Technology, Poland.
fier, in: Proceedings of the Second International Conference on Advanced Data Mining and Applications, in:
He received M.Sc. degree in biomedical engineering from the Wroclaw University
ADMA’06, 2006, pp. 223–238 .
of Technology in 1992, and Ph.D. and D.Sc. (habilitation) degrees in computer
[129] J. Gama , C. Pinto , Discretization from data streams: applications to histograms
science in 1996 and 2007, respectively, from the same university. In 2015 he was
and data mining, in: Proceedings of the 2006 ACM Symposium on Applied Computing, in: SAC ’06, 2006, pp.
nominated as the professor by President of Poland. His research focuses on
662–667 .
compound classification methods, hybrid artificial intelligence and medical
[130] P. Lehtinen, M. Saarela, T. Elomaa, Online ChiMerge Algorithm, Springer Berlin
informatics. Prof. Wozniak has published over 260 papers and three books. His
Heidelberg, Berlin, Heidelberg, pp. 199–216. [131] A. Bifet , G. Holmes , R. Kirkby , B. Pfahringer , MOA: massive
recent one Hybrid classifiers: Method of Data, Knowledge, and Data Hybridization
online analysis, J. Mach. Learn. Res. 11 (2010) 1601–1604 .
was published

[132] M. Lichman, UCI machine learning repository, 2013, [ http://archive.ics.uci.edu/


ml ]. Irvine, CA: University of California, School of Information and Computer Science. [133] A. Bifet , R. Kirkby ,
Data stream mining: a practical approach, Technical Report,
by Springer in 2014. He has been involved in research projects related to the abovementioned topics and has been a
consultant of several commercial projects for well-known Polish companies and public administration. Prof. Wozniak is
The University of Waikato, 2009 .
a senior member of the IEEE.
[134] S. García , A. Fernández , J. Luengo , F. Herrera , A study of statistical techniques
and performance measures for genetics-based machine learning: accuracy and interpretability, Soft Comput. 13
(10) (2009) 959–977 .
Francisco Herrera ( SM’15) received his M.Sc. in Mathematics in 1988 and Ph.D.
[135] J. Derrac , S. García , D. Molina , F. Herrera , A practical tutorial on the use of
in Mathematics in 1991, both from the University of Granada, Spain. He is
nonparametric statistical tests as a methodology for comparing evolutionary and swarm intelligence algorithms,
currently a Professor in the Department of Computer Science and Artificial
Swarm Evolut. Comput. 1 (1) (2011) 3–18 .
Intelligence at the University of Granada. He has been the supervisor of 40 Ph.D.
[136] A . Cano , A . Zafra , S. Ventura , Solving classification problems using genetic
students. He has published more than 300 journal papers that have received more
programming algorithms on gpus, in: Hybrid Artificial Intelligence Systems, 5th International Conference, HAIS 2010,
than 49,0 0 0 citations (Scholar Google, Hindex 112). He is coauthor of the books
San Sebastián, Spain, 23–25, 2010. Proceedings, Part II, 2010, pp. 17–26 .
“Genetic Fuzzy Systems” (World Scientific, 2001) and ”Data Preprocessing in Data
Mining” (Springer, 2015), “The 2-tuple Linguistic Model. Computing with Words in
[137] S. García, S. Ramírez-Gallego, J. Luengo, J.M. Benítez, F. Herrera, Big data
Decision Making” (Springer, 2015), “Multilabel Classification. Problem analysis,
preprocessing: methods and prospects, Big Data Anal. 1 (1) (2016) 9 . URL
metrics and techniques” (Springer, 2016), “Multiple Instance Learning.
http://dx.doi.org/10.1186/s41044- 016- 0014- 0 .
Foundations and Algorithms”(Springer,
[138] B. Krawczyk , Learning from imbalanced data: open challenges and future di-
rections, Progr. Artif. Intell. 5 (4) (2016) 221–232 .
[139] V. López , A. Fernández , S. García , V. Palade , F. Herrera , An insight into classi-
fication with imbalanced data: empirical results and current trends on using data intrinsic characteristics, Inf. Sci.
250 (2013) 113–141 .
2016). He currently acts as Editor in Chief of the international journals ”Information
[140] F. Herrera , F. Charte , A.J. Rivera , M.J. del Jesús , Multilabel Classification - Prob-
Fusion” (Elsevier) and “Progress in Artificial Intelligence (Springer). He acts as
lem Analysis, Metrics and Techniques, Springer, 2016 .
editorial member of a dozen of journals. He received the following honors and
[141] F. Herrera , S. Ventura , R. Bello , C. Cornelis , A. Zafra , D.S. Tarragó, S. Vluymans , Multiple Instance Learning - Foundations
awards: ECCAI Fellow 2009, IFSA Fellow 2013, 2010 Spanish National Award on
and Algorithms, Springer, 2016 .
Computer Science ARITMEL to the ”Spanish Engineer on Computer Science”,
International Cajastur ”Mamdani” Prize for Soft Computing (Fourth Edition, 2010),
Sergio Ramıirez-Gallego received the M.Sc. degree in Computer Science in 2012
IEEE Transactions on Fuzzy System Outstanding 2008 and 2012 Paper Award
from the University of Jaén, Spain. He is currently a Ph.D. student at the
(bestowed in 2011 and 2015 respectively), 2011 Lotfi A. Zadeh Prize Best paper
Department of Computer Science and Artificial Intelligence, University of Granada,
Award of the International Fuzzy Systems Association, 2013 AEPIA Award to a
Spain. His research interests include data mining, data preprocessing, big data
scientific career in Artificial Intelligence, and 2014 XV Andalucía Research Prize
and cloud computing.
Maimónides (by the regional government of Andalucía). His current research
interests include among others, soft computing (including fuzzy modeling and
evolutionary algorithms), information fusion, decision making, biometric, data
preprocessing, data science and big data.

Você também pode gostar