Você está na página 1de 20

Machine Translated by Google

Informatica 31 (2007) 249-268 249

Aprendizado de máquina supervisionado: uma revisão da classificação


Técnicas
SB Kotsiantis
Departamento de Ciência da Computação e Tecnologia
Universidade do Peloponeso, Grécia End of
Karaiskaki, 22100 , Tripolis GR.
Tel: +30 2710 372164 Fax:
+30 2710 372160 E-mail:
sotos@math.upatras.gr

Papel de visão geral

Palavras-chave: classificadores, técnicas de mineração de dados, análise inteligente de dados, algoritmos de aprendizado

Recebido: 16 de julho de 2007

O aprendizado de máquina supervisionado é a busca por algoritmos que raciocinam a partir de instâncias fornecidas externamente para
produzir hipóteses gerais, que então fazem previsões sobre instâncias futuras. Em outras palavras, o objetivo do aprendizado supervisionado
é construir um modelo conciso da distribuição de rótulos de classe em termos de recursos preditores. O classificador resultante é então
usado para atribuir rótulos de classe às instâncias de teste onde os valores dos recursos preditores são conhecidos, mas o valor do rótulo
de classe é desconhecido. Este artigo descreve várias técnicas de classificação de aprendizado de máquina supervisionado. Obviamente,
um único artigo não pode ser uma revisão completa de todos os algoritmos de classificação de aprendizado de máquina supervisionado
(também conhecidos como algoritmos de classificação por indução), mas esperamos que as referências citadas cubram as principais
questões teóricas, orientando o pesquisador em direções de pesquisa interessantes e sugerindo possíveis combinações de viés que ainda
precisam ser exploradas.

Povzetek: Podan je pregled metód strojnega uÿenja.

1. Introdução
Existem várias aplicações para Aprendizado de Máquina (ML), sendo a mais Vários aplicativos de ML envolvem tarefas que podem ser configuradas
significativa delas a mineração de dados. como supervisionadas. No presente artigo, nos concentramos nas técnicas
As pessoas costumam cometer erros durante as análises ou, possivelmente, necessárias para fazer isso. Em particular, este trabalho está preocupado
ao tentar estabelecer relacionamentos entre vários recursos. Isso torna difícil com problemas de classificação em que a saída de instâncias admite apenas
para eles encontrar soluções para certos problemas. valores discretos e não ordenados.

Muitas vezes, o aprendizado de máquina pode ser aplicado com sucesso a


esses problemas, melhorando a eficiência dos sistemas e os projetos das
máquinas.
Cada instância em qualquer conjunto de dados usado por algoritmos de
aprendizado de máquina é representada usando o mesmo conjunto de recursos.
As feições podem ser contínuas, categóricas ou binárias. Se as instâncias
são fornecidas com rótulos conhecidos (as saídas corretas correspondentes),
o aprendizado é chamado de supervisionado (consulte a Tabela 1), em
contraste com o aprendizado não supervisionado, em que as instâncias não Tabela 1. Instâncias com rótulos conhecidos (as saídas corretas
são rotuladas. Ao aplicar esses algoritmos não supervisionados (clustering), correspondentes)

os pesquisadores esperam descobrir classes de itens desconhecidas, mas


Limitamos nossas referências a periódicos arbitrados recentes, livros
úteis (Jain et al., 1999).
Outro tipo de aprendizado de máquina é o aprendizado por reforço (Barto & publicados e conferências. Além disso, adicionamos algumas referências
Sutton, 1997). A informação de treinamento fornecida ao sistema de sobre o trabalho original que iniciou a linha de pesquisa em questão. Uma
aprendizagem pelo ambiente (treinador externo) está na forma de um sinal breve revisão do que o ML inclui pode ser encontrada em (Dutton & Conroy,
1996). De Mantaras e Armengol (1998) também apresentaram uma pesquisa
de reforço escalar que constitui uma medida de quão bem o sistema opera.
O aprendiz não é informado sobre quais ações tomar, mas deve descobrir histórica de classificadores de aprendizado baseados em lógica e instância.
quais ações rendem a melhor recompensa, tentando cada ação por vez. O leitor deve ser advertido de que um único artigo não pode ser um
Machine Translated by Google

250 Informatica 31 (2007) 249–268 SB Kotsiantis

revisão abrangente de todos os algoritmos de aprendizado de A segunda etapa é a preparação e pré-processamento dos
classificação. Em vez disso, nosso objetivo foi fornecer uma amostra dados. Dependendo das circunstâncias, os pesquisadores têm uma
representativa das linhas de pesquisa existentes em cada técnica série de métodos para escolher para lidar com dados perdidos
de aprendizagem. Em cada uma de nossas áreas listadas, há muitos (Batista & Monard, 2003). Hodge & Austin (2004) introduziram
outros documentos que detalham de forma mais abrangente o recentemente uma pesquisa de técnicas contemporâneas para
trabalho relevante. detecção de outliers (ruído).
Nossa próxima seção aborda questões abrangentes de aprendizado Esses pesquisadores identificaram as vantagens e desvantagens
de máquina supervisionado, como pré-processamento de dados e das técnicas. A seleção de instância não é usada apenas para lidar
seleção de recursos. As técnicas lógicas/simbólicas são descritas com o ruído, mas também para lidar com a inviabilidade de aprender
na seção 3, enquanto as técnicas baseadas em perceptron são com conjuntos de dados muito grandes.
analisadas na seção 4. As técnicas estatísticas para ML são A seleção de instâncias nesses conjuntos de dados é um problema
abordadas na seção 5. A seção 6 lida com aprendizes baseados em de otimização que tenta manter a qualidade da mineração enquanto
instâncias, enquanto a seção 7 lida com a mais nova técnica minimiza o tamanho da amostra (Liu e Motoda, 2001). Ele reduz os
supervisionada de ML— Support Vector Machines (SVMs). Na seção dados e permite que um algoritmo de mineração de dados funcione
8, algumas orientações gerais são dadas sobre a seleção do e trabalhe de forma eficaz com conjuntos de dados muito grandes.
classificador. Por fim, a última seção conclui este trabalho. Há uma variedade de procedimentos para amostrar instâncias de
um grande conjunto de dados (Reinartz, 2002).
A seleção de subconjunto de recursos é o processo de
identificar e remover o máximo possível de recursos irrelevantes e
redundantes (Yu & Liu, 2004). Isso reduz a dimensionalidade dos
2 Questões gerais de algoritmos de aprendizado
dados e permite que os algoritmos de mineração de dados operem
supervisionado Aprendizado de de maneira mais rápida e eficaz. O fato de muitos recursos
máquina indutivo é o processo de aprender um conjunto de dependerem uns dos outros muitas vezes influencia indevidamente
regras de instâncias (exemplos em um conjunto de treinamento) ou, a precisão dos modelos de classificação de ML supervisionados.
de maneira mais geral, criar um classificador que pode ser usado Esse problema pode ser resolvido construindo novos recursos a
para generalizar a partir de novas instâncias. O processo de partir do conjunto básico de recursos (Markovitch & Rosenstein,
aplicação de ML supervisionado a um problema do mundo real é 2002). Essa técnica é chamada de construção/transformação de
descrito na Figura 1. recursos. Esses recursos recém-gerados podem levar à criação de
classificadores mais concisos e precisos. Além disso, a descoberta
Problema de características significativas contribui para uma melhor
compreensibilidade do classificador produzido e uma melhor
compreensão do conceito aprendido.
Identificação dos

dados
necessários

2.1 Seleção do algoritmo A escolha


Pré-processamento de dados
de qual algoritmo de aprendizado específico devemos usar é
uma etapa crítica. Uma vez que o teste preliminar é considerado
Definição de

conjunto de treinamento
satisfatório, o classificador (mapeamento de instâncias não rotuladas
para classes) está disponível para uso rotineiro. A avaliação do
Seleção de
classificador geralmente é baseada na precisão da previsão (a
algoritmo
porcentagem de previsão correta dividida pelo número total de
previsões). Existem pelo menos três técnicas que são usadas para
Ajuste de parâmetros Treinamento calcular a precisão de um classificador. Uma técnica é dividir o
conjunto de treinamento usando dois terços para treinamento e o
Avaliação
com conjunto de teste outro terço para estimar o desempenho. Em outra técnica, conhecida
como validação cruzada, o conjunto de treinamento é dividido em
Não Sim
OK? Classificador
subconjuntos mutuamente exclusivos e de tamanhos iguais e para
cada subconjunto o classificador é treinado na união de todos os
outros subconjuntos. A média da taxa de erro de cada subconjunto
Figura 1. O processo de ML supervisionado
é, portanto, uma estimativa da taxa de erro do classificador.

O primeiro passo é coletar o conjunto de dados. Se um


A validação leave-one-out é um caso especial de validação cruzada.
especialista necessário estiver disponível, ele poderá sugerir quais
Todos os subconjuntos de teste consistem em uma única instância.
campos (atributos, recursos) são os mais informativos. Caso
Este tipo de validação é, obviamente, mais caro computacionalmente,
contrário, o método mais simples é o de “força bruta”, que significa
mas útil quando a estimativa mais precisa da taxa de erro de um
medir tudo o que está disponível na esperança de que os recursos
classificador é necessária.
corretos (informativos, relevantes) possam ser isolados.
Se a avaliação da taxa de erro for insatisfatória, devemos
No entanto, um conjunto de dados coletados pelo método de “força
retornar a uma etapa anterior do processo de ML supervisionado
bruta” não é diretamente adequado para indução. Na maioria dos
(conforme detalhado na Figura 1). Uma variedade de fatores deve
casos, contém ruído e valores de recursos ausentes e, portanto,
ser examinada: talvez características relevantes para o problema sejam
requer um pré-processamento significativo (Zhang et al., 2002).
Machine Translated by Google

APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA REVISÃO DE... Informatica 31 (2007) 249–268 251

não está sendo usado, um conjunto de treinamento maior é necessário, a 3 Algoritmos baseados em lógica
dimensionalidade do problema é muito alta, o algoritmo selecionado é
inadequado ou o ajuste de parâmetros é necessário.
Nesta seção vamos nos concentrar em dois grupos de métodos lógicos
Outro problema pode ser que o conjunto de dados esteja desequilibrado
(simbólicos) de aprendizado: árvores de decisão e classificadores baseados
(Japkowicz & Stephen, 2002).
em regras.
Um método comum para comparar algoritmos de ML supervisionados
é realizar comparações estatísticas das precisões de classificadores
treinados em conjuntos de dados específicos. Se tivermos dados suficientes, 3.1 Árvores de decisão
podemos amostrar vários conjuntos de treinamento de tamanho N, executar
Murthy (1998) forneceu uma visão geral do trabalho em árvores de
os dois algoritmos de aprendizado em cada um deles e estimar a diferença
decisão e uma amostra de sua utilidade para iniciantes, bem como para
de precisão para cada par de classificadores em um grande conjunto de
profissionais no campo de aprendizado de máquina. Assim, neste trabalho,
teste.
além de uma breve descrição das árvores de decisão, faremos referência a
A média dessas diferenças é uma estimativa da diferença esperada no erro
alguns trabalhos mais recentes do que os do artigo de Murthy, bem como a
de generalização em todos os possíveis conjuntos de treinamento de
alguns artigos muito importantes que foram publicados anteriormente.
tamanho N, e sua variância é uma estimativa da variância do classificador
no conjunto total.
Árvores de decisão são árvores que classificam instâncias classificando-as
Nosso próximo passo é realizar o teste t pareado para verificar a hipótese com base em valores de recursos. Cada nó em uma árvore de decisão
nula de que a diferença média entre os classificadores é zero. Este teste
representa uma característica em uma instância a ser classificada, e cada
pode produzir dois tipos de erros. O erro tipo I é a probabilidade de que o
ramo representa um valor que o nó pode assumir. As instâncias são
teste rejeite a hipótese nula incorretamente (ou seja, encontre uma diferença
classificadas começando no nó raiz e classificadas com base em seus
“significativa” embora não haja nenhuma). O erro tipo II é a probabilidade
valores de recurso. A Figura 2 é um exemplo de árvore de decisão para o
de não rejeitar a hipótese nula, quando na verdade existe uma diferença. O
conjunto de treinamento da Tabela 2.
erro Tipo I do teste estará próximo ao nível de significância escolhido.

em 1
Na prática, no entanto, muitas vezes temos apenas um conjunto de
dados de tamanho N e todas as estimativas devem ser obtidas a partir
desse único conjunto de dados. Diferentes conjuntos de treinamento são a1 b1 c1
obtidos por subamostragem, e as instâncias não amostradas para
treinamento são usadas para teste. Infelizmente, isso viola a suposição de
at2 Não Não
independência necessária para o teste de significância adequado. A
consequência disso é que os erros do Tipo I excedem o nível de significância.
Isso é problemático porque é importante para o pesquisador ser capaz de
a2 b2 c2
controlar os erros do Tipo I e conhecer a probabilidade de rejeitar
incorretamente a hipótese nula. Várias versões heurísticas do teste t foram
desenvolvidas para aliviar esse problema (Dietterich, 1998), (Nadeau e Sim às 3 at4

Bengio, 2003).

a3 b3 a4 b4

Idealmente, gostaríamos que o resultado do teste fosse independente


da partição particular resultante do processo de randomização, pois isso Sim Não Sim Não
facilitaria muito a replicação de resultados experimentais publicados na
literatura. Entretanto, na prática sempre há certa sensibilidade ao
Figura 2. Uma árvore de decisão
particionamento utilizado. Para medir a replicabilidade, precisamos repetir
o mesmo teste várias vezes nos mesmos dados com diferentes
particionamentos aleatórios – geralmente dez repetições – e contar quantas at1 at2 at3 at4 a3 a4 a3 b4 Aula

vezes o resultado é o mesmo (Bouckaert, 2003). a1 a2 a3 a4 b3 b4 a3 a4 Sim


a1 a2 a3 b4 b3 b4 b3 b4 Sim
a1 b2 Tabela 2. Conjunto Sim
A classificação supervisionada é uma das tarefas mais frequentemente a1 b2 de treinamento Não
realizadas pelos chamados Sistemas Inteligentes. a1 c2 Sim
Assim, um grande número de técnicas tem sido desenvolvido com base em a1 c2 Não
Inteligência Artificial (técnicas Lógicas/Simbólicas), técnicas baseadas em b1 b2 Não
Perceptron e Estatística (Redes Bayesianas, técnicas baseadas em c1 b2 Não
instâncias). Nas próximas seções, vamos nos concentrar nas técnicas mais
importantes de aprendizado de máquina supervisionado, começando com
algoritmos lógicos/simbólicos.
Usando a árvore de decisão representada na Figura 2 como exemplo,
a instância ÿat1 = a1, at2 = b2, at3 = a3, at4 = b4ÿ classificaria os nós: at1,
at2 e finalmente at3, que classificaria a instância como sendo positivo
Machine Translated by Google

252 Informatica 31 (2007) 249–268 SB Kotsiantis

(representado pelos valores “Sim”). O problema de construir árvores de nenhum método único de melhor poda. Mais detalhes, não apenas sobre
decisão binárias ótimas é um problema NP completo e, portanto, os pós-processamento, mas também sobre pré-processamento de algoritmos
teóricos têm procurado por heurísticas eficientes para construir árvores de de árvore de decisão podem ser encontrados em (Bruha, 2000).
decisão quase ótimas. Embora o algoritmo de divisão e conquista seja rápido, a eficiência
pode se tornar importante em tarefas com centenas de milhares de
A característica que melhor divide os dados de treinamento seria o instâncias. O aspecto que consome mais tempo é classificar as instâncias
nó raiz da árvore. Existem vários métodos para encontrar o recurso que em um recurso numérico para encontrar o melhor limite t. Isso pode ser
melhor divide os dados de treinamento, como ganho de informação (Hunt acelerado se possíveis limites para um recurso numérico forem
et al., 1966) e índice de Gini (Breiman et al., 1984). Enquanto as medidas determinados apenas uma vez, convertendo efetivamente o recurso em
míopes estimam cada atributo independentemente, o algoritmo ReliefF intervalos discretos ou se o limite for determinado a partir de um
(Kononenko, 1994) os estima no contexto de outros atributos. No entanto, subconjunto das instâncias. Elomaa & Rousu (1999) afirmaram que o uso
a maioria dos estudos concluiu que não existe um único método melhor da discretização binária com C4.5 requer aproximadamente a metade do
(Murthy, 1998). A comparação de métodos individuais ainda pode ser tempo de treinamento do uso da multidivisão C4.5. Além disso, de acordo
importante ao decidir qual métrica deve ser usada em um determinado com seus experimentos, a divisão múltipla de recursos numéricos não
conjunto de dados. O mesmo procedimento é então repetido em cada traz nenhuma vantagem na precisão da previsão sobre a divisão binária.
partição dos dados divididos, criando sub-árvores até que os dados de
treinamento sejam divididos em subconjuntos da mesma classe.
As árvores de decisão geralmente são univariadas, pois usam
divisões baseadas em um único recurso em cada nó interno.
A maioria dos algoritmos de árvore de decisão não pode funcionar bem
A Figura 3 apresenta um pseudo-código geral para a construção de com problemas que requerem particionamento diagonal. A divisão do
árvores de decisão. espaço de instância é ortogonal ao eixo de uma variável e paralela a
todos os outros eixos. Portanto, as regiões resultantes após o
Verifique os casos básicos particionamento são todas hiper-retângulos. No entanto, existem alguns
Para cada atributo um
métodos que constroem árvores multivariadas. Um exemplo é o de Zheng
Encontre o recurso que melhor divide os dados
de treinamento que essas informações obtêm (1998), que melhorou a precisão da classificação das árvores de decisão
como construindo novos recursos binários com operadores lógicos como
dividindo em um conjunção, negação e disjunção. Além disso, Zheng (2000) criou pelo
Seja a best o atributo com o maior ganho de informação
menos M de N feições. Para uma determinada instância, o valor de pelo
normalizada
Crie um nó de decisão nó que se divide em a_best menos M-de-N representação é verdadeiro se pelo menos M de suas
condições for verdadeiro para a instância, caso contrário, é falso.
Recurse nas sub-listas obtidas pela divisão em um
melhor e adicione esses nós como filhos do nó

Gama e Brazdil (1999) combinaram uma árvore de decisão com um


Figura 3. Pseudo-código para construir uma árvore de decisão discriminante linear para a construção de árvores de decisão multivariadas.
Neste modelo, novas feições são calculadas como combinações lineares
Diz-se que uma árvore de decisão, ou qualquer hipótese aprendida
das anteriores.
h, superajusta os dados de treinamento se existe outra hipótese h' que
As árvores de decisão podem ser uma representação significativamente
tem um erro maior que h quando testado nos dados de treinamento, mas
um erro menor que h quando testado em todo o conjunto de dados. mais complexa para alguns conceitos devido ao problema de replicação.
Uma solução é usar um algoritmo para implementar recursos complexos
Existem duas abordagens comuns que os algoritmos de indução de árvore
em nós para evitar a replicação.
de decisão podem usar para evitar o superajuste dos dados de treinamento:
Markovitch e Rosenstein (2002) apresentaram o algoritmo de construção
i) Interromper o algoritmo de treinamento antes que ele atinja um ponto
FICUS, que recebe a entrada padrão de aprendizado supervisionado, bem
em que ele se encaixe perfeitamente nos dados de treinamento, ii) Podar
como uma especificação de representação de recursos, e os utiliza para
a árvore de decisão induzida. Se as duas árvores empregarem o mesmo
produzir um conjunto de recursos gerados. Embora o FICUS seja
tipo de teste e tiverem a mesma precisão de previsão, aquela com menos
semelhante em alguns aspectos a outros algoritmos de construção de
folhas geralmente é preferida. Breslow & Aha (1997) pesquisam métodos
recursos, sua principal força é sua generalidade e flexibilidade. O FICUS
de simplificação de árvores para melhorar sua compreensibilidade.
foi projetado para executar a geração de recursos, dada qualquer
especificação de representação de recursos em conformidade com sua
A maneira mais direta de lidar com o overfitting é podar previamente
gramática de propósito geral.
a árvore de decisão, não permitindo que ela cresça até seu tamanho total.
Estabelecer um critério de terminação não trivial, como um teste de limite
para a métrica de qualidade do recurso, pode fazer isso. Os classificadores O algoritmo mais conhecido na literatura para construção de árvores
de decisão é o C4.5 (Quinlan, 1993). C4.5 é uma extensão do algoritmo
de árvores de decisão geralmente empregam técnicas de pós-poda que
ID3 anterior de Quinlan (Quinlan, 1979). Um dos estudos mais recentes
avaliam o desempenho das árvores de decisão, pois elas são podadas
que comparam árvores de decisão e outros algoritmos de aprendizado foi
usando um conjunto de validação. Qualquer nó pode ser removido e
feito por (Tjen-Sien Lim et al. 2000). O estudo mostra que o C4.5 tem uma
atribuído à classe mais comum das instâncias de treinamento classificadas
combinação muito boa de taxa de erro e velocidade. Em 2001, Ruggieri
para ele. Um estudo comparativo de métodos de poda conhecidos é
apresentou uma avaliação analítica do comportamento do tempo de
apresentado em (Elomaa, 1999). Elomaa (1999) concluiu que existe
execução do algoritmo C4.5, que destacou algumas melhorias de
eficiência. Com base nisso
Machine Translated by Google

APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA REVISÃO DE... Informatica 31 (2007) 249–268 253

avaliação analítica, ele implementou uma versão mais eficiente do algoritmo, instâncias de treinamento, separa essas instâncias e conquista recursivamente
chamada EC4.5. Ele argumentou que sua implementação computou as as instâncias restantes aprendendo mais regras, até que nenhuma instância
mesmas árvores de decisão do C4.5 com um ganho de desempenho de até permaneça. Na Figura 4, é apresentado um pseudo-código geral para
cinco vezes. aprendizes de regras.
C4.5 assume que os dados de treinamento cabem na memória, A diferença entre as heurísticas para aprendizado de regras e as
portanto, Gehrke et al. (2000) propuseram Rainforest, uma estrutura para heurísticas para árvores de decisão é que as últimas avaliam a qualidade
desenvolver algoritmos rápidos e escaláveis para construir árvores de média de um número de conjuntos disjuntos (um para cada valor do recurso
decisão que se adaptam graciosamente à quantidade de memória principal testado), enquanto os aprendizes de regras avaliam apenas a qualidade do
disponível. É claro que na maioria dos algoritmos de árvore de decisão; um conjunto de instâncias cobertas pela regra candidata. Os aprendizes de
esforço substancial é “desperdiçado” na fase de construção em porções regras mais avançados diferem desse pseudocódigo simples principalmente
crescentes da árvore que são posteriormente podadas na fase de poda. por adicionar mecanismos adicionais para evitar o ajuste excessivo dos
Rastogi & Shim (2000) propuseram o PUBLIC, um classificador de árvore dados de treinamento, por exemplo, interrompendo o processo de
de decisão aprimorado que integra a segunda fase de “poda” com a fase especialização com o uso de uma medida de qualidade ou generalizando
inicial de “construção”. Em PUBLIC, um nó não é expandido durante a fase regras excessivamente especializadas em uma poda separada fase
de construção, se for determinado que o nó será podado durante a fase de (Furnkranz, 1997).
remoção subsequente.

Na apresentação de exemplos de treinamento exemplos


de treinamento: 1. Inicializar
Olcay e Onur (2007) mostram como paralelizar o algoritmo C4.5 de três o conjunto de regras para um padrão (geralmente vazio
maneiras: (i) baseado em características, (ii) baseado em nós (iii) baseado ou uma regra atribuindo todos os objetos à classe mais
em dados. Baik e Bala (2004) apresentaram um trabalho preliminar sobre comum).
uma abordagem baseada em agentes para o aprendizado distribuído de 2. Inicialize exemplos para todos os exemplos disponíveis
ou todos os exemplos não tratados corretamente pelo conjunto
árvores de decisão.
de regras.
Resumindo, uma das características mais úteis das árvores de decisão 3. Repita (a)
é a sua compreensibilidade. As pessoas podem entender facilmente porque Encontre a melhor, a melhor regra em relação aos
uma árvore de decisão classifica uma instância como pertencente a uma
exemplos. (b) Se tal regra
puder ser encontrada i. Adicione o melhor ao
classe específica. Uma vez que uma árvore de decisão constitui uma conjunto de regras. ii.
hierarquia de testes, um valor de recurso desconhecido durante a Definir exemplos para todos os exemplos
classificação geralmente é tratado passando o exemplo por todas as não tratados corretamente pelo conjunto de regras.
ramificações do nó onde o valor de recurso desconhecido foi detectado, e até que nenhuma regra melhor possa ser encontrada
cada ramificação gera uma distribuição de classe. A saída é uma combinação (por exemplo, porque nenhum exemplo permanece).
das diferentes distribuições de classe que somam 1. A suposição feita nas
árvores de decisão é que as instâncias pertencentes a classes diferentes
Figura 4. Pseudocódigo para aprendizes de regras
têm valores diferentes em pelo menos um de seus recursos. As árvores de
decisão tendem a ter um desempenho melhor ao lidar com recursos discretos/ Portanto, é importante para um sistema de indução de regras gerar
categóricos. regras de decisão que tenham alta previsibilidade ou confiabilidade. Essas
propriedades são comumente medidas por uma função chamada qualidade
da regra. Uma medida de qualidade de regra é necessária nos processos
de indução e classificação de regras, como a medida J (Smyth e Goodman,
3.2 Conjunto de regras de aprendizagem
1990). Na indução de regra, uma medida de qualidade de regra pode ser
usada como critério na especificação de regra e/ou processo de
As árvores de decisão podem ser traduzidas em um conjunto de
generalização. Na classificação, um valor de qualidade de regra pode ser
regras, criando uma regra separada para cada caminho desde a raiz até
associado a cada regra para resolver conflitos quando várias regras são
uma folha na árvore (Quinlan, 1993). No entanto, as regras também podem
atendidas pelo exemplo a ser classificado. An e Cercone (2000) pesquisaram
ser induzidas diretamente a partir de dados de treinamento usando uma
uma série de medidas estatísticas e empíricas de qualidade de regras.
variedade de algoritmos baseados em regras. Furnkranz (1999) forneceu
uma excelente visão geral do trabalho existente em métodos baseados em
regras.
Furnkranz e Flach (2005) forneceram uma análise do comportamento de
As regras de classificação representam cada classe pela forma normal
separar-e-conquistar ou abranger algoritmos de aprendizado de regras,
disjuntiva (DNF). Uma expressão k-DNF tem a forma: (X1ÿX2ÿ…ÿXn) ÿ
visualizando suas métricas de avaliação. Ao usar conjuntos de regras não
(Xn+1ÿXn+2ÿ…X2n) ÿ …ÿ (X(k-1)n+1ÿX(k- 1)n+2ÿ…ÿXkn), onde k é o
ordenados, podem surgir conflitos entre as regras, ou seja, duas ou mais
número de disjunções, n é o número de conjunções em cada disjunção, e regras abrangem o mesmo exemplo, mas prevêem classes diferentes.
Xn é definido sobre o alfabeto X1, X2,…, Xj ÿ ~X1, ~X2, …,~Xj. O objetivo é
Lindgren (2004) fez recentemente um levantamento dos métodos utilizados
construir o menor conjunto de regras que seja consistente com os dados de
para resolver esse tipo de conflito.
treinamento.

O RIPPER é um algoritmo baseado em regras bem conhecido (Cohen,


Um grande número de regras aprendidas geralmente é um sinal de que o
1995). Ele forma regras por meio de um processo de crescimento e poda
algoritmo de aprendizado está tentando “lembrar” o conjunto de treinamento,
repetidos. Durante a fase de crescimento, as regras são mais restritivas para
em vez de descobrir as suposições que o governam. Um algoritmo de ajustar os dados de treinamento o mais próximo possível. Durante a fase de
separar e conquistar (cobrindo algoritmos) procura uma regra que explique
poda, as regras tornam-se menos restritivas para evitar
uma parte de sua
Machine Translated by Google

254 Informatica 31 (2007) 249–268 SB Kotsiantis

overfitting, que pode causar baixo desempenho em instâncias invisíveis. aula. Eles fazem isso independentemente de todas as outras classes no
O RIPPER lida com várias classes ordenando-as da menos para a mais conjunto de treinamento. Por esse motivo, para pequenos conjuntos de
prevalente e, em seguida, tratando cada uma delas como um problema dados, pode ser melhor usar um algoritmo de divisão e conquista que
distinto de duas classes. Outros classificadores fundamentais de considere todo o conjunto de uma vez.
aprendizagem baseados em regras de decisão incluem a família AQ Resumindo, a característica mais útil dos classificadores baseados
(Michalski e Chilausky, 1980) e CN2 (Clark e Niblett, 1989). Bonarini em regras é a sua compreensibilidade. Além disso, embora alguns
(2000) deu uma visão geral dos classificadores fuzzy baseados em regras. classificadores baseados em regras possam lidar com características
A lógica difusa tenta melhorar a classificação e os sistemas de suporte à numéricas, alguns especialistas propõem que essas características sejam
decisão, permitindo o uso de definições de classes sobrepostas. discretizadas antes da indução, de modo a reduzir o tempo de treinamento
e aumentar a precisão da classificação (An e Cercone, 1999). A precisão
da classificação dos algoritmos de aprendizado de regras pode ser
Furnkranz (2001) investigou o uso de binarização round robin (ou melhorada combinando recursos (como em árvores de decisão) usando
classificação pairwise) como uma técnica para lidar com problemas o conhecimento prévio do usuário (Flach e Lavrac, 2000) ou algoritmos
multiclasse com algoritmos de aprendizado de regra separados e de construção automática de recursos (Markovitch e Rosenstein, 2002).
conquistados. A binarização round robin transforma um problema de c-
classe em c(c-1)/2 problemas de duas classes <i,j>, um para cada
conjunto de classes {i,j}, i= 1 1, j = i+ 1 ... c. O classificador binário ... c
para o problema <i,j> é treinado com exemplos das classes iej, enquanto
4 técnicas baseadas em Perceptron
exemplos das classes k ÿ i,j são ignorados para este problema.
Outros algoritmos bem conhecidos são baseados na noção de
Um ponto crucial, é claro, é determinar como decodificar as previsões dos perceptron (Rosenblatt, 1962).
classificadores pairwise para uma previsão final. Furnkranz (2001)
implementou uma técnica de votação simples: ao classificar um novo 4.1 Perceptrons de camada única
exemplo, cada um dos classificadores de base aprendidos determina a
qual de suas duas classes o exemplo tem maior probabilidade de Um perceptron de camada única pode ser brevemente descrito da
seguinte forma:
pertencer. O vencedor recebe um ponto e, no final, o algoritmo prevê a
classe que acumulou mais pontos. Se x1 a xn são valores de recursos de entrada e w1 a wn são pesos
de conexão/vetor de previsão (normalmente números reais no intervalo

Seus resultados experimentais mostram que, em comparação com a [-1, 1]), então o perceptron calcula a soma das entradas ponderadas:

binarização convencional, ordenada ou não ordenada, a abordagem


round robin pode produzir ganhos significativos em precisão sem arriscar ÿxw e iia saída passa por um limite ajustável:
um desempenho ruim. eu

Existem vários outros algoritmos de aprendizado baseados em se a soma estiver acima do limite, a saída é 1; senão é 0.
regras. Furnkranz (1999) referiu-se à maioria deles. A maneira mais comum de usar o algoritmo perceptron para aprender
O algoritmo PART infere regras gerando repetidamente árvores de a partir de um lote de instâncias de treinamento é executar o algoritmo
decisão parciais, combinando assim os dois principais paradigmas para repetidamente através do conjunto de treinamento até encontrar um vetor
geração de regras - criando regras a partir de árvores de decisão e a de predição correto em todo o conjunto de treinamento. Essa regra de
técnica de aprendizado de regra separar e conquistar. Uma vez previsão é usada para prever os rótulos no conjunto de teste.
construída uma árvore parcial, uma única regra é extraída dela e por isso
o algoritmo PART evita o pós-processamento (Frank e Witten, 1998). WINNOW (Littlestone & Warmuth, 1994) é baseado na ideia do
perceptron e atualiza seus pesos da seguinte forma.
Se o valor de previsão yÿ=0 e o valor real y=1, então os pesos são muito
Para a tarefa de aprender problemas binários, as regras são mais baixos; assim, para cada recurso tal que xi=1, wi=wi·ÿ, onde ÿ é um
compreensíveis do que as árvores de decisão porque as abordagens número maior que 1, chamado de parâmetro de promoção. Se o valor de
típicas baseadas em regras aprendem um conjunto de regras apenas previsão yÿ= 1 e o valor real y=0, então os pesos eram muito altos; assim,
para a classe positiva. Por outro lado, se as definições para várias classes para cada recurso xi = 1, diminui o peso correspondente definindo wi=wi·ÿ,
devem ser aprendidas, o aprendizado baseado em regras deve ser onde 0<ÿ<1, chamado de parâmetro de rebaixamento. Geralmente,
executado separadamente para cada classe separadamente. Para cada WINNOW é um exemplo de um algoritmo de atualização exponencial. Os
classe individual, um conjunto de regras separado é obtido e esses pesos dos recursos relevantes crescem exponencialmente, mas os pesos
conjuntos podem ser inconsistentes (uma instância específica pode ser dos recursos irrelevantes diminuem exponencialmente. Por esta razão,
atribuída a várias classes) ou incompletos (nenhuma classe pode ser foi provado experimentalmente (Blum, 1997) que o WINNOW pode se
atribuída a uma instância específica). Esses problemas podem ser adaptar rapidamente a mudanças na função alvo (concept drift). Uma
resolvidos com listas de decisão (as regras em um conjunto de regras função de destino (como as preferências do usuário) não é estática no
devem ser ordenadas, uma regra só é aplicável quando nenhuma das tempo. Para permitir, por exemplo, que um algoritmo de árvore de decisão
regras anteriores for aplicável), mas com a abordagem da árvore de responda a mudanças, é necessário decidir quais instâncias antigas de
decisão, eles simplesmente não ocorrem. treinamento podem ser excluídas. Uma série de algoritmos semelhantes a
Além disso, a abordagem de dividir e conquistar (usada por árvores de
decisão) geralmente é mais eficiente do que a abordagem de separar e
conquistar (usada por algoritmos baseados em regras).
Os algoritmos de separação e conquista analisam uma classe por vez e
tentam produzir regras que identificam exclusivamente a classe.
Machine Translated by Google

APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA REVISÃO DE... Informatica 31 (2007) 249–268 255

WINNOW foram desenvolvidos, como os de Auer & Warmuth (1998). Primeiro, a rede é treinada em um conjunto de dados
emparelhados para determinar o mapeamento de entrada-saída.
Freund & Schapire (1999) criaram um novo algoritmo, chamado Os pesos das conexões entre os neurônios são então fixados e a
vote-perceptron, que armazena mais informações durante o rede é usada para determinar as classificações de um novo conjunto
treinamento e então usa essas informações elaboradas para gerar de dados.
melhores previsões sobre os dados do teste. A informação que Durante a classificação, o sinal nas unidades de entrada se
mantém durante o treinamento é a lista de todos os vetores de propaga por toda a rede para determinar os valores de ativação em
previsão que foram gerados após cada erro. Para cada um desses todas as unidades de saída. Cada unidade de entrada possui um
vetores, ele conta o número de iterações que “sobrevive” até que o valor de ativação que representa algum recurso externo à rede.
próximo erro seja cometido; Freund & Schapire referem-se a esta Então, cada unidade de entrada envia seu valor de ativação para
contagem como o “peso” do vetor de predição. Para calcular uma cada uma das unidades ocultas às quais está conectada. Cada uma
previsão, o algoritmo calcula a previsão binária de cada um dos dessas unidades ocultas calcula seu próprio valor de ativação e
vetores de previsão e combina todas essas previsões por meio de esse sinal é então repassado para as unidades de saída. O valor
uma votação por maioria ponderada. de ativação para cada unidade receptora é calculado de acordo
com uma função de ativação simples.
Os pesos usados são os tempos de sobrevivência descritos acima. A função soma as contribuições de todas as unidades de envio,
Para resumir, discutimos algoritmos lineares do tipo perceptron onde a contribuição de uma unidade é definida como o peso da
com ênfase em sua complexidade de tempo superior ao lidar com conexão entre as unidades de envio e recebimento multiplicado
recursos irrelevantes. Isso pode ser uma vantagem considerável pelo valor de ativação da unidade de envio. Esta soma é geralmente
quando há muitos recursos, mas apenas alguns relevantes. modificada posteriormente, por exemplo, ajustando a soma de
Geralmente, todos os algoritmos lineares do tipo perceptron são ativação para um valor entre 0 e 1 e/ou definindo o valor de ativação
algoritmos on-line a qualquer momento que podem produzir uma para zero, a menos que um nível limite para essa soma seja
resposta útil, independentemente de quanto tempo eles executam alcançado.
(Kivinen, 2002). Quanto mais eles correm, melhor o resultado que Geralmente, determinar corretamente o tamanho da camada
produzem. Finalmente, os métodos do tipo perceptron são binários oculta é um problema, porque uma subestimação do número de
e, portanto, no caso de problemas multiclasse, deve-se reduzir o neurônios pode levar a capacidades de aproximação e generalização
problema a um conjunto de múltiplos problemas de classificação ruins, enquanto nós excessivos podem resultar em superajuste e,
binária. eventualmente, tornar a busca pelo ótimo global mais difícil. Um
excelente argumento a respeito desse tema pode ser encontrado
4.2 Perceptrons multicamadas em (Camargo & Yoneyama, 2001). Kon & Plaskota (2000) também
estudaram a quantidade mínima de neurônios e o número de
Perceptrons só podem classificar conjuntos de instâncias instâncias necessárias para programar uma determinada tarefa em
linearmente separáveis. Se uma linha reta ou plano pode ser redes neurais feedforward.
desenhado para separar as instâncias de entrada em suas
categorias corretas, as instâncias de entrada são linearmente ANN depende de três aspectos fundamentais, funções de
separáveis e o perceptron encontrará a solução. Se as instâncias entrada e ativação da unidade, arquitetura de rede e o peso de
não forem linearmente separáveis, o aprendizado nunca atingirá cada conexão de entrada. Dado que os dois primeiros aspectos são
um ponto em que todas as instâncias sejam classificadas fixos, o comportamento da RNA é definido pelos valores atuais dos
adequadamente. Perceptrons multicamadas (Redes Neurais pesos. Os pesos da rede a ser treinada são inicialmente definidos
Artificiais) foram criados para tentar resolver este problema com valores aleatórios e, em seguida, as instâncias do conjunto de
(Rumelhart et al., 1986). Zhang (2000) forneceu uma visão geral do treinamento são repetidamente expostas à rede. Os valores para a
trabalho existente em Redes Neurais Artificiais (ANNs). Assim, entrada de uma instância são colocados nas unidades de entrada e
neste estudo, para além de uma breve descrição das ANNs iremos a saída da rede é comparada com a saída desejada para esta
referir-nos principalmente a alguns artigos mais recentes. Uma rede instância. Em seguida, todos os pesos da rede são ligeiramente
neural multicamadas consiste em um grande número de unidades ajustados na direção que traria os valores de saída da rede mais
(neurônios) unidas em um padrão de conexões (Figura 5). As próximos dos valores da saída desejada. Existem vários algoritmos
unidades de uma rede costumam ser segregadas em três classes: com os quais uma rede pode ser treinada (Neocleous & Schizas,
unidades de entrada, que recebem informações para serem 2002).
processadas; unidades de saída, onde se encontram os resultados
do processamento; e unidades intermediárias conhecidas como No entanto, o algoritmo de aprendizado mais conhecido e
unidades ocultas. As RNAs feed-forward (Figura 5) permitem que amplamente utilizado para estimar os valores dos pesos é o
os sinais viajem apenas em uma direção, da entrada para a saída. algoritmo Back Propagation (BP). Geralmente, o algoritmo BP inclui
as seis etapas a seguir: 1. Apresentar uma
amostra de treinamento à rede neural.
2. Compare a saída da rede com a saída desejada dessa amostra.
Calcule o erro em cada saída
neurônio.

3. Para cada neurônio, calcule qual deveria ter sido a saída e um


fator de escala, quanto mais baixa ou mais alta a saída deve
Figura 5. ANN feed-forward ser ajustada para corresponder à saída desejada. Este é o
erro local.
Machine Translated by Google

256 Informatica 31 (2007) 249–268 SB Kotsiantis

4. Ajuste os pesos de cada neurônio para diminuir o local algoritmos construtivos, onde nós extras são adicionados conforme
erro. necessário (Parekh et al. 2000).
5. Atribuir "culpa" pelo erro local aos neurônios do nível anterior,
dando maior responsabilidade aos neurônios conectados por 4.3 Redes de Função de Base Radial (RBF)
pesos mais fortes.
6. Repita os passos acima nos neurônios do nível anterior, usando O aprendizado de RNA pode ser alcançado, entre outros,
a "culpa" de cada um como seu erro. através de i) modificação do peso sináptico, ii) modificações da
Com mais detalhes, a regra geral para atualização dos pesos estrutura da rede (criação ou exclusão de neurônios ou conexões
sinápticas), iii) uso de atratores adequados ou outros pontos de
é: ÿWji = Oi onde: • ÿ é ÿÿ
um número
j
estado estável adequados, iv) escolha apropriada de ativação
positivo (chamado taxa de aprendizado), que determina o tamanho funções. Como o treinamento de retropropagação é um processo
do passo na busca do gradiente descendente. Um valor alto descendente de gradiente, ele pode ficar preso em mínimos locais
permite que a retropropagação se mova mais rapidamente neste espaço de pesos. É por causa dessa possibilidade que os
para a configuração de peso alvo, mas também aumenta a modelos de redes neurais são caracterizados por alta variância e
chance de nunca atingir esse alvo. • Oi é a saída calculada instabilidade.
pelo As redes Radial Basis Function (RBF) também têm sido
neurônio i )( ) amplamente aplicadas em muitos campos da ciência e da
• ÿ j = Oj ÿ(1Oj Tj ÿ Oj para os neurônios de saída, engenharia (Robert e Howlett, 2001). Uma rede RBF é uma rede
de realimentação de três camadas, na qual cada unidade oculta
onde Tj a saída desejada para o neurônio j e kW para implementa uma função de ativação radial e cada unidade de
• ÿ j = Oj(1ÿOj)ÿ ÿ o interno saída implementa uma soma ponderada das saídas das unidades ocultas.
kj
k Seu procedimento de treinamento é geralmente dividido em duas etapas.
Neurônios (ocultos) Primeiro, os centros e as larguras da camada oculta são
O algoritmo de retropropagação terá que realizar uma série determinados por algoritmos de agrupamento. Em segundo lugar,
de modificações de peso antes de atingir uma boa configuração os pesos que conectam a camada oculta com a camada de saída
de peso. Para n instâncias de treinamento e pesos W , cada são determinados pelos algoritmos de Decomposição de Valor
repetição/época no processo de aprendizado leva tempo O(nW) ; Singular (SVD) ou Mínimo Quadrado Médio (LMS). O problema de
mas no pior caso, o número de épocas pode ser exponencial ao selecionar o número apropriado de funções de base continua
número de entradas. Por esse motivo, as redes neurais usam sendo uma questão crítica para redes RBF. O número de funções
várias regras de parada diferentes para controlar quando o de base controla a complexidade e a capacidade de generalização
treinamento termina. As quatro regras de parada mais comuns das redes RBF. As redes RBF com poucas funções de base não
são: i) Parar após um número especificado de épocas, ii) Parar podem ajustar os dados de treinamento adequadamente devido à
quando uma medida de erro atingir um limite, iii) Parar quando a flexibilidade limitada. Por outro lado, aqueles com muitas funções
medida de erro não apresentar melhora em um determinado de base produzem habilidades de generalização pobres, pois são
número de épocas, iv) Parar quando a medida de erro em alguns muito flexíveis e ajustam erroneamente o ruído nos dados de
dos dados que foram amostrados dos dados de treinamento treinamento.
(conjunto de espera, conjunto de validação) é maior que uma Embora redes neurais multicamadas e árvores de decisão
certa quantidade do que a medida de erro no conjunto de sejam duas técnicas muito diferentes para fins de classificação,
treinamento (overfitting). alguns pesquisadores (Eklund & Hoang, 2002), (Tjen-Sien Lim et
As redes neurais feedforward são geralmente treinadas pelo al. 2000) realizaram alguns estudos comparativos empíricos.
algoritmo original de retropropagação ou por alguma variante. Seu Algumas das conclusões gerais tiradas desse trabalho são: i) as
maior problema é que eles são muito lentos para a maioria dos redes neurais são geralmente mais
aplicativos. Uma das abordagens para acelerar a taxa de capazes de fornecer aprendizagem incremental do que as árvores
treinamento é estimar pesos iniciais ótimos (Yam & Chow, 2001). de decisão (Saad, 1998), embora existam alguns
Outro método para treinar RNAs feedforward multicamadas é o algoritmos para aprendizagem incremental de árvores
algoritmo de eliminação de peso que deriva automaticamente a de decisão como (Utgoff et al, 1997) e (McSherry,
topologia apropriada e, portanto, evita também os problemas com 1999). Técnicas incrementais de indução de árvore de
overfitting (Weigend et al., 1991). Algoritmos genéticos têm sido decisão resultam em frequente reestruturação da árvore
usados para treinar os pesos de redes neurais (Siddique e Tokhi, quando a quantidade de dados de treinamento é
2001) e para encontrar a arquitetura de redes neurais (Yen e Lu, pequena, com a estrutura da árvore amadurecendo à
2000). Existem também métodos Bayesianos que tentam treinar medida que o conjunto de dados se torna maior. O
redes neurais. Vivarelli & Williams (2001) comparam dois métodos tempo de treinamento para
bayesianos para treinamento de redes neurais. Uma série de ii) uma rede neural geralmente é muito maior do que o
outras técnicas surgiram recentemente que tentam melhorar os tempo de treinamento para árvores de decisão.
algoritmos de treinamento de RNAs, alterando a arquitetura das
redes à medida que o treinamento prossegue. Essas técnicas iii) as redes neurais geralmente funcionam tão bem quanto as
incluem a poda de nós ou pesos inúteis (Castellano et al. 1997) e árvores de decisão, mas raramente melhor.

Resumindo, as RNAs foram aplicadas a muitos problemas


do mundo real, mas ainda assim, sua desvantagem mais marcante
é a falta de capacidade de raciocinar sobre sua saída em um
Machine Translated by Google

APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA REVISÃO DE... Informatica 31 (2007) 249–268 257

forma que possa ser efetivamente comunicada. Por esta


R=
Pi (X| ( PiPX i P i PX()
=
i| ()|
=
() ÿ r
)
razão, muitos pesquisadores tentaram abordar a questão
P (jX) )P||jPX
() )| ) j P j PX j () ( ÿ
de melhorar a compreensibilidade das redes neurais, onde r

a solução mais atraente é extrair regras simbólicas de ( Comparando essas duas probabilidades, a maior
redes neurais treinadas. Setiono e Leow (2000) dividiram probabilidade indica que o valor do rótulo da classe é mais
os valores de ativação de unidades ocultas relevantes em provável de ser o rótulo real (se R>1: prever i ÿcaso
dois subintervalos e, em seguida, encontraram o conjunto contrário prever j). Cestnik et al (1987) usaram pela primeira
de conexões relevantes dessas unidades relevantes para vez o Naive Bayes na comunidade ML. Como o algoritmo
construir regras. Mais referências podem ser encontradas de classificação de Bayes usa uma operação de produto
em (Zhou, 2004), uma excelente pesquisa. No entanto, para calcular as probabilidades P(X, i), ele é especialmente
também vale mencionar que Roy (2000) identificou o propenso a ser indevidamente impactado por probabilidades
conflito entre a ideia de extração de regras e o conexionismo de 0. Isso pode ser evitado usando o estimador de Laplace
tradicional. Em detalhes, a ideia de extração de regras de ou m -estime, adicionando um a todos os numeradores e
uma rede neural envolve certos procedimentos, somando o número de uns adicionados ao denominador (Cestnik, 1990).
especificamente a leitura de parâmetros de uma rede, o A suposição de independência entre os nós filhos é
que não é permitido pelo arcabouço conexionista tradicional quase sempre errada e, por esse motivo, os classificadores
em que se baseiam essas redes neurais. ingênuos de Bayes geralmente são menos precisos que
outros algoritmos de aprendizado mais sofisticados (como as RNAs).
No entanto, Domingos & Pazzani (1997) realizaram uma comparação
5 Algoritmos de aprendizado estatístico em larga escala do classificador ingênuo de Bayes com algoritmos
Ao contrário das RNAs, as abordagens estatísticas de última geração para indução de árvores de decisão, aprendizado
são caracterizadas por ter um modelo de probabilidade baseado em instâncias e indução de regras em conjuntos de dados
subjacente explícito, que fornece uma probabilidade de de benchmark padrão e descobriram que ele ser às vezes superior
que uma instância pertence a cada classe, em vez de aos outros esquemas de aprendizado, mesmo em conjuntos de
simplesmente uma classificação. A análise discriminante dados com dependências substanciais de recursos.
linear (LDA) e o discriminante linear de Fisher relacionado O modelo Bayes independente básico foi modificado
são métodos simples usados em estatística e aprendizado de várias maneiras na tentativa de melhorar seu
de máquina para encontrar a combinação linear de recursos desempenho. As tentativas de superar a suposição de
que melhor separam duas ou mais classes de objetos independência baseiam-se principalmente na adição de
(Friedman, 1989). O LDA funciona quando as medições arestas extras para incluir algumas das dependências
feitas em cada observação são quantidades contínuas. Ao entre os recursos, por exemplo (Friedman et al. 1997).
lidar com variáveis categóricas, a técnica equivalente é a Nesse caso, a rede tem a limitação de que cada recurso
Análise de Correspondência Discriminante (Mika et al., 1999). pode estar relacionado a apenas um outro recurso. O
A entropia máxima é outra técnica geral para estimar classificador bayesiano semi-ingênuo é outra tentativa
distribuições de probabilidade a partir de dados. O princípio importante de evitar a suposição de independência.
dominante na entropia máxima é que, quando nada é (Kononenko, 1991), em que os atributos são particionados
conhecido, a distribuição deve ser a mais uniforme possível, em grupos e assume-se que xi é condicionalmente
ou seja, ter entropia máxima. Os dados de treinamento independente de xj se e somente se eles estiverem em grupos diferentes
rotulados são usados para derivar um conjunto de restrições A principal vantagem do classificador ingênuo de Bayes é
para o modelo que caracterizam as expectativas específicas seu curto tempo computacional para treinamento. Além disso,
da classe para a distribuição. Csiszar (1996) fornece um como o modelo tem a forma de um produto, ele pode ser
bom tutorial de introdução às técnicas de máxima entropia. convertido em uma soma por meio do uso de logaritmos - com
As redes bayesianas são os representantes mais consequentes vantagens computacionais significativas. Se
conhecidos dos algoritmos de aprendizado estatístico. Um uma característica é numérica, o procedimento usual é
livro abrangente sobre redes bayesianas é o de Jensen discretizá-la durante o pré-processamento dos dados (Yang &
(1996). Assim, neste estudo, além de nossa breve descrição Webb, 2003), embora um pesquisador possa usar a distribuição
das redes bayesianas, nos referimos principalmente a normal para calcular probabilidades (Bouckaert, 2004).
trabalhos mais recentes.
5.2 Redes Bayesianas
5.1.1 Classificadores Naive Bayes
Uma Rede Bayesiana (BN) é um modelo gráfico para
Redes Naive Bayesianas (NB) são redes Bayesianas relações de probabilidade entre um conjunto de variáveis
muito simples que são compostas de grafos acíclicos (características) (consulte a Figura 6). A estrutura de rede
direcionados com apenas um pai (representando o nó não bayesiana S é um grafo acíclico direcionado (DAG) e os nós
observado) e vários filhos (correspondentes a nós em S estão em correspondência um-para-um com os recursos X.
observados) com uma forte suposição de independência Os arcos representam influências casuais entre os recursos,
entre os nós filhos no contexto de seu pai (Good, 1950). enquanto a falta de possíveis arcos em S codifica
Assim, o modelo de independência (Naive Bayes) é independências condicionais. Além disso, um recurso (nó)
baseado na estimativa (Nilsson, 1965): é condicionalmente independente de seus não descendentes
dados seus pais (X1 é condicionalmente independente de X2
Machine Translated by Google

258 Informatica 31 (2007) 249–268 SB Kotsiantis

dado X3 se P(X1|X2,X3)=P(X1|X3) para todos os valores possíveis de Inicialize uma rede bayesiana vazia G contendo n nós (ou seja,
X1, X2, X3). um BN com n nós, mas sem arestas)

1. Avalie a pontuação do G: Score(G)


2. G' = G 3.
para i = 1 até n faça 4. para j = 1
até n faça 5. se i • j então 6. se não
houver aresta entre os nós
i e j em G• então 7. Modifique G' adicionando uma aresta entre os
nós i e j em G• de modo que i seja pai de
j: (i • j) 8. se o G' resultante for um DAG, então 9. se (Score(G') >
Pontuação (G)) então 10. G = G' 11. fim se 12. fim se 13. fim
se 14. fim se 15. G' = G 16. fim para 17.
fim para
Figura 6. A estrutura de uma Rede Bayesiana

Normalmente, a tarefa de aprender uma rede Bayesiana pode ser


dividida em duas subtarefas: inicialmente, o aprendizado da estrutura
DAG da rede e, em seguida, a determinação de seus parâmetros. Os
parâmetros probabilísticos são codificados em um conjunto de tabelas,
uma para cada variável, na forma de distribuições condicionais locais
de uma variável, dados seus pais. Dadas as independências codificadas
na rede, a distribuição conjunta pode ser reconstruída simplesmente Figura 7. Pseudocódigo para treinamento de BN
multiplicando essas tabelas. Dentro do quadro geral de indução de
redes bayesianas, existem dois cenários: estrutura conhecida e estrutura Uma estrutura BN também pode ser encontrada aprendendo as

desconhecida. relações de independência condicional entre os recursos de um conjunto


de dados. Usando alguns testes estatísticos (como o qui-quadrado e o
No primeiro cenário, a estrutura da rede é fornecida (por exemplo, teste de informação mútua), pode-se encontrar as relações de

por um especialista) e considerada correta. Uma vez que a estrutura da independência condicional entre os recursos e usar essas relações

rede é fixada, aprender os parâmetros nas Tabelas de Probabilidade como restrições para construir uma BN. Esses algoritmos são chamados

Condicional (CPT) geralmente é resolvido estimando um número de algoritmos baseados em CI ou algoritmos baseados em restrições.

localmente exponencial de parâmetros a partir dos dados fornecidos Cowell (2001) mostrou que para qualquer procedimento de busca de

(Jensen, 1996). Cada nó na rede tem um CPT associado que descreve estrutura baseado em testes de IC, um procedimento equivalente
a distribuição de probabilidade condicional desse nó dados os diferentes baseado na maximização de uma pontuação pode ser especificado.

valores de seus pais.


Uma comparação entre métodos baseados em pontuação e

Apesar do notável poder das Redes Bayesianas, elas possuem métodos baseados em IC é apresentada em (Heckerman et al., 1999).

uma limitação inerente. Esta é a dificuldade computacional de explorar Ambas as abordagens têm suas vantagens e desvantagens. De um

uma rede previamente desconhecida. Dado um problema descrito por n modo geral, a abordagem de análise de dependência é mais eficiente

características, o número de possíveis hipóteses de estrutura é mais do do que a abordagem de pesquisa e pontuação para redes esparsas

que exponencial em n. Se a estrutura for desconhecida, uma abordagem (redes que não são densamente conectadas). Também pode deduzir a

é introduzir uma função de pontuação (ou uma pontuação) que avalia a estrutura correta quando a distribuição de probabilidade dos dados

“aptidão” das redes em relação aos dados de treinamento e, em seguida, satisfaz certas suposições. No entanto, muitos desses algoritmos

procurar a melhor rede de acordo com essa pontuação. Vários requerem um número exponencial de testes de CI e muitos testes de CI

pesquisadores mostraram experimentalmente que a seleção de uma de alta ordem (testes de CI com grandes conjuntos de condições). No

única boa hipótese usando busca gulosa geralmente produz previsões entanto, embora a abordagem de busca e pontuação possa não

precisas (Heckerman et al. 1999), (Chickering, 2002). Na Figura 7 há encontrar a melhor estrutura devido à sua natureza heurística, ela
funciona com uma gama mais ampla de modelos probabilísticos do que
um pseudo-código para treinamento de BNs.
a abordagem de análise de dependência. Madden (2003) comparou o
desempenho de vários Classificadores de Rede Bayesiana. Seus
experimentos demonstraram que um desempenho de classificação

Dentro do paradigma score & search, outra abordagem usa métodos muito semelhante pode ser alcançado por classificadores construídos

de busca local no espaço de grafos acíclicos direcionados, onde as usando as diferentes abordagens descritas acima.

escolhas usuais para definir as modificações elementares (mudanças


locais) que podem ser aplicadas são adição de arco, exclusão de arco
e reversão de arco. Acid e de Campos (2003) propuseram um novo O cenário de aprendizado mais genérico é quando a estrutura da

método de busca local, restrito a grafos acíclicos parcialmente rede é desconhecida e há dados ausentes. Friedman & Koller (2003)

direcionados, que utiliza um espaço de busca diferente e leva em conta propuseram uma nova abordagem para esta tarefa e mostraram como

o conceito de equivalência entre estruturas de rede. Desta forma, reduz- calcular eficientemente uma soma sobre o número exponencial de redes

se o número de diferentes configurações do espaço de busca, que são consistentes com uma ordem fixa sobre as redes.

melhorando assim a eficiência.


Usando uma versão adequada de qualquer um dos tipos de modelo
mencionados nesta revisão, pode-se induzir uma rede bayesiana a partir
de um determinado conjunto de treinamento. Um classificador baseado
na rede e no conjunto dado de atributos X1,X2, ... Xn,
Machine Translated by Google

APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA REVISÃO DE... Informatica 31 (2007) 249–268 259

retorna o rótulo c, que maximiza a probabilidade posterior p(c | X1, marcado com um rótulo de classificação, então o valor do rótulo de
X2, ... Xn). uma instância não classificada pode ser determinado observando a
As multi-redes bayesianas permitem diferentes dependências classe de seus vizinhos mais próximos. O kNN localiza as k instâncias
probabilísticas para diferentes valores do nó de classe (Jordan, mais próximas da instância de consulta e determina sua classe
1998). Isso sugere que os classificadores BN simples devem identificando o único rótulo de classe mais frequente. Na Figura 8,
funcionar melhor quando há um único modelo subjacente do conjunto um exemplo de pseudocódigo para os métodos de aprendizado de
de dados e o classificador multi-net deve funcionar melhor quando base de instância é ilustrado.
os relacionamentos subjacentes entre os recursos são muito
diferentes para classes diferentes (Cheng e Greiner, 2001). procedimento InstanceBaseLearner(Teste
Instances)
para cada instância de teste { encontre
A característica mais interessante das BNs, em comparação
com árvores de decisão ou redes neurais, é certamente a as k instâncias mais próximas do conjunto de
possibilidade de levar em conta informações prévias sobre um treinamento de acordo com uma métrica de distância
determinado problema, em termos de relações estruturais entre suas
Classe resultante= rótulo de classe mais frequente das
características. Essa expertise prévia, ou conhecimento de domínio, k instâncias mais próximas }
sobre a estrutura de uma rede bayesiana pode assumir as seguintes
formas: 1. Declarar que um nó é
Figura 8. Pseudocódigo para alunos baseados em instância
raiz, ou seja, não tem
pais. Em geral, as instâncias podem ser consideradas como pontos
2. Declarar que um nó é um nó folha, ou seja, não tem dentro de um espaço de instância n-dimensional onde cada uma das
crianças. n-dimensões corresponde a uma das n-características que são
3. Declarar que um nó é uma causa direta ou direta usadas para descrever uma instância. A posição absoluta das
efeito de outro nó. instâncias dentro desse espaço não é tão significativa quanto a
4. Declarar que um nó não está diretamente conectado a outro nó. distância relativa entre as instâncias. Essa distância relativa é
determinada usando uma métrica de distância. Idealmente, a métrica
5. Declarar que dois nós são independentes, dado um conjunto de de distância deve minimizar a distância entre duas instâncias
condições. classificadas de forma semelhante, enquanto maximiza a distância
6. Fornecer ordenação parcial dos nós, ou seja, declarar que um nó entre instâncias de classes diferentes. Muitas métricas diferentes
aparece antes de outro nó na ordenação. foram apresentadas. Os mais significativos são apresentados na
Tabela 3.
7. Fornecimento de um pedido de nó completo.
Um problema dos classificadores BN é que eles não são m ÿ
1/ r
r
adequados para conjuntos de dados com muitas características Minkowsky: D(x,y)= ÿ ÿÿÿ xy ÿ

eu eu

ÿÿ
(Cheng et al., 2002). A razão para isso é que tentar construir uma eu
=1

rede muito grande simplesmente não é viável em termos de tempo e m

espaço. Um problema final é que antes da indução, as características


numéricas precisam ser discretizadas na maioria das vezes.
Manhattan: D(x,y)= ÿ ÿx y eu eu

eu
= 1

casos. m

Chebychev: D(x,y)= max x y 1


eu
ÿ

eu

eu
=

6 Aprendizagem baseada em instâncias 1/2


m ÿ
2

Outra categoria sob o título de métodos estatísticos é o Euclidiano: D(x,y)= ÿ ÿÿÿ xy eu


ÿ

eu

ÿÿ
=1
aprendizado baseado em instâncias. Algoritmos de aprendizado eu

baseados em instâncias são algoritmos de aprendizado preguiçoso m ÿ

xy
(Mitchell, 1997), pois atrasam o processo de indução ou generalização Camberra: D(x,y)= ÿ eu eu

até que a classificação seja realizada. eu


=1 xy + eu eu

Algoritmos de aprendizado preguiçoso requerem menos tempo de Correlação de classificação de Kendall:


computação durante a fase de treinamento do que algoritmos de 2 mi ÿ

aprendizado ansioso (como árvores de decisão, redes neurais e de D(x,y)= 1 ÿ ÿÿ

ÿÿ sinal( xx
)(eu) sinal yy j

Bayes), mas mais tempo de computação durante o processo de (


milímetros
ÿ

1) ij=j =1

classificação. Um dos algoritmos de aprendizado baseados em


Tabela 3. Abordagens para definir a distância entre as
instâncias mais diretos é o algoritmo do vizinho mais próximo . Aha
instâncias (x e y)
(1997) e De Mantaras e Armengol (1998) apresentaram uma revisão
de classificadores de aprendizagem baseados em instâncias. Assim, Para obter resultados mais precisos, vários algoritmos usam
neste estudo, além de uma breve descrição do algoritmo do vizinho esquemas de ponderação que alteram as medidas de distância e a
mais próximo , faremos referência a alguns trabalhos mais recentes. influência de votação de cada instância. Uma pesquisa de esquemas
k- de ponderação é dada por (Wettschereck et al., 1997).
Nearest Neighbor (kNN) é baseado no princípio de que as instâncias
dentro de um conjunto de dados geralmente existirão próximas a O poder do kNN foi demonstrado em vários domínios reais, mas
outras instâncias que possuem propriedades semelhantes (Cover e existem algumas ressalvas sobre a utilidade do kNN, como: i) eles
Hart, 1967). Se as instâncias forem têm grandes
Machine Translated by Google

260 Informatica 31 (2007) 249–268 SB Kotsiantis

requisitos de armazenamento, ii) eles são sensíveis à escolha da Como já mencionamos, a principal desvantagem dos
função de similaridade que é usada para comparar instâncias, iii) classificadores baseados em instância é seu grande tempo
eles não têm uma maneira baseada em princípios para escolher k, computacional para classificação. Uma questão chave em muitas
técnica ou
por meio de validação cruzada semelhante, exceto aplicações é determinar qual dos recursos de entrada disponíveis
computacionalmente cara (Guo et al. 2003 ). deve ser usado na modelagem por meio da seleção de recursos
A escolha de k afeta o desempenho do algoritmo kNN. (Yu & Liu, 2004), porque isso pode melhorar a precisão da
Considere os seguintes motivos pelos quais um classificador de classificação e reduzir o tempo de classificação necessário. Além
vizinho mais próximo pode classificar incorretamente uma instância disso, escolher uma métrica de distância mais adequada para o
de consulta: • conjunto de dados específico pode melhorar a precisão dos
Quando há ruído na localidade da instância de consulta, a(s) classificadores baseados em instâncias.
instância(s) com ruído ganha(m) a maioria dos votos,
resultando na previsão da classe incorreta. Um k maior 7 Máquinas de Vetor de Suporte
poderia resolver este problema. •
Quando a região que define a classe, ou fragmento da classe, é As Support Vector Machines (SVMs) são a mais nova técnica
tão pequena que as instâncias pertencentes à classe que de aprendizado de máquina supervisionado (Vapnik, 1995).
circunda o fragmento ganham a maioria dos votos. Um k Uma excelente pesquisa sobre SVMs pode ser encontrada em
menor poderia resolver este problema. (Burges, 1998), e um livro mais recente é de (Cristianini & Shawe-
Wettschereck et al. (1997) investigaram o comportamento do Taylor, 2000). Assim, neste estudo, além de uma breve descrição
kNN na presença de instâncias ruidosas. Os experimentos dos SVMs, faremos referência a alguns trabalhos mais recentes e
mostraram que o desempenho de kNN não era sensível à escolha aos marcos que foram publicados antes desses trabalhos. Os
SVMs giram em torno da noção de “margem” – cada lado de um
exata de k quando k era grande.
Eles descobriram que, para pequenos valores de k, o algoritmo hiperplano que separa duas classes de dados. Maximizar a margem
kNN era mais robusto do que o único algoritmo de vizinho mais e, assim, criar a maior distância possível entre o hiperplano de
separação e as instâncias de cada lado dele provou reduzir um
próximo (1NN) para a maioria dos grandes conjuntos de dados testados.
No entanto, o desempenho do kNN foi inferior ao obtido pelo 1NN limite superior no erro de generalização esperado.
em pequenos conjuntos de dados (<100 instâncias).

Okamoto e Yugami (2003) representaram a precisão de Se os dados de treinamento forem linearmente separáveis,
classificação esperada de k-NN em função das características do então existe um par (w,b) tal que
domínio, incluindo o número de instâncias de treinamento, o
T w xi + ÿb1, para todos x ÿ i P
número de atributos relevantes e irrelevantes, a probabilidade de
cada atributo, a taxa de ruído para cada tipo de ruído , e k. Eles Twx b + ÿ ÿ 1, para todox ÿ N
eu eu

também exploraram as implicações comportamentais das análises,


com o decisão regra dado por
apresentando os efeitos das características do domínio na precisão
T
esperada de k-NN e no valor ideal de k para domínios artificiais. f wb, (x = wx
) sgn( + onde
vetor w éb chamado
) de
de peso e b o viés (ou ÿ b é denominado limite).

O tempo para classificar a instância da consulta está


intimamente relacionado ao número de instâncias armazenadas e É fácil mostrar que, quando é possível separar linearmente
duas classes, um hiperplano de separação ótimo pode ser
ao número de recursos usados para descrever cada instância.
encontrado minimizando a norma quadrada do hiperplano de
Assim, para reduzir o número de instâncias armazenadas,
separação. A minimização pode ser configurada como um
algoritmos de filtragem de instâncias foram propostos (Kubat e
problema de programação quadrática convexa (QP):
Cooperson, 2001). Brighton & Mellish (2002) descobriram que seu
1 2
algoritmo ICF e algoritmo RT3 (Wilson & Martinez, 2000) alcançaram Minimizar ( w
) ÿw= 2
c ,b (1)
o mais alto grau de redução do conjunto de instâncias, bem como
T
a retenção da precisão da classificação: eles estão perto de sujeito a ( y No wx i ÿ =b ) 1, 1, i + k
,.
eu
eu

alcançar a redução de armazenamento não intrusiva. O grau de caso de dados linearmente separáveis, uma vez que o
desempenho desses algoritmos é bastante impressionante: uma hiperplano de separação ótimo é encontrado, os pontos de dados
média de 80% dos casos são removidos e a precisão da que ficam em sua margem são conhecidos como pontos de vetor
classificação não cai significativamente. Uma outra escolha ao de suporte e a solução é representada como uma combinação
projetar um algoritmo de redução do conjunto de treinamento é linear apenas desses pontos (consulte a Figura 9 ). Outros pontos
modificar as instâncias usando uma nova representação, como de dados são ignorados.
protótipos (Sanchez et al., 2002).

Breiman (1996) relatou que a estabilidade dos classificadores


do vizinho mais próximo os distingue das árvores de decisão e
alguns tipos de redes neurais. Um método de aprendizado é
denominado "instável" se pequenas mudanças na divisão do
conjunto de treinamento-teste podem resultar em grandes mudanças
no classificador resultante.
Machine Translated by Google

APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA REVISÃO DE... Informatica 31 (2007) 249–268 261

1
w C+ ÿ ÿÿ ÿ{ ( ) yxwb
2

eu
P
ÿ ÿ 1 ÿ } µÿ
2 eu
eu

eu
eu eu eu

ÿ ÿ ÿ + ÿÿi ii
eu

Máximo
margem onde o µ eu
são os multiplicadores de Lagrange introduzidos para

reforçar a positividade do ÿ eu .
No entanto, a maioria dos problemas do mundo real
envolve dados não separáveis para os quais não existe
nenhum hiperplano que separe com sucesso as instâncias
hiperplano
positivas das negativas no conjunto de treinamento. Uma
solução para o problema de inseparabilidade é mapear os
dados em um espaço dimensional superior e definir um
hiperplano ideal
hiperplano hiperplano de separação lá. Esse espaço de dimensão superior
é chamado de espaço de recursos transformados, em oposição
Figura 9. Margem Máxima ao espaço de entrada ocupado pelas instâncias de treinamento.
Com um espaço de recurso transformado apropriadamente
Portanto, a complexidade do modelo de um SVM não é
escolhido de dimensionalidade suficiente, qualquer conjunto de
afetada pelo número de recursos encontrados nos dados de
treinamento consistente pode ser separado. Uma separação
treinamento (o número de vetores de suporte selecionados pelo
linear no espaço de recursos transformado corresponde a uma
algoritmo de aprendizado do SVM geralmente é pequeno). Por
separação não linear no espaço de entrada original. Mapeando
esta razão, os SVMs são adequados para lidar com tarefas de
os dados para algum outro (possivelmente de dimensão infinita)
aprendizado onde o número de recursos é grande em relação
d
ao número de instâncias de treinamento. as: ÿREntão
espaço H Hilbert ÿH.
o algoritmo de treinamento
Um pseudocódigo geral para SVMs é ilustrado na Figura 10. dependeria apenas dos dados através de
produtosda
funções escalares
forma ( )em( ) H,
ÿ xxou. seja, dej Se lá
ÿÿ eu

eram a "núcleo função” K tal


1) Introduza multiplicadores de Lagrange positivos, um para
cada uma das restrições de desigualdade (1). Isso dá K
quexx
ÿ( ,x=( )ÿÿ
eu j xj
) eu
() , só precisaríamos
Lagrangeano:
usar K no algoritmo de treinamento e nunca precisaria
1 2
N N determinar explicitamente ÿ . Assim, kernels são uma
ÿ ÿ

ÿ ÿÿ+ ÿ classe especial de função que permite que produtos


LP w 2 ÿ ( ) ÿ i yi xi w b eu

=1 =1
eu eu
internos sejam calculados diretamente no espaço de
2) Minimize LP em relação a w, b. Este é um problema características, sem realizar o mapeamento descrito acima (Scholkopf et a
de programação quadrática convexa. Depois que um hiperplano é criado, a função kernel é
usada para mapear novos pontos no espaço de recursos
3) Na solução, esses pontos >0 são chamados de “suporte para classificação.
para qual ÿ eu
A seleção de uma função de kernel apropriada é importante,
vetores” uma vez que a função de kernel define o espaço de características
transformadas no qual as instâncias do conjunto de treinamento
Figura 10. Pseudocódigo para SVMs serão classificadas. Genton (2001) descreveu várias classes de
kernels, porém, não abordou a questão de qual classe é mais
Mesmo que a margem máxima permita que o SVM selecione
adequada para um determinado problema. É uma prática comum
entre vários hiperplanos candidatos, para muitos conjuntos de
estimar uma gama de configurações potenciais e usar a validação
dados, o SVM pode não ser capaz de encontrar nenhum
cruzada sobre o conjunto de treinamento para encontrar a melhor.
hiperplano de separação porque os dados contêm instâncias mal
Por este motivo uma limitação dos SVMs é a baixa velocidade do
classificadas. O problema pode ser resolvido usando uma
treinamento.
margem flexível que aceita algumas classificações incorretas das
A seleção das configurações do kernel pode ser considerada de
instâncias de treinamento (Veropoulos et al. 1999). Isso pode ser
maneira semelhante à escolha do número de nós ocultos em uma
feito introduzindo variáveis de folga positivas i =1,...,N nas
rede neural. Contanto que a função do kernel seja legítima, um
ÿ eu , restrições, que então se tornam: para y
SVM operará corretamente mesmo se o projetista não souber
wx b 1 ÿ ÿ ÿ + ÿ
eu ÿ eu
1=+ exatamente quais recursos dos dados de treinamento estão sendo
usados no espaço de recursos transformado induzido pelo kernel.
wx b 1 ÿ ÿ ÿ ÿ + ÿ para você
=ÿ
1
eu
eu

Alguns kernels populares são os


ÿ ÿ 0,
(1) ( )P K(x, y) =seguintes:
x ÿ y +1 ,
2 2
Assim, para que ocorra um erro, o correspondente ÿ deve
=
ÿÿ

xy 2ÿ
x (=,K(x,
K xye
y) ) (2) (3)
tanh
eu

exceder a unidade, então ÿiÿ é um limite superior no número


resolvendo
ÿ ydoÿ SVM feito ÿ QP ÿ )P
O treinamento
oéproblema
eu

de erros de treinamento. Neste caso, o Lagrangeano é: Nth dimensional, onde N é o número de amostras
no conjunto de dados de treinamento. Resolvendo
este problema em
Machine Translated by Google

262 Informatica 31 (2007) 249–268 SB Kotsiantis

Os métodos QP padrão envolvem grandes operações com matrizes, O viés mede a contribuição para o erro da tendência central do
bem como cálculos numéricos demorados e, na maioria das vezes, classificador quando treinado em dados diferentes (Bauer & Kohavi,
são muito lentos e impraticáveis para grandes problemas. 1999). A variância é uma medida da contribuição para o erro dos
Sequential Minimal Optimization (SMO) é um algoritmo simples que desvios da tendência central. Algoritmos de aprendizado com um
pode, de forma relativamente rápida, resolver o problema SVM QP perfil de alto viés geralmente geram modelos simples e altamente
sem qualquer armazenamento extra de matriz e sem usar nenhuma restritos que são bastante insensíveis às flutuações de dados, de
etapa numérica de otimização de QP (Platt, 1999). O SMO decompõe modo que a variância é baixa. Naive Bayes é considerado de alto
o problema geral do QP em subproblemas do QP. Keerthi e Gilbert viés, pois assume que o conjunto de dados em consideração pode ser
(2002) sugeriram duas versões modificadas do SMO que são resumido por uma única distribuição de probabilidade e que esse
significativamente mais rápidas que o SMO original na maioria das modelo é suficiente para discriminar entre as classes. Pelo contrário,
situações. algoritmos com um perfil de alta variância podem gerar modelos
Por fim, o problema de otimização de treinamento do SVM atinge arbitrariamente complexos que ajustam variações de dados mais
necessariamente um mínimo global, e evita terminar em um mínimo facilmente. Exemplos de algoritmos de alta variância são árvores de
local, o que pode acontecer em outros algoritmos de busca como decisão, redes neurais e SVMs. A armadilha óbvia das classes de
redes neurais. No entanto, os métodos SVM são binários, portanto, modelo de alta variância é o overfitting.
no caso de um problema multiclasse, deve-se reduzir o problema a
um conjunto de múltiplos problemas de classificação binária. Dados
discretos apresentam outro problema, embora com redimensionamento A maioria dos algoritmos de árvore de decisão não pode
adequado possam ser obtidos bons resultados. funcionar bem com problemas que requerem particionamento diagonal.
A divisão do espaço de instância é ortogonal ao eixo de uma variável
e paralela a todos os outros eixos. Portanto, as regiões resultantes
são
após particionar todos os hiperretângulos. As RNAs e as SVMs
8 Discussão
funcionam bem quando a multicolinearidade está presente e existe
Técnicas de aprendizado de máquina supervisionado são uma relação não linear entre os recursos de entrada e saída.
aplicáveis em vários domínios. Vários artigos orientados a aplicativos
de ML podem ser encontrados em (Saitta e Neri, 1998) e (Witten e Métodos de aprendizado preguiçosos requerem tempo de
Frank, 2005). A seguir, apresentamos nossas conclusões sobre o uso treinamento zero porque a instância de treinamento é simplesmente
de cada técnica. armazenada. Os métodos Naive Bayes também treinam muito
Discussões de todos os prós e contras de cada algoritmo individual e rapidamente, pois exigem apenas uma única passagem nos dados
comparações empíricas de várias opções de viés estão além do para contar frequências (para variáveis discretas) ou para calcular a
escopo deste artigo; como a escolha do algoritmo sempre depende função de densidade de probabilidade normal (para variáveis contínuas
da tarefa em questão. sob suposições de normalidade). As árvores de decisão univariadas
No entanto, esperamos que as observações a seguir possam ajudar também são consideradas bastante rápidas - de qualquer forma,
os profissionais a não selecionar um algoritmo totalmente inadequado várias ordens de magnitude mais rápidas do que redes neurais e
para seu problema. SVMs.
Geralmente, SVMs e redes neurais tendem a ter um desempenho Naive Bayes requer pouco espaço de armazenamento durante
muito melhor ao lidar com multidimensões e recursos contínuos. Por os estágios de treinamento e classificação: o mínimo estrito é a
outro lado, os sistemas baseados em lógica tendem a ter um memória necessária para armazenar as probabilidades a priori e
desempenho melhor ao lidar com recursos discretos/categóricos. Para condicionais. O algoritmo kNN básico usa muito espaço de
modelos de redes neurais e SVMs, é necessário um grande tamanho armazenamento para a fase de treinamento e seu espaço de execução
de amostra para atingir sua máxima precisão de previsão, enquanto o é pelo menos tão grande quanto seu espaço de treinamento. Pelo
NB pode precisar de um conjunto de dados relativamente pequeno. contrário, para todos os aprendizes não preguiçosos, o espaço de
execução é geralmente muito menor do que o espaço de treinamento,
SVMs são algoritmos binários, portanto, fizemos uso de uma vez que o classificador resultante geralmente é um resumo
codificação de saída com correção de erros (ECOC), ou, em suma, a altamente condensado dos dados. Além disso, Naive Bayes e o kNN
abordagem de codificação de saída, para reduzir um problema podem ser facilmente usados como aprendizes incrementais, enquanto
multiclasse a um conjunto de múltiplos problemas de classificação os algoritmos de regras não podem. Naive Bayes é naturalmente
binária (Crammer & Singer, 2002 ). A codificação de saída para robusto a valores ausentes, uma vez que eles são simplesmente
problemas multiclasse é composta de dois estágios. No estágio de ignorados no cálculo de probabilidades e, portanto, não têm impacto
treinamento, construímos vários classificadores binários independentes, na decisão final. Pelo contrário, kNN e redes neurais requerem
cada um baseado em uma partição diferente do conjunto de rótulos registros completos para fazer seu trabalho.
em dois conjuntos separados. No segundo estágio, a parte de Além disso, o kNN é geralmente considerado intolerante ao ruído;
classificação, as previsões dos classificadores binários são combinadas suas medidas de similaridade podem ser facilmente distorcidas por
para estender uma previsão no rótulo original de uma instância de erros nos valores dos atributos, levando-o a classificar erroneamente
teste. uma nova instância com base nos vizinhos mais próximos errados.
Existe um consenso geral de que k-NN é muito sensível a Ao contrário do kNN, os aprendizes de regras e a maioria das árvores
características irrelevantes: essa característica pode ser explicada de decisão são considerados resistentes ao ruído porque suas
pela forma como o algoritmo funciona. Além disso, a presença de estratégias de poda evitam o superajuste dos dados em geral e dos
recursos irrelevantes pode tornar o treinamento da rede neural muito dados ruidosos em particular.
ineficiente, até mesmo impraticável. Além disso, o número de parâmetros de modelo ou tempo de
execução a serem ajustados pelo usuário é um indicador de um
Machine Translated by Google

APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA REVISÃO DE... Informatica 31 (2007) 249–268 263

facilidade de uso do algoritmo. Como esperado, redes transparente, pois é facilmente compreendido por usuários
neurais e SVMs possuem mais parâmetros do que as como médicos, que descobrem que as explicações
demais técnicas. O kNN básico geralmente tem apenas um probabilísticas replicam sua maneira de diagnosticar (Kononenko, 1993).
único parâmetro (k) que é relativamente fácil de ajustar. Da mesma forma, as explicações de Naive Bayes em termos da
Algoritmos baseados em lógica são todos considerados soma dos ganhos de informação são muito transparentes, pois
muito fáceis de interpretar, enquanto redes neurais e SVMs são facilmente compreendidas por usuários como médicos, que
têm interpretabilidade notoriamente ruim. O k-NN também é descobrem que as explicações reproduzem sua maneira de
considerado como tendo uma interpretabilidade muito ruim diagnosticar (Kononenko, 1993).
porque uma coleção não estruturada de instâncias de Por fim, árvores de decisão e NB geralmente possuem
treinamento está longe de ser legível, especialmente se perfis operacionais diferentes, quando uma é muito precisa a
houver muitas delas. Enquanto a interpretabilidade diz outra não e vice-versa. Pelo contrário, as árvores de decisão e
respeito ao classificador típico gerado por um algoritmo de os classificadores de regras têm um perfil operacional
aprendizado, a transparência refere-se a se o princípio do semelhante. SVM e ANN também têm um perfil operacional
método é facilmente compreendido. Um caso particularmente semelhante. Nenhum algoritmo de aprendizado único pode
eloqüente é o de k-NN; embora o classificador resultante não superar uniformemente outros algoritmos em todos os conjuntos
seja totalmente interpretável, o método em si é bastante de dados. As características das técnicas de aprendizagem são
transparente porque apela à intuição de usuários humanos, comparadas na Tabela 4 (da evidência de estudos empíricos e teóricos existen
que raciocinam espontaneamente de maneira semelhante. Da mesma forma, Naive Bayes' é muito

Decisão Neural Ingênuo kNN SVM Alunos


árvores Redes Bayes de regras

Precisão em geral
** *** * ** **** **
Velocidade de aprendizado
*** * **** **** * **
em relação ao número
de atributos e ao número de
instâncias
Velocidade de classificação
**** **** **** * **** ****
Tolerância a valores ausentes
*** * **** * ** **
Tolerância a atributos *** * ** ** **** **
irrelevantes
Tolerância a atributos ** ** * ** *** **
redundantes
Tolerância a atributos
** *** * * *** **
altamente interdependentes (por
exemplo, problemas de paridade)
Lidando com
**** *** (não ***(não ***(não **(não ***(não
atributos discretos/binários/ discreto) contínuo) discreto)
contínuos diretamente discreto) diretamente contínuo)
Tolerância ao ruído ** ** *** * ** *
Lidando com o perigo de
** * *** *** ** **
overfitting
Tentativas de aprendizado
** *** **** **** ** *

incremental
**** * **** ** * ****
Capacidade de explicação/
transparência de conhecimento/
***
classificações Manipulação de parâmetros do modelo
* **** *** * ***
Tabela 4. Comparação dos algoritmos de aprendizado (**** estrelas representam o melhor e *estrelas o pior desempenho)

Quando confrontado com a decisão “Qual algoritmo (Dietterich, 2000). Embora ou talvez porque muitos
será mais preciso em nosso problema de classificação?”, métodos de criação de conjuntos tenham sido propostos,
a abordagem mais simples é estimar a precisão dos ainda não há uma imagem clara de qual método é o
algoritmos candidatos no problema e selecionar aquele melhor (Villada e Drissi, 2002). Assim, uma área ativa de
que parece ser mais preciso. O conceito de combinação pesquisa em aprendizado supervisionado é o estudo de
de classificadores é proposto como uma nova direção métodos para a construção de bons ensembles de classificadores.
para a melhoria do desempenho de classificadores Os mecanismos usados para construir um conjunto de classificadores
individuais. O objetivo dos algoritmos de integração de incluem: i) usar diferentes subconjuntos de dados de treinamento com
resultados de classificação é gerar resultados de sistema um único método de aprendizado, ii) usar diferentes parâmetros de
mais certos, precisos e exatos. Numerosos métodos treinamento com um único método de treinamento (por exemplo, usando
têm sido sugeridos para a criação de ensemble de classificadores
Machine Translated by Google

264 Informatica 31 (2007) 249–268 SB Kotsiantis

diferentes pesos iniciais para cada rede neural em um ensemble) Uma tentativa demorada que tentou aumentar a precisão da
e iii) usando diferentes métodos de aprendizagem. classificação sem diminuir a compreensibilidade é o procedimento
de seleção de recursos do wrapper (Guyon & Elissee, 2003).
9 Conclusões Teoricamente, ter mais recursos deveria resultar em mais poder
de discriminação. No entanto, a experiência prática com algoritmos
Este artigo descreve as técnicas supervisionadas mais de aprendizado de máquina mostrou que nem sempre é esse o
conhecidas em relativo detalhe. Devemos observar que nossa lista caso. Os métodos wrapper envolvem a seleção de recursos em
de referências não é uma lista abrangente de artigos discutindo torno do algoritmo de indução a ser usado, usando validação
métodos supervisionados: nosso objetivo era produzir uma revisão cruzada para prever os benefícios de adicionar ou remover um
crítica das ideias-chave, em vez de uma simples lista de todas as recurso do subconjunto de recursos usado.
publicações que discutiram ou fizeram uso dessas ideias. Apesar
disso, esperamos que as referências citadas cubram as principais Por fim, muitos pesquisadores em aprendizado de máquina
questões teóricas e forneçam acesso aos principais ramos da estão acostumados a lidar com arquivos simples e algoritmos que
literatura que tratam de tais métodos, orientando o pesquisador são executados em minutos ou segundos em uma plataforma de
em direções de pesquisa interessantes. desktop. Para esses pesquisadores, 100.000 instâncias com duas
dúzias de recursos é o início da gama de conjuntos de dados
A questão-chave ao lidar com a classificação de ML não é se “muito grandes”. No entanto, a comunidade de banco de dados
um algoritmo de aprendizado é superior a outros, mas em quais lida com bancos de dados gigabyte. Obviamente, é improvável
condições um determinado método pode superar significativamente que todos os dados em um data warehouse sejam minerados simultaneamente.
outros em um determinado problema de aplicação. O meta-learning A maioria dos algoritmos de aprendizado atuais são
está se movendo nessa direção, tentando encontrar funções que computacionalmente caros e exigem que todos os dados residam
mapeiam conjuntos de dados para o desempenho do algoritmo na memória principal, o que é claramente insustentável para
(Kalousis e Gama, 2004). Para tanto, o meta-aprendizado utiliza muitos problemas e bancos de dados realistas. Uma abordagem
um conjunto de atributos, denominados meta-atributos, para ortogonal é particionar os dados, evitando a necessidade de
representar as características das tarefas de aprendizagem, e executar algoritmos em conjuntos de dados muito grandes. O
busca as correlações entre esses atributos e o desempenho dos aprendizado de máquina distribuído envolve dividir o conjunto de
algoritmos de aprendizagem. Algumas características das tarefas dados em subconjuntos, aprendendo com esses subconjuntos
de aprendizagem são: o número de instâncias, a proporção de simultaneamente e combinando os resultados (Basak e Kothari,
atributos categóricos, a proporção de valores ausentes, a entropia 2004). Sistemas de agentes distribuídos podem ser usados para
das classes, etc. Brazdil et al. (2003) forneceu uma extensa lista essa execução paralela de processos de aprendizado de máquina
de informações e medidas estatísticas para um conjunto de dados. (Klusch et al., 2003). Algoritmos de aprendizado de máquina não
paralelos ainda podem ser aplicados em dados locais (relativos ao
agente) porque informações sobre outras fontes de dados não são
Após um melhor entendimento dos pontos fortes e limitações necessárias para operações locais. É responsabilidade dos
de cada método, deve-se investigar a possibilidade de integrar agentes integrar as informações de várias fontes locais em
dois ou mais algoritmos para resolver um problema. O objetivo é colaboração com outros agentes.
utilizar os pontos fortes de um método para complementar os
pontos fracos de outro. Se estivermos interessados apenas na
Referências
melhor precisão de classificação possível, pode ser difícil ou
impossível encontrar um único classificador que funcione tão bem [1] Ácido, S. e de Campos. LM (2003). Procurando Estruturas de
quanto um bom conjunto de classificadores. Apesar das vantagens Redes Bayesianas no Espaço de Grafos Acíclicos
óbvias, os métodos ensemble têm pelo menos três pontos fracos. Parcialmente Direcionados Restritos.
A primeira fraqueza é o aumento do armazenamento como Journal of Artificial Intelligence Research 18: 445-490.
consequência direta da exigência de que todos os classificadores
de componentes, em vez de um único classificador, precisem ser [2] Aha, D. (1997). Aprendizagem preguiçosa. Dordrecht: Kluwer
Editoras Acadêmicas.
armazenados após o treinamento. O armazenamento total depende
do tamanho de cada classificador de componente e do tamanho [3] An, A., Cercone, N. (1999), Discretização de atributos contínuos
do ensemble (número de classificadores no ensemble). A segunda para aprender regras de classificação. Terceira Conferência
Pacífico-Ásia sobre Metodologias para Descoberta de
fraqueza é o aumento da computação porque, para classificar uma
consulta de entrada, todos os classificadores de componentes (em Conhecimento e Mineração de Dados, 509-514.
vez de um único classificador) devem ser processados. A última
fraqueza é a diminuição da compreensibilidade. Com o [4] An, A., Cercone, N. (2000), as medidas de qualidade de regras
envolvimento de múltiplos classificadores na tomada de decisão, melhoram a precisão da indução de regras: uma abordagem
é mais difícil para usuários não especialistas perceber o processo experimental, notas de aula em ciência da computação,
de raciocínio subjacente que leva a uma decisão. Uma primeira volume 1932, páginas 119-129.
tentativa de extrair regras significativas de ensembles foi [5] Auer P. & Warmuth M. (1998). Rastreando a Melhor Disjunção.
apresentada em (Wall et al, 2003). Machine Learning 32: 127–150.
[6] Baik, S. Bala, J. (2004), A Decision Tree Algorithm for
Por todas essas razões, a aplicação de métodos de ensemble Distributed Data Mining: Towards Network Intrusion
é sugerida apenas se estivermos interessados apenas na melhor Detection, Lecture Notes in Computer Science, Volume
precisão de classificação possível. Outra hora 3046, Páginas 206 – 212.
Machine Translated by Google

APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA REVISÃO DE... Informatica 31 (2007) 249–268 265

[7] Barto, AG & Sutton, R. (1997). Introdução ao Aprendizado por a Conferência Europeia sobre Inteligência Artificial, páginas
Reforço. Imprensa MIT. 147-149.
[8] Batista, G., & Monard, MC, (2003), Uma Análise de Quatro [25] Cheng, J. & Greiner, R. (2001). Learning Bayesian Belief
Métodos de Tratamento de Dados Perdidos para Aprendizagem Network Classifiers: Algorithms and System, In Stroulia, E. &
Supervisionada, Inteligência Artificial Aplicada, vol. 17, Matwin, S. (ed.), AI 2001, 141-151, LNAI 2056, [26] Cheng, J.,
pp.519-533. Greiner, R., Kelly,
[9] Basak., J., Kothari, R. (2004), um paradigma de classificação J., Bell, D., & Liu, W.
para dados distribuídos verticalmente particionados. (2002). Aprendendo redes bayesianas a partir de dados: uma
Computação Neural, 16(7):1525-1544. abordagem baseada na teoria da informação. Inteligência
[10] Blum, A. (1997), Suporte Empírico para Winnow e Algoritmos Artificial 137: 43–90.
de Maioria Ponderada: Resultados em um Domínio de [27] Chickering, DM (2002). Identificação de estrutura ótima com
Agendamento de Calendário, Aprendizado de Máquina, pesquisa gananciosa. Journal of Machine Learning Research,
Volume 26, Edição 1, Páginas 5-23. vol. 3, pp. 507-554.
[11] Bonarini, A. (2000), Uma Introdução à Aprendizagem de [28] Clark, P., Niblett, T. (1989), The CN2 Induction Algorithm.
Sistemas de Classificadores Fuzzy, Notas de Palestra em Machine Learning, 3(4):261-283.
Ciência da Computação, Volume 1813, Páginas 83-92. [29] Cohen, W. (1995), Fast Effective Rule Induction. Em Proceedings
[12] Bouckaert, R. (2003). Escolher entre dois algoritmos de of ICML-95, 115-123.
aprendizagem baseados em testes calibrados. Proc 20ª Int [30] Cover, T., Hart, P. (1967), Classificação do padrão vizinho mais
Conf sobre Aprendizado de Máquina, pp. 51-58. próximo. IEEE Transactions on Information Theory, 13(1): 21–
Morgan Kaufmann. 7.
[13] Bouckaert, R. (2004), Naive Bayes Classifiers That Perform Well [31] Cowell, RG (2001). Condições sob as quais a independência
with Continuous Variables, Lecture Notes in Computer Science, condicional e os métodos de pontuação levam à seleção
Volume 3339, Páginas 1089 – 1094. idêntica de modelos de rede bayesiana. Proc. 17ª Conferência
Internacional sobre Incerteza em Inteligência Artificial.
[14] Brazdil P., Soares C. e Da Costa J. (2003), Ranking Learning
Algorithms: Using IBL and Meta-Learning on Accuracy and [32] Crammer, K. & Singer, Y. (2002). Sobre a capacidade de
Time Results, Machine Learning, 50: 251-277. aprendizado e design de códigos de saída para problemas
multiclasse. Aprendizado de Máquina 47: 201–233.
[15] Breiman L., Friedman JH, Olshen RA, Stone CJ
(1984) Classification and Regression Trees, Wadsforth [33] Cristianini, N. & Shawe-Taylor, J. (2000). Uma introdução às
International Group. máquinas de vetores de suporte e outros métodos de
[16] Breiman, L., Bagging Preditors. Machine Learning, 24 (1996) aprendizado baseados em kernel. Cambridge University Press,
123-140. Cambridge.
[17] Breslow, LA & Aha, DW (1997). Simplificando árvores de [34] Csiszar, I. (1996), Maxent, matemática e teoria da informação.
decisão: Uma pesquisa. Knowledge Engineering Review 12: Em K. Hanson e R. Silver, editores, Maximum Entropy and
1–40. Bayesian Methods.
[18] Brighton, H. & Mellish, C. (2002), Avanços na Seleção de Editora Acadêmica Kluwer.
Instâncias para Algoritmos de Aprendizagem Baseados em [35] De Mantaras & Armengol E. (1998). Aprendizado de máquina a
Instâncias. Mineração de dados e descoberta de conhecimento partir de exemplos: métodos indutivos e preguiçosos. Data &
6: 153–172. Knowledge Engineering 25: 99-123.
[19] Bruha. I. (2000), From machine learning to knowledge discovery:
Survey of preprocessing and postprocessing. , Análise [36] Dietterich, TG (1998), Testes Estatísticos Aproximados para
Inteligente de Dados, vol. 4, pp. 363-374. Comparar Algoritmos de Aprendizagem de Classificação
Supervisionada. Computação neural, 10(7) 1895–1924.
[20] Burges, C. (1998). Um tutorial sobre máquinas de vetores de
suporte para reconhecimento de padrões. Mineração de dados [37] Dietterich, TG (2000). Uma comparação experimental de três
e descoberta de conhecimento. 2(2):1-47. métodos para construir conjuntos de árvores de decisão:
[21] Camargo, LS & Yoneyama, T. (2001). Bagging, Boosting e Randomização, Machine Learning 40:
Especificação de Conjuntos de Treinamento e Número de 139–157.
Neurônios Ocultos para Perceptrons Multicamadas.
Computação Neural 13: 2673–2680. [38] Domingos, P. & Pazzani, M. (1997). Sobre a otimalidade do
[22] Castellano, G., Fanelli, A., & Pelillo, M. (1997). Um algoritmo classificador bayesiano simples sob perda zero-um. Machine
iterativo de poda para redes neurais feedforward. Transações Learning 29: 103-130.
IEEE em redes neurais 8: 519–531. [39] Dutton, D. & Conroy, G. (1996), Uma revisão de aprendizado de
máquina, Knowledge Engineering Review 12: 341-367.
[23] Cestnik, B., Kononenko, I., Bratko, I., (1987).
Assistant 86: Uma ferramenta de elicitação de conhecimento [40] Eklund, P., Hoang, A. (2002), Uma Pesquisa de Desempenho
para usuários sofisticados. In: Actas da Segunda Sessão de de Algoritmos de Aprendizagem de Máquina de Domínio
Trabalho Europeia sobre Aprendizagem. pp. 31-45. Público Relatório Técnico, Escola de Tecnologia da Informação,
[24] Cestnik, B. (1990), Estimando probabilidades: uma tarefa crucial Griffith University.
no aprendizado de máquina. Em Processos de
Machine Translated by Google

266 Informatica 31 (2007) 249–268 SB Kotsiantis

[41] Elomaa, T. & Rousu, J. (1999). Multidivisão Geral e Eficiente de [59] Hunt E., Martin J & Stone P. (1966), Experiments in Induction,
Atributos Numéricos. Nova York, Academic Press.
Aprendizado de Máquina 36, 201–244. [60] Heckerman, D., Meek, C. & Cooper, G. (1999). Uma Abordagem
[42] Elomaa T. (1999). Os vieses das estratégias de poda de árvores Bayesiana para a Descoberta Causal. Em Glymour, C. e G.
de decisão. Notas de aula em Ciência da Computação 1642. Cooper, (ed.), Computation, Causation, and Discovery,
Springer, pp. 63-74. 141-165. Imprensa MIT.
[43] Flach, PA & Lavrac, N. (2000). O papel da construção de [61] Hodge, V., Austin, J. (2004), A Survey of Outlier Detection
características no aprendizado de regras indutivas. De Raedt, L. Methodologies, Artificial Intelligence Review, Volume 22,
& Kramer, S., (ed.), In Proceedings of the ICML2000 workshop Edição 2, pp. 85-126.
on Attribute-Value Learning and Relational Learning: Bridging [62] Japkowicz N. e Stephen, S. (2002), The Class Imbalance
the Gap, Stanford University. Problem: A Systematic Study Intelligent Data Analysis, Volume
6, Número 5.
[44] Frank, E. & Witten, I. (1998). Gerando conjuntos de regras [63] Jain, AK, Murty, MN e Flynn, P. (1999), Data clustering: A review,
precisos sem otimização global. Em Shavlik, J., (eds), Machine ACM Computing Surveys, 31(3): 264–323.
Learning: Proceedings of the Fifteenth International Conference,
Morgan Kaufmann Publishers, San Francisco, CA. [64] Jensen, F. (1996). Uma Introdução às Redes Bayesianas.
Springer.
[45] Freund, Y. & Schapire, R. (1999), classificação de margem [65] Jordan, MI (1998), Learning in Graphical Models.
grande usando o algoritmo Perceptron, Machine Learning 37: MIT Press, Cambridge, MA.
277–296. [66] Kalousis A., Gama, G. (2004), Sobre Dados e Algoritmos:
[46] Friedman, JH (1989), Análise Discriminante Regularizada. Jornal Compreendendo o Desempenho Indutivo, Machine Learning
da Associação Estatística Americana. 54: 275–312.
[67] Keerthi, S. & Gilbert, E. (2002). Convergência de um Algoritmo
[47] Friedman, N., Geiger, D. & Goldszmidt M. (1997). SMO Generalizado para Projeto de Classificador SVM.
Classificadores de redes bayesianas. Machine Learning 29: Machine Learning 46: 351–360.
131-163. [68] Kivinen, J. (2002), Online Learning of Linear Classifiers,
[48] Friedman, N. & Koller, D. (2003). Ser Bayesiano Sobre Estrutura Advanced Lectures on Machine Learning: Machine Learning
de Rede: Uma Abordagem Bayesiana para Descoberta de Summer School 2002, Austrália, 11-22 de fevereiro, ISSN:
Estrutura em Redes Bayesianas. 0302-9743, pp. 235 – 257.
Aprendizado de Máquina 50(1): 95-125.
[49] Furnkranz, J. (1997). Algoritmos de poda para aprendizado de [69] Klusch, M., Lodi, S., Moro, G. (2003), Mineração de Dados
regras. Machine Learning 27: 139-171. Distribuída Baseada em Agente: O Esquema KDEC. Em
[50] Furnkranz, J. (1999). Aprendizado de Regras Separar e Intelligent Information Agents: The AgentLink Perspective,
Conquistar. Revisão de Inteligência Artificial 13: 3-54. LNAI 2586, páginas 104-122. Springer.
[51] Furnkranz, J. (2001). Aprendizagem da Regra Round Robin.
Em Proceedings of the 18th International Conference on [70] Kon, M. & Plaskota, L. (2000), Complexidade da informação de
Machine Learning (ICML-01), 146-153. redes neurais, Redes neurais 13: 365–375.

[52] Furnkranz, J., Flach, P. (2005), ROC 'n' Rule Learning—Towards [71] Kononenko, I. (1991), "Semi-Naive Bayesian Classifier", In
a Better Understanding of Covering Algorithms, Machine Proceedings of the six European Working Session on Learning,
Learning, Volume 58 (1), pp. 39 – 77. 206-219.
[72] Kononenko, I. (1993), aprendizagem indutiva e bayesiana em
[53] Gama, J. & Brazdil, P. (1999). Árvore Linear. diagnóstico médico. Inteligência Artificial Aplicada 7(4): 317-337.
Intelligent Data Analysis 3: 1-22 [54]
Gehrke, J., Ramakrishnan, R. & Ganti, V. (2000), RainForest—A [73] Kononenko, I. (1994), 'Estimando atributos: análise e extensões
Framework for Fast Decision Tree Construction of Large de alívio'. In: L. De Raedt e F. Bergadano (eds.): Machine
Datasets, Data Mining and Knowledge Discovery, Volume 4 , Learning: ECML-94. pp. 171–182, Springer Verlag.
Edição 2 a 3, julho de 2000, páginas 127 a 162 [55] Genton,
M. (2001). Classes de [74] Kubat, Miroslav Cooperson Martin (2001), Uma técnica de
Kernels para Aprendizado de Máquina: Uma Perspectiva Estatística. redução de classificação do vizinho
para
mais próximo: Pequenos
Journal of Machine Learning Research 2: 299-312. grupos de exemplos. Intel.
Análise de Dados. 5(6): 463-476.
[56] Good IJ (1950), Probability and the Weighing of Evidence, [75] Lindgren, T. (2004), Methods for Rule Conflict Resolution,
Londres, Charles Grin. Lecture Notes in Computer Science, Volume 3201, Páginas
[57] Guo, G., Wang, H., Bell, D., Bi, Y., Greer, K. 262 – 273.
(2003), KNN Model-Based Approach in Classification, Lecture [76] Littlestone, N. & Warmuth, M. (1994). O algoritmo da maioria
Notes in Computer Science, Volume 2888, Páginas 986 – 996. ponderada. Informação e Computação 108(2): 212–261.

[58] Guyon, I, Elissee, A. (2003), Uma introdução à seleção de [77] Liu, H. e H. Motoda (2001), Seleção de Instância e Mineração
variáveis e características. Journal of Machine Learning Construtiva de Dados, Kluwer, Boston.
Research, 3:1157 1182.
Machine Translated by Google

APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA REVISÃO DE... Informatica 31 (2007) 249–268 267

[78] Madden, M. (2003), O Desempenho de Classificadores de e Poda. Mineração de dados e descoberta de conhecimento
Rede Bayesiana Construídos Usando Diferentes Técnicas, 4: 315–344.
Procedimentos da Conferência Europeia sobre Aprendizado [95] Reinartz T. (2002), Uma visão unificadora sobre seleção de
de Máquina, Workshop sobre Modelos Gráficos instâncias, mineração de dados e descoberta de
Probabilísticos para Classificação, pp. 59-70. conhecimento, 6, 191–210, Kluwer Academic Publishers.
[79] Markovitch S. & Rosenstein D. (2002), Geração de recursos [96] Robert, J., Howlett LCJ (2001), Radial Basis Function
usando funções gerais de construção, Machine Learning Networks 2: New Advances in Design.
49: 59-98. [97] Rosenblatt, (1962), Princípios F., Neurodinâmica. de
[80] McSherry, D. (1999). Indução estratégica de árvores de Spartan, Nova York [98] Roy, A. (2000),
decisão. Knowledge-Based Systems, 12(5-6):269-275. sobre conexionismo, extração de regras e aprendizado semelhante
ao cérebro. IEEE Transactions on Fuzzy Systems, 8(2):
[81] Michalski, RS, Chilausky, RL (1980), Aprendendo ouvindo e 222-227.
aprendendo com exemplos: uma comparação experimental [99] Ruggieri, S. (2001). Eficiente C4.5. IEEE Transactions on
dos dois métodos de aquisição de conhecimento no contexto Knowledge and Data Engineering 14 (2): 438-444.
de desenvolvimento e sistema especialista para diagnóstico
de doenças da soja. [100] Rumelhart, DE, Hinton, GE, Williams, RJ
Análise de Políticas e Sistemas de Informação, 4(2).. (1986), Aprendendo representações internas por propagação
[82] Mika, S., Rätsch, G., Weston, J., Schölkopf, B. e Müller, K.-R. de erro. In: Rumelhart DE, McClelland JL et al. (eds.)
(1999), análise discriminante de Fisher com kernels. Em Y.- Processamento Distribuído Paralelo: Explorações na
H. Hu, J. Larsen, E. Wilson e S. Douglas, editores, Neural Microestrutura da Cognição.
Networks for Signal Processing IX, páginas 41-48. IEEE. MIT Press, Cambridge, MA, vol. 1, pp. 318-362.
[101] Saad, D. (1998). Aprendizagem online em redes neurais.
[83] Mitchell, T. (1997). Aprendizado de Máquina. McGraw Londres: Cambridge University Press.
Colina. [102] Sanchez, J., Barandela, R., Ferri, F. (2002), On Filtering the
[84] Murthy, (1998), Automatic Construction of Decision Trees Training Prototypes in Nearest Neighbor Classification,
from Data: A Multi-Disciplinary Survey, Data Mining and Lecture Notes in Computer Science, Volume 2504, Pages
Knowledge Discovery 2: 345–389. 239 - 248 [103] Scholkopf, C ., Burges, JC & Smola, AJ

[85] Nadeau, C. e Bengio, Y. (2003), Inferência para o erro de (1999). Avanços em Métodos de Kernel. Imprensa MIT.
generalização. Em Machine Learning 52:239–281. [104] Setiono R. e Loew, WK (2000), FERNN: Um algoritmo para
extração rápida de regras de redes neurais, Applied
[86] Neocleous, C. & Schizas, C., (2002), Artificial Neural Network Intelligence 12, 15-25.
Learning: A Comparative Review, LNAI 2308, pp. 300–313, [105] Siddique, MNH e Tokhi, MO (2001), Treinamento de redes
Springer-Verlag Berlin Heidelberg. neurais: retropropagação vs.
Algoritmos Genéticos, Conferência Conjunta Internacional
[87] Nilsson, NJ (1965). Máquinas de aprender. Nova York: IEEE sobre Redes Neurais, vol. 4, pp. 2673-2678.
McGraw-Hill.
[88] Olcay Taner Yÿldÿz, Onur Dikmen (2007), Árvores de decisão [106] Smyth, P, Goodman, R., M. (1990), Rule induction using
paralelas univariadas, Cartas de Reconhecimento de information theory, In G. Piatetsky Shapiro e W. Frawley
Padrões, Volume 28 Edição
, 7 (maio de 2007), Páginas: (eds), Knowledge Discovery in Databases, MIT Press.
825-832.
[89] Okamoto, S., Yugami, N. (2003), Efeitos de características de [107] Tjen-Sien, L., Wei-Yin, L., Yu-Shan, S. (2000).
domínio em algoritmos de aprendizado baseados em Uma comparação de precisão de previsão, complexidade e
instâncias. Ciência da Computação Teórica 298, 207-233. tempo de treinamento de trinta e três algoritmos de
classificação antigos e novos. Machine Learning 40: 203–
[90] Parekh, R., e Yang, J., e Honavar, V. (2000), Constructive 228.
Neural Network Learning Algorithms for Pattern Classification. [108] Utgoff, P., Berkman, N., Clouse, J. (1997), Indução de
Transações IEEE em Redes Neurais. 11(2), pp. 436-451. Árvore de Decisão Baseada em Reestruturação de Árvore
Eficiente, Aprendizado de Máquina, Volume 29, Edição 1,
[91] Platt, J. (1999). Usando esparsidade e QP analítico para Páginas: 5 – 44.
acelerar o treinamento de máquinas de vetores de suporte. [109] Vapnik, V. (1995), The Nature of Statistical Learning Theory}.
Em Kearns, M., Solla, S. & Cohn, D. (ed.), Avanços em Springer Verlag.
sistemas de processamento de informações neurais. Imprensa MIT.
[110] Veropoulos, K., Campbell, C. & Cristianini, N.
[92] Quinlan, JR (1979), "Descobrindo regras por indução a partir (1999). Controlando a sensibilidade das máquinas de
de grandes coleções de exemplos", D. vetores de suporte. In Proceedings of the International Joint
Michie ed., Sistemas Especialistas na era da Microeletrônica, Conference on Artificial Intelligence (IJCAI99).
pp. 168-201.
[93] Quinlan, JR (1993). C4.5: Programas para aprendizado de [111] Villada, R. & Drissi, Y. (2002). Uma visão em perspectiva e
máquina. Morgan Kaufmann, São Francisco pesquisa de meta-aprendizagem. Revisão de Inteligência
[94] Rastogi, R. & Shim, K. (2000). PÚBLICO: Um classificador de Artificial 18: 77–95.
árvore de decisão que integra a construção
Machine Translated by Google

268 Informatica 31 (2007) 249–268 SB Kotsiantis

[112] Vivarelli, F. & Williams, C. (2001). Comparação de Inicialização dos coeficientes sinápticos. IEEE Transactions
algoritmos de redes neurais Bayesianas para classificação on Neural Networks 12: 430-434.
de imagens externas segmentadas. Redes Neurais 14: [119] Yang, Y., Webb, G. (2003), On Why Discretization Works
427-437. for Naive-Bayes Classifiers, Lecture Notes in Computer
[113] Wall, R., Cunningham, P., Walsh, P., Byrne, S. Science, Volume 2903, Páginas 440 – 452.
(2003), Explicando a saída de conjuntos no suporte à
decisão médica caso a caso, Inteligência Artificial em [120] Yen, GG e Lu, H. (2000), algoritmo genético hierárquico
Medicina, vol. 28(2) 191-206. baseado em projeto de redes neurais, em: Simpósio IEEE
sobre combinações de computação evolutiva e redes
[114] Weigend, AS, Rumelhart, DE, & Huberman, BA (1991). neurais, pp. 168–175.
Generalização por eliminação de pesos com aplicação à [121] Yu, L., Liu, H. (2004), Efficient Feature Selection via
previsão. Em: RP Lippmann, J. Moody, & DS Touretzky Analysis of Relevance and Redundancy, JMLR,
(eds.), Avanços em Sistemas de Processamento de 5(outubro):1205-1224.
Informação Neural 3, San Mateo, CA: Morgan Kaufmann. [122] Zhang, G. (2000), Redes neurais para classificação: uma
pesquisa. IEEE Transactions on Systems, Man, and
[115] Wettschereck, D., Aha, DW & Mohri, T. Cybernetics, Part C 30(4): 451-462.
(1997). Uma revisão e avaliação empírica de métodos de
ponderação de recursos para uma classe de algoritmos de [123] Zhang, S., Zhang, C., Yang, Q. (2002). Preparação de
aprendizado lento. Revisão de Inteligência Artificial 10:1– dados para mineração de dados. Inteligência Artificial
37. Aplicada, Volume 17, pp. 375 - 381.
[116] Wilson, DR & Martinez, T. (2000). Técnicas de Redução [124] Zheng, Z. (1998). Construindo conjunções usando busca
para
Algoritmos de Aprendizagem Baseada em Instâncias. sistemática em árvores de decisão.
Machine Learning 38: 257–286. Knowledge Based Systems Journal 10: 421–430.
[117] Witten, I. & Frank, E. (2005), "Mineração de dados: [125] Zheng, Z. (2000). Construindo Atributos X-de-N para
ferramentas e técnicas práticas de aprendizado de Aprendizado em Árvore de Decisão. Aprendizado de
máquina", 2ª edição, Morgan Kaufmann, San Francisco, Máquina 40: 35–75.
2005. [126] Zhou, Z. (2004), Rule Extraction: Using Neural Networks or
[118] Yam, J. & Chow, W. (2001). Aprimoramento de velocidade For Neural Networks?, Journal of Computer Science and
de treinamento de redes feedforward por Optimal Technology, Volume 19, Edição 2, Páginas: 249 – 253.

Você também pode gostar