IJSC Paper 4 946-952

Machine Translated by Google
IQBAL MUHAMMAD E ZHU YAN: ABORDAGENS DE APRENDIZAGEM SUPERVISIONADA DE MÁQUINA: UMA PESQUISA
DOI: 10.21917/ijsc.2015.0133
ABORDAGENS DE APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA PESQUISA
Iqbal Muhammad1 e Zhu Yan2 Escola de Ciências

e Tecnologia da Informação, Southwest Jiaotong University, China E-mail: 1muhammadiqbal72@yahoo.com,
2 yzhu@swjtu.edu.cn
Abstrato vários recursos. Em última análise, isso torna difícil para eles explorar soluções
Um dos principais objetivos do aprendizado de máquina é instruir os computadores a usar para certos problemas. O aprendizado de máquina geralmente pode ser
dados ou experiências anteriores para resolver um determinado problema. Já existe um aplicado com sucesso a esses problemas, melhorando a eficiência dos
bom número de aplicações bem-sucedidas de aprendizado de máquina, incluindo sistemas e os projetos das máquinas [1]. Nos algoritmos de aprendizado de
classificador para ser treinado em mensagens de e-mail para aprender a distinguir entre máquina, cada instância de um determinado conjunto de dados é representada
mensagens spam e não spam, sistemas que analisam dados de vendas anteriores para
usando o mesmo conjunto de recursos. A natureza desses recursos pode ser
prever o comportamento de compra do cliente, detecção de fraude etc. O aprendizado de
contínua, categórica ou binária. Se as instâncias são fornecidas com rótulos
máquina pode ser aplicado como análise de associação por meio de aprendizado
conhecidos (ou seja, as saídas corretas correspondentes), o esquema de
supervisionado, aprendizado não supervisionado e aprendizado por reforço, mas neste
estudo focaremos na força e na fraqueza dos algoritmos de classificação de aprendizado
aprendizado é conhecido como supervisionado (consulte a Tabela.1), enquanto
supervisionado. O objetivo do aprendizado supervisionado é construir um modelo conciso na abordagem de aprendizado não supervisionado as instâncias não são
da distribuição de rótulos de classe em termos de recursos preditores. rotuladas. Através da aplicação desses algoritmos não supervisionados
(clustering), os pesquisadores estão otimistas para descobrir classes de itens
O classificador resultante é então usado para atribuir rótulos de classe às instâncias de desconhecidas, mas úteis [3]. Outro tipo de aprendizado de máquina é o
teste onde os valores dos recursos preditores são conhecidos, mas o valor do rótulo de aprendizado por reforço. Aqui, a informação de treinamento fornecida ao
classe é desconhecido. Estamos otimistas de que este estudo ajudará novos pesquisadores
sistema de aprendizado pelo ambiente (ou seja, treinador externo) está na
a orientar novas áreas de pesquisa e a comparar a eficácia e a impudência de algoritmos
forma de um sinal de reforço escalar que constitui uma medida de quão bem
de aprendizado supervisionado.
o sistema opera. O aluno não é informado sobre qual ação deve realizar, como
na maioria das formas de aprendizado de máquina, mas deve descobrir quais
ações rendem mais recompensas ao experimentá-las [1]. Vários aplicativos de
Palavras-chave:
ML envolvem tarefas que podem ser configuradas como supervisionadas. A
Aprendizado de Máquina Supervisionado, SVM, DT, Classificador figura abaixo descreve a arquitetura de classificação geral.
1. INTRODUÇÃO
Machine Learning (ML) pode ser considerado como um subcampo da Dados de teste
Inteligência Artificial, uma vez que esses algoritmos podem ser vistos
como blocos de construção para fazer os computadores aprenderem a se
Máquina
comportar de forma mais inteligente, generalizando de alguma forma, em Treinamento
Classificação
Aprendizado Regras
vez de apenas armazenar e recuperar itens de dados como um sistema Dados
Programa
de banco de dados e outros aplicativos. fazer. O aprendizado de máquina
foi inspirado em uma variedade de disciplinas acadêmicas, incluindo
previsto
ciência da computação, estatística, biologia e psicologia. A função principal Classificação
das tentativas de aprendizado de máquina é dizer aos computadores
como encontrar automaticamente um bom preditor com base em
experiências anteriores e esse trabalho é feito por um bom classificador. Figura 1. Arquitetura de classificação
A classificação é o processo de usar um modelo para prever valores
desconhecidos (variáveis de saída), usando um número de valores conhecidos (variáveis de estudo,
Neste entrada).focaremos nossa atenção nos métodos que estão sendo
O processo de classificação é realizado no conjunto de dados D que contém usados para o aprendizado supervisionado. Este estudo contribuirá para que
os seguintes objetos: novos pesquisadores obtenham conhecimento atualizado sobre abordagens
• Definir tamanho ÿ ÿ ÿ ÿ,,2,1 AAAAA ÿ , onde A denota o de ML supervisionadas.
número de atributos ou o tamanho do conjunto A. Tabela 1. Instâncias com rótulos conhecidos

• Rótulo da classeÿ C: Atributo alvo;
ÿ ÿ ÿ ÿ,,2,1 CcccC,
Dados no formato padrão
onde C é o número de classes e C ÿ 2 . CaseFeature 1Feature 2…Feature nClass
aaa bbb… nnn Sim nnn
Dado um conjunto de dados D, o objetivo principal do ML é produzir
1 aaa bbb… bbb… Sim nnn Não
uma função de previsão/classificação para relacionar valores de atributos
em A e classes em C. 23 aaa
…… …………
A mineração de dados é uma das mais ferramentas de aprendizado de
Neste trabalho, limitamos nossas referências a periódicos arbitrados,
máquina entre o número de aplicativos diferentes. É comum que as pessoas
muitas vezes façam escolhas erradas durante a fase de análise ou, livros publicados, dados da web e conferências. Nosso principal objetivo para
possivelmente, ao tentar estabelecer relações entre este trabalho foi fornecer uma amostra representativa de
946
ISSN: 2229-6956(ONLINE) ICTACT JOURNAL ON SOFT COMPUTING, ABRIL 2015, VOLUME: 05, EDIÇÃO: 03
linhas de pesquisa existentes em cada técnica de aprendizagem. Em cada uma precisão da previsão. A avaliação do classificador (algoritmo) é mais
de nossas áreas listadas, existem muitos outros artigos/livros que poderiam ser frequentemente baseada na precisão da previsão e pode ser medida pela
mais abrangentes para ajudar os leitores interessados. fórmula abaixo
Na próxima seção, abordaremos questões abrangentes de aprendizado de Número de classificações corretas
máquina supervisionado, como seleção de recursos e pré-processamento de Precisão ÿ (1)
Número total de casos de teste
dados. As técnicas lógicas/simbólicas estão sendo descritas na seção 3,
enquanto as técnicas estatísticas para ML são discutidas na seção 4. A seção Existem vários métodos que estão sendo usados por diferentes
5 cobrirá os aprendizes baseados em instâncias, o SVM é discutido na seção 6. pesquisadores para calcular a precisão do classificador. Alguns pesquisadores
A última seção conclui este trabalho. dividem o conjunto de treinamento de tal forma que dois terços retêm para
treinamento e o outro terço para estimativa de desempenho.
A validação cruzada (CV) ou estimativa de rotação é outra abordagem. CV
fornece uma maneira de fazer um melhor uso da amostra disponível. No
2. QUESTÕES DE APRENDIZAGEM SUPERVISIONADA
esquema de validação cruzada k-fold, dividimos a amostra de aprendizado em
ALGORITMOS
k subconjuntos disjuntos do mesmo tamanho, ou seja, (2)
Aprender com as experiências passadas é um atributo dos humanos, 11 ls ÿ ls ÿls

2 kÿls
enquanto os computadores não têm essa capacidade. No aprendizado de Um modelo é então inferido pelo algoritmo de aprendizado de cada amostra
máquina supervisionado ou indutivo, nosso principal objetivo é aprender uma ls\ls, i = 1,..,k e seu desempenho é determinado na amostra mantida lsi .
função de destino que pode ser usada para prever os valores de uma classe. O O desempenho final é calculado como o
processo de aplicação de ML supervisionado a um problema do mundo real é desempenho médio de todos esses modelos. Observe que quando k é igual ao
descrito na figura abaixo. número de objetos na amostra de aprendizado, esse método é chamado de
deixar um de fora. Normalmente, valores menores de k (10 ou 20) são preferidos
por razões computacionais [7].
A comparação entre métodos de ML supervisionados pode ser feita por
meio de comparações estatísticas das acurácias de classificadores treinados em
conjuntos de dados específicos. Para fazer isso, podemos executar dois
algoritmos de aprendizado diferentes em amostras de conjunto de treinamento
de tamanho N, estimar a diferença de precisão para cada par de classificadores
em um grande conjunto de teste[1]. Para classificação de dados, um bom
número de técnicas tem sido desenvolvido por pesquisadores, como técnicas
baseadas em estatística lógica. Nas próximas seções, discutiremos precisamente
as técnicas de aprendizado de máquina supervisionado mais importantes,
começando com técnicas lógicas [1].
Figura 2. Modelo de aprendizado de máquina supervisionado

3. ALGORITMOS BASEADOS EM LÓGICA
No aprendizado supervisionado, o primeiro passo é lidar com o conjunto de
Nesta seção, discutiremos duas lógicas (simbólicas)
dados. Para realizar um melhor treinamento no conjunto de dados, um
métodos de aprendizagem: árvores de decisão e classificadores baseados em regras.
especialista apropriado pode sugerir uma melhor seleção de recursos. Se o
especialista em questão não estiver ao alcance, a outra abordagem é a “força 3.1 ÁRVORES DE DECISÃO
bruta”, o que significa medir tudo o que está disponível na esperança de que os
recursos corretos (informativos, relevantes) possam ser isolados. No entanto, No domínio do aprendizado de máquina, a Indução de Árvore de Decisão
um conjunto de dados coletados pelo método de “força bruta” não é diretamente [8, 9] é atualmente um dos mais importantes algoritmos de aprendizado
adequado para indução. Em última análise, na maioria dos casos, contém ruído supervisionado. No campo da Inteligência Artificial (IA), Quinlan contribuiu com
e valores de recursos ausentes e, portanto, requer um pré-processamento seus algoritmos ID3 e C4.5. C4.5 é um dos métodos mais populares e eficientes
significativo [1]. Na próxima etapa, a preparação e pré-processamento de dados na abordagem baseada em árvore de decisão. Aqui, o algoritmo C4.5 cria um
é uma função fundamental do pesquisador em Aprendizado de Máquina modelo de árvore usando valores de apenas um atributo por vez [10]. Segundo
Supervisionado (SML). Várias técnicas foram introduzidas por diferentes autores [7], a indução de árvore de decisão, que inicialmente foi projetada para
pesquisadores para lidar com a questão dos dados perdidos. Hodge & Austin resolver problemas de classificação, foi estendida para lidar com regressão uni
[4] conduziram uma pesquisa de técnicas contemporâneas para detecção de ou multidimensional. Os principais benefícios das árvores de decisão são i)
outliers (ruído). Karanjit & Shuchita [5] também discutiram diferentes métodos produzir resultados intensivos, ii) fáceis de entender, iii) e manter uma estrutura
de detecção de outliers que estão sendo usados em diferentes aprendizados de de conhecimento bem organizada [28].
máquina. H.
Jair [6] comparou 6 métodos diferentes de detecção de outliers realizando
experimentos em conjuntos de dados de referência e um domínio astronômico
Árvores de Decisão (DT) são árvores que classificam instâncias ordenando-
sintético.
as com base nos valores das características, onde cada nó em uma árvore de
2.1 SELEÇÃO DE ALGORITMO

decisão representa uma característica em uma instância a ser classificada, e
cada ramo representa um valor que o nó pode assumir [1].
A seleção do algoritmo para alcançar bons resultados é uma etapa As instâncias são classificadas começando no nó raiz e classificadas com base
importante. A avaliação do algoritmo é principalmente julgada por em seus valores de recurso.
947
IQBAL MUHAMMAD E ZHU YAN: ABORDAGENS DE APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA PESQUISA
A Fig.3 é um exemplo de árvore de decisão para o conjunto de treinamento 3.2 CONJUNTO DE REGRAS DE APRENDIZAGEM
da Tabela.2. DT são extensivamente usados em diferentes campos
computacionais para classificar dados. As razões por trás da ampla aceitabilidade Também é possível que as árvores de decisão possam ser traduzidas em
dos algoritmos de aprendizado de DT são sua flexibilidade para aplicar em uma um conjunto de regras, criando uma regra separada para cada caminho desde a
ampla gama de problemas. Uma propriedade interessante e importante de uma raiz até uma folha na árvore [13]. No entanto, as regras também podem ser
árvore de decisão e seu conjunto de regras resultante é que os caminhos da induzidas diretamente a partir de dados de treinamento usando uma variedade
árvore ou as regras são mutuamente exclusivos e exaustivos. de algoritmos baseados em regras. Em [14], o autor forneceu uma excelente
Isso significa que cada instância/registro/exemplo/vetor/caso de dados é coberto visão geral do trabalho existente em métodos baseados em regras. As regras de
por uma única regra. De acordo com Pierre e cols. [7], algoritmos DT combinados classificação representam cada classe pela Forma Normal Disjuntiva (DNF).
com métodos ensemble, podem fornecer melhores resultados em termos de Uma instrução está em DNF se for uma disjunção (sequência de ORs) que
precisão preditiva e significativamente no contexto de conjuntos de dados de alto consiste em um ou mais disjuntos, cada um dos quais é uma conjunção (AND)
rendimento, métodos baseados em árvore também são altamente escaláveis do de um ou mais literais. Abaixo está um exemplo de formas normais disjuntivas.
ponto de vista computacional.
Uma expressão é de o forma:
em 1
A1
k-DNF
Anÿ2
A2 ÿA2n
ÿAn
ÿÿ ÿ Anÿ1
ÿÿÿÿÿ
ÿ ÿ ÿ ÿÿ ÿÿ
Akÿ1
ÿ ÿnÿ1 ÿ Akÿ1 nÿ2 ÿÿÿ Akn , ÿ ÿ onde k é o número de
Não
at2 Não ÿ disjunções, n é o número de conjunções em cada disjunção e An
é definido pelo alfabeto A1 A2 ÿ Aj A1 ~sobre
A2ÿAj . Aqui o objetivo é
,ÿ conjunto
, , o, menor , ~
construir de regras que seja consistente com os
Não
às 3 at4 dados de treinamento [1].
Um bom número de regras aprendidas geralmente é um sinal positivo de que o
algoritmo de aprendizado está tentando lembrar o conjunto de treinamento, em
Sim
vez de descobrir as suposições que o governam. Um algoritmo separar-e-
Não
Sim Não
conquistar (quebra recursivamente um problema em sub-problemas) busca uma
regra que explique uma parte de suas instâncias de treinamento, separa essas
instâncias e conquista recursivamente as instâncias restantes aprendendo mais
Fig.3. Uma amostra de árvore de decisão
regras, até que nenhuma instância permaneça [ 1]. Na Fig.5 abaixo, um pseudo-
código geral para aprendizes de regras é apresentado.
Usando o DT representado na Fig.3 como exemplo, a instância (at1 = a1,
at2 = b2, at3 = a3, at4 = b4) classificaria os nós: at1, at2 e, finalmente, at3, que
classificaria o instância como sendo positivo (representado pelos valores “Sim”). 1. Inicialize o conjunto de regras para um
padrão 2. Inicialize os exemplos para todos os exemplos disponíveis ou

todos os exemplos não tratados corretamente pelo conjunto de regras.
Mesa 2. Exemplo de conjunto de treinamento 3. Repita (a)
Encontre a melhor, a melhor regra em relação aos exemplos. (b) Se tal
at1 at2 at3 at4 Classe a1
regra puder ser encontrada i. Adicione o
a2 a3 a4 Sim a1 a2 a3
melhor ao conjunto de regras.
b4 Sim a1 b2 a3 a4 Sim
ii. Definir exemplos para todos os exemplos não tratados
a1 b2 b3 b4 Não a1 c2
corretamente pelo conjunto de regras.
a3 a4 Sim a1 c2 a3 b4 4. Até que nenhuma regra melhor possa ser encontrada
Não b1 b2 b3 b4 Não c1
b2 b3 b4 Não Fig.5. Um Pseudocódigo geral para aprendizes de regras
A principal diferença entre heurísticas para algoritmos de aprendizado de

regras e heurísticas para algoritmos de árvores de decisão é que os últimos
A característica que melhor divide os dados de treinamento seria o nó raiz
da árvore. Existem diferentes métodos para extrair as características que melhor avaliam a qualidade média de um número de conjuntos disjuntos, enquanto os
aprendizes de regras avaliam apenas a qualidade do conjunto de instâncias
dividem os dados de treinamento, como ganho de informação [11] e índice de
coberto pela regra candidata [ 1]. Uma das características mais úteis dos
gini [12].
classificadores baseados em regras é a sua compreensibilidade. Para obter um
1. Verifique os casos base 2. melhor desempenho, embora alguns classificadores baseados em regras possam
Para cada atributo “a” calcule i. Normalizou lidar com recursos numéricos, alguns especialistas propõem que esses recursos
o ganho de informação (IG) da divisão sejam desacreditados antes da indução, de modo a reduzir o tempo de
no atributo “a”. treinamento e aumentar a precisão da classificação [15].
3. Encontre o melhor “a”, atributo que tem maior IG 4. Crie
um nó de decisão: nó que se divide no melhor de “a”
5. Recurse nas sub-listas obtidas por Splitting on a best e adicione esses 4. ALGORITMOS DE APRENDIZAGEM ESTATÍSTICA
nós como filhos do nó
O aprendizado estatístico é uma estrutura para desenho de aprendizado de

Fig.4. Pseudocódigo geral para construção de árvores de decisão
máquina dos campos de estatística e análise funcional [16].
948
A teoria da aprendizagem estatística lida com o problema de encontrar uma Uma vantagem do classificador Naive Bayes é que ele requer uma pequena
função preditiva baseada em dados e tem um bom número de aplicações no quantidade de dados de treinamento para estimar os parâmetros necessários
campo da IA. O principal objetivo dos algoritmos de aprendizado estatístico é para a classificação.
fornecer uma estrutura para estudar o problema de inferência que é obter
conhecimento, fazer previsões e tomar decisões construindo modelos a partir de
4.2 REDES BAYESIANAS
um conjunto de dados [17].
Redes bayesianas (BN) são modelos gráficos usados para ilustrar
relacionamentos entre eventos ou ideias para inferir probabilidades ou incertezas
As redes bayesianas são os representantes mais conhecidos dos algoritmos associadas a essas ideias ou eventos. Recuperação de informações, previsões
de aprendizado estatístico. Uma boa fonte para aprender a teoria de Redes baseadas em entrada limitada ou software de reconhecimento são algumas das
Bayesianas (BN) é [18], onde os leitores podem aprender aplicações de BN. principais aplicações da BN.
A estrutura da rede bayesiana S é um grafo acíclico direcionado (DAG) e os

Os métodos estatísticos são caracterizados por terem um modelo de nós em S estão em correspondência um-para-um com os recursos X. Os arcos
probabilidade subjacente explícito, que fornece uma probabilidade de que uma representam influências casuais entre os recursos, enquanto a falta de arcos
instância pertence a cada classe, em vez de simplesmente uma classificação. possíveis em S codifica independências condicionais . Além disso, um recurso
A Análise Discriminada Linear (LDA), que foi desenvolvida em 1936, e o (nó) é condicionalmente independente de seus não descendentes dados seus
discriminado linear de Fisher relacionado são métodos famosos usados em pais (X1 é condicionalmente independente de X2).
estatística e aprendizado de máquina para recuperar a combinação linear de
recursos que melhor separam duas ou mais classes de objetos [1]. O objetivo da
O exemplo abaixo mostra que há dois eventos que podem fazer com que a
análise discriminada é classificar objetos (nações, pessoas, clientes…) em um
grama fique molhada, ou seja, o aspersor está ligado ou está chovendo.
de dois ou mais grupos com base no conjunto de características que descrevem
Adicionalmente, aqui também, suponhamos que a chuva tem um efeito direto no
os objetos (por exemplo, gênero, estado civil, renda, altura, peso…). O outro
uso do aspersor (ou seja, quando chove, o aspersor geralmente não está ligado).
método para estimar distribuições de probabilidade a partir de dados é a entropia
Então a situação pode ser modelada com uma rede bayesiana. Todas as três
máxima. De acordo com a teoria básica da entropia máxima, se nada se sabe
variáveis têm dois valores possíveis, T (para verdadeiro) e F (para falso) [22].
sobre uma distribuição, exceto que ela pertence a uma certa classe, então a
distribuição com a maior entropia deve ser escolhida como padrão.
4.1 CLASSIFICADORES NAIVE BAYES
As redes bayesianas são amplamente utilizadas para realizar tarefas de

classificação. Naive Bayesian Networks (NBN) são redes Bayesianas muito
simples que são compostas de grafos acíclicos direcionados com apenas um pai
(representando o nó não observado) e vários filhos (correspondentes a nós
observados) com uma forte suposição de independência entre os nós filhos no
contexto de seu pai [21]. Segundo o autor [20] o modelo de independência (Naive
Bayes) é baseado em estimar:
PXÿÿ | ÿ P iÿPX
ÿÿ ÿ ÿ|ÿ P iÿPPX
ÿ ÿr ÿ |ÿ ÿ
R ÿ ÿ ÿ
(3)
ÿ ÿ|
PJX Pj ÿPXJ
ÿÿ | Pÿjÿ PÿX
ÿ Jÿ _ |
r
Fig.7. Rede bayesiana com tabelas de probabilidade condicional
Aqui, comparando essas duas probabilidades, a maior probabilidade indica
que o valor do rótulo da classe é mais provável de ser o rótulo real (se R>1: Abaixo está uma função de probabilidade conjunta:
predizer i senão predizer j) [1]. Conforme mostrado na figura abaixo, os links em PÿG,S,Rÿ ÿ PÿG S,RÿPÿS RÿPÿRÿ (4)
um modelo Naive Bayes são direcionados da saída para a entrada, o que confere
ao modelo sua simplicidade, pois não há interações entre as entradas, exceto onde, os nomes das variáveis foram abreviados para: G = Grama molhada
indiretamente via saída. (sim/não)

S = Sprinkler ligado (sim/não)
R = Chovendo (sim/não).
Entrada 1
Cheng et ai. chamam a atenção para um problema dos classificadores BN
que não são adequados para conjuntos de dados com muitas características. A
razão para isso é que tentar construir uma rede muito grande simplesmente não
Entrada 2
é viável em termos de tempo e espaço [23]. O pseudocódigo do BN de treinamento
Saída 1
é mostrado na figura abaixo:
Entrada 3
Entrada 4
Fig.6. Modelo Naive Bayes
949
O resultado “Sim” ou “Não” depende dos valores das variáveis de X1 e

Inicialize uma Rede Bayesiana Vazia G contendo n nós (ou seja,
X2, portanto, se quisermos saber o resultado dessa combinação que não está
um BN com n nós, mas sem arestas)
disponível na tabela de dados, por exemplo, quando x1 = 4 e x2 = 8 então,
1) Avalie a pontuação do G: Score (G) sem fazer um longo exercício de realização de pesquisas, podemos prever os
2) G' = G 3) resultados usando o método de classificação kNN.
para i = 1 to n faça 4)
para j = 1 to n faça 5) se i • j O pseudocódigo abaixo é um exemplo para os métodos de aprendizado
então 6) se não houver de base de instância.
aresta entre os nós i e j em G• então Modifique G ' adicionando uma
Procedimento InstanceBaseLearner (Instâncias de teste) para
aresta entre
cada instância de teste {
7) os nós i e j em G• tal que i é um pai de j: (i • j)
se o G' resultante for um DAG então se
encontre as k instâncias mais próximas do conjunto
(Score(G') > Score
de treinamento de acordo com uma métrica de distância
8) (G)) então G = G' fim se fim se fim se
Classe resultante: rótulo de classe mais
9)
frequente das k instâncias mais
10)
próximas }
11)
12)
13) Fig.9. Pseudocódigo para alunos baseados em instância
14) fim se 15)
G' = G 6. MÁQUINAS VETORIAIS DE SUPORTE
16) fim para 17)
fim para As Support Vector Machines (SVMs) são um conjunto de métodos de
aprendizado supervisionado que têm sido usados para classificação, regressão
Fig.8. Pseudo-código para treinamento de BN e detecção de outliers. Existem vários benefícios para o uso do SVM, como: i)
É eficaz em espaço de alta dimensão, ii) Usa um subconjunto de pontos de
5. APRENDIZAGEM BASEADA EM INSTÂNCIAS treinamento na função de decisão (chamados vetores de suporte), portanto,
também é eficiente em termos de memória, iii) É versátil porque contém
diferentes funções de kernel que podem ser especificadas para a função de
Sobre esse esquema de aprendizado, o autor [24] o descreve como
algoritmos de aprendizado preguiçoso, pois atrasam o processo de indução ou decisão. Kernels comuns são fornecidos, mas também é possível especificar
generalização até que a classificação seja realizada. Esses algoritmos kernels personalizados.
requerem menos tempo computacional durante a fase de treinamento do que A maioria dos problemas do mundo real envolve dados não separáveis
outros algoritmos de aprendizado rápido (como árvores de decisão, redes para os quais não existe nenhum hiperplano que separe com sucesso as
neurais e de Bayes), mas precisam de mais tempo computacional durante o instâncias positivas das negativas no conjunto de treinamento. Uma boa
processo de classificação. O algoritmo do vizinho mais próximo é um exemplo solução para esse problema de inseparabilidade é mapear os dados em um
de algoritmo de aprendizado baseado em instância [1]. Aha [25] e De et. al [26] espaço dimensional superior e definir um hiperplano de separação lá. Este
discutiu os classificadores de aprendizagem baseados em instâncias. espaço de dimensão superior é chamado de espaço de características
A classificação k-Nearest-Neighbor (kNN) é um dos métodos mais transformadas, em oposição ao espaço de entrada ocupado pelas instâncias
amplamente utilizados para classificação de objetos quando há pouco ou de treinamento [1].
nenhum conhecimento prévio sobre a distribuição dos dados. kNN é uma boa
escolha para realizar análise discriminada quando estimativas paramétricas
confiáveis de densidades de probabilidade são desconhecidas ou difíceis de
determinar [27]. kNN é um exemplo de
algoritmo de aprendizado supervisionado no qual o resultado da nova
consulta de instância é classificado com base na maioria da categoria de k
vizinhos mais próximos. A função principal do algoritmo é classificar um novo
objeto com base em atributos e amostras de treinamento.
Aqui a classificação está usando o voto da maioria entre a classificação dos
objetos k . Por exemplo, realizamos uma pesquisa sobre o consumo de um
f(x)
determinado item para saber seu valor no mercado. Abaixo está uma tabela
de treinamento de exemplo.
Tabela 3. Exemplo de treinamento

Fig.10. Margem máxima através do SVM
X1 X2 Resultado
8 8 NÃO
Para obter melhores resultados, a seleção de uma função de kernel
8 5 NÃO
apropriada é importante, uma vez que a função de kernel define o espaço de
4 5 Sim
recursos transformado no qual as instâncias do conjunto de treinamento
1 5 Sim
950
serão classificados. Alguns novos kernels estão sendo propostos por Tabela.4. Progresso da pesquisa de aprendizagem profunda em grande escala
pesquisadores, mas abaixo está uma lista de alguns kernels populares:
Corrida
T # de exemplos e
Poder de computação do método média
• Linear: ÿ K Xi , X j ÿ ÿ Xi X j parâmetros Tempo
T d NVIDIA GTX 280 1 milhão de imagens e

• Polinômio: ÿ KXXXX, r i ÿ ÿ ÿÿ ÿÿ, ÿ ÿ0
DBN [32]
GPU (1 GB RAM) 1.006 parâmetros
~ 1 dia
eu j j
1,2 milhão de
• Função de Base Radial (RBF): Duas GTX 580 imagens de alta resolução
CNN [33] ~ 5-6 dias
2
ÿ,
K Xi X j
ÿ
ÿ exp ÿ
ÿ
ÿ
ÿ
ÿ Xi X j
ÿ
ÿ ,ÿÿ ÿ ÿ 0
GPUs (6 GB RAM) (256 × 256) e 606
parâmetros
1.000 CPUs com 1,1 bilhão de áudio DisBelief
• Sigmoide: KÿX X ÿeu , j ÿ tanh ÿ ÿ XX

eu j ÿrÿ
[34] Downpour SGD com exemplos com 42 milhões de
parâmetros Adagrad 10 milhões (200 ×
~ 16 horas
Aqui Escasso
1.000 CPUs com 200 )
ÿ ,r e d são os parâmetros do kernel. Onde, Xi é um vetor de Codificador automático Imagens e 1 bilhão de ~ 3 dias
16.000 núcleos
treinamento e mapeado em um espaço dimensional alto pela função X j [35] parâmetros
64 NVIDIA GTX 10 milhões (200 × 200 )
ÿ e ÿ K Xi X , j ÿ ÿ ÿ ÿ ÿ é conhecida como função kernel. COTS HPC
680 GPUs Imagens e 11 bilhões de ~ 3 dias
[36]
(256 GB RAM) parâmetros
7. APRENDIZAGEM PROFUNDA A Tabela.4 resume o progresso atual em algoritmos de aprendizado

profundo. Foi observado que diferentes tecnologias de aprendizado profundo
O uso de redes neurais artificiais profundas ganhou popularidade nos [32-36] exigiam enormes recursos computacionais para alcançar resultados
últimos anos em reconhecimento de padrões e aprendizado de máquina. A significativos.
maioria das técnicas populares de Deep Learning são construídas a partir
de Redes Neurais Artificiais (ANN). O aprendizado profundo pode ser 8. CONCLUSÃO
definido como um modelo (por exemplo, rede neural) com muitas camadas,
treinado em camadas. O aprendizado profundo teve um tremendo impacto Métodos de aprendizado de máquina supervisionados estão sendo
em várias aplicações, como visão computacional, reconhecimento de fala, aplicados em diferentes domínios. Devido ao escopo deste artigo, é muito
processamento de linguagem natural [29] e rastreamento na deep web [30]. difícil discutir os pontos fortes e fracos de cada algoritmo de ML. A seleção
Samy et ai. [29] discutiram desafios e novas aplicações de aprendizado do algoritmo em ML depende principalmente da natureza da tarefa. O
profundo em seus estudos. desempenho de SVM e Redes Neurais é melhor ao lidar com multidimensões
e recursos contínuos. Enquanto os sistemas baseados em lógica tendem a
ter um desempenho melhor ao lidar com recursos discretos/categóricos.
Para modelos de redes neurais e SVMs, é necessário um grande tamanho
de amostra para atingir sua máxima precisão de previsão, enquanto o NB
pode precisar de um conjunto de dados relativamente pequeno. Nos últimos
anos, o aprendizado profundo está se tornando uma tecnologia dominante
para vários domínios de aplicação, como detecção de face, reconhecimento
e detecção de fala, reconhecimento de objetos, processamento de
linguagem natural e robótica. Acreditamos que os desafios impostos pelo
big data trarão amplas oportunidades para algoritmos de ML e especialmente
para métodos de aprendizado profundo.
RECONHECIMENTO
Fig.11. Arquitetura de rede profunda
Gostaria de expressar minha gratidão ao meu professor, Dr. Wang
A Fig.11 descreve a arquitetura de rede de aprendizado profundo com uma Hongjun, cuja experiência e orientação acrescentaram consideravelmente
camada de entrada de 3 unidades, uma camada de saída de 2 unidades e duas à minha experiência de pós-graduação. Eu aprecio seu vasto conhecimento
camadas ocultas de 5 unidades. e sua assistência consistente na conclusão deste trabalho. Também
O aprendizado profundo também foi implementado com sucesso em gostaria de agradecer aos outros bolsistas de doutorado da minha escola,
produtos da indústria que, em última análise, aproveitam o grande volume o Sr. Amjad Ahmed e o Sr. Mehtab Afzal pela assistência que forneceram
de dados. As principais empresas de Tecnologia da Informação (TI) como para entender o aprendizado de máquina. Um agradecimento muito especial vai pa
Microsoft, Google, Apple, Yahoo, Baidu, Amazon e Facebook, que coletam Zhu Yan, sem cuja motivação e incentivo, confesso que seria difícil para
e analisam grandes quantidades de dados diariamente, têm investido uma mim avançar no meu Programa de Doutorado.
boa parte das finanças em projetos relacionados ao aprendizado profundo.
Por exemplo, o Siri da Apple e o Google Voice Search oferecem uma ampla
variedade de serviços, incluindo boletins meteorológicos, notícias esportivas, REFERÊNCIAS
respostas às perguntas do usuário e lembretes, etc., utilizando algoritmos
de aprendizado profundo [31]. [1] SB Kotsiantis, “Aprendizado de Máquina Supervisionado: Uma Revisão
Atualmente, esses dois aplicativos suportam uma ampla gama de idiomas de Técnicas de Classificação”, Informatica, vol. 31, nº 3, pp. 249-268,
falados. 2007.
951
[2] James Cussens, “Machine Learning”, IEEE Journal of Computing and [21] Isidore Jacob Good, “Probability and the Weighing of Evidence”, The
Control, vol. 7, nº 4, pp 164-168, 1996. University of Wisconsin - Madison: Charles Griffin, 1950.
[3] Richard S. Sutton e Andrew G. Barto, “Aprendizado por Reforço: Uma
Introdução”, Cambridge, MA: MIT Press, 1998. [22] Shiliang Sun, Changshui Zhang e Guoqiang Yu, “Uma Abordagem de
[4] Victoria J. Hodge e Jim Austin, “Uma Pesquisa de Metodologias de Rede Bayesiana para Previsão de Fluxo de Tráfego”, IEEE Transactions
Detecção de Outliers”, Revisão de Inteligência Artificial, vol. 22, nº 2, on Intelligent Transportation Systems, vol. 7, nº 1, pp. 124-132, 2006.
pp. 85-126, 2004.
[5] Karanjit Singh e Shuchita Upadhyaya, “Detecção de Outliers: Aplicações [23] Jie Cheng, Russell Greiner, Jonathan Kelly, David Bell e Weiru Liu,
e Técnicas”, International Journal of Computer Science Issues, vol. 9, “Aprendendo redes bayesianas a partir de dados: uma abordagem
Edição. 1, nº 3, pp. 307-323, 2012. baseada em teoria da informação”, The Artificial Intelligence Journal,
[6] Hugo Jair Escalante, “A Comparison of Outlier Detection Algorithms for vol. 137, pp. 43-90, 2002.
Machine Learning”, CIC-2005 Congreso Internacional en Computacion- [24] Tom M. Mitchell, "Machine Learning: A Guide to Current Research", The
IPN, 2005. Springer International Series in Engineering and Computer Science
[7] Pierre Geurts, Alexandre Irrthum, Louis Wehenkel, “Aprendizado Series, McGraw Hill, 1997.
supervisionado com métodos baseados em árvore de decisão em [25] D. Aha, “Lazy Learning”, Dordrecht: Kluwer Academic
biologia computacional e de sistemas”, Molecular BioSystems, vol. 5, Editoras, 1997.
nº 12, pp. 1593-1605, 2009. [26] Ramon Lopez De Mantaras e Eva Armengol, “Aprendizado de máquina
[8] L. Breiman, J. Friedman, RA Olsen e CJ Stone, “Classification and a partir de exemplos: métodos indutivos e preguiçosos”, Data and
Regression Trees”, Belmont, Califórnia: Wadsworth International Knowledge Engineering, vol. 25, nº 1-2, pp. 99-123, 1998.
Group, 1984. [27] Hamid Parvin, Hoseinali Alizadeh e Behrouz Minati, “Uma modificação
[9] J. Quinlan, “C4.5: Programs for machine learning”, San Francisco, CA: no classificador K-vizinho mais próximo”, Global Journal of Computer
Morgan Kaufmann, 1986. Science and Technology, vol. 10, nº.
[10] Masud Karim e Rashedur M. Rahman, “Árvore de Decisão e Algoritmo 14 (Ver.1.0), pp. 37-41, 2010.
Naïve Bayes para Classificação e Geração de Conhecimento Acionável [28] Yen-Liang Chen e Lucas Tzu-Hsuan Hung, “Usando árvores de decisão
para Marketing Direto”, Journal of Software Engineering and para resumir regras de classificação associativa”, Sistemas Especialistas
Applications, vol. 6, nº 4, pp. 196-206, 2013. com Aplicações, vol. 36, nº 2, parte 1, pp. 2338-2351, 2009.
[11] Earl B. Hunt, Janet Marin e Philip J. Stone, “Experiments in Induction”, [29] Samy Bengio, Li Deng, Hugo Larochelle, Honglak Lee e Ruslan
Nova York: Academic Press, 1966. Salakhutdinov, “Introdução dos Editores Convidados: Seção Especial
[12] Leo Breiman, Jerome Friedman, Charles J. Stone e RA sobre Aprendizagem de Arquiteturas Profundas”, IEEE Transactions
Olshen, "Árvores de classificação e regressão (estatística/ probabilidade on Pattern Analysis and Machine Intelligence, vol. 35, nº 8, pp.
de Wadsworth)", Chapman e Hall/CRC, 1984. 1795-1797, 2013.
[13] Steven L. Salzberg, “Revisão do Livro: C4.5: Programas para Aprendizado [30] Qinghua Zheng, Zhaohui Wu, Xiaocheng Cheng, Lu Jiang e Jun Liu,
de Máquina por J. Ross Quinlan. Inc., 1993”, Machine Learning, vol. “Learning to crawl deep web”, Sistemas de Informação , Vol. 38, nº 6,
16, nº 3, pp. 235-240, 1994. pp. 801-819, 2013.
[14] Johannes Fürnkranz, “Aprendizagem de Regras Separadas e [31] Xue-Wen Chen e Xiaotong Lin,” Big Data Deep Learning: Challenges
Conquistadas”, Revisão de Inteligência Artificial, vol. 13, pp. 3-54, 1999. and Perspectives”, IEEE Access Practical Innovations: Open Solutions
[15] Aijun An e Nick Cercone, “Discretização de atributos contínuos para and Access e IEEE, vol. 2, pp. 514-525, 2014.
aprender regras de classificação”, Terceira Conferência da Ásia do
Pacífico sobre Metodologias para Descoberta de Conhecimento e [32] Rajat Raina, Anand Madhavan e Andrew Yg, “Aprendizado profundo
Mineração de Dados, vol. 1574, pp. 509-514, 1999. não supervisionado em grande escala usando processadores gráficos”,
[16] Mehryar Mohri, Afshin Rostamizadeh e Ameet Talwalkar, “Foundations 26ª Conferência Internacional sobre Aprendizado de Máquina, pp.
of Machine Learning”, One Rogers Street Cambridge MA: The MIT 609-616, 2009.
Press, 2012. [33] Alex Krizhevsky, Ilya Sutskever e Geoffrey E. Hinton, "ImageNet
[17] Olivier Bousquet, St´ephane Boucheron e G´abor Lugosi, “Introduction Classification with Deep Convolutional Neural Networks", Advances in
to Statistical Learning Theory”, Lecture Notes in Computer Science, Neural Information Processing System, pp. 1106-1114, 2012.
vol. 3176, pp. 175-213, 2004.
[34] Jeffrey Dean, Greg S. Corrado e Rajat Monga Kai, "Large Scale
[18] Olivier Pourret, Patrick Naim e Bruce Marcot, “Bayesian Networks: A Distributed Deep Networks", Advances in Neural Information Processing
Practical Guide to Applications”, Wiley Publishers, 2008. System, pp. 1232-1240, 2012.
[35] Quoc V. Le, Marc'Aurelio Ranzato, Rajat Monga, Matthieu Devin, Kai
[19] Kamal Nigam, John Lafferty e Andrew McCallum, "Using Maximum Chen, Greg S. Corrado, Jeffrey Dean e Andrew Y. Ng, “Building High-
Entropy for Text Classification", Workshop on Machine Learning for level Features Using Large Scale Unsupervised Learning”, Proceedings
Information Filtering, pp. 61-67, 1999. da 29ª Conferência Internacional sobre Machine Learning, 2012.
[20] NJ Nilsson, “Learning Machines: Foundations of Trainable Pattern- [36] A. Coats e B. Huval, "Deep Learning with COTS HPS systems", Journal
Classifying Systems”, Primeira Edição, Nova York: McGraw-Hill, 1965. of Machine Learning Research, vol. 28, nº 3, pp. 1337-1345, 2013.
952

IJSC Paper 4 946-952

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

IJSC Paper 4 946-952

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

ABORDAGENS DE APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA PESQUISA

Iqbal Muhammad1 e Zhu Yan2 Escola de Ciências

número de atributos ou o tamanho do conjunto A. Tabela 1. Instâncias com rótulos conhecidos

Aprender com as experiências passadas é um atributo dos humanos, 11 ls ÿ ls ÿls

Figura 2. Modelo de aprendizado de máquina supervisionado

2.1 SELEÇÃO DE ALGORITMO

padrão 2. Inicialize os exemplos para todos os exemplos disponíveis ou

A principal diferença entre heurísticas para algoritmos de aprendizado de

O aprendizado estatístico é uma estrutura para desenho de aprendizado de

A estrutura da rede bayesiana S é um grafo acíclico direcionado (DAG) e os

4.1 CLASSIFICADORES NAIVE BAYES

As redes bayesianas são amplamente utilizadas para realizar tarefas de

indiretamente via saída. (sim/não)

Fig.6. Modelo Naive Bayes

O resultado “Sim” ou “Não” depende dos valores das variáveis de X1 e

Tabela 3. Exemplo de treinamento

T d NVIDIA GTX 280 1 milhão de imagens e

• Sigmoide: KÿX X ÿeu , j ÿ tanh ÿ ÿ XX

7. APRENDIZAGEM PROFUNDA A Tabela.4 resume o progresso atual em algoritmos de aprendizado

Você também pode gostar