Escolar Documentos
Profissional Documentos
Cultura Documentos
IQBAL MUHAMMAD E ZHU YAN: ABORDAGENS DE APRENDIZAGEM SUPERVISIONADA DE MÁQUINA: UMA PESQUISA
DOI: 10.21917/ijsc.2015.0133
Abstrato vários recursos. Em última análise, isso torna difícil para eles explorar soluções
Um dos principais objetivos do aprendizado de máquina é instruir os computadores a usar para certos problemas. O aprendizado de máquina geralmente pode ser
dados ou experiências anteriores para resolver um determinado problema. Já existe um aplicado com sucesso a esses problemas, melhorando a eficiência dos
bom número de aplicações bem-sucedidas de aprendizado de máquina, incluindo sistemas e os projetos das máquinas [1]. Nos algoritmos de aprendizado de
classificador para ser treinado em mensagens de e-mail para aprender a distinguir entre máquina, cada instância de um determinado conjunto de dados é representada
mensagens spam e não spam, sistemas que analisam dados de vendas anteriores para
usando o mesmo conjunto de recursos. A natureza desses recursos pode ser
prever o comportamento de compra do cliente, detecção de fraude etc. O aprendizado de
contínua, categórica ou binária. Se as instâncias são fornecidas com rótulos
máquina pode ser aplicado como análise de associação por meio de aprendizado
conhecidos (ou seja, as saídas corretas correspondentes), o esquema de
supervisionado, aprendizado não supervisionado e aprendizado por reforço, mas neste
estudo focaremos na força e na fraqueza dos algoritmos de classificação de aprendizado
aprendizado é conhecido como supervisionado (consulte a Tabela.1), enquanto
supervisionado. O objetivo do aprendizado supervisionado é construir um modelo conciso na abordagem de aprendizado não supervisionado as instâncias não são
da distribuição de rótulos de classe em termos de recursos preditores. rotuladas. Através da aplicação desses algoritmos não supervisionados
(clustering), os pesquisadores estão otimistas para descobrir classes de itens
O classificador resultante é então usado para atribuir rótulos de classe às instâncias de desconhecidas, mas úteis [3]. Outro tipo de aprendizado de máquina é o
teste onde os valores dos recursos preditores são conhecidos, mas o valor do rótulo de aprendizado por reforço. Aqui, a informação de treinamento fornecida ao
classe é desconhecido. Estamos otimistas de que este estudo ajudará novos pesquisadores
sistema de aprendizado pelo ambiente (ou seja, treinador externo) está na
a orientar novas áreas de pesquisa e a comparar a eficácia e a impudência de algoritmos
forma de um sinal de reforço escalar que constitui uma medida de quão bem
de aprendizado supervisionado.
o sistema opera. O aluno não é informado sobre qual ação deve realizar, como
na maioria das formas de aprendizado de máquina, mas deve descobrir quais
ações rendem mais recompensas ao experimentá-las [1]. Vários aplicativos de
Palavras-chave:
ML envolvem tarefas que podem ser configuradas como supervisionadas. A
Aprendizado de Máquina Supervisionado, SVM, DT, Classificador figura abaixo descreve a arquitetura de classificação geral.
1. INTRODUÇÃO
Machine Learning (ML) pode ser considerado como um subcampo da Dados de teste
Inteligência Artificial, uma vez que esses algoritmos podem ser vistos
como blocos de construção para fazer os computadores aprenderem a se
Máquina
comportar de forma mais inteligente, generalizando de alguma forma, em Treinamento
Classificação
Aprendizado Regras
vez de apenas armazenar e recuperar itens de dados como um sistema Dados
Programa
de banco de dados e outros aplicativos. fazer. O aprendizado de máquina
foi inspirado em uma variedade de disciplinas acadêmicas, incluindo
previsto
ciência da computação, estatística, biologia e psicologia. A função principal Classificação
das tentativas de aprendizado de máquina é dizer aos computadores
como encontrar automaticamente um bom preditor com base em
experiências anteriores e esse trabalho é feito por um bom classificador. Figura 1. Arquitetura de classificação
A classificação é o processo de usar um modelo para prever valores
desconhecidos (variáveis de saída), usando um número de valores conhecidos (variáveis de estudo,
Neste entrada).focaremos nossa atenção nos métodos que estão sendo
O processo de classificação é realizado no conjunto de dados D que contém usados para o aprendizado supervisionado. Este estudo contribuirá para que
os seguintes objetos: novos pesquisadores obtenham conhecimento atualizado sobre abordagens
• Definir tamanho ÿ ÿ ÿ ÿ,,2,1 AAAAA ÿ , onde A denota o de ML supervisionadas.
946
Machine Translated by Google
ISSN: 2229-6956(ONLINE) ICTACT JOURNAL ON SOFT COMPUTING, ABRIL 2015, VOLUME: 05, EDIÇÃO: 03
linhas de pesquisa existentes em cada técnica de aprendizagem. Em cada uma precisão da previsão. A avaliação do classificador (algoritmo) é mais
de nossas áreas listadas, existem muitos outros artigos/livros que poderiam ser frequentemente baseada na precisão da previsão e pode ser medida pela
mais abrangentes para ajudar os leitores interessados. fórmula abaixo
Na próxima seção, abordaremos questões abrangentes de aprendizado de Número de classificações corretas
máquina supervisionado, como seleção de recursos e pré-processamento de Precisão ÿ (1)
Número total de casos de teste
dados. As técnicas lógicas/simbólicas estão sendo descritas na seção 3,
enquanto as técnicas estatísticas para ML são discutidas na seção 4. A seção Existem vários métodos que estão sendo usados por diferentes
5 cobrirá os aprendizes baseados em instâncias, o SVM é discutido na seção 6. pesquisadores para calcular a precisão do classificador. Alguns pesquisadores
A última seção conclui este trabalho. dividem o conjunto de treinamento de tal forma que dois terços retêm para
treinamento e o outro terço para estimativa de desempenho.
A validação cruzada (CV) ou estimativa de rotação é outra abordagem. CV
fornece uma maneira de fazer um melhor uso da amostra disponível. No
2. QUESTÕES DE APRENDIZAGEM SUPERVISIONADA
esquema de validação cruzada k-fold, dividimos a amostra de aprendizado em
ALGORITMOS
k subconjuntos disjuntos do mesmo tamanho, ou seja, (2)
947
Machine Translated by Google
IQBAL MUHAMMAD E ZHU YAN: ABORDAGENS DE APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA PESQUISA
A Fig.3 é um exemplo de árvore de decisão para o conjunto de treinamento 3.2 CONJUNTO DE REGRAS DE APRENDIZAGEM
da Tabela.2. DT são extensivamente usados em diferentes campos
computacionais para classificar dados. As razões por trás da ampla aceitabilidade Também é possível que as árvores de decisão possam ser traduzidas em
dos algoritmos de aprendizado de DT são sua flexibilidade para aplicar em uma um conjunto de regras, criando uma regra separada para cada caminho desde a
ampla gama de problemas. Uma propriedade interessante e importante de uma raiz até uma folha na árvore [13]. No entanto, as regras também podem ser
árvore de decisão e seu conjunto de regras resultante é que os caminhos da induzidas diretamente a partir de dados de treinamento usando uma variedade
árvore ou as regras são mutuamente exclusivos e exaustivos. de algoritmos baseados em regras. Em [14], o autor forneceu uma excelente
Isso significa que cada instância/registro/exemplo/vetor/caso de dados é coberto visão geral do trabalho existente em métodos baseados em regras. As regras de
por uma única regra. De acordo com Pierre e cols. [7], algoritmos DT combinados classificação representam cada classe pela Forma Normal Disjuntiva (DNF).
com métodos ensemble, podem fornecer melhores resultados em termos de Uma instrução está em DNF se for uma disjunção (sequência de ORs) que
precisão preditiva e significativamente no contexto de conjuntos de dados de alto consiste em um ou mais disjuntos, cada um dos quais é uma conjunção (AND)
rendimento, métodos baseados em árvore também são altamente escaláveis do de um ou mais literais. Abaixo está um exemplo de formas normais disjuntivas.
ponto de vista computacional.
Uma expressão é de o forma:
em 1
A1
k-DNF
Anÿ2
A2 ÿA2n
ÿAn
ÿÿ ÿ Anÿ1
ÿÿÿÿÿ
ÿ ÿ ÿ ÿÿ ÿÿ
Akÿ1
ÿ ÿnÿ1 ÿ Akÿ1 nÿ2 ÿÿÿ Akn , ÿ ÿ onde k é o número de
Não
at2 Não ÿ disjunções, n é o número de conjunções em cada disjunção e An
é definido pelo alfabeto A1 A2 ÿ Aj A1 ~sobre
A2ÿAj . Aqui o objetivo é
,ÿ conjunto
, , o, menor , ~
construir de regras que seja consistente com os
Não
às 3 at4 dados de treinamento [1].
Um bom número de regras aprendidas geralmente é um sinal positivo de que o
algoritmo de aprendizado está tentando lembrar o conjunto de treinamento, em
Sim
vez de descobrir as suposições que o governam. Um algoritmo separar-e-
Não
Sim Não
conquistar (quebra recursivamente um problema em sub-problemas) busca uma
regra que explique uma parte de suas instâncias de treinamento, separa essas
instâncias e conquista recursivamente as instâncias restantes aprendendo mais
Fig.3. Uma amostra de árvore de decisão
regras, até que nenhuma instância permaneça [ 1]. Na Fig.5 abaixo, um pseudo-
código geral para aprendizes de regras é apresentado.
Usando o DT representado na Fig.3 como exemplo, a instância (at1 = a1,
at2 = b2, at3 = a3, at4 = b4) classificaria os nós: at1, at2 e, finalmente, at3, que
classificaria o instância como sendo positivo (representado pelos valores “Sim”). 1. Inicialize o conjunto de regras para um
948
Machine Translated by Google
ISSN: 2229-6956(ONLINE) ICTACT JOURNAL ON SOFT COMPUTING, ABRIL 2015, VOLUME: 05, EDIÇÃO: 03
A teoria da aprendizagem estatística lida com o problema de encontrar uma Uma vantagem do classificador Naive Bayes é que ele requer uma pequena
função preditiva baseada em dados e tem um bom número de aplicações no quantidade de dados de treinamento para estimar os parâmetros necessários
campo da IA. O principal objetivo dos algoritmos de aprendizado estatístico é para a classificação.
fornecer uma estrutura para estudar o problema de inferência que é obter
conhecimento, fazer previsões e tomar decisões construindo modelos a partir de
4.2 REDES BAYESIANAS
um conjunto de dados [17].
Redes bayesianas (BN) são modelos gráficos usados para ilustrar
relacionamentos entre eventos ou ideias para inferir probabilidades ou incertezas
As redes bayesianas são os representantes mais conhecidos dos algoritmos associadas a essas ideias ou eventos. Recuperação de informações, previsões
de aprendizado estatístico. Uma boa fonte para aprender a teoria de Redes baseadas em entrada limitada ou software de reconhecimento são algumas das
Bayesianas (BN) é [18], onde os leitores podem aprender aplicações de BN. principais aplicações da BN.
PXÿÿ | ÿ P iÿPX
ÿÿ ÿ ÿ|ÿ P iÿPPX
ÿ ÿr ÿ |ÿ ÿ
R ÿ ÿ ÿ
(3)
ÿ ÿ|
PJX Pj ÿPXJ
ÿÿ | Pÿjÿ PÿX
ÿ Jÿ _ |
r
Fig.7. Rede bayesiana com tabelas de probabilidade condicional
Aqui, comparando essas duas probabilidades, a maior probabilidade indica
que o valor do rótulo da classe é mais provável de ser o rótulo real (se R>1: Abaixo está uma função de probabilidade conjunta:
predizer i senão predizer j) [1]. Conforme mostrado na figura abaixo, os links em PÿG,S,Rÿ ÿ PÿG S,RÿPÿS RÿPÿRÿ (4)
um modelo Naive Bayes são direcionados da saída para a entrada, o que confere
ao modelo sua simplicidade, pois não há interações entre as entradas, exceto onde, os nomes das variáveis foram abreviados para: G = Grama molhada
Entrada 1
Cheng et ai. chamam a atenção para um problema dos classificadores BN
que não são adequados para conjuntos de dados com muitas características. A
razão para isso é que tentar construir uma rede muito grande simplesmente não
Entrada 2
é viável em termos de tempo e espaço [23]. O pseudocódigo do BN de treinamento
Saída 1
é mostrado na figura abaixo:
Entrada 3
Entrada 4
949
Machine Translated by Google
IQBAL MUHAMMAD E ZHU YAN: ABORDAGENS DE APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA PESQUISA
950
Machine Translated by Google
ISSN: 2229-6956(ONLINE) ICTACT JOURNAL ON SOFT COMPUTING, ABRIL 2015, VOLUME: 05, EDIÇÃO: 03
serão classificados. Alguns novos kernels estão sendo propostos por Tabela.4. Progresso da pesquisa de aprendizagem profunda em grande escala
pesquisadores, mas abaixo está uma lista de alguns kernels populares:
Corrida
T # de exemplos e
Poder de computação do método média
• Linear: ÿ K Xi , X j ÿ ÿ Xi X j parâmetros Tempo
ÿ Xi X j
ÿ
ÿ ,ÿÿ ÿ ÿ 0
GPUs (6 GB RAM) (256 × 256) e 606
parâmetros
1.000 CPUs com 1,1 bilhão de áudio DisBelief
Aqui Escasso
1.000 CPUs com 200 )
ÿ ,r e d são os parâmetros do kernel. Onde, Xi é um vetor de Codificador automático Imagens e 1 bilhão de ~ 3 dias
16.000 núcleos
treinamento e mapeado em um espaço dimensional alto pela função X j [35] parâmetros
64 NVIDIA GTX 10 milhões (200 × 200 )
ÿ e ÿ K Xi X , j ÿ ÿ ÿ ÿ ÿ é conhecida como função kernel. COTS HPC
680 GPUs Imagens e 11 bilhões de ~ 3 dias
[36]
(256 GB RAM) parâmetros
RECONHECIMENTO
Fig.11. Arquitetura de rede profunda
Gostaria de expressar minha gratidão ao meu professor, Dr. Wang
A Fig.11 descreve a arquitetura de rede de aprendizado profundo com uma Hongjun, cuja experiência e orientação acrescentaram consideravelmente
camada de entrada de 3 unidades, uma camada de saída de 2 unidades e duas à minha experiência de pós-graduação. Eu aprecio seu vasto conhecimento
camadas ocultas de 5 unidades. e sua assistência consistente na conclusão deste trabalho. Também
O aprendizado profundo também foi implementado com sucesso em gostaria de agradecer aos outros bolsistas de doutorado da minha escola,
produtos da indústria que, em última análise, aproveitam o grande volume o Sr. Amjad Ahmed e o Sr. Mehtab Afzal pela assistência que forneceram
de dados. As principais empresas de Tecnologia da Informação (TI) como para entender o aprendizado de máquina. Um agradecimento muito especial vai pa
Microsoft, Google, Apple, Yahoo, Baidu, Amazon e Facebook, que coletam Zhu Yan, sem cuja motivação e incentivo, confesso que seria difícil para
e analisam grandes quantidades de dados diariamente, têm investido uma mim avançar no meu Programa de Doutorado.
boa parte das finanças em projetos relacionados ao aprendizado profundo.
Por exemplo, o Siri da Apple e o Google Voice Search oferecem uma ampla
variedade de serviços, incluindo boletins meteorológicos, notícias esportivas, REFERÊNCIAS
respostas às perguntas do usuário e lembretes, etc., utilizando algoritmos
de aprendizado profundo [31]. [1] SB Kotsiantis, “Aprendizado de Máquina Supervisionado: Uma Revisão
Atualmente, esses dois aplicativos suportam uma ampla gama de idiomas de Técnicas de Classificação”, Informatica, vol. 31, nº 3, pp. 249-268,
falados. 2007.
951
Machine Translated by Google
IQBAL MUHAMMAD E ZHU YAN: ABORDAGENS DE APRENDIZADO DE MÁQUINA SUPERVISIONADO: UMA PESQUISA
[2] James Cussens, “Machine Learning”, IEEE Journal of Computing and [21] Isidore Jacob Good, “Probability and the Weighing of Evidence”, The
Control, vol. 7, nº 4, pp 164-168, 1996. University of Wisconsin - Madison: Charles Griffin, 1950.
[3] Richard S. Sutton e Andrew G. Barto, “Aprendizado por Reforço: Uma
Introdução”, Cambridge, MA: MIT Press, 1998. [22] Shiliang Sun, Changshui Zhang e Guoqiang Yu, “Uma Abordagem de
[4] Victoria J. Hodge e Jim Austin, “Uma Pesquisa de Metodologias de Rede Bayesiana para Previsão de Fluxo de Tráfego”, IEEE Transactions
Detecção de Outliers”, Revisão de Inteligência Artificial, vol. 22, nº 2, on Intelligent Transportation Systems, vol. 7, nº 1, pp. 124-132, 2006.
pp. 85-126, 2004.
[5] Karanjit Singh e Shuchita Upadhyaya, “Detecção de Outliers: Aplicações [23] Jie Cheng, Russell Greiner, Jonathan Kelly, David Bell e Weiru Liu,
e Técnicas”, International Journal of Computer Science Issues, vol. 9, “Aprendendo redes bayesianas a partir de dados: uma abordagem
Edição. 1, nº 3, pp. 307-323, 2012. baseada em teoria da informação”, The Artificial Intelligence Journal,
[6] Hugo Jair Escalante, “A Comparison of Outlier Detection Algorithms for vol. 137, pp. 43-90, 2002.
Machine Learning”, CIC-2005 Congreso Internacional en Computacion- [24] Tom M. Mitchell, "Machine Learning: A Guide to Current Research", The
IPN, 2005. Springer International Series in Engineering and Computer Science
[7] Pierre Geurts, Alexandre Irrthum, Louis Wehenkel, “Aprendizado Series, McGraw Hill, 1997.
supervisionado com métodos baseados em árvore de decisão em [25] D. Aha, “Lazy Learning”, Dordrecht: Kluwer Academic
biologia computacional e de sistemas”, Molecular BioSystems, vol. 5, Editoras, 1997.
nº 12, pp. 1593-1605, 2009. [26] Ramon Lopez De Mantaras e Eva Armengol, “Aprendizado de máquina
[8] L. Breiman, J. Friedman, RA Olsen e CJ Stone, “Classification and a partir de exemplos: métodos indutivos e preguiçosos”, Data and
Regression Trees”, Belmont, Califórnia: Wadsworth International Knowledge Engineering, vol. 25, nº 1-2, pp. 99-123, 1998.
Group, 1984. [27] Hamid Parvin, Hoseinali Alizadeh e Behrouz Minati, “Uma modificação
[9] J. Quinlan, “C4.5: Programs for machine learning”, San Francisco, CA: no classificador K-vizinho mais próximo”, Global Journal of Computer
Morgan Kaufmann, 1986. Science and Technology, vol. 10, nº.
[10] Masud Karim e Rashedur M. Rahman, “Árvore de Decisão e Algoritmo 14 (Ver.1.0), pp. 37-41, 2010.
Naïve Bayes para Classificação e Geração de Conhecimento Acionável [28] Yen-Liang Chen e Lucas Tzu-Hsuan Hung, “Usando árvores de decisão
para Marketing Direto”, Journal of Software Engineering and para resumir regras de classificação associativa”, Sistemas Especialistas
Applications, vol. 6, nº 4, pp. 196-206, 2013. com Aplicações, vol. 36, nº 2, parte 1, pp. 2338-2351, 2009.
[11] Earl B. Hunt, Janet Marin e Philip J. Stone, “Experiments in Induction”, [29] Samy Bengio, Li Deng, Hugo Larochelle, Honglak Lee e Ruslan
Nova York: Academic Press, 1966. Salakhutdinov, “Introdução dos Editores Convidados: Seção Especial
[12] Leo Breiman, Jerome Friedman, Charles J. Stone e RA sobre Aprendizagem de Arquiteturas Profundas”, IEEE Transactions
Olshen, "Árvores de classificação e regressão (estatística/ probabilidade on Pattern Analysis and Machine Intelligence, vol. 35, nº 8, pp.
de Wadsworth)", Chapman e Hall/CRC, 1984. 1795-1797, 2013.
[13] Steven L. Salzberg, “Revisão do Livro: C4.5: Programas para Aprendizado [30] Qinghua Zheng, Zhaohui Wu, Xiaocheng Cheng, Lu Jiang e Jun Liu,
de Máquina por J. Ross Quinlan. Inc., 1993”, Machine Learning, vol. “Learning to crawl deep web”, Sistemas de Informação , Vol. 38, nº 6,
16, nº 3, pp. 235-240, 1994. pp. 801-819, 2013.
[14] Johannes Fürnkranz, “Aprendizagem de Regras Separadas e [31] Xue-Wen Chen e Xiaotong Lin,” Big Data Deep Learning: Challenges
Conquistadas”, Revisão de Inteligência Artificial, vol. 13, pp. 3-54, 1999. and Perspectives”, IEEE Access Practical Innovations: Open Solutions
[15] Aijun An e Nick Cercone, “Discretização de atributos contínuos para and Access e IEEE, vol. 2, pp. 514-525, 2014.
aprender regras de classificação”, Terceira Conferência da Ásia do
Pacífico sobre Metodologias para Descoberta de Conhecimento e [32] Rajat Raina, Anand Madhavan e Andrew Yg, “Aprendizado profundo
Mineração de Dados, vol. 1574, pp. 509-514, 1999. não supervisionado em grande escala usando processadores gráficos”,
[16] Mehryar Mohri, Afshin Rostamizadeh e Ameet Talwalkar, “Foundations 26ª Conferência Internacional sobre Aprendizado de Máquina, pp.
of Machine Learning”, One Rogers Street Cambridge MA: The MIT 609-616, 2009.
Press, 2012. [33] Alex Krizhevsky, Ilya Sutskever e Geoffrey E. Hinton, "ImageNet
[17] Olivier Bousquet, St´ephane Boucheron e G´abor Lugosi, “Introduction Classification with Deep Convolutional Neural Networks", Advances in
to Statistical Learning Theory”, Lecture Notes in Computer Science, Neural Information Processing System, pp. 1106-1114, 2012.
vol. 3176, pp. 175-213, 2004.
[34] Jeffrey Dean, Greg S. Corrado e Rajat Monga Kai, "Large Scale
[18] Olivier Pourret, Patrick Naim e Bruce Marcot, “Bayesian Networks: A Distributed Deep Networks", Advances in Neural Information Processing
Practical Guide to Applications”, Wiley Publishers, 2008. System, pp. 1232-1240, 2012.
[35] Quoc V. Le, Marc'Aurelio Ranzato, Rajat Monga, Matthieu Devin, Kai
[19] Kamal Nigam, John Lafferty e Andrew McCallum, "Using Maximum Chen, Greg S. Corrado, Jeffrey Dean e Andrew Y. Ng, “Building High-
Entropy for Text Classification", Workshop on Machine Learning for level Features Using Large Scale Unsupervised Learning”, Proceedings
Information Filtering, pp. 61-67, 1999. da 29ª Conferência Internacional sobre Machine Learning, 2012.
[20] NJ Nilsson, “Learning Machines: Foundations of Trainable Pattern- [36] A. Coats e B. Huval, "Deep Learning with COTS HPS systems", Journal
Classifying Systems”, Primeira Edição, Nova York: McGraw-Hill, 1965. of Machine Learning Research, vol. 28, nº 3, pp. 1337-1345, 2013.
952