Escolar Documentos
Profissional Documentos
Cultura Documentos
Processamento de
Filtragem Diagnóstico Sistemas Detecção de
linguagem natural
de SPAM médico de busca fraude
na web semântica
Aprendizado de máquina. Como a coisa funciona?
1. Aprendizagem supervisionada
Métodos de 2. Aprendizagem
aprendizagem não-supervisionada
Algoritmo SPAM
genérico de
email aprendizagem
de máquina
NÃO SPAM
Aprendizagem supervisionada Gato
Algoritmo de
aprendizagem
supervisionada
Pato
Vaca
Aprendizagem de máquina
supervisionada
Este aprendizado é iterativo e é realizado até que uma
condição seja atingida, geralmente uma porcentagem
aceitável de acertos, ou seja, a ideia é sempre de minimizar
os erros que a inteligência artificial produz. Essa condição de
parada com base na acurácia máxima
acurácia máximaé possível pois se trata
de aprendizado com resultado conhecido.
2º 1.2. Noções de algoritmos de
aprendizado supervisionados e não
B supervisionados
L
O Segmento
C 04
O
Algoritmos de aprendizagem supervisionada
1. Árvores de Decisão
2. Classificação Naïve
Bayes
3. Regressão Linear de
Mínimos Quadrados
4. Regressão logística
5. Support Vector
Machine
6. Ensemble Methods
Algoritmo Aprendizagem Supervisionada: Árvores de Decisão
Vermelha
O algoritmo não vai
levar em consideração
a correlação entre
Arredondada esses fatores, tratando
cada um de forma
independente.
10 cm diâmetro
O algoritmo “Naïve Bayes” é muito popular na
área de Machine Learning para classificação de
textos.
Por ser muito simples e rápido, possui um desempenho relativamente
maior do que outros classificadores. Além disso, o Naïve Bayes só
precisa de um pequeno número de dados de teste para concluir
classificações com uma boa precisão.
•A 100
pergunta neste caso
pessoas realizaram seria: Se uma nova pessoa realizar
o teste.
• 20% das pessoas que realizaram o teste possuíam a doença.
o teste e receber um resultado positivo, qual a
• 90% das pessoas que possuíam a doença, receberam positivo no teste.
probabilidade de não
• 30% das pessoas que elapossuíam
possuira doença,
a doença?
receberam positivo no teste.
O algoritmo de Naïve Bayes
1º) Encontrar uma probabilidade a ▪P(doença|positivo) = 20% * 90%
posteriori (possuir a doença, dado que
recebeu um resultado positivo), ▪P(doença|positivo) = 0,2 * 0,9
multiplicando a probabilidade a priori
(possuir a doença) pela probabilidade de ▪P(doença|positivo) = 0,18
“receber um resultado positivo, dado que 18%
tem a doença”.
Ocorrências ou
pontos
SVD (Singular Value Decomposition) é uma fatoração de matrizes, mais geral do que
a diagonalização, e que serve também para matrizes retangulares. Essencialmente,
ela consiste em encontrar duas bases (em vez de apenas uma que é o caso de
autovetores da diagonalização) que sejam adaptadas à matriz A.
3. Algoritmo Aprendizagem Não Supervisionada:
Análise de Componentes Principais
A Análise de Componentes Principais ou PCA (Principal Component Analysis) é uma
técnica de análise multivariada que pode ser usada para analisar inter-relações
entre um grande número de variáveis e explicar essas variáveis em termos de suas
dimensões inerentes (Componentes).
Método que tem como objetivo básico, a análise de dados, visando sua redução,
eliminação de sobreposições e a escolha da forma mais representativas de dados a
partir de combinações lineares (expressões construídas a partir de um conjunto de
termos, multiplicando cada termo por uma constante) das variáveis originais.
SVD e PCA
Singular Value Decomposition(SVD): realizar a
SVD
reduçãoconsiste
de postoem e aum processodede
aproximação baixo-
Métodos
SVD e PCAnuméricos
tem sido oriundos
fatoração
posto de uma dematriz
matrizes capaz de
N-dimensional. Objetivos
da Álgebra Linear (AL) e da distintos:
representar (1) eficiência de manipulação
uma matriz de dados de dados
A por
extensivamente aplicados a
Estatística (ES)da
têm se arrays, (2) redução da dimensionalidade dos dados e
variadas áreas computação. meio de três
(3) remoção outras
dos ruídos dosmatrizes U,S e V.
dados originais.
tornado cruciais
Mineração para o
de Dados,
Aprendizado de Maquina,
sucesso de variadas tarefas
Recuperação de Informação,
computacionais, tais como PCA é uma
Principal técnica estatística
Component multivariada
Analysis(PCA): explicar a que
Processamento Digital de Sinais,
Classificação Automática de possui como
estrutura objetivo explorar adeestrutura
de variância-covariância um conjuntode
dentre outras. variabilidade
de variáveis pordos
meiodados.
de poucasOscombinações
principais
Documentos.
lineares
conceitosentre essas variáveis.
estatísticos (1) reduçãoo de
para entender dados e
processo
(2)
são:interpretação destesedados.
média, variância covariância.
4. Algoritmo Aprendizagem Não Supervisionada:
Análise de componentes independentes
ICA (Independent Component Analysis) é uma técnica estatística para
revelar fatores ocultos que estão subjacentes a conjuntos de variáveis
aleatórias, medições ou sinais.
A ICA está relacionada ao PCA, mas é uma técnica muito mais
poderosa, capaz de encontrar os fatores subjacentes das fontes
quando esses métodos clássicos falham completamente. Suas
aplicações incluem imagens digitais, bancos de dados de
documentos, indicadores econômicos e medições psicométricas.
Aprendizagem por reforço
A Aprendizagem Por Reforço é o treinamento de modelos de aprendizado
de máquina para tomar uma sequência de decisões.
O agente aprende a atingir uma meta em um ambiente incerto e
potencialmente complexo.
A) Regras de associação.
B) Bubble sort.
C) Clusterização.
D) Classificação.
E) Formulação.
Com relação a mineração de dados e aprendizado de máquina as
técnicas utilizadas podem ser categorizadas em supervisionadas e não
supervisionadas.
As técnicas de árvores de decisão, agrupamento e regras de associação
são categorizadas, respectivamente, como
• Revista Zum
https://revistazum.com.br/entrevistas/entrevista-trevor-paglen/
• Grupo Viceri
https://www.viceri.com.br/insights/as-classificacoes-dos-algoritmos-de-machine-learning
http://www.kdnuggets.com/2016/08/10-algorithms-machine-learning-engineers.html