Escolar Documentos
Profissional Documentos
Cultura Documentos
DEFINIÇÕES
- O aprendizado de máquina é “um campo de estudo que oferece aos
computadores a capacidade de aprender sem serem explicitamente programados
”. (Samuel,1959)
- “O aprendizado de máquina é uma das principais subáreas da inteligência
artificial, e é composto por uma coleção de métodos criados a partir de modelos
matemáticos baseados na teoria estatística que permitem aos computadores
automatizar tarefas com base na descoberta sistemática de padrões nos
conjuntos de dados disponíveis ou em experiências passadas.” ( Bhavsar et al.
2017; Alpaydin 2020)
APLICAÇÕES
- Reconhecimento facial
- Detecção de objetos e cenários
- Comparação facial
- Carros autonomos
- Recomendações em streamings
- Assistente pessoal (Alexa)
VIÉS INDUTIVO
- Exemplos:
- Diagnósticos médicos;
- Análises de risco de crédito;
- Classificação de objetos para um manipulador de robot (Tan 1993)
Algoritmo ID3
O algoritmo ID3 (inductive decision tree) é um dos mais utilizados para a construção de
árvores de decisão. Este algoritmo segue os seguintes passos:
- Começar com todos os exemplos de treino;
- Escolher o teste (atributo) que melhor divide os exemplos, ou seja, agrupar
exemplos da mesma classe ou exemplos semelhantes;
- Para o atributo escolhido, criar um nó filho para cada valor possível do atributo;
- Transportar os exemplos para cada filho tendo em conta o valor do filho;
- Repetir o procedimento para cada filho não "puro". Um filho é puro quando cada
atributo X tem o mesmo valor em todos os exemplos.
Coloca se então, uma pergunta muito importante:
Como saber qual o melhor atributo a escolher?
Para lidar com esta escolha são introduzidos dois conceitos, a entropia e o ganho.
Entropia
A entropia de um conjunto pode ser definida como sendo o grau de pureza desse
conjunto. Este conceito, emprestado pela Teoria da Informação, define a medida de "falta
de informação", mais precisamente o número de bits necessários, em média, para
representar a informação em falta usando codificação ótima. Dada uma coleção S
contendo exemplos positivos (+) e negativos(negativos(-) de algum conceito alvo, a
entropia de S relativa a essa classificação boolena é:
Onde:
P+ é a proporção de exemplos positivos em S
P é a proporção de exemplos negativos em S
Exemplo:
Entropia:
Exemplo:
VALORES DESCONHECIDOS
Se o valor do atributo testado não é conhecido podemos utilizar as seguintes estratégias:
- Trocar o valor desconhecido pelo valor mais comum para o atributo encontrado no
conjunto de treinamento
- Considerar o valor desconhecido como outro valor possível
- Associa se uma probabilidade a cada um dos possíveis valores do atributo
(Algoritmo C4.5)
- Estratégia da Divisão Substituta (Algoritmo CART)
ESTRATÉGIAS DE PODA
Overfitting: Um cenário de overfitting ocorre quando, nos dados de treino, o modelo tem
um desempenho excelente, porém, quando utilizamos os dados de teste o resultado é
ruim.
Para melhorar o modelo, utilizam-se métodos de poda (pruning) na árvore, cujo objetivo
é melhorar a taxa de acerto do modelo para novas amostras que não foram utilizadas
no treinamento.
Estratégias
Vantagens Desvantagens
1.Flexibilidade 1.Replicação
2.Robustez 2.Valores ausentes
3.Seleção de atributos 3.Atributos continuos
4.Interpretabilidade 4.Instabilidade
5.Eficiência
REGRAS DE DECISÃO
RESUMO
A aprendizagem de árvores de decisão fornece um método prático para a aprendizagem
de conceito e para a aprendizagem de outras funções de valor discreto.
Robustez.
ALGORITMO DE COBERTURA
Tipicamente o algoritmo procura regras da forma:
ESTRATÉGIAS
Top-down : inicia a busca da regra mais geral, {} → Classe, e aplica operadores de
especificação, acrescentando condições à parte condicional da regra (orientada pelo
modelo)
Bottom-up: começa pela regra mais específica (é escolhido um dos exemplos
aleatoriamente, o que implica restrições em todos os atributos) e aplica operadores de
generalização, removendo restrições (orientada a dados)
ALGORITMO TOP-DOWN
ALGORITMO BOTTOM-UP
ESTRATÉGIA TOP-DOWN
Começar com a regra mais geral (vazia).
Repetidamente, adicionar restrições ao antecedente usando características que eliminem
o máximo de negativos enquanto mantêm o maior número de positivos.
Parar quando somente positivos estiverem cobertos.
ESTRATÉGIA BOTTOM-UP
Começar com a regra mais específica (por exemplo, uma instância aleatória).
Repetidamente remover restrições do antecedente para cobrir mais positivos.
Parar quando generalização começar a cobrir negativos.
Exemplos
APLICANDO REGRAS
Situações particulares:
i)nenhuma regra dispara;
ii)apenas uma regra dispara; ou
iii)mais que uma regra dispara.
O primeiro caso pode ser evitado, acrescentando uma regra sem parte condicional e cuja
conclusão seja, por exemplo, a classe majoritária. Se mais que uma regra dispara,
podemos ter situações de conflito. As soluções mais usuais para esses casos consistem
em ordenar as regras por prevalência, ou qualquer critério de mérito.
Enquanto o método top down gera regras ordenadas pela ordem em que são induzidas, o
método bottom up gera um conjunto não ordenado de regras. Na aplicação do conjunto
de regras a exemplos não classificados, há duas estratégias básicas. No caso de
conjuntos ordenados de regras, cada exemplo é classificado pela primeira regra cuja
parte condicional é satisfeita. Neste contexto, é frequente adicionar uma regra default
sem parte condicional, que se aplica quando nenhuma das regras dispara. Como vimos, o
algoritmo de cobertura termina quando existem apenas exemplos de uma classe. A regra
default tem como conclusão essa classe. No caso de conjuntos de regras não ordenadas,
todas as regras cuja parte condicional é verificada são utilizadas para classificar o
exemplo, tipicamente por votação ponderada pela qualidade da regra.
Algoritmos de regras de classificação
REGRAS COMO REPRESENTAÇÃO DO CONHECIMENTO
Uma das maneiras de representar conhecimento é pelo uso de regras que expressem o
que deva acontecer, ou o que realmente acontece diante de certas condições. Regras
são geralmente expressas na forma de instruções SE ... ENTÃO ..., tal como:
- SE premissa
- ENTÃO conclusão
Inclusão do SENÃO
- SE você tem um alto salário
- OU suas deduções são errôneas,
- ENTÃO sua chance de sofrer auditoria da Receita Federal é alta,
- SENÃOsua chance de sofrer auditoria é baixa
TIPOS DE ENCADEAMENTO
- Encadeamento para frente (Raciocínio progressivo ou forward chaining):Parte dos
dados em direção às metas
RESOLUÇÃO DE CONFLITOS
Níveis de prioridades
- Atribui prioridades às regras garantindo que a regra de maior prioridade será
sempre a escolhida em caso de conflito.
- Considera que a regra mais longa é mais específica e, portanto, a que melhor
atende à situação de conflito.
ENCADEAMENTO PARA FRENTE
O sistema parte de um conjunto de fatos e de um conjunto de regras e tenta encontrar um
meio de usar tais regras e fatos para deduzir uma conclusão, ou traçar uma linha de ação
apropriada.
Três etapas:
- Busca
- Casamento (unificação)
- Resolução de conflitos
- Tempo de Execução
- A rede é utilizada para unificar a memória de trabalho com as regras da
base de forma mais eficiente
Pseudo Código
- ESTATÍSTICO
No paradigma estatístico é utilizado um modelo estatístico que encontre uma hipótese
que possua uma boa aproximação do conceito a ser induzido. O aprendizado consiste
em encontrar os melhores parâmetros para o modelo. Estes modelos podem ser
paramétricos (quando fazem alguma suposição sobre a distribuição dos dados, ou
podem ser não paramétricos, quando não fazem suposição sobre a distribuição dos
dados. Dentre os modelos estatísticos utilizados em aprendizagem de máquina,
podemos destacar os modelos Bayesianos.
- BASEADO EM EXEMPLOS
Uma forma de classificar um novo padrão é lembrar se de exemplos parecidos
classificados anteriormente, e assim atribuir ao novo exemplo uma classe de um
padrão parecido. Esta é a ideia central deste paradigma. A técnica de raciocínio
baseada em casos é um exemplo de técnica que utiliza este paradigma.
- CONEXIONISTA
O nome conexionista vem da área de pesquisa de Redes Neurais Artificiais (RNA).
Uma rede neural artificial é um modelo computacional inspirado no funcionamento do
cérebro humano.
Uma RNA possui três componentes principais: unidade de processamento “os
neurônios”, conexões “sinapses” e uma topologia.
As redes neurais possuem como principal característica aprender através de exemplos
e
poder de generalização.
As redes Multi Layer Perceptron (MLP) e Self Organizing Map (SOM) são exemplos de
técnicas que utilizam este paradigma de aprendizado.
- EVOLUTIVO
Este paradigma foi inspirado na teoria da evolução das espécies de Charles Darwin. O
algoritmo inicia com uma população de indivíduos, onde cada indivíduo representa uma
possível solução. Os indivíduos competem entre si, os indivíduos com menor
desempenho são descartados, e os indivíduos com melhores desempenhos são
selecionados para reprodução (Crossover); os novos indivíduos gerados podem ou não
sofrer mutação. A população evolui através de várias gerações, até que uma solução
ótima seja encontrada. Algoritmos genéticos e Programação genética são exemplos de
técnicas que utilizam este paradigma.
MÉTODOS BAYESIANOS
Fornece algoritmos práticos de aprendizagem
Aprendizagem de Redes Bayesianas
Combina conhecimento a priori (probabilidade a priori ou incondicional) com dados de
observação.
Assumem que a probabilidade de um evento A (que pode ser uma classe), dado um
evento B (que pode ser o conjunto dos atributos de entrada) não depende apenas da
relação entre A e B mas também da probabilidade de observar A, independentemente de
observar B. (Mitchell, 1997)
TEOREMA DE BAYES
Como os objetos estão agrupados, é razoável considerar que quanto mais objetos de
uma classe “parecidos” com X, maior a chance de X ser daquela classe.
Vamos considerar o “parecido” pelo círculo na figura (estar dentro do círculo) e calcular a
probabilidade:
Probabilidade de “parecido” dado que é verde = número de objetos verdes no círculo/
número total de verdes= 1/40
Probabilidade de “parecido” dado que é vermelho = número de objetos vermelhos no
círculo/ número total de vermelhos= 3/20
NAIVE BAYES: ANÁLISE DO ALGORITMO
Aspectos positivos: Aspectos negativos:
- Todas as probabilidades da - O impacto das variáveis
equação podem ser calculadas a irrelevantes deve ser levado em
partir de um conjunto de conta em consideração ao
treinamento em uma única desempenho do NB;
passagem; - O tratamento de atributos com
- De fácil implementação valores contínuos não é direto
- Algoritmo Naive Bayes tem bom (sendo necessário discretizar los);
desempenho em uma grande
variedade de domínios;
- É robusto à presença de ruídos e
atributos irrelevantes;
- Teorias aprendidas são de fácil
compreensão pelos especialistas
do domínio;
Formas de aprendizagem:
- Especialista
- Indutiva
Aprendizagem de estrutura:
- Métodos de Verossimilhança Máxima;
- Métodos de Teste de Hipóteses;
- Métodos de Verossimilhança Estendidos;
- Métodos ”Minimum Information Complexity“;
- Métodos ”Resampling”;
- Métodos Bayesianos, destacando o clássico algoritmo K2 (COOPER;
HERSKOVITS, 1992).
Condições:
- Desempenho de h
- Complexidade
Conjuntos de dados grandes: Risco empírico tende a convergir para o risco esperado
Conjuntos de dados pequenos: Pode ocorrer a escolha de um h super ajustado
Funções de decisão lineares: Podemos usar o conceito de margens para limitar o risco
esperado
MÁQUINAS DE VETORES DE SUPORTE (SVMs)
Aplicação da Teoria de Aprendizado Estatístico
Classificador : separador de margem máxima
- Fronteira linear
Separação linear em hiperplano
- Espaço de dimensão superior
Opção quando não há conhecimento prévio do domínio
Muito usadas para classificação binária
- Podem ser usadas em domínios com mais classes
EXEMPLO
TIPOS DE SVMs
TRUQUE DE KERNEL
Função Kernel:
- Aplicada a pares de dados de entrada
- Determina produtos escalares no espaço
CONSIDERAÇÕES
VANTAGENS:
Capacidade de generalização
Objetos de grandes dimensões
Determinístico
Robusto a ruídos
DESVANTAGENS:
Modelo de difícil interpretação caixa preta
Sensibilidade à escolha dos parâmetros
Computacionalmente custoso
APLICAÇÕES
Classificação de imagens
Classificação textual
Reconhecimento facial
Reconhecimento de escrita manual
Classificação de genes
Análise de séries temporais
Aprendizado para Agrupamento
MODELOS DESCRITIVOS
- Não há um elemento externo para guiar o aprendizado
- Utiliza-se as propriedades intrínsecas dos objetos para decidir suas semelhanças e
diferenças
- Aprendizado não supervisionado
- Agrupamento de dados
- Métodos de análise de dados com o objetivo de descobrir grupos homogêneos
SUMARIZAÇÃO
ASSOCIAÇÃO
AGRUPAMENTO
CRITÉRIOS DE AGRUPAMENTO
Compactação
- Critério de homogeneidade , compactação
- Clusters esféricos ou bem separados
- Ex: k médias
Encadeamento ligação
- Critério local, de vizinhança
- Clusters com formatos arbitrários
- Ex: hierárquico de ligação simples
Separação espacial
- Distância natural entre os clusters
- Simples
- Uso em conjunto com os demais critérios
REFINAMENTO
Quantidade de clusters
Parâmetros de ajuste
Preparação - Pré-processamento
- Normalização dos dados
- Magnitude
- Matriz de similaridade
Categorias de agrupamento
Hierárquicos
- Aglomerativos
- Cada objeto pertencendo a um grupo
- Objetos são agrupados até um critério de parada
- Divisivos
- Todos os objetos pertencem ao mesmo grupo
- Objetos são divididos até um critério de parada
Particionais
- Exclusivos
- Cada objeto pertence a um único grupo
- Não exclusivos
- Cada objeto pode pertencer a mais de um grupo
- Agrupamento fuzzy
Monotéticos ou politéticos
- Número de atributos usados para calcular a distância
Hard ou fuzzy
- Pertencimento integral ou parcial de um objeto aos grupos
Determinístico ou estocástico
- Resultado do agrupamento
BASEADOS EM DENSIDADE
BASEADOS EM GRAFOS
BASEADOS EM GRID
HIERÁRQUICOS
Métricas de ligação
- Distância entre clusters
Nível de granularidade flexível
Critério de parada indeterminado
Não melhora os clusters
PARTICIONAIS BASEADOS EM ERRO QUADRÁTICO
Agrupamento é feito de forma iterativa
- Partição inicial aleatória
Critério de agrupamento
- Erro quadrático
- Minimizar distância intracluster
- Maximizar distância intercluster
Conjunto de clusters k definido pelo usuário
Pode se escolher diferentes medidas de similaridade
Critério de parada
- Centroide não é mais alterado
PARTICIONAIS BASEADOS EM DENSIDADE
Busca Cega ou Exaustiva: Não sabe qual o melhor nó da fronteira a ser expandido.
Apenas distingue o estado objetivo dos não objetivos.
Busca Local: Opera em um único estado e move se para a vizinhança deste estado.
ALGORITMOS EVOLUCIONÁRIOS
Os algoritmos evolucionários, dos quais os algoritmos genéticos fazem parte, procuram
se inspirar na forma como a natureza funciona.
Os algoritmos evolucionários funcionam mantendo uma população de estruturas que
evoluem de forma semelhante à evolução das espécies.
Nestas estruturas são aplicados operadores genéticos, como a recombinação e mutação.
Cada indivíduo recebe uma avaliação (fitness) que é uma quantificação da sua qualidade
como solução do problema em questão.
Baseados nesta avaliação são aplicados operadores genéticos de forma a simularem a
sobrevivência do mais apto.
Classe predita
Matriz de confusão
Positiva Negativa
Positiva VP FN
Classe original
Negativa FP VN
OBJETIVOS DE VALIDAÇÃO
Avaliação e comparação de algoritmos
Validação das estruturas encontradas
CRITÉRIOS DE VALIDAÇÃO
Relativos Internos Externos
NOTAÇÃO
CRITÉRIOS RELATIVOS
CRITÉRIOS INTERNOS
CRITÉRIOS EXTERNOS