Escolar Documentos
Profissional Documentos
Cultura Documentos
• Frequência:
• Realizada diariamente – não alterável
• Ambiente Virtual: Moodle
• Avaliações:
• Av1: peso 3
• Av2: peso 4
• Seminários: peso 3
Objetivo da Disciplina
• Introdução ao aprendizado de
máquina e reconhecimento de
padrões. Aprendizado supervisionado
e não- supervisionado.
• Tarefas: Regressão, Classificação,
Agrupamento e Associação.
• Técnicas: Máquinas de Vetores de
Suporte, Indução de Árvores de
Decisão, Ensemble, Regras de
Associação e KNN
Bibliografia
Knowledge Discovery
in Databases –KDD Informação
O que é mineração de dados?
𝑓 ( 𝑥 ) =?
Capacidade humana é limitada em processar
muitos cálculos.
E SE os computadores pudessem aprender?
Aprendizado de
Máquina no Dia-a-Dia
O que pensamos sobre Aprendizado de
Máquinas?
Onde já usamos?
Inteligência Artificial
Um
programa
Aprendizado de Máquina
que pode
sentir,
raciocinar,
agir e
Algoritmos que
melhoram em função Tarefas e Técnicas
da quantidade de
adaptar-se dados (pregressos) Classificação Aprendizado
ao meio. em que são expostos. (Não)
Regressão Supervisionado
Aprendizado de Máquina
Experiência
Produção
Desempenho
Tarefas
Analisar os erros
Área em forte crescimento
• O Aprendizado de Máquina é a
abordagem preferida para:
• o reconhecimento de padrões;
• o processamento de linguagem
natural
• o visão computacional
• o diagnóstico automático
• o controle robótico
• o ....
Cuidados no Aprendizado
de Máquina:
Cuidado 1 – No Silver Bullet
Tarefas mais adequadas ao
problema
• Planejar como modelar o problema em
um problema de aprendizado de
máquina é uma etapa crucial
• Problemas podem ser modelados em
diferentes tarefas de aprendizado e de
diversas formas
• Um algoritmo apresenta melhores
resultados para um nicho de problemas
que para outros
Novo paradigma
Computador
Tradicional
Computador
que Aprende
Saída Programa
Visão Geral Experiências
Produção
Tarefas Desempenho
Analisar os erros
Cuidados no Aprendizado
de Máquina:
Cuidado 2 – Pré-Processamento
O que é uma base de dados?
Objetos/Amostras
1 ITA 100 3 3K
• cor dos olhos de uma pessoa, temperatura, etc. 2 CEN 50 2 1,5K
• Atributo é conhecido como uma variável, 3 CAM 70 3 2K
campo, dimensão ou perspectiva. 4 COI 50 2 1,2K
5 GY2 70 3 1,5K
• Objeto é também conhecido com um
.. .. ... ... ...
registro, ponto, caso, amostra, entidade, ou
10 URI 100 4 2,5
instância
Obter Treinar Avaliar Salvar o
Pré-processamento
Dados Modelo Modelo Modelo
Treinamento
Validação
Tipos de Dados
Técnicas Problemas
• Eliminação manual de atributos; • Dados de fontes distintas;
• Integração dos dados; • Inconsistências e redundâncias nos
• Amostragem dos dados dados;
(representatividade das amostras); • Escala dos dados;
• Balanceamento de dados; • Presença de ruídos nos dados;
• Limpeza de dados (ruído); • Erros na geração dos dados;
• Redução de dimensionalidade; • Quantidade de atributos.
• Transformação dos dados
Redução de dimensionalidade
• Cada documento
se torna um vetor
de termos
• Cada termo é
um componente
(atributo) de um
vetor
• O valor de cada
componente é o
número de vezes
em que ocorre
no documento
Cuidados no Aprendizado
de Máquina:
Cuidado 2.2 – Divisão dos Dados
Avaliação
Teste do
Modelo
Construção do
Modelo
Programa Saída
Overfitting x Underfitting
Conjunto para
Treino
Split
Treinamento
Teste
Validação
“Vazamento” de Dados
Treino – 2/3
Split
Teste
33%
Original Teste – 1/3
Validação Cruzada
Split
Exceção:
Médicos que levam em conta o sexo dos
pacientes
Correlação não infere causa