Escolar Documentos
Profissional Documentos
Cultura Documentos
Conceitos e Definições
Os diversos sistemas de AM Introdução
possuem características
particulares e comuns que Hierarquia do Aprendizado
possibilitam sua classificação
quanto à linguagem de descrição, Paradigmas de Aprendizado
modo, paradigma e forma de
aprendizado utilizados AM: Conceitos e Definições
Algumas dessas características, Linguagens de Descrição
conceitos introdutórios e
definições são introduzidos nesta
aula, os quais são importantes
para a compreensão das aulas
subseqüentes
3 4
Com bico
Sem bico
Água Terra
5 6
1
Motivação (1) Motivação (2)
7 8
9 10
¯ ¯ ¯ ¯
2 ¯ ¯ 2 ¯ ¯
+ + Suponha um novo
¯ ¯ ¯ ¯
¯ + + ¯ + + cogumelo com
+ + W=3, H=1. Ele é
1 + + 1 + +? +
+ comestível ou
+ + + +
+ + venenoso?
+ + + +
+ + + +
1 2 3 4 W 1 2 3 4 W
(comprimento) (comprimento)
2
Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x
Venenosos Venenosos
H H
(altura) Suponha um novo (altura)
¯ ¯cogumelo com W=3, ¯ ¯
3 H=1. Ele é 3
¯ ¯ ¯ ¯
comestível ou
venenoso? A maioria Em geral, a
¯ ¯ das pessoas diria
¯ ¯ suposição principal
2 ¯ ¯ que é comestível, 2 ¯ ¯ em AM é que os
+ mas não há garantias + objetos que parecem
¯ ¯ que o cogumelo seja ¯ ¯ similares de alguma
¯ + + realmente ¯ + + forma também
+ +
1 + ++ + comestível. Assim 1 + ++ + pertencem à mesma
+ esta classificação é + classe
+ +
+ + apenas uma hipótese + +
+ + + +
+ +
1 2 3 4 W 1 2 3 4 W
(comprimento) (comprimento)
2 ¯ ¯ else if H>6-W
2 ¯ ¯ else if H>6-W
then venenoso then venenoso
else comestível else comestível
+ +
¯ ¯ ¯ ¯
¯ + + ¯ + + Hipótese 3:
+ +
1 + + 1 + + if H< 3-(W-3)2
+ + then comestível
+ + + + else venenoso
+ + + +
+ + + +
+ +
1 2 3 4 W 1 2 3 4 W
(comprimento) (comprimento)
3
Aprendizado de Máquina Conteúdo
(Simon, 1983): Introdução
“Aprender implica em alterações no sistema que são
adaptativas, no sentido que elas capacitam o sistema a Hierarquia do Aprendizado
realizar a mesma tarefa, ou tarefas provenientes da
mesma população, de forma mais eficiente e eficaz na Paradigmas de Aprendizado
próxima vez”
(Weiss & Kulikowski, 1991)
AM: Conceitos e Definições
“Um sistema de aprendizado [supervisionado] é um Linguagens de Descrição
programa de computador que toma decisões baseadas
na experiência contida em exemplos solucionados com
sucesso”
(Russel & Norvig 1995)
“...todo aprendizado pode ser visto como o aprendizado
de uma função”
19 20
Aprendizado 60
46
male
fem
130
138
true
true
1.4
0
up
flat
1
0
sick
buff
não Especificação 43 male 110 fal 0 up 0 buff
Aprendizado
Supervisionado Exemplos 58 male 120 fal 1.8 flat 0 sick
Supervisionado Brutos
do Problema 55
41
male
male
160
120
true
fal
0.8
0
flat
up
1
0
sick
buff
de Máquina
Os rótulos 52 male 172 fal 0.5 up 0 buff
assumem 62
43
fem
male
138
120
fal
true
1.9
2.5
flat
flat
3
0
sick
sick Hipótese
valores discretos 47 male 110 true 1 flat 1 sick
56 male 130 true 0.6 flat 1 sick
Os rótulos Exemplos
assumem
valores contínuos
Classificação Regressão
Avaliação
21 22
X1 X2 X3 X4 X5 X6 X7 Y X1 X2 X3 X4 X5 X6 X7 Y
53 male 140 true 3.1 down 0 sick 53 male 140 true 3.1 down 0 sick
60 male 140 fal 3 flat 0 sick 60 male 140 fal 3 flat 0 sick
40 male 140 true 1.4 up 0 buff 40 male 140 true 1.4 up 0 buff
57 male 165 fal 1 flat 3 sick 57 male 165 fal 1 flat 3 sick
60 male 130 true 1.4 up 1 sick 60 male 130 true 1.4 up 1 sick
46 fem 138 true 0 flat 0 buff 46 fem 138 true 0 flat 0 buff
Especificação 43 male 110 fal 0 up 0 buff
Aprendizado Especificação 43 male 110 fal 0 up 0 buff
Aprendizado
Exemplos 58 male 120 fal 1.8 flat 0 sick Exemplos 58 male 120 fal 1.8 flat 0 sick
do Problema 55 male 160 true 0.8 flat 1 sick de Máquina do Problema 55 male 160 true 0.8 flat 1 sick de Máquina
Brutos 41 male 120 fal 0 up 0 buff Brutos 41 male 120 fal 0 up 0 buff
52 male 172 fal 0.5 up 0 buff 52 male 172 fal 0.5 up 0 buff
62 fem 138 fal 1.9 flat 3 sick 62 fem 138 fal 1.9 flat 3 sick
43 male 120 true 2.5 flat 0 sick Hipótese 43 male 120 true 2.5 flat 0 sick Hipótese
47 male 110 true 1 flat 1 sick 47 male 110 true 1 flat 1 sick
56 male 130 true 0.6 flat 1 sick 56 male 130 true 0.6 flat 1 sick
Avaliação Avaliação
23 24
4
Aprendizado de Máquina Categorias de Sistemas de Aprendizado
Em AM
Conhecimento
Especialista
Conhecimento
Supervisionado, a Não Simbólico ou Caixa-preta
hipótese é
do Domínio do Domínio
normalmente Não facilmente interpretado por humanos
chamada de Desenvolve sua própria representação de conceitos
classificador
Não fornece esclarecimento ou explicação sobre o processo de
X1
53
X2
male
X3
140
X4
true
X5
3.1
X6
down
X7
0
Y
sick classificação
60 male 140 fal 3 flat 0 sick
Exemplos Especificação 43
58
male
male
110
120
fal
fal
0
1.8
up
flat
0
0
buff
sick
Aprendizado Cria estruturas simbólicas que podem ser compreendidas por
do Problema de Máquina
Brutos
55
41
male
male
160
120
true
fal
0.8
0
flat
up
1
0
sick
buff seres humanos
52 male 172 fal 0.5 up 0 buff
62
43
47
fem
male
male
138
120
110
fal
true
true
1.9
2.5
1
flat
flat
flat
3
0
1
sick
sick
sick
Hipótese ”Os resultados da indução devem ser descrições simbólicas das
56 male 130 true 0.6 flat 1 sick
entidades dadas... devem ser compreensíveis como simples
Menos Exemplos Mais ‘pedaços’ de informação, diretamente interpretáveis em linguagem
Compacto Compacto
(específico) (genérico)
natural...” (Michalski 1983a)
Avaliação
25 26
Exemplo Conteúdo
Exercise
true
induced angina
false
Introdução
Trestbps
Number of
Hierarquia do Aprendizado
vessels colored
sick Sex
male female
sick healthy
5
Paradigmas de AM Paradigma Simbólico
Paradigma Instance-
Instance-Based Paradigma Conexionista
Uma forma de classificar um exemplo é lembrar de outro similar cuja Redes Neurais são construções matemáticas
classe é conhecida e assumir que o novo exemplo terá a mesma simplificadas inspiradas no modelo biológico do sistema
classe
nervoso
Essa filosofia exemplifica os sistemas baseados em exemplos, que
classificam exemplos nunca vistos através de exemplos similares A representação de uma Rede Neural envolve unidades
conhecidos altamente interconectadas e, por esse motivo, o nome
Esse tipo de sistema de aprendizado é denominado preguiçoso conexionismo é utilizado para descrever a área de estudo
(lazy) A metáfora biológica com as conexões neurais do sistema
Sistemas lazy necessitam manter os exemplos na memória para nervoso tem interessado muitos pesquisadores e tem
classificar novos exemplos, em oposição aos sistemas gulosos
(eager), que utilizam os exemplos para induzir o modelo, fornecido muitas discussões sobre os méritos e as
descartando-os logo após limitações dessa abordagem de aprendizado
Assim, saber quais exemplos de treinamento devem ser Em particular, as analogias com a biologia têm levado
memorizados por um indutor lazy é muito importante muitos pesquisadores a acreditar que as Redes Neurais
O ideal é reter apenas aqueles mais representativos do problema possuem um grande potencial na resolução de problemas
Os algoritmos mais conhecidos neste paradigma são os de Vizinhos que requerem intenso processamento sensorial humano,
mais Próximos (Nearest Neighbours) e Raciocínio Baseado em tais como visão e reconhecimento de voz
Casos (Case Based Reasoning)
33 34
6
Conteúdo Indutor
37 38
39 40
7
Atributo Tipos de Atributos
O domínio (conjunto de valores que um Nominal (ou discreto ou categórico), quando o atributo
assume valores em um conjunto finito, sendo que alguns
atributo pode assumir) do atributo Xi é indutores podem também aceitar uma subdivisão entre os
indicado por dom(Xi) atributos nominais:
Ordenado: o domínio é ordenado, mas a diferença absoluta dos
Exemplo valores é desconhecida (e.g. escala de temperatura: baixa, média,
alta ou severidade de um machucado)
Atributo sexo; dom(sexo) = {m, f} Não-ordenado: não existe uma ordem entre os valores (e.g., cor:
vermelho, verde, azul; ocupação; estado civil, raça)
Atributo cor; dom(cor) = {verde, vermelho,...} Contínuo (ou numérico ou real), quando o domínio é
Atributo temperatura; dom(temperatura) = ordenado e pode ser representado por um valor real (e.g.,
{baixa, média, alta} peso ∈ ℜ, um número real)
Atributo peso; dom(peso) = {∀w : w ∈ ℜ+}
43 44
Atributo Atributo
Para qualquer tipo de atributo, usualmente existe Um outro símbolo especial, mesmo não
também um símbolo importante que significa sendo reconhecido por vários indutores, é o
desconhecido, ou seja, a ausência de um valor não-se-aplica
para aquele atributo
Este símbolo especial é bem diferente, por
Por exemplo, para o atributo número de
exemplo, do valor zero (às vezes usado para gestações, pode ser utilizado o símbolo
números) ou de cadeias de caracteres vazias não-se-aplica caso o paciente seja do
Na maioria dos indutores disponíveis, este valor é sexo masculino
representado por um ponto de interrogação ? Em geral, este símbolo é representado por
um ponto de exclamação !
45 46
47 48
8
Classe Conjunto de Exemplos (Dataset
(Dataset))
No aprendizado supervisionado todo exemplo No Aprendizado No Aprendizado Não
Supervisionado, cada exemplo Supervisionado, cada exemplo
possui um atributo especial, o rótulo ou classe, é rotulado segundo sua classe não possui classe associada
que descreve o fenômeno de interesse, isto é, a
meta que se deseja aprender e poder fazer m Atributos Classe m Atributos
previsões a respeito
Um exemplo não-rotulado consiste do exemplo,
exceto o rótulo, ou seja, um vetor de valores dos
atributos n n
Os rótulos são tipicamente pertencentes a um Exemplos Exemplos
9
Conjuntos de Exemplos Erro Aparente
Após induzir uma hipótese, é possível avaliá-la no
conjunto de treinamento bem como no conjunto de teste
É usual denominar as medidas de desempenho de um
classificador efetuadas sobre o conjunto de treinamento Conjunto
como aparentes (também conhecidas como medidas de de Treinamento
re-substituição) e as medidas efetuadas sobre o
conjunto de teste como medidas reais (ou verdadeiras)
Por exemplo, caso a medida seja o erro, pode-se ter o
erro aparente e o erro verdadeiro Indutor
Para a maioria das hipóteses, a medida aparente é um
estimador ruim do seu desempenho futuro, uma vez que
ela tem a tendência de possuir um bias otimista Taxa de
Conjunto
Em geral, o erro calculado sobre o conjunto de exemplos de h Erro (Aparente)
de Teste
treinamento (erro aparente) é menor que o erro calculado sobre o do Classificador
conjunto de exemplos de teste (erro verdadeiro)
55 56
10
Classificador Classificador
(a) (b)
(a) (b)
(c) (d)
(c) (d)
63 64
Bias Variância
Qualquer critério de preferência de uma hipótese Mede quanto as suposições do algoritmo
sobre outra (além da consistência com os da aprendizado variam para diferentes
exemplos) conjuntos de treinamento
Maiores detalhes serão vistos nas
(a) (b) próximas aulas
(c) (d)
65 66
11
Estabilidade Estabilidade
Um indutor é instável se uma pequena Um indutor é estável se o classificador gerado
perturbação (variação) no conjunto de não muda muito caso os exemplos de
treinamento pode causar modificação no treinamento se alterem
classificador gerado Há sempre um trade-off entre bias e variância:
indutores instáveis, em geral, geram classificadores
Por exemplo: com alta variância mas com pequeno bias
FSS em regressão indutores estáveis, em geral, geram classificadores
árvores de decisão com baixa variância mas com alto bias
redes neurais
Indutores instáveis possuem alta variância
67 68
69 70
+ +
8 8
o + o +
o o + o o +
o o
o o o
o o + o o o
o o +
o o o o
4
o o
o +
+
+ 4
o o
* o +
+
+
o o + o o +
o o o o
o + + o + +
2.5 5 X1 2.5 5 X1
71 72
12
Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo
Induzindo uma Árvore de Decisão
Renda
Assuma o seguinte conjunto de exemplos sobre exemplos
de crédito bancário
73 74
14 - Ruim
0 - Bom
Idade Idade
Ruim Ruim
Bom Bom
75 76
Idade Idade
Ruim Ruim
Bom Bom
77 78
13
Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo
Induzindo uma Árvore de Decisão Induzindo uma Árvore de Decisão
Renda Renda
Idade Idade
Ruim Ruim
Bom Bom
79 80
81 82
83 84
14
Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo
Induzindo uma Árvore de Decisão Induzindo uma Árvore de Decisão
Renda Renda
Quantidade de exemplos
H3 H4
89 Idade Idade 90
15
Qual a Melhor Hipótese?
H4...
Não Esquecer o Erro...
Conjunto Renda
de Treinamento
Indutor
Conjunto Taxa de
h Erro (Verdadeira)
de Teste
do Classificador
Idade
91 92
Erro de H4 Erro de H1
Idade Idade
93 94
Overfitting Underfitting
A hipótese extraída a partir dos exemplos é muito A hipótese induzida apresenta um
específica para o conjunto de treinamento
A hipótese apresenta um bom desempenho para o conjunto de
desempenho ruim tanto no conjunto de
treinamento, mas um desempenho ruim para os casos fora desse treinamento como de teste
conjunto
poucos exemplos representativos foram dados
X2 Hipótese
induzida ao sistema de aprendizado (e.g. algoritmos de
8 árvores de decisão ou de indução de regras)
o + + +
o o
o
+
+ + +
o o usuário pré-definiu um tamanho muito
o + + o
4 o
o
+ +
+
o Novos exemplos pequeno para o classificador (e.g. insuficientes
o + o fora do conjunto
o
o
o + + o neurônios em uma rede neural ou um alto valor
o o de treinamento
o
o de poda para árvores de decisão)
2.5 5 X1
95 96
16
Relação entre o Tamanho do Relação entre o Tamanho do
Classificador e o Erro Classificador e o Erro
Erro Erro
Underfitting
N1 N2 N3 N1 N2 N3
Tamanho do Classificador Tamanho do Classificador
97 98
+ +
consistência, se classifica corretamente os o
o
+ + + + o
o
+ + + +
+ + + +
exemplos o
+
+ +
+ + (a)
o
+
+ +
+ + (b)
o + o +
completude, se classifica todos os exemplos Completa e consistente X1 Incompleta e consistente X1
X2 * ** X2 * **
o o
o o
o o o * * * o o
o o o * * *
o o
o * * * * o * * * *
o o o o
o o
o o + + o o + +
o o o o
o + + o + +
+ +
o + + + o + + +
o + o +
+ + + + + +
o + o +
o + + +
+ (c) o + + +
+ (d)
99 Completa e inconsistente X1 Incompleta e inconsistente X1 100
Complexo Regra
É uma conjunção de disjunções dos atributos de Uma regra assume a forma if L then R que é
teste, na forma: equivalente a L → R ≡ R ← L ≡ R :- L
Xi op valor As partes esquerda L e direita R são complexos
onde Xi é um atributo, op é um operador sem atributos comuns entre eles, ou seja
atributos(L) ∩ atributos(R) = Ø
relacional e valor é constante válida para o
atributo Xi A parte esquerda L é denominada condição,
premissa, antecedente, cauda ou corpo da
Exemplos regra
Sexo = Masculino
A parte direita R é denominada conclusão ou
Idade >= 20 cabeça da regra
Sexo = Feminino and Idade < 90
101 102
17
Regra de Classificação Regra de Associação
Uma regra de classificação assume a Uma regra de associação assume que não
forma restrita de uma regra existe uma definição explícita de classe e
if L then classe = Ci qualquer atributo (ou atributos) pode ser
ou simplesmente usado como parte da conclusão da regra
if L then Ci Exemplo
onde Ci pertence ao conjunto de k valores if X3='S' and X5 > 2 then X1='N‘ and X2<1
de classe {C1, C2, ..., Ck}
A parte esquerda L é um complexo
103 104
Cobertura Conteúdo
Seja regra L → R
Exemplos que satisfazem a parte L da regra são cobertos pela
Introdução
regra (ou a regra dispara para esses exemplos)
Exemplos que satisfazem tanto a condição L como a conclusão R Hierarquia do Aprendizado
são cobertos corretamente pela regra
Exemplos satisfazendo a condição L mas não a conclusão R são Paradigmas de Aprendizado
cobertos incorretamente pela regra
Exemplos que não satisfazem a condição L não são cobertos AM: Conceitos e Definições
pela regra
Linguagens de Descrição
Exemplos
são...
satisfazendo...
¬L Não cobertos pela regra
L Cobertos pela regra
L∧R Cobertos corretamente pela regra
L ∧ ¬R Cobertos incorretamente pela regra
105 106
18
Linguagens de Descrição de Alguns
Linguagens de Descrição
Indutores
Lógica de 1ª ordem ou Relacional
Pode representar objetos como predicados que especificam
propriedades ou relações
Cláusulas de Horn são um exemplo
Ex: Indutor IDL HDL BDL
macho(X) ∧ progenitor(Z,X) ∧ progenitor(Z,Y) → irmão(X,Y) C4.5 Atributo Atributo
ou CART Atributo Atributo
irmão(X,Y) ← macho(X) ∧ progenitor(Z,X) ∧ progenitor(Z,Y) CN2 Atributo Atributo
ou Ripper Atributo Atributo Atributo
irmão(X,Y) :- macho(X), progenitor(Z,X), progenitor(Z,Y) Foil Atributo Primeira Ordem Primeira Ordem
Lógica de 2ª ordem Rede Neural Atributo Função Matemática
Extensão da lógica de primeira ordem, em que os predicados podem ser
considerados como variáveis
Ex:
P1(X,Y) :- P2(X), P3(Z,X), P4(Z,Y)
pode ser instanciado com:
irmão(X,Y) :- macho(X), progenitor(Z,X), progenitor(Z,Y)
Funções Matemáticas
109 110
111 112
60
50
Conhecimento
40
Esforço (%)
30 Informação
20
10
Dados
0
Determinação de Preparação de Aprendizado de Análise &
Objetivos Dados Máquina Assimilação
113 114
19
Dado, Informação, Conhecimento Importante Observar que...
Dado: é a estrutura fundamental sobre a qual um Dado não é Informação
sistema de informação é construído
Informação: a transformação de dados em
Informação não é Conhecimento
informação é freqüentemente realizada através
da apresentação dos dados em uma forma
compreensível ao usuário Conhecimento não é Inteligência
Conhecimento:
Fornece a capacidade de resolver problemas, inovar e Inteligência não é Sabedoria
aprender baseado em experiências prévias
Uma combinação de instintos, idéias, regras e
procedimentos que guiam as ações e decisões
115 116
Resumo
Nesta aula foram apresentados conceitos e definições de
alguns termos amplamente utilizados em Aprendizado de
Slides baseados no Capítulo 4 do livro:
Máquina, além de uma descrição sobre as principais
linguagens de descrição
A investigação de estruturas diferentes, que podem ser Rezende, S.O. (ed).
apropriadas para diferentes contextos, bem como o
entendimento do seu poder e limitação são necessários Sistemas Inteligentes, Manole, 2003,
para o uso com êxito de Aprendizado de Máquina
Quanto maior a compreensão sobre as estruturas
ISBN 85-204-1683-7
fundamentais usadas por classificadores, mais
adequadamente pode-se aplicar ou alterá-las com base
no conhecimento do domínio Material elaborado por
Além da compreensão dos algoritmos de AM, é José Augusto Baranauskas
igualmente importante poder avaliar seu desempenho, o Revisão 2007
que veremos nas próximas aulas
117 118
20