Você está na página 1de 20

Aprendizado de Máquina Conteúdo

Conceitos e Definições
‰ Os diversos sistemas de AM ‰Introdução
possuem características
particulares e comuns que ‰Hierarquia do Aprendizado
possibilitam sua classificação
quanto à linguagem de descrição, ‰Paradigmas de Aprendizado
modo, paradigma e forma de
aprendizado utilizados ‰AM: Conceitos e Definições
‰ Algumas dessas características, ‰Linguagens de Descrição
conceitos introdutórios e
definições são introduzidos nesta
aula, os quais são importantes
para a compreensão das aulas
subseqüentes

José Augusto Baranauskas augusto@usp.br


Departamento de Física e Matemática – FFCLRP-USP http://dfm.ffclrp.usp.br/~augusto
2

Aprendizado de Máquina (AM) Motivação (1)


‰Aprendizado de Máquina é uma área de IA cujo ‰Dado um conjunto de objetos, colocar os
objetivo é o desenvolvimento de técnicas objetos em grupos baseados na
computacionais sobre o aprendizado bem como a similaridade entre eles
construção de sistemas capazes de adquirir
conhecimento de forma automática
‰Um sistema de aprendizado é um programa de
computador que toma decisões baseado em
experiências acumuladas através da solução
bem sucedida de problemas anteriores

3 4

Motivação (1) Motivação (1)

‰Dado um conjunto de objetos, colocar os ‰Dado um conjunto de objetos, colocar os


objetos em grupos baseados na objetos em grupos baseados na
similaridade entre eles similaridade entre eles

Com bico

Sem bico

Água Terra
5 6

1
Motivação (1) Motivação (2)

‰Dado um conjunto de objetos, colocar os ‰Dados pares (x,f(x)), inferir f(·)


objetos em grupos baseados na
Dada uma amostra finita, é
similaridade entre eles x f(x)
freqüentemente impossível
1 1 determinar a verdadeira função f(·)
2 4
Ovíparo
3 9
Abordagem: Encontre uma hipótese
4 16 (modelo) nos exemplos de treinamento
Mamífero 5 ? e assuma que a hipótese se repita para
exemplos futuros também

7 8

Exemplo: Cogumelos Comestíveis x


Motivação (2)
Venenosos
x1 ‰ Um pesquisador foi a
x2 f = função y = f(x1, x2, x3, x4) campo e coletou diversos
x3 desconhecida cogumelos
x4
‰ Ao chegar em seu
Exemplo X1 X2 X3 X4 Y laboratório, ele mediu o
z1 0 1 1 0 0 comprimento e altura de
z2 0 0 0 0 0
z3 0 0 1 1 1 cada cogumelo
z4 1 0 0 1 1 ‰ Ele também classificou
z5 0 1 1 0 0
z6 1 1 0 0 0 cada cogumelo coletado
z7 0 1 0 1 0 como comestível ou
venenoso
‰ f: X1 × X2 × X3 × X4 → Y

9 10

Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x


Venenosos Venenosos
H H
(altura) (altura)
¯ ¯ ¯ ¯
3 3
¯ ¯ ¯ ¯

¯ ¯ ¯ ¯
2 ¯ ¯ 2 ¯ ¯
+ + Suponha um novo
¯ ¯ ¯ ¯
¯ + + ¯ + + cogumelo com
+ + W=3, H=1. Ele é
1 + + 1 + +? +
+ comestível ou
+ + + +
+ + venenoso?
+ + + +
+ + + +
1 2 3 4 W 1 2 3 4 W
(comprimento) (comprimento)

+ Comestível ¯ Venenoso + Comestível ¯ Venenoso


11 12

2
Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x
Venenosos Venenosos
H H
(altura) Suponha um novo (altura)
¯ ¯cogumelo com W=3, ¯ ¯
3 H=1. Ele é 3
¯ ¯ ¯ ¯
comestível ou
venenoso? A maioria Em geral, a
¯ ¯ das pessoas diria
¯ ¯ suposição principal
2 ¯ ¯ que é comestível, 2 ¯ ¯ em AM é que os
+ mas não há garantias + objetos que parecem
¯ ¯ que o cogumelo seja ¯ ¯ similares de alguma
¯ + + realmente ¯ + + forma também
+ +
1 + ++ + comestível. Assim 1 + ++ + pertencem à mesma
+ esta classificação é + classe
+ +
+ + apenas uma hipótese + +
+ + + +
+ +
1 2 3 4 W 1 2 3 4 W
(comprimento) (comprimento)

+ Comestível ¯ Venenoso + Comestível ¯ Venenoso


13 14

Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x


Venenosos Venenosos
Hipótese 1:
H ? H if 2<W and W<4 and H<2
(altura) (altura) then comestível
¯ ¯ ¯ ¯ else venenoso
3 3
¯ ¯ ¯ ¯
Pelo mesmo motivo
de similaridade, um
¯ ¯ cogumelo com W=5, ¯ ¯
2 ¯ ¯ H=4 seria 2 ¯ ¯
?
classificado como
+ venenoso.
+
¯ ¯ ¯ ¯
¯ + + Entretanto, é difícil ¯ + +
+ decidir sobre um +
1 + + 1 + +
+ cogumelo com W=2, +
+ + + +
+ H=2. +
+ + + +
+ + + +
1 2 3 4 W 1 2 3 4 W
(comprimento) (comprimento)

+ Comestível ¯ Venenoso + Comestível ¯ Venenoso


15 16

Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x


Venenosos Venenosos
Hipótese 1: Hipótese 1:
H if 2<W and W<4 and H<2 H if 2<W and W<4 and H<2
(altura) then comestível (altura) then comestível
¯ ¯ else venenoso ¯ ¯ else venenoso
3 3
¯ ¯ ¯ ¯
Hipótese 2: Hipótese 2:
if H>W if H>W
¯ ¯ then venenoso ¯ ¯ then venenoso

2 ¯ ¯ else if H>6-W
2 ¯ ¯ else if H>6-W
then venenoso then venenoso
else comestível else comestível
+ +
¯ ¯ ¯ ¯
¯ + + ¯ + + Hipótese 3:
+ +
1 + + 1 + + if H< 3-(W-3)2
+ + then comestível
+ + + + else venenoso
+ + + +
+ + + +
+ +
1 2 3 4 W 1 2 3 4 W
(comprimento) (comprimento)

+ Comestível ¯ Venenoso + Comestível ¯ Venenoso


17 18

3
Aprendizado de Máquina Conteúdo
‰ (Simon, 1983): ‰Introdução
“Aprender implica em alterações no sistema que são
adaptativas, no sentido que elas capacitam o sistema a ‰Hierarquia do Aprendizado
realizar a mesma tarefa, ou tarefas provenientes da
mesma população, de forma mais eficiente e eficaz na ‰Paradigmas de Aprendizado
próxima vez”
‰ (Weiss & Kulikowski, 1991)
‰AM: Conceitos e Definições
“Um sistema de aprendizado [supervisionado] é um ‰Linguagens de Descrição
programa de computador que toma decisões baseadas
na experiência contida em exemplos solucionados com
sucesso”
‰ (Russel & Norvig 1995)
“...todo aprendizado pode ser visto como o aprendizado
de uma função”
19 20

Hierarquia do Aprendizado Aprendizado de Máquina


Efetuado a partir de Especialista
Conhecimento Conhecimento
exemplos externos Aprendizado do Domínio do Domínio
(coletados) Indutivo Exemplos
não rotulados
(não existe classe
Exemplos associada)
estão rotulados X1 X2 X3 X4 X5 X6 X7 Y
53 male 140 true 3.1 down 0 sick
(classe é 60 male 140 fal 3 flat 0 sick
40 male 140 true 1.4 up 0 buff
conhecida)
Aprendizado 57 male 165 fal 1 flat 3 sick

Aprendizado 60
46
male
fem
130
138
true
true
1.4
0
up
flat
1
0
sick
buff
não Especificação 43 male 110 fal 0 up 0 buff
Aprendizado
Supervisionado Exemplos 58 male 120 fal 1.8 flat 0 sick
Supervisionado Brutos
do Problema 55
41
male
male
160
120
true
fal
0.8
0
flat
up
1
0
sick
buff
de Máquina
Os rótulos 52 male 172 fal 0.5 up 0 buff
assumem 62
43
fem
male
138
120
fal
true
1.9
2.5
flat
flat
3
0
sick
sick Hipótese
valores discretos 47 male 110 true 1 flat 1 sick
56 male 130 true 0.6 flat 1 sick

Os rótulos Exemplos
assumem
valores contínuos
Classificação Regressão

Avaliação
21 22

Aprendizado de Máquina Aprendizado de Máquina


Pode ser usado
Pode para fornecer
Especialista ser usado Especialista informação já
Conhecimento Conhecimento ao selecionar Conhecimento Conhecimento
conhecida ao
do Domínio do Domínio os dados do Domínio do Domínio
Algoritmo de indutor
Aprendizado ou
Indutor

X1 X2 X3 X4 X5 X6 X7 Y X1 X2 X3 X4 X5 X6 X7 Y
53 male 140 true 3.1 down 0 sick 53 male 140 true 3.1 down 0 sick
60 male 140 fal 3 flat 0 sick 60 male 140 fal 3 flat 0 sick
40 male 140 true 1.4 up 0 buff 40 male 140 true 1.4 up 0 buff
57 male 165 fal 1 flat 3 sick 57 male 165 fal 1 flat 3 sick
60 male 130 true 1.4 up 1 sick 60 male 130 true 1.4 up 1 sick
46 fem 138 true 0 flat 0 buff 46 fem 138 true 0 flat 0 buff
Especificação 43 male 110 fal 0 up 0 buff
Aprendizado Especificação 43 male 110 fal 0 up 0 buff
Aprendizado
Exemplos 58 male 120 fal 1.8 flat 0 sick Exemplos 58 male 120 fal 1.8 flat 0 sick
do Problema 55 male 160 true 0.8 flat 1 sick de Máquina do Problema 55 male 160 true 0.8 flat 1 sick de Máquina
Brutos 41 male 120 fal 0 up 0 buff Brutos 41 male 120 fal 0 up 0 buff
52 male 172 fal 0.5 up 0 buff 52 male 172 fal 0.5 up 0 buff
62 fem 138 fal 1.9 flat 3 sick 62 fem 138 fal 1.9 flat 3 sick
43 male 120 true 2.5 flat 0 sick Hipótese 43 male 120 true 2.5 flat 0 sick Hipótese
47 male 110 true 1 flat 1 sick 47 male 110 true 1 flat 1 sick
56 male 130 true 0.6 flat 1 sick 56 male 130 true 0.6 flat 1 sick

Menos Exemplos Mais Menos Exemplos Mais


Compacto Compacto Compacto Compacto
(específico) (genérico) (específico) (genérico)

Avaliação Avaliação
23 24

4
Aprendizado de Máquina Categorias de Sistemas de Aprendizado
Em AM
Conhecimento
Especialista
Conhecimento
Supervisionado, a ‰ Não Simbólico ou Caixa-preta
hipótese é
do Domínio do Domínio
normalmente ƒ Não facilmente interpretado por humanos
chamada de ƒ Desenvolve sua própria representação de conceitos
classificador
ƒ Não fornece esclarecimento ou explicação sobre o processo de
X1
53
X2
male
X3
140
X4
true
X5
3.1
X6
down
X7
0
Y
sick classificação
60 male 140 fal 3 flat 0 sick

‰ Simbólico ou Orientado a conhecimento


40 male 140 true 1.4 up 0 buff
57 male 165 fal 1 flat 3 sick
60 male 130 true 1.4 up 1 sick
46 fem 138 true 0 flat 0 buff

Exemplos Especificação 43
58
male
male
110
120
fal
fal
0
1.8
up
flat
0
0
buff
sick
Aprendizado ƒ Cria estruturas simbólicas que podem ser compreendidas por
do Problema de Máquina
Brutos
55
41
male
male
160
120
true
fal
0.8
0
flat
up
1
0
sick
buff seres humanos
52 male 172 fal 0.5 up 0 buff
62
43
47
fem
male
male
138
120
110
fal
true
true
1.9
2.5
1
flat
flat
flat
3
0
1
sick
sick
sick
Hipótese ƒ ”Os resultados da indução devem ser descrições simbólicas das
56 male 130 true 0.6 flat 1 sick
entidades dadas... devem ser compreensíveis como simples
Menos Exemplos Mais ‘pedaços’ de informação, diretamente interpretáveis em linguagem
Compacto Compacto
(específico) (genérico)
natural...” (Michalski 1983a)

Avaliação
25 26

Categorias de Sistemas de Aprendizado AS x AnS


‰A distinção entre essas duas categorias pode ser ‰Aprendizado Supervisionado
formulada em termos dos critérios: ƒ Compreender o relacionamento entre os atributos e a
ƒ critério fraco: o sistema utiliza exemplos para gerar
subsídios para melhorar o desempenho com exemplos classe
posteriores (ex: redes neurais, métodos estatísticos) ƒ Predizer a classe de novos exemplos o melhor
ƒ critério forte: o critério fraco é satisfeito e além disso possível
o sistema é capaz de comunicar sua representação
interna na forma simbólica explicitamente ‰Aprendizado Não Supervisionado
ƒ critério ultra-forte: os critérios fraco e forte são ƒ Encontrar representações úteis dos exemplos, tais
satisfeitos; o sistema deve ser capaz de comunicar sua como:
representação interna na forma simbólica
explicitamente e esta pode ser usada por um humano ™Encontrar agrupamentos (clusters)
sem a ajuda de um computador (apenas usando seu ™Redução da dimensão
cérebro) ™Encontrar as causas ou as fontes ocultas dos exemplos
™Modelar a densidade dos exemplos
27 28

Exemplo Conteúdo
Exercise

true
induced angina

false
‰Introdução
Trestbps
Number of
‰Hierarquia do Aprendizado
vessels colored

<= 105 > 105 >0 <= 0 ‰Paradigmas de Aprendizado


healthy sick Slope healthy ‰AM: Conceitos e Definições
‰Linguagens de Descrição
flat or down up

sick Sex

male female

sick healthy

Parte da árvore de decisão induzida por C4.5 para o conjunto de exemplos


Cleveland heart disease
29 30

5
Paradigmas de AM Paradigma Simbólico

‰Simbólico ‰Os sistemas de aprendizado simbólico


‰Protótipo ou Memorização (Instance- buscam aprender construindo
Based) representações simbólicas de um conceito
‰Conexionista através da análise de exemplos e contra-
exemplos desse conceito
‰Genético
‰As representações simbólicas estão
‰Estatístico tipicamente na forma de alguma expressão
lógica tais como árvores de decisão, regras
ou redes semânticas
31 32

Paradigma Instance-
Instance-Based Paradigma Conexionista
‰ Uma forma de classificar um exemplo é lembrar de outro similar cuja ‰ Redes Neurais são construções matemáticas
classe é conhecida e assumir que o novo exemplo terá a mesma simplificadas inspiradas no modelo biológico do sistema
classe
nervoso
‰ Essa filosofia exemplifica os sistemas baseados em exemplos, que
classificam exemplos nunca vistos através de exemplos similares ‰ A representação de uma Rede Neural envolve unidades
conhecidos altamente interconectadas e, por esse motivo, o nome
‰ Esse tipo de sistema de aprendizado é denominado preguiçoso conexionismo é utilizado para descrever a área de estudo
(lazy) ‰ A metáfora biológica com as conexões neurais do sistema
‰ Sistemas lazy necessitam manter os exemplos na memória para nervoso tem interessado muitos pesquisadores e tem
classificar novos exemplos, em oposição aos sistemas gulosos
(eager), que utilizam os exemplos para induzir o modelo, fornecido muitas discussões sobre os méritos e as
descartando-os logo após limitações dessa abordagem de aprendizado
‰ Assim, saber quais exemplos de treinamento devem ser ‰ Em particular, as analogias com a biologia têm levado
memorizados por um indutor lazy é muito importante muitos pesquisadores a acreditar que as Redes Neurais
‰ O ideal é reter apenas aqueles mais representativos do problema possuem um grande potencial na resolução de problemas
‰ Os algoritmos mais conhecidos neste paradigma são os de Vizinhos que requerem intenso processamento sensorial humano,
mais Próximos (Nearest Neighbours) e Raciocínio Baseado em tais como visão e reconhecimento de voz
Casos (Case Based Reasoning)
33 34

Paradigma Genético Paradigma Estatístico


‰ Este paradigma de aprendizado é derivado do modelo ‰ Pesquisadores em estatística têm criado diversos métodos de
evolucionário de aprendizado classificação, muitos deles semelhantes aos métodos posteriormente
desenvolvidos pela comunidade de Aprendizado de Máquina
‰ Um classificador genético consiste de uma população de
elementos de classificação que competem para fazer a ‰ A idéia geral consiste em utilizar modelos estatísticos para encontrar
predição uma boa aproximação do conceito induzido
‰ Vários desses métodos são paramétricos, assumindo alguma forma
‰ Elementos que possuem um desempenho ruim são de modelo, e então encontrando valores apropriados para os
descartados, enquanto os elementos mais fortes proliferam, parâmetros do modelo a partir dos exemplos
produzindo variações de si mesmos ‰ Por exemplo, um classificador linear assume que as classes podem
‰ Este paradigma possui uma analogia direta com a teoria de ser expressas como combinação linear dos valores dos atributos, e
Darwin, na qual sobrevivem os mais bem adaptados ao então procura uma combinação linear particular que fornece a melhor
ambiente aproximação sobre o conjunto de exemplos
‰ Alguns operadores genéticos básicos que aplicados a ‰ Dentre os métodos estatísticos, destacam-se os de aprendizado
população geram novos indivíduos são: Reprodução, Bayesiano, que utilizam um modelo probabilístico baseado no
Cruzamento, Mutação e Inversão conhecimento prévio do problema, o qual é combinado com os
exemplos de treinamento para determinar a probabilidade final de
‰ Esses operadores atuam no controle da quantidade de cópias uma hipótese
produzidas de um indivíduo, na troca de material genético, na
preservação de uma espécie e na manutenção de uma certa
diversidade na nova população 35 36

6
Conteúdo Indutor

‰Introdução ‰Programa que gera uma hipótese


‰Hierarquia do Aprendizado (classificador) a partir de um conjunto de
‰Paradigmas de Aprendizado exemplos
‰AM: Conceitos e Definições Indutor
‰Linguagens de Descrição Conjunto de
Classificador
Exemplos
ou
Dataset

37 38

Indutor Argumentos Dedutivos x Indutivos

‰ Informalmente, o objetivo de um indutor (ou algoritmo de


aprendizado ou algoritmo de indução) consiste em extrair
um bom classificador a partir de um conjunto de exemplos Argumentos Dedutivos Argumentos Indutivos
rotulados Se todas as premissas são Se todas as premissas são verdadeiras, a
‰ A saída do indutor, o classificador, pode então ser usada verdadeiras então a conclusão conclusão é provavelmente verdadeira, mas
para classificar exemplos novos (ainda não rotulados) é verdadeira não necessariamente verdadeira (à exceção
com a meta de predizer corretamente o rótulo de cada um dos argumentos matemáticos indutivos)
Toda a informação do A conclusão contém informação que não está
‰ Após isso, o classificador pode ser avaliado considerando conteúdo factual da conclusão implicitamente ou explicitamente nas
sua precisão, compreensibilidade ou grau de interesse, já está, pelo menos premissas
velocidade de aprendizado, requisitos de implicitamente, nas premissas
armazenamento, grau de compactação ou qualquer outra
propriedade desejável que determine quão bom e
apropriado ele é para a tarefa em questão
Argumentos indutivos preservam falsidade

39 40

Argumentos Dedutivos x Indutivos Exemplo, Atributo & Classe

‰Um exemplo de dedução: ‰Exemplo


ƒ Exemplo, caso ou registro (instance)
ƒ Alguém diz a você “Todas as maçãs são ƒ É um conjunto fixo de atributos
vermelhas”. A seguir, uma pessoa lhe dá uma ƒ Um exemplo descreve o objeto de interesse, tal como
maçã. Você infere que ela é vermelha um paciente, exemplos médicos sobre uma
determinada doença ou histórico de clientes de uma
‰Um exemplo de indução: dada companhia
‰Atributo
ƒ Você vê 5 maçãs vermelhas. Você conclui
ƒ Atributo ou campo (feature)
“Todas as maçãs são vermelhas” ƒ Uma única característica de um exemplo
ƒ Suponha que você olhe com mais cuidado as ‰Classe
maçãs e perceba que uma dela é de cor ƒ Atributo especial que descreve o fenômeno de
interesse (somente no Aprendizado Supervisionado)
laranja. Isto falsifica sua conclusão (hipótese)
41 42

7
Atributo Tipos de Atributos

‰O domínio (conjunto de valores que um ‰ Nominal (ou discreto ou categórico), quando o atributo
assume valores em um conjunto finito, sendo que alguns
atributo pode assumir) do atributo Xi é indutores podem também aceitar uma subdivisão entre os
indicado por dom(Xi) atributos nominais:
ƒ Ordenado: o domínio é ordenado, mas a diferença absoluta dos
‰Exemplo valores é desconhecida (e.g. escala de temperatura: baixa, média,
alta ou severidade de um machucado)
ƒ Atributo sexo; dom(sexo) = {m, f} ƒ Não-ordenado: não existe uma ordem entre os valores (e.g., cor:
vermelho, verde, azul; ocupação; estado civil, raça)
ƒ Atributo cor; dom(cor) = {verde, vermelho,...} ‰ Contínuo (ou numérico ou real), quando o domínio é
ƒ Atributo temperatura; dom(temperatura) = ordenado e pode ser representado por um valor real (e.g.,
{baixa, média, alta} peso ∈ ℜ, um número real)
ƒ Atributo peso; dom(peso) = {∀w : w ∈ ℜ+}

43 44

Atributo Atributo
‰Para qualquer tipo de atributo, usualmente existe ‰Um outro símbolo especial, mesmo não
também um símbolo importante que significa sendo reconhecido por vários indutores, é o
desconhecido, ou seja, a ausência de um valor não-se-aplica
para aquele atributo
‰Este símbolo especial é bem diferente, por
‰Por exemplo, para o atributo número de
exemplo, do valor zero (às vezes usado para gestações, pode ser utilizado o símbolo
números) ou de cadeias de caracteres vazias não-se-aplica caso o paciente seja do
‰Na maioria dos indutores disponíveis, este valor é sexo masculino
representado por um ponto de interrogação ? ‰Em geral, este símbolo é representado por
um ponto de exclamação !
45 46

Atributo Escolha de Atributos


‰Além disso, vários indutores assumem que os ‰ Um ponto importante a ser considerado é a escolha de
atributos com boa capacidade preditiva
atributos originais que descrevem os exemplos ‰ Não importa qual método seja empregado, os conceitos
são relevantes o suficiente para aprender a que podem ser aprendidos estão à mercê dos exemplos e
tarefa em questão da qualidade dos atributos
‰ Por exemplo, para a tarefa de determinar se uma pessoa
‰Entretanto, alguns atributos podem não ser está ou não com gripe, pode-se escolher atributos com
diretamente relevantes e outros até irrelevantes baixo poder preditivo, tais como
ƒ (cor-do-cabelo, cor-do-olho, modelo-do-carro, número-de-filhos)
‰Um atributo é irrelevante se existe uma descrição ‰ ou atributos com alto poder preditivo, tais como
completa e consistente das classes a serem ƒ (temperatura, resistência-da-pele, exame-do-pulmão)
‰ Para esta tarefa específica, no segundo caso, melhores
aprendidas que não usa aquele atributo previsões em exemplos não-rotulados provavelmente
ocorrerão do que com o primeiro conjunto de atributos

47 48

8
Classe Conjunto de Exemplos (Dataset
(Dataset))
‰No aprendizado supervisionado todo exemplo ‰ No Aprendizado ‰ No Aprendizado Não
Supervisionado, cada exemplo Supervisionado, cada exemplo
possui um atributo especial, o rótulo ou classe, é rotulado segundo sua classe não possui classe associada
que descreve o fenômeno de interesse, isto é, a
meta que se deseja aprender e poder fazer m Atributos Classe m Atributos
previsões a respeito
‰Um exemplo não-rotulado consiste do exemplo,
exceto o rótulo, ou seja, um vetor de valores dos
atributos n n
‰Os rótulos são tipicamente pertencentes a um Exemplos Exemplos

conjunto discreto (nominal) de classes {C1, C2, ...,


Ck} no caso de classificação ou de valores reais
no caso de regressão
k valores distintos
49 50

Exemplo de um Conjunto de Exemplo de um Conjunto de


Exemplos para Classificação Exemplos para Regressão
‰ Dez exemplos (n=10) Idade Veículo Classe ‰ Dez exemplos (n=10) Idade Veículo Despesa
‰ Duas classes (k=2): Sim; 20 V Sim ‰ Dois atributos (m=2): 20 V $200
Não 30 V Sim Idade e tipo de veículo 30 V $150
Dois atributos (m=2): 25 C Não (Esporte, Van, Caminhão)
‰ 25 C $300
ƒ Idade é ordenado 30 E Sim ‰ Despesa indica quanto a
30 E $220
ƒ Tipo de Veículo é pessoa gastou durante
categórico (Esporte, Van,
40 E Sim 40 E $400
uma visita recente à
Caminhão) 20 C Não concessionária 20 C $80
‰ Rótulo da classe indica se 30 V Sim ‰ Atributo dependente 30 V $100
a pessoa comprou o 25 V Sim (classe) é numérico 25 V $125
produto 40 V Sim
Atributo dependente
40 V $500
‰ 20 E Não
(classe) é categórico 20 E $420
51 52

Exemplo de um Conjunto de Exemplos


para Aprendizado Não Supervisionado
Conjuntos de Exemplos
‰ Dez exemplos (n=10) Idade Veículo Cor ‰Em geral, um conjunto de exemplos é dividido em
‰ Três atributos (m=3): 20 V preto dois subconjuntos disjuntos:
Idade, tipo de veículo 30 V verde ƒ conjunto de treinamento que é usado para o
(Esporte, Van, 25 C azul aprendizado do conceito e o
Caminhão) e cor do 30 E branco ƒ conjunto de teste que é usado para medir o grau de
40 E azul efetividade do conceito aprendido
veículo
20 C preto ‰Os subconjuntos são disjuntos para assegurar
‰ Neste caso, não há
30 V branco que as medidas obtidas utilizando o conjunto de
associação explícita
25 V azul teste sejam de um conjunto diferente do usado
de algum atributo com
40 V Verde para realizar o aprendizado, tornando a medida
uma determinada
20 E azul estatisticamente válida
classe
53 54

9
Conjuntos de Exemplos Erro Aparente
‰ Após induzir uma hipótese, é possível avaliá-la no
conjunto de treinamento bem como no conjunto de teste
‰ É usual denominar as medidas de desempenho de um
classificador efetuadas sobre o conjunto de treinamento Conjunto
como aparentes (também conhecidas como medidas de de Treinamento
re-substituição) e as medidas efetuadas sobre o
conjunto de teste como medidas reais (ou verdadeiras)
‰ Por exemplo, caso a medida seja o erro, pode-se ter o
erro aparente e o erro verdadeiro Indutor
‰ Para a maioria das hipóteses, a medida aparente é um
estimador ruim do seu desempenho futuro, uma vez que
ela tem a tendência de possuir um bias otimista Taxa de
Conjunto
ƒ Em geral, o erro calculado sobre o conjunto de exemplos de h Erro (Aparente)
de Teste
treinamento (erro aparente) é menor que o erro calculado sobre o do Classificador
conjunto de exemplos de teste (erro verdadeiro)

55 56

Erro Verdadeiro Preparação de Dados

‰Fase que antecede o processo de


aprendizagem, para facilitar ou melhorar o
Conjunto
de Treinamento
processo.
‰Exemplos:
ƒ remover exemplos incorretos
Indutor
ƒ transformar o formato dos exemplos para que
possam ser usados com um determinado
Conjunto h
Taxa de
Erro (Verdadeira)
indutor
de Teste
do Classificador
ƒ selecionar um subconjunto de atributos
relevantes (FSS – Feature Subset Selection)
57 58

Conhecimento do Domínio Ruído


‰Background Knowledge ‰Exemplos imperfeitos que podem ser derivados
‰Informação sobre valores válidos de um atributo do processo de aquisição, transformação ou
‰Critérios para escolher atributos rotulação das classes
‰Critérios para escolher hipóteses ‰Ex: exemplos com os mesmos atributos mas com
X 1 X X X
2 3Y 4
classes diferentes overcast 19 65 yes dont_go
‰Restrições no relacionamento dos atributos rain
rain
19
23
70
80
yes
yes
dont_go
dont_go
sunny 23 95 no dont_go
‰Regras para geração de conceitos de nível mais sunny 28 91 yes dont_go
sunny 30 85 no dont_go
alto overcast 19 65 yes go
rain 21 80 no go
‰Construção de novos atributos derivados dos rain
sunny
22
22
95
70
no
no
go
go
atributos originais overcast
rain
23
25
90
81
yes
no
go
go
sunny 25 72 yes go
overcast 26 75 no go
overcast 29 78 no go
59 60

10
Classificador Classificador

‰Dado um conjunto de exemplos, o ‰ Dado um conjunto de treinamento, um indutor gera como


saída um classificador (hipótese ou descrição de
classificador é a saída do indutor conceito) de forma que, dado um novo exemplo, ele
possa predizer precisamente sua classe
‰ Cada exemplo é um par (x, f(x)), onde
ƒ x é a entrada
Indutor ƒ f(x) é a saída (f desconhecida!)
Classificador ƒ y=f(x) assume valores discretos y ∈ {C1, C2,…,Ck}: classificação
Conjunto de
ƒ y=f(x) assume valores reais: regressão
Exemplos
ou ‰ Indução ou inferência indutiva: dada uma coleção de
Dataset exemplos de f(·), retornar uma função h(·) que aproxima
f(·), ou seja, h(x) ≅ f(x)
‰ h(·) é denominada uma hipótese sobre a função objetivo
f(·)
61 62

Exemplos de Hipóteses Exemplos de Hipóteses

‰(a) exemplos originais ‰Qual a melhor hipótese para os exemplos


‰(b), (c), (d) possíveis hipóteses em (a)?

(a) (b)
(a) (b)

(c) (d)

(c) (d)

63 64

Bias Variância
‰Qualquer critério de preferência de uma hipótese ‰Mede quanto as suposições do algoritmo
sobre outra (além da consistência com os da aprendizado variam para diferentes
exemplos) conjuntos de treinamento
‰Maiores detalhes serão vistos nas
(a) (b) próximas aulas

(c) (d)

65 66

11
Estabilidade Estabilidade

‰Um indutor é instável se uma pequena ‰Um indutor é estável se o classificador gerado
perturbação (variação) no conjunto de não muda muito caso os exemplos de
treinamento pode causar modificação no treinamento se alterem
classificador gerado ‰Há sempre um trade-off entre bias e variância:
ƒ indutores instáveis, em geral, geram classificadores
‰Por exemplo: com alta variância mas com pequeno bias
ƒ FSS em regressão ƒ indutores estáveis, em geral, geram classificadores
ƒ árvores de decisão com baixa variância mas com alto bias

ƒ redes neurais
‰Indutores instáveis possuem alta variância
67 68

Modo de Aprendizado Espaço de Descrição


‰ Sempre que todo o conjunto de treinamento deva estar presente para
o aprendizado, o modo de aprendizado de um algoritmo é não- ‰m atributos podem ser vistos como um
incremental, também conhecido como modo batch
‰ Por outro lado, se o indutor não necessitar construir a hipótese a vetor
partir do início, quando novos exemplos são adicionados ao conjunto
de treinamento, o modo de aprendizado é incremental ‰Assim,cada atributo corresponde a uma
‰ Portanto, no modo incremental o indutor apenas tenta atualizar a
hipótese antiga sempre que novos exemplos são adicionados ao coordenada em um espaço m-dimensional
conjunto de treinamento
‰ Em geral, o aprendizado não-incremental deve fornecer resultados
denominado espaço de descrição
melhores, uma vez que é permitido, ao indutor, o acesso a todos os
exemplos de treinamento de uma única vez, possibilitando que ele ‰No Aprendizado Supervisionado, cada
otimize suas decisões
‰ Entretanto, se o tempo computacional é um fator importante e novos ponto no espaço de descrição pode ser
exemplos são freqüentemente adicionados ao conjunto de
treinamento, o aprendizado incremental pode ser considerado para rotulado com a classe associada
poupar tempo

69 70

Espaço de Descrição Espaço de Descrição


‰ Um indutor divide o espaço de descrição em regiões ‰Para classificar um novo exemplo com (X1,X2) =
‰ Cada região é rotulada com uma classe (2.5, 4), basta verificar em qual região ela se
‰ Exemplo: m=2 atributos (positivos) e seja o classificador: localiza e atribuir a classe associada àquela
if X1 < 5 and X2 < 8 then classe=o else classe=+ região (neste caso, classe o)
divide o espaço bidimensional em duas regiões
X2 X2

+ +
8 8
o + o +
o o + o o +
o o
o o o
o o + o o o
o o +
o o o o
4
o o
o +
+
+ 4
o o
* o +
+
+
o o + o o +
o o o o
o + + o + +

2.5 5 X1 2.5 5 X1
71 72

12
Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo
Induzindo uma Árvore de Decisão
Renda
‰ Assuma o seguinte conjunto de exemplos sobre exemplos
de crédito bancário

Idade Renda Classe


20 2000 Ruim
30 5100 Bom
60 5000 Ruim
Idade
40 6000 Bom Ruim
... ... ... Bom

73 74

Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo


Induzindo uma Árvore de Decisão Induzindo uma Árvore de Decisão
Renda Renda
Idade < 25 Idade < 25
Sim Não Sim Não

14 - Ruim
0 - Bom

Idade Idade
Ruim Ruim
Bom Bom

75 76

Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo


Induzindo uma Árvore de Decisão Induzindo uma Árvore de Decisão
Renda Renda
Idade < 25 Idade < 25
Sim Não Sim
Não
Ruim Ruim 29 - Ruim
19 - Bom

Idade Idade
Ruim Ruim
Bom Bom

77 78

13
Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo
Induzindo uma Árvore de Decisão Induzindo uma Árvore de Decisão
Renda Renda

Idade < 25 Idade < 25


Sim Sim
Não Não
Ruim Renda > 1k Ruim Renda > 1k
Sim Não Sim Não
8 - Ruim
Ruim
0 - Bom

Idade Idade
Ruim Ruim
Bom Bom

79 80

Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo


Induzindo uma Árvore de Decisão Induzindo uma Árvore de Decisão
Renda Renda

Idade < 25 Idade < 25


Sim Sim
Não Não
Ruim Renda > 1k Ruim Renda > 1k
Sim Não Sim Não

Idade > 45 Ruim Idade > 45 Ruim


Sim Sim
Não Idade Não Idade
15 - Ruim
Ruim 0 - Bom Ruim
Bom Bom

81 82

Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo


Induzindo uma Árvore de Decisão Induzindo uma Árvore de Decisão
Renda Renda

Idade < 25 Idade < 25


Sim Sim
Não Não
Ruim Renda > 1k Ruim Renda > 1k
Sim Não Sim Não

Idade > 45 Ruim Idade > 45 Ruim


Sim Sim
Não Idade Não Idade
Ruim Ruim Ruim Renda > 5k Ruim
Bom Sim Não Bom

83 84

14
Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo
Induzindo uma Árvore de Decisão Induzindo uma Árvore de Decisão
Renda Renda

Idade < 25 Idade < 25


Sim Sim
Não Não
Ruim Renda > 1k Ruim Renda > 1k
Sim Não Sim Não

Idade > 45 Ruim Idade > 45 Ruim


Sim Sim
Não Idade Não Idade
Ruim Renda > 5k Ruim Ruim Renda > 5k Ruim
Sim Não Bom Sim Não Bom
5 - Ruim Ruim
0 - Bom 85 86

Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo


Induzindo uma Árvore de Decisão Induzindo uma Árvore de Decisão
Renda Renda

Idade < 25 Idade < 25


Sim Sim
Não Não
Ruim Renda > 1k Ruim Renda > 1k
Sim Não Sim Não

Idade > 45 Ruim Idade > 45 Ruim


Sim Sim
Não Idade Não Idade
Ruim Renda > 5k Ruim Ruim Renda > 5k Ruim
Sim Não Bom Sim Não Bom

Ruim 1 - Ruim Ruim Bom


19 - Bom 87 88

Erro e Precisão Erro x Possíveis Hipóteses


Renda Renda
‰Principais fatores de erro:
ƒ Qualidade (representatividade) da informação
dos atributos H2
H1
ƒ Adaptação do algoritmo de aprendizado aos
exemplos
Idade Idade
ƒ Distribuição dos exemplos futuros Renda Renda

ƒ Quantidade de exemplos

H3 H4

89 Idade Idade 90

15
Qual a Melhor Hipótese?
H4...
Não Esquecer o Erro...

Conjunto Renda
de Treinamento

Indutor

Conjunto Taxa de
h Erro (Verdadeira)
de Teste
do Classificador

Idade
91 92

Erro de H4 Erro de H1

Conjunto de Teste Conjunto de Teste


Renda Renda

Idade Idade
93 94

Overfitting Underfitting
‰ A hipótese extraída a partir dos exemplos é muito ‰A hipótese induzida apresenta um
específica para o conjunto de treinamento
ƒ A hipótese apresenta um bom desempenho para o conjunto de
desempenho ruim tanto no conjunto de
treinamento, mas um desempenho ruim para os casos fora desse treinamento como de teste
conjunto
ƒ poucos exemplos representativos foram dados
X2 Hipótese
induzida ao sistema de aprendizado (e.g. algoritmos de
8 árvores de decisão ou de indução de regras)
o + + +
o o
o
+
+ + +
o ƒ o usuário pré-definiu um tamanho muito
o + + o
4 o
o
+ +
+
o Novos exemplos pequeno para o classificador (e.g. insuficientes
o + o fora do conjunto
o
o
o + + o neurônios em uma rede neural ou um alto valor
o o de treinamento
o
o de poda para árvores de decisão)
2.5 5 X1
95 96

16
Relação entre o Tamanho do Relação entre o Tamanho do
Classificador e o Erro Classificador e o Erro
Erro Erro

Underfitting

Conjunto de Teste Conjunto de Teste


Overfitting

Conjunto de Treinamento Conjunto de Treinamento

N1 N2 N3 N1 N2 N3
Tamanho do Classificador Tamanho do Classificador
97 98

Consistência e Completude Relação entre Completude e Consistência


X2 * ** X2 * **
o o o o * * * o o o o * * *
‰Depois de induzida, uma hipótese pode ser o o o o
o o
o
o
** * * o
o
** * *
o o o o
avaliada sobre o
o
o
o o
+
+
+
+ o
o
o
o o
+
+
+
+

+ +
ƒ consistência, se classifica corretamente os o
o
+ + + + o
o
+ + + +
+ + + +
exemplos o
+
+ +
+ + (a)
o
+
+ +
+ + (b)
o + o +
ƒ completude, se classifica todos os exemplos Completa e consistente X1 Incompleta e consistente X1

X2 * ** X2 * **
o o
o o
o o o * * * o o
o o o * * *
o o
o * * * * o * * * *
o o o o
o o
o o + + o o + +
o o o o
o + + o + +
+ +
o + + + o + + +
o + o +
+ + + + + +
o + o +
o + + +
+ (c) o + + +
+ (d)
99 Completa e inconsistente X1 Incompleta e inconsistente X1 100

Complexo Regra

‰É uma conjunção de disjunções dos atributos de ‰Uma regra assume a forma if L then R que é
teste, na forma: equivalente a L → R ≡ R ← L ≡ R :- L
Xi op valor ‰As partes esquerda L e direita R são complexos
onde Xi é um atributo, op é um operador sem atributos comuns entre eles, ou seja
ƒ atributos(L) ∩ atributos(R) = Ø
relacional e valor é constante válida para o
atributo Xi ‰A parte esquerda L é denominada condição,
premissa, antecedente, cauda ou corpo da
‰Exemplos regra
ƒ Sexo = Masculino
‰A parte direita R é denominada conclusão ou
ƒ Idade >= 20 cabeça da regra
ƒ Sexo = Feminino and Idade < 90
101 102

17
Regra de Classificação Regra de Associação

‰Uma regra de classificação assume a ‰Uma regra de associação assume que não
forma restrita de uma regra existe uma definição explícita de classe e
ƒ if L then classe = Ci qualquer atributo (ou atributos) pode ser
‰ou simplesmente usado como parte da conclusão da regra
ƒ if L then Ci ‰Exemplo
‰onde Ci pertence ao conjunto de k valores ƒ if X3='S' and X5 > 2 then X1='N‘ and X2<1
de classe {C1, C2, ..., Ck}
‰A parte esquerda L é um complexo

103 104

Cobertura Conteúdo
‰ Seja regra L → R
ƒ Exemplos que satisfazem a parte L da regra são cobertos pela
‰Introdução
regra (ou a regra dispara para esses exemplos)
ƒ Exemplos que satisfazem tanto a condição L como a conclusão R ‰Hierarquia do Aprendizado
são cobertos corretamente pela regra
ƒ Exemplos satisfazendo a condição L mas não a conclusão R são ‰Paradigmas de Aprendizado
cobertos incorretamente pela regra
ƒ Exemplos que não satisfazem a condição L não são cobertos ‰AM: Conceitos e Definições
pela regra
‰Linguagens de Descrição
Exemplos
são...
satisfazendo...
¬L Não cobertos pela regra
L Cobertos pela regra
L∧R Cobertos corretamente pela regra
L ∧ ¬R Cobertos incorretamente pela regra
105 106

Linguagens de Descrição Linguagens de Descrição


‰Qualquer que seja o tipo de aprendizado, é ‰Lógica de ordem zero ou Proposicional
necessário uma linguagem para descrever ƒ O objeto é representado e descrito em termos de
conjunções, disjunções e negações de constantes
objetos (ou possíveis eventos) e uma linguagem booleanas que representam um campo
para descrever conceitos em termos ƒ Ex:
computacionais fêmea ∧ adulta → pode_ter_filhos
‰Lógica de atributos
‰Três tipos de DL:
ƒ Notação equivalente à LP, mas os atributos
ƒ Linguagem Descrição de Exemplos (Instance são tratados como variáveis
Description Language - IDL)
ƒ Ex:
ƒ Linguagem de Descrição de Hipóteses (Hypotheses sexo=fêmea ∧ idade=adulta → classe=pode_ter_filhos
Description Language - HDL) ou
ƒ Linguagem de Descrição de Conhecimento do Domínio sexo(fêmea) ∧ idade(adulta) → classe(pode_ter_filhos)
(Background Knowledge Language - BDL)
107 108

18
Linguagens de Descrição de Alguns
Linguagens de Descrição
Indutores
‰ Lógica de 1ª ordem ou Relacional
ƒ Pode representar objetos como predicados que especificam
propriedades ou relações
ƒ Cláusulas de Horn são um exemplo
ƒ Ex: Indutor IDL HDL BDL
macho(X) ∧ progenitor(Z,X) ∧ progenitor(Z,Y) → irmão(X,Y) C4.5 Atributo Atributo
ou CART Atributo Atributo
irmão(X,Y) ← macho(X) ∧ progenitor(Z,X) ∧ progenitor(Z,Y) CN2 Atributo Atributo
ou Ripper Atributo Atributo Atributo
irmão(X,Y) :- macho(X), progenitor(Z,X), progenitor(Z,Y) Foil Atributo Primeira Ordem Primeira Ordem
‰ Lógica de 2ª ordem Rede Neural Atributo Função Matemática
ƒ Extensão da lógica de primeira ordem, em que os predicados podem ser
considerados como variáveis
ƒ Ex:
P1(X,Y) :- P2(X), P3(Z,X), P4(Z,Y)
pode ser instanciado com:
irmão(X,Y) :- macho(X), progenitor(Z,X), progenitor(Z,Y)
‰ Funções Matemáticas
109 110

Características Gerais dos Sistemas


Representação da Classificação
de AM
Conjunto de Exemplos

Modo de Paradigmas de Linguagens Formas de Valores dos Classes


Aprendizado Aprendizado de Descrição Aprendizado Atributos Corretas
- Supervisionado - Simbólico - Exemplos - Incremental
- Não Supervisionado - Estatístico - Hipóteses - Não Incremental
- Instance-Based - Conhecimento
- Conexionista do Domínio
Paradigma de Sistema de
- Genético
Aprendizado Aprendizado

Classificador Específico para uma Aplicação

111 112

Esforço em Cada Etapa Estrutura

60

50
Conhecimento
40
Esforço (%)

30 Informação
20

10
Dados
0
Determinação de Preparação de Aprendizado de Análise &
Objetivos Dados Máquina Assimilação

113 114

19
Dado, Informação, Conhecimento Importante Observar que...
‰Dado: é a estrutura fundamental sobre a qual um ‰Dado não é Informação
sistema de informação é construído
‰Informação: a transformação de dados em
‰Informação não é Conhecimento
informação é freqüentemente realizada através
da apresentação dos dados em uma forma
compreensível ao usuário ‰Conhecimento não é Inteligência
‰Conhecimento:
ƒ Fornece a capacidade de resolver problemas, inovar e ‰Inteligência não é Sabedoria
aprender baseado em experiências prévias
ƒ Uma combinação de instintos, idéias, regras e
procedimentos que guiam as ações e decisões
115 116

Resumo
‰ Nesta aula foram apresentados conceitos e definições de
alguns termos amplamente utilizados em Aprendizado de
Slides baseados no Capítulo 4 do livro:
Máquina, além de uma descrição sobre as principais
linguagens de descrição
‰ A investigação de estruturas diferentes, que podem ser Rezende, S.O. (ed).
apropriadas para diferentes contextos, bem como o
entendimento do seu poder e limitação são necessários Sistemas Inteligentes, Manole, 2003,
para o uso com êxito de Aprendizado de Máquina
‰ Quanto maior a compreensão sobre as estruturas
ISBN 85-204-1683-7
fundamentais usadas por classificadores, mais
adequadamente pode-se aplicar ou alterá-las com base
no conhecimento do domínio Material elaborado por
‰ Além da compreensão dos algoritmos de AM, é José Augusto Baranauskas
igualmente importante poder avaliar seu desempenho, o Revisão 2007
que veremos nas próximas aulas

117 118

20