AM I Conceitos Definicoes PDF

Aprendizado de Máquina Conteúdo
Conceitos e Definições
Os diversos sistemas de AM Introdução
possuem características
particulares e comuns que Hierarquia do Aprendizado
possibilitam sua classificação
quanto à linguagem de descrição, Paradigmas de Aprendizado
modo, paradigma e forma de
aprendizado utilizados AM: Conceitos e Definições
Algumas dessas características, Linguagens de Descrição
conceitos introdutórios e
definições são introduzidos nesta
aula, os quais são importantes
para a compreensão das aulas
subseqüentes
José Augusto Baranauskas augusto@usp.br

Departamento de Física e Matemática – FFCLRP-USP http://dfm.ffclrp.usp.br/~augusto
2
Aprendizado de Máquina (AM) Motivação (1)

Aprendizado de Máquina é uma área de IA cujo Dado um conjunto de objetos, colocar os
objetivo é o desenvolvimento de técnicas objetos em grupos baseados na
computacionais sobre o aprendizado bem como a similaridade entre eles
construção de sistemas capazes de adquirir
conhecimento de forma automática
Um sistema de aprendizado é um programa de
computador que toma decisões baseado em
experiências acumuladas através da solução
bem sucedida de problemas anteriores
3 4
Motivação (1) Motivação (1)
Dado um conjunto de objetos, colocar os Dado um conjunto de objetos, colocar os

objetos em grupos baseados na objetos em grupos baseados na
similaridade entre eles similaridade entre eles
Com bico
Sem bico
Água Terra
5 6
1
Motivação (1) Motivação (2)
Dado um conjunto de objetos, colocar os Dados pares (x,f(x)), inferir f(·)

objetos em grupos baseados na
Dada uma amostra finita, é
similaridade entre eles x f(x)
freqüentemente impossível
1 1 determinar a verdadeira função f(·)
2 4
Ovíparo
3 9
Abordagem: Encontre uma hipótese
4 16 (modelo) nos exemplos de treinamento
Mamífero 5 ? e assuma que a hipótese se repita para
exemplos futuros também
7 8
Exemplo: Cogumelos Comestíveis x

Motivação (2)
Venenosos
x1 Um pesquisador foi a
x2 f = função y = f(x1, x2, x3, x4) campo e coletou diversos
x3 desconhecida cogumelos
x4
Ao chegar em seu
Exemplo X1 X2 X3 X4 Y laboratório, ele mediu o
z1 0 1 1 0 0 comprimento e altura de
z2 0 0 0 0 0
z3 0 0 1 1 1 cada cogumelo
z4 1 0 0 1 1 Ele também classificou
z5 0 1 1 0 0
z6 1 1 0 0 0 cada cogumelo coletado
z7 0 1 0 1 0 como comestível ou
venenoso
f: X1 × X2 × X3 × X4 → Y
9 10
Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x

Venenosos Venenosos
H H
(altura) (altura)
¯ ¯ ¯ ¯
3 3
¯ ¯ ¯ ¯
¯ ¯ ¯ ¯
2 ¯ ¯ 2 ¯ ¯
+ + Suponha um novo
¯ ¯ ¯ ¯
¯ + + ¯ + + cogumelo com
+ + W=3, H=1. Ele é
1 + + 1 + +? +
+ comestível ou
+ + + +
+ + venenoso?
+ + + +
+ + + +
1 2 3 4 W 1 2 3 4 W
(comprimento) (comprimento)
+ Comestível ¯ Venenoso + Comestível ¯ Venenoso

11 12
2
Venenosos Venenosos
H H
(altura) Suponha um novo (altura)
¯ ¯cogumelo com W=3, ¯ ¯
3 H=1. Ele é 3
¯ ¯ ¯ ¯
comestível ou
venenoso? A maioria Em geral, a
¯ ¯ das pessoas diria
¯ ¯ suposição principal
2 ¯ ¯ que é comestível, 2 ¯ ¯ em AM é que os
+ mas não há garantias + objetos que parecem
¯ ¯ que o cogumelo seja ¯ ¯ similares de alguma
¯ + + realmente ¯ + + forma também
+ +
1 + ++ + comestível. Assim 1 + ++ + pertencem à mesma
+ esta classificação é + classe
+ +
+ + apenas uma hipótese + +
+ + + +
+ +
1 2 3 4 W 1 2 3 4 W

13 14

Venenosos Venenosos
Hipótese 1:
H ? H if 2<W and W<4 and H<2
(altura) (altura) then comestível
¯ ¯ ¯ ¯ else venenoso
3 3
¯ ¯ ¯ ¯
Pelo mesmo motivo
de similaridade, um
¯ ¯ cogumelo com W=5, ¯ ¯
2 ¯ ¯ H=4 seria 2 ¯ ¯
?
classificado como
+ venenoso.
+
¯ ¯ ¯ ¯
¯ + + Entretanto, é difícil ¯ + +
+ decidir sobre um +
1 + + 1 + +
+ cogumelo com W=2, +
+ + + +
+ H=2. +
+ + + +
+ + + +
1 2 3 4 W 1 2 3 4 W

15 16

Venenosos Venenosos
Hipótese 1: Hipótese 1:
H if 2<W and W<4 and H<2 H if 2<W and W<4 and H<2
(altura) then comestível (altura) then comestível
¯ ¯ else venenoso ¯ ¯ else venenoso
3 3
¯ ¯ ¯ ¯
Hipótese 2: Hipótese 2:
if H>W if H>W
¯ ¯ then venenoso ¯ ¯ then venenoso
2 ¯ ¯ else if H>6-W
2 ¯ ¯ else if H>6-W
then venenoso then venenoso
else comestível else comestível
+ +
¯ ¯ ¯ ¯
¯ + + ¯ + + Hipótese 3:
+ +
1 + + 1 + + if H< 3-(W-3)2
+ + then comestível
+ + + + else venenoso
+ + + +
+ + + +
+ +
1 2 3 4 W 1 2 3 4 W

17 18
3
Aprendizado de Máquina Conteúdo
(Simon, 1983): Introdução
“Aprender implica em alterações no sistema que são
adaptativas, no sentido que elas capacitam o sistema a Hierarquia do Aprendizado
realizar a mesma tarefa, ou tarefas provenientes da
mesma população, de forma mais eficiente e eficaz na Paradigmas de Aprendizado
próxima vez”
(Weiss & Kulikowski, 1991)
AM: Conceitos e Definições
“Um sistema de aprendizado [supervisionado] é um Linguagens de Descrição
programa de computador que toma decisões baseadas
na experiência contida em exemplos solucionados com
sucesso”
(Russel & Norvig 1995)
“...todo aprendizado pode ser visto como o aprendizado
de uma função”
19 20
Hierarquia do Aprendizado Aprendizado de Máquina

Efetuado a partir de Especialista
Conhecimento Conhecimento
exemplos externos Aprendizado do Domínio do Domínio
(coletados) Indutivo Exemplos
não rotulados
(não existe classe
Exemplos associada)
estão rotulados X1 X2 X3 X4 X5 X6 X7 Y
53 male 140 true 3.1 down 0 sick
(classe é 60 male 140 fal 3 flat 0 sick
40 male 140 true 1.4 up 0 buff
conhecida)
Aprendizado 57 male 165 fal 1 flat 3 sick
Aprendizado 60
46
male
fem
130
138
true
true
1.4
0
up
flat
1
0
sick
buff
não Especificação 43 male 110 fal 0 up 0 buff
Aprendizado
Supervisionado Exemplos 58 male 120 fal 1.8 flat 0 sick
Supervisionado Brutos
do Problema 55
41
male
male
160
120
true
fal
0.8
0
flat
up
1
0
sick
buff
de Máquina
Os rótulos 52 male 172 fal 0.5 up 0 buff
assumem 62
43
fem
male
138
120
fal
true
1.9
2.5
flat
flat
3
0
sick
sick Hipótese
valores discretos 47 male 110 true 1 flat 1 sick
56 male 130 true 0.6 flat 1 sick
Os rótulos Exemplos
assumem
valores contínuos
Classificação Regressão
Avaliação
21 22
Aprendizado de Máquina Aprendizado de Máquina

Pode ser usado
Pode para fornecer
Especialista ser usado Especialista informação já
Conhecimento Conhecimento ao selecionar Conhecimento Conhecimento
conhecida ao
do Domínio do Domínio os dados do Domínio do Domínio
Algoritmo de indutor
Aprendizado ou
Indutor
X1 X2 X3 X4 X5 X6 X7 Y X1 X2 X3 X4 X5 X6 X7 Y
53 male 140 true 3.1 down 0 sick 53 male 140 true 3.1 down 0 sick
60 male 140 fal 3 flat 0 sick 60 male 140 fal 3 flat 0 sick
40 male 140 true 1.4 up 0 buff 40 male 140 true 1.4 up 0 buff
57 male 165 fal 1 flat 3 sick 57 male 165 fal 1 flat 3 sick
60 male 130 true 1.4 up 1 sick 60 male 130 true 1.4 up 1 sick
46 fem 138 true 0 flat 0 buff 46 fem 138 true 0 flat 0 buff
Especificação 43 male 110 fal 0 up 0 buff
Aprendizado Especificação 43 male 110 fal 0 up 0 buff
Aprendizado
Exemplos 58 male 120 fal 1.8 flat 0 sick Exemplos 58 male 120 fal 1.8 flat 0 sick
do Problema 55 male 160 true 0.8 flat 1 sick de Máquina do Problema 55 male 160 true 0.8 flat 1 sick de Máquina
Brutos 41 male 120 fal 0 up 0 buff Brutos 41 male 120 fal 0 up 0 buff
52 male 172 fal 0.5 up 0 buff 52 male 172 fal 0.5 up 0 buff
62 fem 138 fal 1.9 flat 3 sick 62 fem 138 fal 1.9 flat 3 sick
43 male 120 true 2.5 flat 0 sick Hipótese 43 male 120 true 2.5 flat 0 sick Hipótese
47 male 110 true 1 flat 1 sick 47 male 110 true 1 flat 1 sick
56 male 130 true 0.6 flat 1 sick 56 male 130 true 0.6 flat 1 sick
Menos Exemplos Mais Menos Exemplos Mais

Compacto Compacto Compacto Compacto
(específico) (genérico) (específico) (genérico)
Avaliação Avaliação
23 24
4
Aprendizado de Máquina Categorias de Sistemas de Aprendizado
Em AM
Conhecimento
Especialista
Conhecimento
Supervisionado, a Não Simbólico ou Caixa-preta
hipótese é
do Domínio do Domínio
normalmente Não facilmente interpretado por humanos
chamada de Desenvolve sua própria representação de conceitos
classificador
Não fornece esclarecimento ou explicação sobre o processo de
X1
53
X2
male
X3
140
X4
true
X5
3.1
X6
down
X7
0
Y
sick classificação
60 male 140 fal 3 flat 0 sick
Simbólico ou Orientado a conhecimento

40 male 140 true 1.4 up 0 buff
57 male 165 fal 1 flat 3 sick
60 male 130 true 1.4 up 1 sick
46 fem 138 true 0 flat 0 buff
Exemplos Especificação 43
58
male
male
110
120
fal
fal
0
1.8
up
flat
0
0
buff
sick
Aprendizado Cria estruturas simbólicas que podem ser compreendidas por
do Problema de Máquina
Brutos
55
41
male
male
160
120
true
fal
0.8
0
flat
up
1
0
sick
buff seres humanos
52 male 172 fal 0.5 up 0 buff
62
43
47
fem
male
male
138
120
110
fal
true
true
1.9
2.5
1
flat
flat
flat
3
0
1
sick
sick
sick
Hipótese ”Os resultados da indução devem ser descrições simbólicas das
56 male 130 true 0.6 flat 1 sick
entidades dadas... devem ser compreensíveis como simples
Menos Exemplos Mais ‘pedaços’ de informação, diretamente interpretáveis em linguagem
Compacto Compacto
(específico) (genérico)
natural...” (Michalski 1983a)
Avaliação
25 26
Categorias de Sistemas de Aprendizado AS x AnS

A distinção entre essas duas categorias pode ser Aprendizado Supervisionado
formulada em termos dos critérios: Compreender o relacionamento entre os atributos e a
critério fraco: o sistema utiliza exemplos para gerar
subsídios para melhorar o desempenho com exemplos classe
posteriores (ex: redes neurais, métodos estatísticos) Predizer a classe de novos exemplos o melhor
critério forte: o critério fraco é satisfeito e além disso possível
o sistema é capaz de comunicar sua representação
interna na forma simbólica explicitamente Aprendizado Não Supervisionado
critério ultra-forte: os critérios fraco e forte são Encontrar representações úteis dos exemplos, tais
satisfeitos; o sistema deve ser capaz de comunicar sua como:
representação interna na forma simbólica
explicitamente e esta pode ser usada por um humano Encontrar agrupamentos (clusters)
sem a ajuda de um computador (apenas usando seu Redução da dimensão
cérebro) Encontrar as causas ou as fontes ocultas dos exemplos
Modelar a densidade dos exemplos
27 28
Exemplo Conteúdo
Exercise
true
induced angina
false
Introdução
Trestbps
Number of
Hierarquia do Aprendizado
vessels colored
<= 105 > 105 >0 <= 0 Paradigmas de Aprendizado

healthy sick Slope healthy AM: Conceitos e Definições
Linguagens de Descrição
flat or down up
sick Sex
male female
sick healthy
Parte da árvore de decisão induzida por C4.5 para o conjunto de exemplos

Cleveland heart disease
29 30
5
Paradigmas de AM Paradigma Simbólico
Simbólico Os sistemas de aprendizado simbólico

Protótipo ou Memorização (Instance- buscam aprender construindo
Based) representações simbólicas de um conceito
Conexionista através da análise de exemplos e contra-
exemplos desse conceito
Genético
As representações simbólicas estão
Estatístico tipicamente na forma de alguma expressão
lógica tais como árvores de decisão, regras
ou redes semânticas
31 32
Paradigma Instance-
Instance-Based Paradigma Conexionista
Uma forma de classificar um exemplo é lembrar de outro similar cuja Redes Neurais são construções matemáticas
classe é conhecida e assumir que o novo exemplo terá a mesma simplificadas inspiradas no modelo biológico do sistema
classe
nervoso
Essa filosofia exemplifica os sistemas baseados em exemplos, que
classificam exemplos nunca vistos através de exemplos similares A representação de uma Rede Neural envolve unidades
conhecidos altamente interconectadas e, por esse motivo, o nome
Esse tipo de sistema de aprendizado é denominado preguiçoso conexionismo é utilizado para descrever a área de estudo
(lazy) A metáfora biológica com as conexões neurais do sistema
Sistemas lazy necessitam manter os exemplos na memória para nervoso tem interessado muitos pesquisadores e tem
classificar novos exemplos, em oposição aos sistemas gulosos
(eager), que utilizam os exemplos para induzir o modelo, fornecido muitas discussões sobre os méritos e as
descartando-os logo após limitações dessa abordagem de aprendizado
Assim, saber quais exemplos de treinamento devem ser Em particular, as analogias com a biologia têm levado
memorizados por um indutor lazy é muito importante muitos pesquisadores a acreditar que as Redes Neurais
O ideal é reter apenas aqueles mais representativos do problema possuem um grande potencial na resolução de problemas
Os algoritmos mais conhecidos neste paradigma são os de Vizinhos que requerem intenso processamento sensorial humano,
mais Próximos (Nearest Neighbours) e Raciocínio Baseado em tais como visão e reconhecimento de voz
Casos (Case Based Reasoning)
33 34
Paradigma Genético Paradigma Estatístico

Este paradigma de aprendizado é derivado do modelo Pesquisadores em estatística têm criado diversos métodos de
evolucionário de aprendizado classificação, muitos deles semelhantes aos métodos posteriormente
desenvolvidos pela comunidade de Aprendizado de Máquina
Um classificador genético consiste de uma população de
elementos de classificação que competem para fazer a A idéia geral consiste em utilizar modelos estatísticos para encontrar
predição uma boa aproximação do conceito induzido
Vários desses métodos são paramétricos, assumindo alguma forma
Elementos que possuem um desempenho ruim são de modelo, e então encontrando valores apropriados para os
descartados, enquanto os elementos mais fortes proliferam, parâmetros do modelo a partir dos exemplos
produzindo variações de si mesmos Por exemplo, um classificador linear assume que as classes podem
Este paradigma possui uma analogia direta com a teoria de ser expressas como combinação linear dos valores dos atributos, e
Darwin, na qual sobrevivem os mais bem adaptados ao então procura uma combinação linear particular que fornece a melhor
ambiente aproximação sobre o conjunto de exemplos
Alguns operadores genéticos básicos que aplicados a Dentre os métodos estatísticos, destacam-se os de aprendizado
população geram novos indivíduos são: Reprodução, Bayesiano, que utilizam um modelo probabilístico baseado no
Cruzamento, Mutação e Inversão conhecimento prévio do problema, o qual é combinado com os
exemplos de treinamento para determinar a probabilidade final de
Esses operadores atuam no controle da quantidade de cópias uma hipótese
produzidas de um indivíduo, na troca de material genético, na
preservação de uma espécie e na manutenção de uma certa
diversidade na nova população 35 36
6
Conteúdo Indutor
Introdução Programa que gera uma hipótese

Hierarquia do Aprendizado (classificador) a partir de um conjunto de
Paradigmas de Aprendizado exemplos
AM: Conceitos e Definições Indutor
Linguagens de Descrição Conjunto de
Classificador
Exemplos
ou
Dataset
37 38
Indutor Argumentos Dedutivos x Indutivos
Informalmente, o objetivo de um indutor (ou algoritmo de

aprendizado ou algoritmo de indução) consiste em extrair
um bom classificador a partir de um conjunto de exemplos Argumentos Dedutivos Argumentos Indutivos
rotulados Se todas as premissas são Se todas as premissas são verdadeiras, a
A saída do indutor, o classificador, pode então ser usada verdadeiras então a conclusão conclusão é provavelmente verdadeira, mas
para classificar exemplos novos (ainda não rotulados) é verdadeira não necessariamente verdadeira (à exceção
com a meta de predizer corretamente o rótulo de cada um dos argumentos matemáticos indutivos)
Toda a informação do A conclusão contém informação que não está
Após isso, o classificador pode ser avaliado considerando conteúdo factual da conclusão implicitamente ou explicitamente nas
sua precisão, compreensibilidade ou grau de interesse, já está, pelo menos premissas
velocidade de aprendizado, requisitos de implicitamente, nas premissas
armazenamento, grau de compactação ou qualquer outra
propriedade desejável que determine quão bom e
apropriado ele é para a tarefa em questão
Argumentos indutivos preservam falsidade
39 40
Argumentos Dedutivos x Indutivos Exemplo, Atributo & Classe
Um exemplo de dedução: Exemplo

Exemplo, caso ou registro (instance)
Alguém diz a você “Todas as maçãs são É um conjunto fixo de atributos
vermelhas”. A seguir, uma pessoa lhe dá uma Um exemplo descreve o objeto de interesse, tal como
maçã. Você infere que ela é vermelha um paciente, exemplos médicos sobre uma
determinada doença ou histórico de clientes de uma
Um exemplo de indução: dada companhia
Atributo
Você vê 5 maçãs vermelhas. Você conclui
Atributo ou campo (feature)
“Todas as maçãs são vermelhas” Uma única característica de um exemplo
Suponha que você olhe com mais cuidado as Classe
maçãs e perceba que uma dela é de cor Atributo especial que descreve o fenômeno de
interesse (somente no Aprendizado Supervisionado)
laranja. Isto falsifica sua conclusão (hipótese)
41 42
7
Atributo Tipos de Atributos
O domínio (conjunto de valores que um Nominal (ou discreto ou categórico), quando o atributo
assume valores em um conjunto finito, sendo que alguns
atributo pode assumir) do atributo Xi é indutores podem também aceitar uma subdivisão entre os
indicado por dom(Xi) atributos nominais:
Ordenado: o domínio é ordenado, mas a diferença absoluta dos
Exemplo valores é desconhecida (e.g. escala de temperatura: baixa, média,
alta ou severidade de um machucado)
Atributo sexo; dom(sexo) = {m, f} Não-ordenado: não existe uma ordem entre os valores (e.g., cor:
vermelho, verde, azul; ocupação; estado civil, raça)
Atributo cor; dom(cor) = {verde, vermelho,...} Contínuo (ou numérico ou real), quando o domínio é
Atributo temperatura; dom(temperatura) = ordenado e pode ser representado por um valor real (e.g.,
{baixa, média, alta} peso ∈ ℜ, um número real)
Atributo peso; dom(peso) = {∀w : w ∈ ℜ+}
43 44
Atributo Atributo
Para qualquer tipo de atributo, usualmente existe Um outro símbolo especial, mesmo não
também um símbolo importante que significa sendo reconhecido por vários indutores, é o
desconhecido, ou seja, a ausência de um valor não-se-aplica
para aquele atributo
Este símbolo especial é bem diferente, por
Por exemplo, para o atributo número de
exemplo, do valor zero (às vezes usado para gestações, pode ser utilizado o símbolo
números) ou de cadeias de caracteres vazias não-se-aplica caso o paciente seja do
Na maioria dos indutores disponíveis, este valor é sexo masculino
representado por um ponto de interrogação ? Em geral, este símbolo é representado por
um ponto de exclamação !
45 46
Atributo Escolha de Atributos

Além disso, vários indutores assumem que os Um ponto importante a ser considerado é a escolha de
atributos com boa capacidade preditiva
atributos originais que descrevem os exemplos Não importa qual método seja empregado, os conceitos
são relevantes o suficiente para aprender a que podem ser aprendidos estão à mercê dos exemplos e
tarefa em questão da qualidade dos atributos
Por exemplo, para a tarefa de determinar se uma pessoa
Entretanto, alguns atributos podem não ser está ou não com gripe, pode-se escolher atributos com
diretamente relevantes e outros até irrelevantes baixo poder preditivo, tais como
(cor-do-cabelo, cor-do-olho, modelo-do-carro, número-de-filhos)
Um atributo é irrelevante se existe uma descrição ou atributos com alto poder preditivo, tais como
completa e consistente das classes a serem (temperatura, resistência-da-pele, exame-do-pulmão)
Para esta tarefa específica, no segundo caso, melhores
aprendidas que não usa aquele atributo previsões em exemplos não-rotulados provavelmente
ocorrerão do que com o primeiro conjunto de atributos
47 48
8
Classe Conjunto de Exemplos (Dataset
(Dataset))
No aprendizado supervisionado todo exemplo No Aprendizado No Aprendizado Não
Supervisionado, cada exemplo Supervisionado, cada exemplo
possui um atributo especial, o rótulo ou classe, é rotulado segundo sua classe não possui classe associada
que descreve o fenômeno de interesse, isto é, a
meta que se deseja aprender e poder fazer m Atributos Classe m Atributos
previsões a respeito
Um exemplo não-rotulado consiste do exemplo,
exceto o rótulo, ou seja, um vetor de valores dos
atributos n n
Os rótulos são tipicamente pertencentes a um Exemplos Exemplos
conjunto discreto (nominal) de classes {C1, C2, ...,

Ck} no caso de classificação ou de valores reais
no caso de regressão
k valores distintos
49 50
Exemplo de um Conjunto de Exemplo de um Conjunto de

Exemplos para Classificação Exemplos para Regressão
Dez exemplos (n=10) Idade Veículo Classe Dez exemplos (n=10) Idade Veículo Despesa
Duas classes (k=2): Sim; 20 V Sim Dois atributos (m=2): 20 V $200
Não 30 V Sim Idade e tipo de veículo 30 V $150
Dois atributos (m=2): 25 C Não (Esporte, Van, Caminhão)
25 C $300
Idade é ordenado 30 E Sim Despesa indica quanto a
30 E $220
Tipo de Veículo é pessoa gastou durante
categórico (Esporte, Van,
40 E Sim 40 E $400
uma visita recente à
Caminhão) 20 C Não concessionária 20 C $80
Rótulo da classe indica se 30 V Sim Atributo dependente 30 V $100
a pessoa comprou o 25 V Sim (classe) é numérico 25 V $125
produto 40 V Sim
Atributo dependente
40 V $500
20 E Não
(classe) é categórico 20 E $420
51 52
Exemplo de um Conjunto de Exemplos

para Aprendizado Não Supervisionado
Conjuntos de Exemplos
Dez exemplos (n=10) Idade Veículo Cor Em geral, um conjunto de exemplos é dividido em
Três atributos (m=3): 20 V preto dois subconjuntos disjuntos:
Idade, tipo de veículo 30 V verde conjunto de treinamento que é usado para o
(Esporte, Van, 25 C azul aprendizado do conceito e o
Caminhão) e cor do 30 E branco conjunto de teste que é usado para medir o grau de
40 E azul efetividade do conceito aprendido
veículo
20 C preto Os subconjuntos são disjuntos para assegurar
Neste caso, não há
30 V branco que as medidas obtidas utilizando o conjunto de
associação explícita
25 V azul teste sejam de um conjunto diferente do usado
de algum atributo com
40 V Verde para realizar o aprendizado, tornando a medida
uma determinada
20 E azul estatisticamente válida
classe
53 54
9
Conjuntos de Exemplos Erro Aparente
Após induzir uma hipótese, é possível avaliá-la no
conjunto de treinamento bem como no conjunto de teste
É usual denominar as medidas de desempenho de um
classificador efetuadas sobre o conjunto de treinamento Conjunto
como aparentes (também conhecidas como medidas de de Treinamento
re-substituição) e as medidas efetuadas sobre o
conjunto de teste como medidas reais (ou verdadeiras)
Por exemplo, caso a medida seja o erro, pode-se ter o
erro aparente e o erro verdadeiro Indutor
Para a maioria das hipóteses, a medida aparente é um
estimador ruim do seu desempenho futuro, uma vez que
ela tem a tendência de possuir um bias otimista Taxa de
Conjunto
Em geral, o erro calculado sobre o conjunto de exemplos de h Erro (Aparente)
de Teste
treinamento (erro aparente) é menor que o erro calculado sobre o do Classificador
conjunto de exemplos de teste (erro verdadeiro)
55 56
Erro Verdadeiro Preparação de Dados
Fase que antecede o processo de

aprendizagem, para facilitar ou melhorar o
Conjunto
de Treinamento
processo.
Exemplos:
remover exemplos incorretos
Indutor
transformar o formato dos exemplos para que
possam ser usados com um determinado
Conjunto h
Taxa de
Erro (Verdadeira)
indutor
de Teste
do Classificador
selecionar um subconjunto de atributos
relevantes (FSS – Feature Subset Selection)
57 58
Conhecimento do Domínio Ruído

Background Knowledge Exemplos imperfeitos que podem ser derivados
Informação sobre valores válidos de um atributo do processo de aquisição, transformação ou
Critérios para escolher atributos rotulação das classes
Critérios para escolher hipóteses Ex: exemplos com os mesmos atributos mas com
X 1 X X X
2 3Y 4
classes diferentes overcast 19 65 yes dont_go
Restrições no relacionamento dos atributos rain
rain
19
23
70
80
yes
yes
dont_go
dont_go
sunny 23 95 no dont_go
Regras para geração de conceitos de nível mais sunny 28 91 yes dont_go
sunny 30 85 no dont_go
alto overcast 19 65 yes go
rain 21 80 no go
Construção de novos atributos derivados dos rain
sunny
22
22
95
70
no
no
go
go
atributos originais overcast
rain
23
25
90
81
yes
no
go
go
sunny 25 72 yes go
overcast 26 75 no go
overcast 29 78 no go
59 60
10
Classificador Classificador
Dado um conjunto de exemplos, o Dado um conjunto de treinamento, um indutor gera como

saída um classificador (hipótese ou descrição de
classificador é a saída do indutor conceito) de forma que, dado um novo exemplo, ele
possa predizer precisamente sua classe
Cada exemplo é um par (x, f(x)), onde
x é a entrada
Indutor f(x) é a saída (f desconhecida!)
Classificador y=f(x) assume valores discretos y ∈ {C1, C2,…,Ck}: classificação
Conjunto de
y=f(x) assume valores reais: regressão
Exemplos
ou Indução ou inferência indutiva: dada uma coleção de
Dataset exemplos de f(·), retornar uma função h(·) que aproxima
f(·), ou seja, h(x) ≅ f(x)
h(·) é denominada uma hipótese sobre a função objetivo
f(·)
61 62
Exemplos de Hipóteses Exemplos de Hipóteses
(a) exemplos originais Qual a melhor hipótese para os exemplos

(b), (c), (d) possíveis hipóteses em (a)?
(a) (b)
(a) (b)
(c) (d)
(c) (d)
63 64
Bias Variância
Qualquer critério de preferência de uma hipótese Mede quanto as suposições do algoritmo
sobre outra (além da consistência com os da aprendizado variam para diferentes
exemplos) conjuntos de treinamento
Maiores detalhes serão vistos nas
(a) (b) próximas aulas
(c) (d)
65 66
11
Estabilidade Estabilidade
Um indutor é instável se uma pequena Um indutor é estável se o classificador gerado
perturbação (variação) no conjunto de não muda muito caso os exemplos de
treinamento pode causar modificação no treinamento se alterem
classificador gerado Há sempre um trade-off entre bias e variância:
indutores instáveis, em geral, geram classificadores
Por exemplo: com alta variância mas com pequeno bias
FSS em regressão indutores estáveis, em geral, geram classificadores
árvores de decisão com baixa variância mas com alto bias
redes neurais
Indutores instáveis possuem alta variância
67 68
Modo de Aprendizado Espaço de Descrição

Sempre que todo o conjunto de treinamento deva estar presente para
o aprendizado, o modo de aprendizado de um algoritmo é não- m atributos podem ser vistos como um
incremental, também conhecido como modo batch
Por outro lado, se o indutor não necessitar construir a hipótese a vetor
partir do início, quando novos exemplos são adicionados ao conjunto
de treinamento, o modo de aprendizado é incremental Assim,cada atributo corresponde a uma
Portanto, no modo incremental o indutor apenas tenta atualizar a
hipótese antiga sempre que novos exemplos são adicionados ao coordenada em um espaço m-dimensional
conjunto de treinamento
Em geral, o aprendizado não-incremental deve fornecer resultados
denominado espaço de descrição
melhores, uma vez que é permitido, ao indutor, o acesso a todos os
exemplos de treinamento de uma única vez, possibilitando que ele No Aprendizado Supervisionado, cada
otimize suas decisões
Entretanto, se o tempo computacional é um fator importante e novos ponto no espaço de descrição pode ser
exemplos são freqüentemente adicionados ao conjunto de
treinamento, o aprendizado incremental pode ser considerado para rotulado com a classe associada
poupar tempo
69 70
Espaço de Descrição Espaço de Descrição

Um indutor divide o espaço de descrição em regiões Para classificar um novo exemplo com (X1,X2) =
Cada região é rotulada com uma classe (2.5, 4), basta verificar em qual região ela se
Exemplo: m=2 atributos (positivos) e seja o classificador: localiza e atribuir a classe associada àquela
if X1 < 5 and X2 < 8 then classe=o else classe=+ região (neste caso, classe o)
divide o espaço bidimensional em duas regiões
X2 X2
+ +
8 8
o + o +
o o + o o +
o o
o o o
o o + o o o
o o +
o o o o
4
o o
o +
+
+ 4
o o
* o +
+
+
o o + o o +
o o o o
o + + o + +
2.5 5 X1 2.5 5 X1
71 72
12
Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo
Induzindo uma Árvore de Decisão
Renda
Assuma o seguinte conjunto de exemplos sobre exemplos
de crédito bancário
Idade Renda Classe

20 2000 Ruim
30 5100 Bom
60 5000 Ruim
Idade
40 6000 Bom Ruim
... ... ... Bom
73 74

Induzindo uma Árvore de Decisão Induzindo uma Árvore de Decisão
Renda Renda
Idade < 25 Idade < 25
Sim Não Sim Não
14 - Ruim
0 - Bom
Idade Idade
Ruim Ruim
Bom Bom
75 76

Renda Renda
Sim Não Sim
Não
Ruim Ruim 29 - Ruim
19 - Bom
Idade Idade
Ruim Ruim
Bom Bom
77 78
13
Renda Renda

Sim Sim
Não Não
Ruim Renda > 1k Ruim Renda > 1k
Sim Não Sim Não
8 - Ruim
Ruim
0 - Bom
Idade Idade
Ruim Ruim
Bom Bom
79 80

Renda Renda

Sim Sim
Não Não
Sim Não Sim Não
Idade > 45 Ruim Idade > 45 Ruim

Sim Sim
Não Idade Não Idade
15 - Ruim
Ruim 0 - Bom Ruim
Bom Bom
81 82

Renda Renda

Sim Sim
Não Não
Sim Não Sim Não

Sim Sim
Ruim Ruim Ruim Renda > 5k Ruim
Bom Sim Não Bom
83 84
14
Renda Renda

Sim Sim
Não Não
Sim Não Sim Não

Sim Sim
Ruim Renda > 5k Ruim Ruim Renda > 5k Ruim
Sim Não Bom Sim Não Bom
5 - Ruim Ruim
0 - Bom 85 86

Renda Renda

Sim Sim
Não Não
Sim Não Sim Não

Sim Sim
Ruim Renda > 5k Ruim Ruim Renda > 5k Ruim
Sim Não Bom Sim Não Bom
Ruim 1 - Ruim Ruim Bom

19 - Bom 87 88
Erro e Precisão Erro x Possíveis Hipóteses

Renda Renda
Principais fatores de erro:
Qualidade (representatividade) da informação
dos atributos H2
H1
Adaptação do algoritmo de aprendizado aos
exemplos
Idade Idade
Distribuição dos exemplos futuros Renda Renda
Quantidade de exemplos
H3 H4
89 Idade Idade 90
15
Qual a Melhor Hipótese?
H4...
Não Esquecer o Erro...
Conjunto Renda
de Treinamento
Indutor
Conjunto Taxa de
h Erro (Verdadeira)
de Teste
do Classificador
Idade
91 92
Erro de H4 Erro de H1
Conjunto de Teste Conjunto de Teste

Renda Renda
Idade Idade
93 94
Overfitting Underfitting
A hipótese extraída a partir dos exemplos é muito A hipótese induzida apresenta um
específica para o conjunto de treinamento
A hipótese apresenta um bom desempenho para o conjunto de
desempenho ruim tanto no conjunto de
treinamento, mas um desempenho ruim para os casos fora desse treinamento como de teste
conjunto
poucos exemplos representativos foram dados
X2 Hipótese
induzida ao sistema de aprendizado (e.g. algoritmos de
8 árvores de decisão ou de indução de regras)
o + + +
o o
o
+
+ + +
o o usuário pré-definiu um tamanho muito
o + + o
4 o
o
+ +
+
o Novos exemplos pequeno para o classificador (e.g. insuficientes
o + o fora do conjunto
o
o
o + + o neurônios em uma rede neural ou um alto valor
o o de treinamento
o
o de poda para árvores de decisão)
2.5 5 X1
95 96
16
Relação entre o Tamanho do Relação entre o Tamanho do
Classificador e o Erro Classificador e o Erro
Erro Erro
Underfitting
Conjunto de Teste Conjunto de Teste

Overfitting
Conjunto de Treinamento Conjunto de Treinamento
N1 N2 N3 N1 N2 N3
Tamanho do Classificador Tamanho do Classificador
97 98
Consistência e Completude Relação entre Completude e Consistência

X2 * ** X2 * **
o o o o * * * o o o o * * *
Depois de induzida, uma hipótese pode ser o o o o
o o
o
o
** * * o
o
** * *
o o o o
avaliada sobre o
o
o
o o
+
+
+
+ o
o
o
o o
+
+
+
+
+ +
consistência, se classifica corretamente os o
o
+ + + + o
o
+ + + +
+ + + +
exemplos o
+
+ +
+ + (a)
o
+
+ +
+ + (b)
o + o +
completude, se classifica todos os exemplos Completa e consistente X1 Incompleta e consistente X1
X2 * ** X2 * **
o o
o o
o o o * * * o o
o o o * * *
o o
o * * * * o * * * *
o o o o
o o
o o + + o o + +
o o o o
o + + o + +
+ +
o + + + o + + +
o + o +
+ + + + + +
o + o +
o + + +
+ (c) o + + +
+ (d)
99 Completa e inconsistente X1 Incompleta e inconsistente X1 100
Complexo Regra
É uma conjunção de disjunções dos atributos de Uma regra assume a forma if L then R que é
teste, na forma: equivalente a L → R ≡ R ← L ≡ R :- L
Xi op valor As partes esquerda L e direita R são complexos
onde Xi é um atributo, op é um operador sem atributos comuns entre eles, ou seja
atributos(L) ∩ atributos(R) = Ø
relacional e valor é constante válida para o
atributo Xi A parte esquerda L é denominada condição,
premissa, antecedente, cauda ou corpo da
Exemplos regra
Sexo = Masculino
A parte direita R é denominada conclusão ou
Idade >= 20 cabeça da regra
Sexo = Feminino and Idade < 90
101 102
17
Regra de Classificação Regra de Associação
Uma regra de classificação assume a Uma regra de associação assume que não
forma restrita de uma regra existe uma definição explícita de classe e
if L then classe = Ci qualquer atributo (ou atributos) pode ser
ou simplesmente usado como parte da conclusão da regra
if L then Ci Exemplo
onde Ci pertence ao conjunto de k valores if X3='S' and X5 > 2 then X1='N‘ and X2<1
de classe {C1, C2, ..., Ck}
A parte esquerda L é um complexo
103 104
Cobertura Conteúdo
Seja regra L → R
Exemplos que satisfazem a parte L da regra são cobertos pela
Introdução
regra (ou a regra dispara para esses exemplos)
Exemplos que satisfazem tanto a condição L como a conclusão R Hierarquia do Aprendizado
são cobertos corretamente pela regra
Exemplos satisfazendo a condição L mas não a conclusão R são Paradigmas de Aprendizado
cobertos incorretamente pela regra
Exemplos que não satisfazem a condição L não são cobertos AM: Conceitos e Definições
pela regra
Exemplos
são...
satisfazendo...
¬L Não cobertos pela regra
L Cobertos pela regra
L∧R Cobertos corretamente pela regra
L ∧ ¬R Cobertos incorretamente pela regra
105 106
Linguagens de Descrição Linguagens de Descrição

Qualquer que seja o tipo de aprendizado, é Lógica de ordem zero ou Proposicional
necessário uma linguagem para descrever O objeto é representado e descrito em termos de
conjunções, disjunções e negações de constantes
objetos (ou possíveis eventos) e uma linguagem booleanas que representam um campo
para descrever conceitos em termos Ex:
computacionais fêmea ∧ adulta → pode_ter_filhos
Lógica de atributos
Três tipos de DL:
Notação equivalente à LP, mas os atributos
Linguagem Descrição de Exemplos (Instance são tratados como variáveis
Description Language - IDL)
Ex:
Linguagem de Descrição de Hipóteses (Hypotheses sexo=fêmea ∧ idade=adulta → classe=pode_ter_filhos
Description Language - HDL) ou
Linguagem de Descrição de Conhecimento do Domínio sexo(fêmea) ∧ idade(adulta) → classe(pode_ter_filhos)
(Background Knowledge Language - BDL)
107 108
18
Linguagens de Descrição de Alguns
Indutores
Lógica de 1ª ordem ou Relacional
Pode representar objetos como predicados que especificam
propriedades ou relações
Cláusulas de Horn são um exemplo
Ex: Indutor IDL HDL BDL
macho(X) ∧ progenitor(Z,X) ∧ progenitor(Z,Y) → irmão(X,Y) C4.5 Atributo Atributo
ou CART Atributo Atributo
irmão(X,Y) ← macho(X) ∧ progenitor(Z,X) ∧ progenitor(Z,Y) CN2 Atributo Atributo
ou Ripper Atributo Atributo Atributo
irmão(X,Y) :- macho(X), progenitor(Z,X), progenitor(Z,Y) Foil Atributo Primeira Ordem Primeira Ordem
Lógica de 2ª ordem Rede Neural Atributo Função Matemática
Extensão da lógica de primeira ordem, em que os predicados podem ser
considerados como variáveis
Ex:
P1(X,Y) :- P2(X), P3(Z,X), P4(Z,Y)
pode ser instanciado com:
irmão(X,Y) :- macho(X), progenitor(Z,X), progenitor(Z,Y)
Funções Matemáticas
109 110
Características Gerais dos Sistemas

Representação da Classificação
de AM
Conjunto de Exemplos
Modo de Paradigmas de Linguagens Formas de Valores dos Classes

Aprendizado Aprendizado de Descrição Aprendizado Atributos Corretas
- Supervisionado - Simbólico - Exemplos - Incremental
- Não Supervisionado - Estatístico - Hipóteses - Não Incremental
- Instance-Based - Conhecimento
- Conexionista do Domínio
Paradigma de Sistema de
- Genético
Aprendizado Aprendizado
Classificador Específico para uma Aplicação
111 112
Esforço em Cada Etapa Estrutura
60
50
Conhecimento
40
Esforço (%)
30 Informação
20
10
Dados
0
Determinação de Preparação de Aprendizado de Análise &
Objetivos Dados Máquina Assimilação
113 114
19
Dado, Informação, Conhecimento Importante Observar que...
Dado: é a estrutura fundamental sobre a qual um Dado não é Informação
sistema de informação é construído
Informação: a transformação de dados em
Informação não é Conhecimento
informação é freqüentemente realizada através
da apresentação dos dados em uma forma
compreensível ao usuário Conhecimento não é Inteligência
Conhecimento:
Fornece a capacidade de resolver problemas, inovar e Inteligência não é Sabedoria
aprender baseado em experiências prévias
Uma combinação de instintos, idéias, regras e
procedimentos que guiam as ações e decisões
115 116
Resumo
Nesta aula foram apresentados conceitos e definições de
alguns termos amplamente utilizados em Aprendizado de
Slides baseados no Capítulo 4 do livro:
Máquina, além de uma descrição sobre as principais
linguagens de descrição
A investigação de estruturas diferentes, que podem ser Rezende, S.O. (ed).
apropriadas para diferentes contextos, bem como o
entendimento do seu poder e limitação são necessários Sistemas Inteligentes, Manole, 2003,
para o uso com êxito de Aprendizado de Máquina
Quanto maior a compreensão sobre as estruturas
ISBN 85-204-1683-7
fundamentais usadas por classificadores, mais
adequadamente pode-se aplicar ou alterá-las com base
no conhecimento do domínio Material elaborado por
Além da compreensão dos algoritmos de AM, é José Augusto Baranauskas
igualmente importante poder avaliar seu desempenho, o Revisão 2007
que veremos nas próximas aulas
117 118
20

AM I Conceitos Definicoes PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

AM I Conceitos Definicoes PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Aprendizado de Máquina Conteúdo

José Augusto Baranauskas augusto@usp.br

Aprendizado de Máquina (AM) Motivação (1)

Motivação (1) Motivação (1)

Dado um conjunto de objetos, colocar os Dado um conjunto de objetos, colocar os

Dado um conjunto de objetos, colocar os Dados pares (x,f(x)), inferir f(·)

Exemplo: Cogumelos Comestíveis x

Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x

+ Comestível ¯ Venenoso + Comestível ¯ Venenoso

+ Comestível ¯ Venenoso + Comestível ¯ Venenoso

Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x

+ Comestível ¯ Venenoso + Comestível ¯ Venenoso

Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x

+ Comestível ¯ Venenoso + Comestível ¯ Venenoso

Hierarquia do Aprendizado Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina

Menos Exemplos Mais Menos Exemplos Mais

 Simbólico ou Orientado a conhecimento

Categorias de Sistemas de Aprendizado AS x AnS

<= 105 > 105 >0 <= 0 Paradigmas de Aprendizado

Parte da árvore de decisão induzida por C4.5 para o conjunto de exemplos

Simbólico Os sistemas de aprendizado simbólico

Paradigma Genético Paradigma Estatístico

Introdução Programa que gera uma hipótese

Indutor Argumentos Dedutivos x Indutivos

 Informalmente, o objetivo de um indutor (ou algoritmo de

Argumentos Dedutivos x Indutivos Exemplo, Atributo & Classe

Um exemplo de dedução: Exemplo

Atributo Escolha de Atributos

conjunto discreto (nominal) de classes {C1, C2, ...,

Exemplo de um Conjunto de Exemplo de um Conjunto de

Exemplo de um Conjunto de Exemplos

Erro Verdadeiro Preparação de Dados

Fase que antecede o processo de

Conhecimento do Domínio Ruído

Dado um conjunto de exemplos, o  Dado um conjunto de treinamento, um indutor gera como

Exemplos de Hipóteses Exemplos de Hipóteses

(a) exemplos originais Qual a melhor hipótese para os exemplos

Modo de Aprendizado Espaço de Descrição

Espaço de Descrição Espaço de Descrição

Idade Renda Classe

Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo

Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo

Idade < 25 Idade < 25

Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo

Idade < 25 Idade < 25

Idade > 45 Ruim Idade > 45 Ruim

Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo

Idade < 25 Idade < 25

Idade > 45 Ruim Idade > 45 Ruim

Idade < 25 Idade < 25

Idade > 45 Ruim Idade > 45 Ruim

Espaço de Descrição: Exemplo Espaço de Descrição: Exemplo

Idade < 25 Idade < 25

Idade > 45 Ruim Idade > 45 Ruim

Ruim 1 - Ruim Ruim Bom

Erro e Precisão Erro x Possíveis Hipóteses

Conjunto de Teste Conjunto de Teste

Conjunto de Teste Conjunto de Teste

Conjunto de Treinamento Conjunto de Treinamento

Consistência e Completude Relação entre Completude e Consistência

Linguagens de Descrição Linguagens de Descrição

Características Gerais dos Sistemas

Dado um conjunto de objetos, colocar os Dado um conjunto de objetos, colocar os

Dado um conjunto de objetos, colocar os Dados pares (x,f(x)), inferir f(·)

Simbólico ou Orientado a conhecimento

<= 105 > 105 >0 <= 0 Paradigmas de Aprendizado

Simbólico Os sistemas de aprendizado simbólico

Introdução Programa que gera uma hipótese

Informalmente, o objetivo de um indutor (ou algoritmo de

Um exemplo de dedução: Exemplo

Fase que antecede o processo de

Dado um conjunto de exemplos, o Dado um conjunto de treinamento, um indutor gera como

(a) exemplos originais Qual a melhor hipótese para os exemplos