Você está na página 1de 19

1

1
Minerao de Dados
Algoritmos para
Classificao
2
Sumrio
Algoritmo 1R
Nave Bayes
rvore de Deciso
Regras
Modelos Lineares (Regresso)
Baseados em Instncia (Vizinhos mais
Prximos)
2
3
Modelos Lineares
Trabalham mais naturalmente com atributos numricos
Tcnica padro para previso numrica: regresso linear
Resultado uma combinao linear de atributos
Pesos so calculados para os dados de treinamento
Valor previsto para a primeira instncia a
(1)
k k
a w a w a w w x + + + + = ...
2 2 1 1 0

=
= + + + +
k
j
j j k k
a w a w a w a w a w
0
) 1 ( ) 1 ( ) 1 (
2 2
) 1 (
1 1
) 1 (
0 0
...
Regresso
A anlise de regresso representa os dados atravs de
um modelo linear aditivo, onde o modelo inclui um
componente sistemtico e um aleatrio.
f descreve a relao entre X e Y.
c so os erros aleatrios.
Y = varivel resposta ou dependente;
X = varivel independente, concomitante, covarivel ou
varivel preditora.
4
) ( c + = X f Y
3
5
Minimizando o Erro Quadrtico
Escolhe k +1 coeficientes para minimizar o erro quadrtico nos
dados de treinamento:
Erro quadrtico:
2
1 0
) ( ) (

= =
|
|
.
|

\
|

n
i
k
j
i
j j
i
a w x
IDADE
VALO
R
1,5
2,5
3,5
4,5
5,5
6,5
2 6 10 14 18 22
6
Regresso para Classificao
Qualquer tcnica de regresso pode ser usada para
classificao
Treinamento: executa uma regresso para cada classe,
ajustando a sada para 1 quando as instncias de
treinamento pertencem a classe, e para 0 quando isto no
acontece
Previso: prev a classe correspondente ao modelo com o
maior valor de sada (valor de pertinncia)
Para regresso linear isto conhecido como regresso
linear multi-resposta
4
Regresso a Par
Outra forma de utilizar regresso para fazer
classificao
Utiliza-se uma funo de regresso para cada par de classes,
usando apenas as instncias destas duas classes
Uma sada de +1 atribuda a um membro do par e uma de
-1 ao outro membro
A predio feita atravs de votao
A classe que recebe mais votos a que predita
Alternativa: no sei quando no h acordo
Este mtodo freqentemente mais preciso, mas
tambm mais caro computacionalmente
7
8
Regresso Logstica
Problema: algumas suposies so violadas quando se
aplica regresso linear em problemas de classificao
Regresso Logstica: alternativa para regresso linear
Desenvolvida para problemas de classificao
Tenta estimar probabilidades de classes diretamente
Usa o mtodo da mxima verossimilhana
Usa o modelo linear:
P=Probabilidade da Classe
k k
a w a w a w a w
P
P
+ + + + =
|
.
|

\
|


2 2 1 1 0 0
1
log
5
9
Discusso de modelos lineares
No so apropriados se dados exibem dependncias
no-lineares
Mas pode servir como blocos construtores para
esquemas mais complexos
Exemplo: regresso linear multi-resposta define um
hiperplano para quaisquer duas classes dadas:
0 ) ( ) ( ) ( ) (
) 2 ( ) 1 (
2
) 2 (
2
) 1 (
2 1
) 2 (
1
) 1 (
1 0
) 2 (
0
) 1 (
0
> + + + +
k k k
a w w a w w a w w a w w
10
Comentrios sobre Mtodos Bsicos
Minsky e Papert (1969) mostraram que
classificadores lineares tm limitaes
No podem aprender o XOR por exemplo
Combinaes deles podem (redes neurais por
exemplo)
6
Aprendizagem Baseada em Instncia
(IBL) ou aprendizagem preguiosa
Simplesmente armazena os exemplos de treinamento
Deixa a generalizao de f s para quando uma nova
instncia precisa ser classificada
A cada nova instncia, uma f nova e local estimada
Mtodos: vizinhos mais prximos, regresso
localmente ponderada, raciocnio baseado em casos,
etc.
11
12
Aprendizagem Baseada em Instncia
Forma mais simples de aprendizado
Instncias de treinamento so usados para identificar qual a
classe que mais se parece com a nova instncia que se quer
identificar
As prprias instncias representam o conhecimento
Funo de similaridade define o que aprendido
Este aprendizado um tipo de aprendizado preguioso
Mtodos:
Vizinho mais prximo
K-vizinhos mais prximos: Mtodo mais antigo (1967) e
difundido
7
13
Aprendizado Baseado em Instncias
Funo distncia define o que aprendido
Instncias so representadas por pontos num espao n
dimensional 9
n
Maior parte dos esquemas baseados em instncias usam
distncia Euclidiana
a
(1)
e a
(2)
: duas instncias com k atributos
Calcular a raiz quadrada desnecessrio quando se quer
comparar distncias
2 ) 2 ( ) 1 ( 2 ) 2 (
2
) 1 (
2
2 ) 2 (
1
) 1 (
1
) ( ... ) ( ) (
k k
a a a a a a + + +
14 14
Aprendizado Baseado emInstncias
Distncia Manhattan (city-block )
Adiciona diferenas sem elevar ao quadrado
Em um plano que contm os pontos P
1
e P
2
,
respectivamente com as coordenadas (x
1
,y
1
) e (x
2
,y
2
),
definido por:
| x
1
-x
2
| +| y
1
-y
2
|
8
Aprendizado Baseado em Instncias
Coeficiente de Correlao de Pearson:
mede o nvel de relacionamento entre duas variveis
onde x e y so os valores medidos de ambas as variveis e
so respectivamente suas mdias
r assume apenas valores entre -1 e 1.
15
_ _
y e x
16
Aprendizado Baseado em Instncias
Coeficiente de Correlao de Pearson:
(1) (2)
Em (1) variveis com alta correlao tem medida de
dissimilaridade prximas a zero, enquanto variveis com alta
correlao negativa tero nveis de dissimilaridades prximas a
1.
Em (2) variveis com alta correlao positiva ou negativa tero
coeficiente de dissimilaridade prximos a zero.
16
2
)) , ( 1 (
) , (
y x r
y x d

=
| ) , ( | 1 ) , ( y x r y x d =
9
17 17 17
Aprendizado Baseado em Instncias
Potncias mais elevadas:
Aumentam a influncia de grandes diferenas s custas de
pequenas diferenas
Outras mtricas de distncias podem ser mais apropriadas
em circunstncias especiais
18
Normalizao e outras consideraes
Diferentes atributos so medidos em diferentes escalas, ento
se a distncia Euclidiana for usada diretamente, os efeitos de
alguns atributos pode ser completamente minimizados por
outros que tenham escalar maiores.
precisam ser normalizados:
v
i
: o valor real de i
i i
i i
i
v v
v v
a
min max
min

=
) (
) (
i
i i
i
v StDev
v Avg v
a

=
ou
10
19 19 19
Funo de Distncia:
Atributos Nominais
Atributos nominais: distncia igual a 1 se os
valores so diferentes e 0 se so iguais
Nesse caso os valores j esto em escala
Todos os atributos so igualmente importantes ?
Dar pesos para os atributos pode ser necessrio
20 20 20 20
Funo de Distncia:
Valores Faltantes
Para atributos nominais, assume-se que a caracterstica
a maior diferenca possvel entre todas os outras
valores
Se ambos so faltantes ou diferentes: a diferenca
entre eles 1
A diferena 0 (zero) somente se eles no so
faltantes e se so iguais.
11
21
Funo de Classificao
A funo de classificao
Caso seja discreta, seu resultado aquele que
aparecer mais vezes entre os k vizinhos mais
prximos (V = conjunto de valores possveis da
funo)
Caso seja contnua, seu resultado a mdia dos
resultados dos k vizinhos mais prximos
f

V f
n
9 :
9 9
n
f :
22
x = < idade(x), altura(x), peso(x)>,
onde adimplente pode ser sim, no]
Exemplo de treinamento = (x,f(x)), onde f(x) a funo de
classificao a ser aprendida
joo = (<36, 1.80, 76>, ???) a ser classificado
jos = (<30, 1.78, 72>, sim)
maria = (<25, 1.65, 60>, sim)
anastcia = (<28, 1.60, 68>, no)
Distncia
d(joo,jos) = [(36-30)
2
+ (1.80-1.78)
2 +
(76-72)
2
]
1/2
=
(36+0.0004+16)
1/2
= 7,21
d(joo,maria) = (121+0.0225+256)
1/2
= 19,41
Funo de Classificao
12
23
kvizinhos mais prximos
Treinamento
Adicione cada instncia de treinamento <x,f(x)> na lista
instancias_treinamento
Para cada instncia x
q
a ser classificada
Chame de x
1
,x
2
,...x
k
as k instncias mais prximas de x
q
na
lista instancias_treinamento
Retorna
Caso discreto
Caso contnuo
b a b a (a,b)
x f v x f
k
i
i
V v
q
= =


=
e
se 0 e se 1 a igual onde
)) ( , ( max arg ) (

1
o
k
x f
x f
k
i
i
q

1
) (
) (

24
Caso discreto
O valor de k determinante na classificao
-
-
-
x
q
+
+
+
+
-
-
-
k = 1 classifica x
q
como +
k = 5 classifica x
q
como -
k vizinhos mais prximos: exemplo
13
25
Caso contnuo
exemplo = filme = <ano, bilheteria>
classificao f = recomendao r e Z, r = [1...5]
r(x
1
) = 4, r(x
2
) = 3, r(x
3
) = 5, r(x
4
) = 2
para k = 3 e supondo que x
1
, x
2
e x
3
so os mais
prximos de x
q
, temos
f(x
q
) = (4+3+5)/3 = 4
k vizinhos mais prximos: exemplo
26
http://www.cs.cornell.edu/Info/People/chew/chew.html
k vizinhos mais prximos
Visualizao da superfcie de deciso, para k = 1
Diagrama de Voronoi => poliedro convexo para cada
instncia de treinamento.
As instncias dentro do poliedro so completamente
classificados pela instncia associada
14
27
k vizinhos mais prximos
Problema da dimensionalidade
Para calcular a distncia entre os pontos, o mtodo utiliza todos
os atributos da instncia
Conseqncias
pode custar caro
atributos irrelevantes podem deturpar a classificao
Refinamentos
Atribuir pesos e
j
aos atributos de maneira que minimize a taxa
de erro de classificao (Importncia do atributo)
Usar a tcnica de validao cruzada para automaticamente
escolher os pesos
Eliminar atributos do espao de instncias
28
Refinamento: distncia para o vizinho
ponderar a contribuio de cada um dos k vizinhos de
acordo com sua distncia ao ponto de consulta x
q
melhora robustez
Caso discreto
Caso contnuo

=
=

k
i
i
k
i
q
f
x f
1
1
i i
) (x
) (

e
e
) ,x d(x

q i
i
1

onde

=
e

k
i
i i
V v
q
x f v x f
1
)) ( , ( max arg ) (

o e
k vizinhos mais prximos
15
29
Discusso do algoritmo 1-NN
Geralmente bastante preciso:
Estatsticos tem usado k-NN desde 1950
Se n e k/n 0, erro se aproxima do mnimo
Lento:
Verses mais simples precisam examinar inteiramente os
dados de treinamento para efetuar a previso
Assume que todos os atributos so igualmente importantes
Soluo: seleo de atributos ou uso de pesos
Possveis solues contra instncias ruidosas:
Usar uma maioria de votos sobre os k vizinhos mais
prximos
Remover instncias ruidosas do conjunto de dados
30
Regresso Localmente Ponderada
(RLP)
Generalizao de vizinhos mais prximos
Constri uma aproximao explicita de uma
funo f(x
q
) em uma regio prxima de x
q
16
31
Regresso Localmente Ponderada
(RLP)
Localmente
A aproximao definida na vizinhana de x
q
e servir
exclusivamente para sua classificao
Ponderada
A contribuio de cada instncia ponderada pela
distncia entre estas e x
q
Regresso
Designa o problema de encontrar uma funo de
aproximao
32
Regresso Localmente Ponderada
(RLP)
Descrio
Construir uma aproximao que ajuste os valores das
instncias de treinamento na vizinhana de x
q
.
A aproximao ento usada para calcular o valor ponto x
q.
A descrio de apagada, pois a funo de aproximao
ser construda para cada instncia a ser consultada
) (

x f
f

17
33
Regresso Localmente Ponderada
(RLP)
Funo de aproximao mais comum
Escolher e
i
que minimiza a soma dos
quadrados dos erros em relao ao conjunto
de treinamento D
) ( ... ) ( ) (

1 1 0
x a x a x f
n n
e e e + + + =
( )

e
=
D x
q
x f x f x
2
) (

) (
2
1
) E(
34
Regresso Localmente Ponderada
(RLP)
Outras propostas para minimizar o erro:
Erro quadrtico sobre os k-vizinhos mais
prximos
( )

e
=
q
x de prximos mais k vizinhos
2
) (

) (
2
1
) (
x
q
x f x f x E
18
35
Regresso localmente ponderada
Erro quadrtico ponderado em D
Onde K(d(x
q
,x)) uma funo que penaliza
grandes distncias entre os pontos
( )

e
=
D x
q
2
q
)) x , x ( d ( K ) x (

) x (
2
1
) x ( E f f
36
Regresso localmente ponderada
Combinao das duas anteriores
( )

e
=
q
x de prximos mais k vizinhos
2
)) , ( ( ) ( f

) ( f
2
1
) (
x
q q
x x d K x x x E
19
37
Regresso localmente ponderada
Vrias funes para clculo da distncia
Distncia euclidiana bastante usada
Vrias funes de aproximao
Constante, linear e quadrtica
Funes mais complexas so evitadas
Custo de ajustamento
As funes mais simples fornecem aproximaes boas
sobre uma regio suficientemente pequena do espao de
instncias

Você também pode gostar