Algoritmos para Classificação

1
1
Minerao de Dados
Algoritmos para
Classificao
2
Sumrio
Algoritmo 1R
Nave Bayes
rvore de Deciso
Regras
Modelos Lineares (Regresso)
Baseados em Instncia (Vizinhos mais
Prximos)
2
3
Modelos Lineares
Trabalham mais naturalmente com atributos numricos
Tcnica padro para previso numrica: regresso linear
Resultado uma combinao linear de atributos
Pesos so calculados para os dados de treinamento
Valor previsto para a primeira instncia a
(1)
k k
a w a w a w w x + + + + = ...
2 2 1 1 0
=
= + + + +
k
j
j j k k
a w a w a w a w a w
0
) 1 ( ) 1 ( ) 1 (
2 2
) 1 (
1 1
) 1 (
0 0
...
Regresso
A anlise de regresso representa os dados atravs de
um modelo linear aditivo, onde o modelo inclui um
componente sistemtico e um aleatrio.
f descreve a relao entre X e Y.
c so os erros aleatrios.
Y = varivel resposta ou dependente;
X = varivel independente, concomitante, covarivel ou
varivel preditora.
4
) ( c + = X f Y
3
5
Minimizando o Erro Quadrtico
Escolhe k +1 coeficientes para minimizar o erro quadrtico nos
dados de treinamento:
Erro quadrtico:
2
1 0
) ( ) (

= =
|
|
.
|
\
|
n
i
k
j
i
j j
i
a w x
IDADE
VALO
R
1,5
2,5
3,5
4,5
5,5
6,5
2 6 10 14 18 22
6
Regresso para Classificao
Qualquer tcnica de regresso pode ser usada para
classificao
Treinamento: executa uma regresso para cada classe,
ajustando a sada para 1 quando as instncias de
treinamento pertencem a classe, e para 0 quando isto no
acontece
Previso: prev a classe correspondente ao modelo com o
maior valor de sada (valor de pertinncia)
Para regresso linear isto conhecido como regresso
linear multi-resposta
4
Regresso a Par
Outra forma de utilizar regresso para fazer
classificao
Utiliza-se uma funo de regresso para cada par de classes,
usando apenas as instncias destas duas classes
Uma sada de +1 atribuda a um membro do par e uma de
-1 ao outro membro
A predio feita atravs de votao
A classe que recebe mais votos a que predita
Alternativa: no sei quando no h acordo
Este mtodo freqentemente mais preciso, mas
tambm mais caro computacionalmente
7
8
Regresso Logstica
Problema: algumas suposies so violadas quando se
aplica regresso linear em problemas de classificao
Regresso Logstica: alternativa para regresso linear
Desenvolvida para problemas de classificao
Tenta estimar probabilidades de classes diretamente
Usa o mtodo da mxima verossimilhana
Usa o modelo linear:
P=Probabilidade da Classe
k k
a w a w a w a w
P
P
+ + + + =
|
.
|
\
|

2 2 1 1 0 0
1
log
5
9
Discusso de modelos lineares
No so apropriados se dados exibem dependncias
no-lineares
Mas pode servir como blocos construtores para
esquemas mais complexos
Exemplo: regresso linear multi-resposta define um
hiperplano para quaisquer duas classes dadas:
0 ) ( ) ( ) ( ) (
) 2 ( ) 1 (
2
) 2 (
2
) 1 (
2 1
) 2 (
1
) 1 (
1 0
) 2 (
0
) 1 (
0
> + + + +
k k k
a w w a w w a w w a w w
10
Comentrios sobre Mtodos Bsicos
Minsky e Papert (1969) mostraram que
classificadores lineares tm limitaes
No podem aprender o XOR por exemplo
Combinaes deles podem (redes neurais por
exemplo)
6
Aprendizagem Baseada em Instncia
(IBL) ou aprendizagem preguiosa
Simplesmente armazena os exemplos de treinamento
Deixa a generalizao de f s para quando uma nova
instncia precisa ser classificada
A cada nova instncia, uma f nova e local estimada
Mtodos: vizinhos mais prximos, regresso
localmente ponderada, raciocnio baseado em casos,
etc.
11
12
Aprendizagem Baseada em Instncia
Forma mais simples de aprendizado
Instncias de treinamento so usados para identificar qual a
classe que mais se parece com a nova instncia que se quer
identificar
As prprias instncias representam o conhecimento
Funo de similaridade define o que aprendido
Este aprendizado um tipo de aprendizado preguioso
Mtodos:
Vizinho mais prximo
K-vizinhos mais prximos: Mtodo mais antigo (1967) e
difundido
7
13
Aprendizado Baseado em Instncias
Funo distncia define o que aprendido
Instncias so representadas por pontos num espao n
dimensional 9
n
Maior parte dos esquemas baseados em instncias usam
distncia Euclidiana
a
(1)
e a
(2)
: duas instncias com k atributos
Calcular a raiz quadrada desnecessrio quando se quer
comparar distncias
2 ) 2 ( ) 1 ( 2 ) 2 (
2
) 1 (
2
2 ) 2 (
1
) 1 (
1
) ( ... ) ( ) (
k k
a a a a a a + + +
14 14
Aprendizado Baseado emInstncias
Distncia Manhattan (city-block )
Adiciona diferenas sem elevar ao quadrado
Em um plano que contm os pontos P
1
e P
2
,
respectivamente com as coordenadas (x
1
,y
1
) e (x
2
,y
2
),
definido por:
| x
1
-x
2
| +| y
1
-y
2
|
8
Coeficiente de Correlao de Pearson:
mede o nvel de relacionamento entre duas variveis
onde x e y so os valores medidos de ambas as variveis e
so respectivamente suas mdias
r assume apenas valores entre -1 e 1.
15
_ _
y e x
16
Coeficiente de Correlao de Pearson:
(1) (2)
Em (1) variveis com alta correlao tem medida de
dissimilaridade prximas a zero, enquanto variveis com alta
correlao negativa tero nveis de dissimilaridades prximas a
1.
Em (2) variveis com alta correlao positiva ou negativa tero
coeficiente de dissimilaridade prximos a zero.
16
2
)) , ( 1 (
) , (
y x r
y x d

=
| ) , ( | 1 ) , ( y x r y x d =
9
17 17 17
Potncias mais elevadas:
Aumentam a influncia de grandes diferenas s custas de
pequenas diferenas
Outras mtricas de distncias podem ser mais apropriadas
em circunstncias especiais
18
Normalizao e outras consideraes
Diferentes atributos so medidos em diferentes escalas, ento
se a distncia Euclidiana for usada diretamente, os efeitos de
alguns atributos pode ser completamente minimizados por
outros que tenham escalar maiores.
precisam ser normalizados:
v
i
: o valor real de i
i i
i i
i
v v
v v
a
min max
min
=
) (
) (
i
i i
i
v StDev
v Avg v
a

=
ou
10
19 19 19
Funo de Distncia:
Atributos Nominais
Atributos nominais: distncia igual a 1 se os
valores so diferentes e 0 se so iguais
Nesse caso os valores j esto em escala
Todos os atributos so igualmente importantes ?
Dar pesos para os atributos pode ser necessrio
20 20 20 20
Funo de Distncia:
Valores Faltantes
Para atributos nominais, assume-se que a caracterstica
a maior diferenca possvel entre todas os outras
valores
Se ambos so faltantes ou diferentes: a diferenca
entre eles 1
A diferena 0 (zero) somente se eles no so
faltantes e se so iguais.
11
21
Funo de Classificao
A funo de classificao
Caso seja discreta, seu resultado aquele que
aparecer mais vezes entre os k vizinhos mais
prximos (V = conjunto de valores possveis da
funo)
Caso seja contnua, seu resultado a mdia dos
resultados dos k vizinhos mais prximos
f
V f
n
9 :
9 9
n
f :
22
x = < idade(x), altura(x), peso(x)>,
onde adimplente pode ser sim, no]
Exemplo de treinamento = (x,f(x)), onde f(x) a funo de
classificao a ser aprendida
joo = (<36, 1.80, 76>, ???) a ser classificado
jos = (<30, 1.78, 72>, sim)
maria = (<25, 1.65, 60>, sim)
anastcia = (<28, 1.60, 68>, no)
Distncia
d(joo,jos) = [(36-30)
2
+ (1.80-1.78)
2 +
(76-72)
2
]
1/2
=
(36+0.0004+16)
1/2
= 7,21
d(joo,maria) = (121+0.0225+256)
1/2
= 19,41
Funo de Classificao
12
23
kvizinhos mais prximos
Treinamento
Adicione cada instncia de treinamento <x,f(x)> na lista
instancias_treinamento
Para cada instncia x
q
a ser classificada
Chame de x
1
,x
2
,...x
k
as k instncias mais prximas de x
q
na
lista instancias_treinamento
Retorna
Caso discreto
Caso contnuo
b a b a (a,b)
x f v x f
k
i
i
V v
q
= =

=
e
se 0 e se 1 a igual onde
)) ( , ( max arg ) (
1
o
k
x f
x f
k
i
i
q
1
) (
) (
24
Caso discreto
O valor de k determinante na classificao
-
-
-
x
q
+
+
+
+
-
-
-
k = 1 classifica x
q
como +
k = 5 classifica x
q
como -
k vizinhos mais prximos: exemplo
13
25
Caso contnuo
exemplo = filme = <ano, bilheteria>
classificao f = recomendao r e Z, r = [1...5]
r(x
1
) = 4, r(x
2
) = 3, r(x
3
) = 5, r(x
4
) = 2
para k = 3 e supondo que x
1
, x
2
e x
3
so os mais
prximos de x
q
, temos
f(x
q
) = (4+3+5)/3 = 4
k vizinhos mais prximos: exemplo
26
http://www.cs.cornell.edu/Info/People/chew/chew.html
k vizinhos mais prximos
Visualizao da superfcie de deciso, para k = 1
Diagrama de Voronoi => poliedro convexo para cada
instncia de treinamento.
As instncias dentro do poliedro so completamente
classificados pela instncia associada
14
27
Problema da dimensionalidade
Para calcular a distncia entre os pontos, o mtodo utiliza todos
os atributos da instncia
Conseqncias
pode custar caro
atributos irrelevantes podem deturpar a classificao
Refinamentos
Atribuir pesos e
j
aos atributos de maneira que minimize a taxa
de erro de classificao (Importncia do atributo)
Usar a tcnica de validao cruzada para automaticamente
escolher os pesos
Eliminar atributos do espao de instncias
28
Refinamento: distncia para o vizinho
ponderar a contribuio de cada um dos k vizinhos de
acordo com sua distncia ao ponto de consulta x
q
melhora robustez
Caso discreto
Caso contnuo
=
=
k
i
i
k
i
q
f
x f
1
1
i i
) (x
) (
e
e
) ,x d(x
q i
i
1
onde
=
e
k
i
i i
V v
q
x f v x f
1
)) ( , ( max arg ) (
o e
15
29
Discusso do algoritmo 1-NN
Geralmente bastante preciso:
Estatsticos tem usado k-NN desde 1950
Se n e k/n 0, erro se aproxima do mnimo
Lento:
Verses mais simples precisam examinar inteiramente os
dados de treinamento para efetuar a previso
Assume que todos os atributos so igualmente importantes
Soluo: seleo de atributos ou uso de pesos
Possveis solues contra instncias ruidosas:
Usar uma maioria de votos sobre os k vizinhos mais
prximos
Remover instncias ruidosas do conjunto de dados
30
Regresso Localmente Ponderada
(RLP)
Generalizao de vizinhos mais prximos
Constri uma aproximao explicita de uma
funo f(x
q
) em uma regio prxima de x
q
16
31
(RLP)
Localmente
A aproximao definida na vizinhana de x
q
e servir
exclusivamente para sua classificao
Ponderada
A contribuio de cada instncia ponderada pela
distncia entre estas e x
q
Regresso
Designa o problema de encontrar uma funo de
aproximao
32
(RLP)
Descrio
Construir uma aproximao que ajuste os valores das
instncias de treinamento na vizinhana de x
q
.
A aproximao ento usada para calcular o valor ponto x
q.
A descrio de apagada, pois a funo de aproximao
ser construda para cada instncia a ser consultada
) (
x f
f
17
33
(RLP)
Funo de aproximao mais comum
Escolher e
i
que minimiza a soma dos
quadrados dos erros em relao ao conjunto
de treinamento D
) ( ... ) ( ) (
1 1 0
x a x a x f
n n
e e e + + + =
( )
e
=
D x
q
x f x f x
2
) (
) (
2
1
) E(
34
(RLP)
Outras propostas para minimizar o erro:
Erro quadrtico sobre os k-vizinhos mais
prximos
( )
e
=
q
x de prximos mais k vizinhos
2
) (
) (
2
1
) (
x
q
x f x f x E
18
35
Regresso localmente ponderada
Erro quadrtico ponderado em D
Onde K(d(x
q
,x)) uma funo que penaliza
grandes distncias entre os pontos
( )
e
=
D x
q
2
q
)) x , x ( d ( K ) x (
) x (
2
1
) x ( E f f
36
Combinao das duas anteriores
( )
e
=
q
x de prximos mais k vizinhos
2
)) , ( ( ) ( f
) ( f
2
1
) (
x
q q
x x d K x x x E
19
37
Vrias funes para clculo da distncia
Distncia euclidiana bastante usada
Vrias funes de aproximao
Constante, linear e quadrtica
Funes mais complexas so evitadas
Custo de ajustamento
As funes mais simples fornecem aproximaes boas
sobre uma regio suficientemente pequena do espao de
instncias

Algoritmos para Classificação

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Algoritmos para Classificação

Enviado por

Direitos autorais:

Formatos disponíveis

1

Você também pode gostar