Você está na página 1de 52

Aluizio Fausto Ribeiro Arajo

Universidade Federal de Pernambuco


Centro de Informtica
Mquinas de Vetores de Suporte
Supprot Vector Machine
2
1. Introduo
2. Classificadores Binrios
3. Aprendizagem Estatstica
4. SVM com Margens Rgidas
5. SVM com Margens Rgidas: Hiperplano timo
6. SVM com Margens Rgidas: Mtodo de Multiplicadores de
Lagrange.
7. SVM com Margens Rgidas: Padres No-linearmente Separveis
8. SVM Separando Padres No-linearmente Separveis
9. SVM e a Funo Kernel
10. Aplicaes
11. Discusso
Contedo
3
Introduo
- As Mquinas de Vetores Suporte (Support Vector Machines - SVMs)
so baseadas na Teoria de Aprendizagem Estatstica (TAE) proposta
por Vapnik e Chernovemkis nas dcadas de 1960 e 1970 (Vapnik,
1995).
- A Teoria de Aprendizagem Estatstica visa encontrar condies
matemticas para escolha de uma funo que separe dados a serem
aprendidos em problemas de categorizao. Esta separao deve
considerar o menor erro de treinamento ao mesmo tempo que deve
maximizar a capacidade de generalizao de um classificador (para
aprendizagem supervisionada).
4
Introduo
- Mtodo para escolha de funo de separao de dados em
categorias: Minimizar o erro de treinamento e a
complexidade da funo selecionada.
- O nvel da complexidade est associado com a capacidade
de generalizao.
- O conceito dimenso Vapnik-Chervonenkis (VC) til
para obter as condies mencionadas acima. Ela mede a
complexidade das hipteses (funes) consideradas por um
algoritmo de busca por solues.
5
Introduo
- Caractersticas favorveis ao uso de SVMs:
i. Capacidade de generalizao alta, evitando sobretreinamento
(overfitting).
ii. Robustez para categorizao de dados com dimenses altas,
que tendem a ser sobretreinados em outros classificadores
pois muitas micro-caractersticas so pouco discriminantes.
iii. Convexidade da funo objetivo pois esta uma funo
quadrtica com apenas um timo global.
iv. Teoria bem estabelecida nas reas de matemtica e
estatstica.
6
Introduo
- Treinamento: Supervisionado ou No-supervisionado que no
tem conhecimento prvio sobre o domnio do problema.
- Classes de problemas em que so comumente usadas SVM:
i. Classificao de padres;
ii. Regresso;
iii. Reconhecimento de padres;
iv. Agrupamento.
- Exemplos de reas de aplicao (dimenso alta dos dados):
- Deteco de faces em imagens; Categorizao de textos;
Regresso linear; Bioinformtica.
7
Classificadores Binrios
Funo de Separao
A tarefa a ser realizada:
- Um conjunto de dados finito {(x, y)} onde x representa uma
entrada e y uma das duas classes qual ela pode pertencer.
{0,1}, {-1,+1}, {o,x}, {,o}...
A soluo:
Aprender uma funo que baseada em um grupo de padres de
treinamento (que pode ser muito pequeno), possa associar
dados no vistos anteriormente classe correta.
8
Classificadores Binrios
Funo de Separao
A abordagem clssica tomar uma funo, como um
polinmio, e ajustar seus parmetros para separar os dados de
treinamento colocando-os em uma das duas classes.
No treinamento, aumentando o grau do polinmio possvel
reduzir o erro nos dados de treinamento.
Esta estratgia pode levar ao sobretreinamento (overfitting) implicando
em baixa capacidade de generalizao.
9
Classificadores Binrios
Funo de Separao
Procedimento alternativo:
- Reduo significativa do grau do polinmio.
- Esta opo pode levar ao aumento do erro de classificao
para os dados de treinamento, o underfitting.
10
Aprendizagem Estatstica
Minimizao do Risco Estrutural
A teoria de Aprendizagem Estatstica visa determinar condies
matemticas para escolha de um classificador com desempenho
desejado para conjuntos de treinamento e teste.
sempre possvel encontrar um polinmio de alto grau que separe
duas classes quaisquer.
- Logo o risco emprico pode sempre ser minimizado para zero ao
custo de uma funo de deciso muito complexa.
- A distribuio dos dados de treinamento pode no ser to
complexa mas, fatores como rudo podem fazer a distribuio
parecer mais complexa para a mquina de aprendizagem.
A teoria da Minimizao do Risco Estrutural (MRE) formaliza o
conceito de controle de complexidade e minimizao de risco
emprico.
11
Aprendizagem Estatstica
Minimizao do Risco Estrutural
Se uma mquina de aprendizagem, como rede neural ou mquina de
vetor suporte, pretende minimizar o risco esperado, ela deve
minimizar tanto o risco emprico quanto o termo de complexidade.
de complexida de termo emprico risco esperado risco +
12
Aprendizagem Estatstica
Minimizao do Risco Emprico (treinamento)
Critrios considerados para escolha de um classificador (f):
- Minimizao do risco emprico, relativo a erro durante o
treinamento, no qual se considera:
- O nmero de pares entrada-sada.
- A funo de custo que relacione a previso de sada com a
sada desejada.

n
i
i emp
y f c
n
f R
1
) ), ( (
2
1 1
) (
i
x
13
Aprendizagem Estatstica
Minimizao do Risco Funcional (generalizao)
Critrios considerados para escolha de um classificador (f):
- Minimizao do risco funcional, relativo a erro durante a
validao (generalizao), no qual se considera:
- Funo de custo relacionando a previso de sada com a sada
desejada.
- Distribuio de probabilidade dos pares.

) , ( ) ), ( (
2
1
) ( y dP y f c f R x x
14
Aprendizagem Estatstica
Minimizao do Risco Funcional (generalizao)
Limites do risco funcional determinam a escolha do classificador:
- Os limites do risco funcional para funes sinal (classe de
funes aqui considerada) relacionam o nmero de exemplos de
treinamento, o risco emprico para este conjunto e a
complexidade do espao de hipteses.
- O risco funcional de uma funo classificadora minimizado se o
nmero de observaes do conjunto de treinamento for suficientemente
grande.
- A complexidade do espao de hipteses medida atravs da
dimenso Vapnik-Chervonenkis (VC).
- O risco mdio de uma funo classificadora minimizado se a
dimenso VC do conjunto destas funes for suficientemente pequena.
15
Aprendizagem Estatstica
Dimenso-VC
A complexidade de um grupo de funes de deciso pode ser medida
por um valor h, chamado Dimenso-VC, que, avalia a quantidade
mxima de pontos que podem ser separados por este grupo de
funes se todas as permutaes de rtulos ocorrerem.
- Aqui trabalha-se com dicotomias: funes sinais que dividem o
espao de entradas em dois subconjuntos disjuntos.
- Valor alto de dimenso VC implica em grande complexidade das
funes de deciso. h=3
16
Aprendizagem Estatstica
Minimizao do Risco Estrutural
A equao de delimitao pode ser re-escrita empregando a
dimenso-VC, isto , usando h.
- Probabilidade da equao abaixo ser verdadeira: 1-d.
- O nmero de exemplos de treinamento n.
- O crescimento de d acarreta o aumento do risco esperado.
n
h
n
h
f R f R
emp
4
ln 1
2
ln
] [ ] [
de complexida de termo emprico risco esperado risco

,
_

+
+
+
17
Aprendizagem Estatstica
Minimizao do Risco Estrutural
R[f]
Termo de complexidade
Risco emprico
Dimenso-VC
Risco esperado
18
Aprendizagem Estatstica
Margem de Separao
A margem de separao de um classificador definida como a
menor distncia entre exemplos do conjunto de treinamento e o
hiperplano utilizado na separao destes dados em classes.
19
Aprendizagem Estatstica
Margem de Separao
Podem existir vrios hiperplanos separando os dados corretamente,
contudo existe ao menos um melhor que os demais.
Pode-se notar que o hiperplano com maior margem de separao tem melhor
capacidade de generalizao pois diminui a possibilidade de erro.
Quanto maior a margem
de um classificador menor
ser sua dimenso VC
(prova est em teorema).
Hiperplano com margem
alta e que minimize os
erros de treinamento e
teste chamado de
hiperplano timo.
20
SVM com Margens Rgidas
Separabilidade Linear
Um conjunto de pontos de treinamento chamado linearmente
separvel se existe ao menos um hiperplano que capaz de separa-
los corretamente.
21
SVM com Margens Rgidas
Hiperplano de Separao
As SVMs foram originalmente projetadas para classificao de
dados em duas classes, gerando dicotomias.
- Problema de classificao considerado: Classificar objetos m-
dimensionais (vetores) nas classes +1 e 1.
- Conjunto de treinamento: formado por n observaes dos vetores de
entradas com suas respectivas classificaes binrias.
0 + b
T
x w
Um conjunto de dados linearmente separvel se for possvel dividir
seus elementos em duas classes atravs de ao menos um hiperplano.
Estes classificadores lineares podem ser definidos por:
O produto escalar envolve um vetor normal ao hiperplano (w) e o
vetor de entrada. O par (w,b) determinado durante o treinamento.
22
A equao do hiperplano divide o espao de entrada em duas
regies que produzem dois tipos de sadas atravs da uma funo
sinal:

'

< +
> + +

0 se , 1
0 se , 1
b
b
y
i
T
i
T
i
x w
x w
Logo, um conjunto de treinamento ser linearmente separvel se
for possvel determinar ao menos um par (w,b) que faa a funo
sinal classificar corretamente os exemplos de tal conjunto.
SVM com Margens Rgidas
Hiperplano de Separao
23
Deseja-se determinar o hiperplano timo para padres
linearmente separveis. O hiperplano timo aquele cuja margem
de separao (
0
) mxima.
w
o
T
x+ b
o
= 0, eq. Hiperplano
timo
w
o
, vetor de pesos timo
b
o
, bias timo
Os vetores suporte so aqueles que
se situam sobre os hiperplanos que
distam
0
do hiperplano que separa
as classes.
SVM com Margens Rgidas
Hiperplano timo
24
O hiperplano timo definido pelos valores timos do vetor de
pesos (w
o
) e do bias (b
o
) da seguinte forma: w
o
T
x+ b
o
= 0.
0
0
0 0
0 0
0
0
0 0 0
) ( ) ( b r b r b g
T
p
T
p
T T
+ + + + +
w
w w
x w
w
w
x w x w x
A funo discriminante g(x) = w
o
T
x+ b
o
d uma medida algbrica
da distncia de x para o hiperplano timo. Neste caso, pode-se
escrever:
0
0
w
w
x x r
p
+ onde x
p
a projeo de x no hiperplano timo.
Para encontrar a distncia r faz-se:
SVM com Margens Rgidas
Hiperplano timo
25
Se b
0
> 0, a origem est no lado
positivo do hiperplano timo;
Se b
0
< 0, a origem est no negativo do
hiperplano timo;
Se b
0
= 0, o hiperplano timo passa
pela origem.
Se x estiver na origem ento
0
0
w
b
r
SVM com Margens Rgidas
Hiperplano timo
0
0
0
2
0
0 0
) (
) ( ) ( ) ( ) (
w
x
w x x
w
w
x w x
g
r r g g r b g
p p
T
+ + +
26
Para um conjunto de treinamento linearmente separvel, pode-se
re-escalonar que w e b para que os pontos mais prximos do
hiperplano separador que satisfaam |w
T
.x + b| = 1. Isto permite a
obteno da representao cannica do hiperplano que facilita
futuras consideraes na determinao do hiperplano timo.
Um vetor suporte definido como: g(x
(s)
) = w
0
T
x
(s)
b
0
= 1,
para d
(s)
= 1.
Os vetores suporte so os mais difceis para classificar por
estarem mais prximos da superfcie de deciso.
SVM com Margens Rgidas
Vetores de Suporte
27
A distncia dos vetores suporte para o hiperplano timo
calculada:

'


+

1 se
1
1 se
1
) (
) (
0
) (
0
0
(s)
s
s
d
d
g
r
w
w
w
x
Conclui-se da expresso acima que a maximizao da margem de
separao obtida pela minimizao da norma Euclidiana de w
o
.
Tem-se que
0
o valor timo da margem de separao entre as
duas classes que formam o conjunto de treinamento. Assim tem-se
que a expresso a seguir mede a distncia entre os hiperplanos
w
0
T
x
(s)
b
0
= 1:
0
0
2
2
w
r
SVM com Margens Rgidas
Vetores de Suporte
28
O problema de otimizao com restries a ser resolvido :
- Dado o conjunto de treinamento (x
i
, d
i
), i=1, ..., N; Encontre os
vetor de pesos w e do bias b timos que satisfaam as restries:
d
i
(w
T
x
i
+ b) 1, e w minimize a funo de custo:
- O fator de escala (1/2) includo por convenincia, a funo de
custo convexa, as restries so lineares.
- Este problema pode ser resolvido atravs do Mtodo de
Multiplicadores de Lagrange.
( ) w w w
T
2 1 ) (
O hiperplano timo definido por w
0
T
x + b
0
= 0 nico pois o vetor de
pesos timo w
o
d a separao mxima possvel de exemplos positivos e
os negativos. A condio tima atendida pela minimizao da norma
euclidiana do vetor de pesos w.
SVM com Margens Rgidas
Determinao dos Pesos timos
29
Mtodo dos Multiplicadores de Lagrange: Empregado para
resolver problemas de extremos sujeitos a restries de igualdade.
Seja o problema a seguir:
N i g
f
i
, , 1 , 0 ) ( s.a.
) ( (min) max
K x
x
onde f e g
i
(i=1,..,N) so funes reais de n (n > N) variveis e
duas vezes diferenciveis num determinado conjunto D.
Chama-se funo de Lagrange ou lagrangiano funo:
SVM com Margens Rgidas
Pesos timos por Multiplicadores de Lagrange
( )

+
N
i
i i
g f L
1
) ( ) , ( x x ? x
30
Funo Lagrangiana:
( ) [ ]

+
N
i
i
T
i i
T
b d b J
1
1
2
1
) , , ( x w w w w
( )
( )

N
i
i i
N
i
i i i
d
b
b J
d
b J
1
1
0 0
, ,
: 2 Condio
0
, ,
: 1 Condio

w
x w
w
w
O problema consiste em encontrar um ponto de sela que
minimize J(.) em relao a w e b e maximize-a com respeito aos
multiplicadores de Lagrange ().
- Minimizando J(w,b,) em relao a w e b.
SVM com Margens Rgidas
Pesos timos por Multiplicadores de Lagrange
31

+
+
N
i
N
i
i
N
i
i i i
T
i i
T
N
i
i
T
i i
T
d b d b J
b d b J
1 1 1
1
2
1
) , , (
] 1 ) [
2
1
) , , (


x w w w w
x (w w w w

N
i
N
j
j
T
i j i j i
N
i
i
T
i i
T
N
i
i i i
N
i
i i
d d d
d
d
1 1 1
1
1
;
; 0
x x x w w w
x w

Expandindo a Funo Lagrangiana tem-se:


Para a expresso acima, tem-se que
-As expresses esquerda
geram o problema dual em
funo de .
- Os vetores x
i
e x
j
so o
vetor de entrada e o padro
de entrada pertencente ao j-
simo exemplo,
SVM com Margens Rgidas
Pesos timos por Multiplicadores de Lagrange
32
N i
d
d d Q( b J
i
N
i
i i
N
i
N
i
j
T
i j i j
N
j
i i
, , 2 , 1 para , 0
0 s.a.
2
1
) ) , , ( Max
1
1 1 1
K



x x w
Aps determinar os multiplicadores timos (
0, i
), w
0
e b
0
so obtidos:
1 para , 1
) (
0
1
, 0

s
N
i
i i i
d - b d
(s) T
0 0
x w x w
Deve-se encontrar os multiplicadores de Lagrange que maximize a
Funo Objetivo:
SVM com Margens Rgidas
Pesos timos por Multiplicadores de Lagrange
33
d
i
(w
T
x
i
+ b) 1 , para i = 1, 2, ... N A condio
pode ser violada em duas situaes:
1 situao de violao:
Ponto (x
i
, d
i
) est na
regio de separao, mas
do lado correto da
superfcie de deciso.
SVM com Margens Rgidas
Padres No-linearmente Separveis
34
2 situao de violao:
Ponto (x
i
, d
i
) est no lado
incorreto da superfcie de
deciso.
SVM com Margens Rgidas
Padres No-linearmente Separveis
35
d
i
(w
T
x
i
+ b) 1 -
i
, para i = 1, 2, ... N
A equao anterior pode ser re-escrita, com a introduo de um
conjunto de variveis escalares no negativas .
0
i
1: 1 situao

i
> 1: 2 situao
O conjunto adicionado funo de custo:

+
N
i
i
T
C
1
2
1
w w ) (w,
N
i i 1
} {

N
1 i i
} {

(21)
- que deve ser minimizada, sujeita s restries: Eq. (21) e
i
0.
SVM com Margens Rgidas
Padres No-linearmente Separveis
36
A maximizao de Q( ) realizada com alterao em uma de suas
restries:
Logo, w
0
obtido por:
e b
0
atravs de:

N
i
i i
d
1
0
e 0
i
C, para i = 1, 2, ... N

i
[y
i
(w
0
T
x
i
+ b
0
) - 1 +
i
] = 0



N
i
N
i
j
T
i j i j
N
j
i i
d d Q( b J
1 1 1
2
1
) ) , , ( x x w

N
i
i i
d
1
1 , 0 0
x w
SVM com Margens Rgidas
Padres No-linearmente Separveis
37
Classificadores lineares so limitados, veja a porta XOR. Contudo, eles
possuem boas propriedades como funo de deciso fcil.
Dados no-linearmente separveis podem se tornar linearmente separveis,
em um espao transformado atravs de um mapeamento . Este novo espao
chamado de espao de caractersticas (feature space).
SVM Separando Padres No-linearmente
Separveis - Mapeamento F

Feature Space
38
Deve-se substituir cada produto escalar no espao de entrada
por pontos transformados.
Possvel problema:
O espao transformado pode ter nmero muito alto, at infinito, de
dimenses, impossibilitando o clculo do produto interno.
difcil tambm encontrar a funo F que resolva o problema.
( ) ( ) ( )

,
_

,
_

N
i
j i
T
j i i j
N
i
j i
T
j i i j
b d f
b d f
1
1
sgn ) (
) ( sgn ) (
x F x F x
x x x

SVM Separando Padres No-linearmente


Separveis - Mapeamento F
39
Com uma funo especial, chamada funo kernel possvel calcular
o produto escalar (x
i
)(x
j
) sem mesmo conhecer o mapeamento .
Definio do kernel do produto interno
O produto interno de dois vetores induzidos no espao de caractersticas
por x
i
e x
j
compem a definio do referido kernel:
O kernel do produto interno comutativo com respeito a seus
argumentos.
SVM e a Funo Kernel
Definio e Papel
( )

,
_

,
_

+


N
i
j i j i i
N
i
j i
T
j i i j
b K d b d f
1 1
) , ( sgn ) ( sgn ) ( x x x x x
( ) ( ) ( ) ( )


N
l
l l i j
T
i j
F F K
1
) , ( x x x F x F x x
40
A definio para K (x
i
,x
j
) um caso particular do teorema de Mercer
no mbito de anlise funcional:
Seja K (x,x) um kernel contnuo e simtrico que definido no
intervalo fechado a = x = b e da mesma forma para x. O kernel
pode ser expandido pela srie:
Expanso vlida e convergente, absoluta e uniformemente, se
e s se:
( ) ( ) 0 , ) , (
1
>

l
l
l l l
F F K x x x x
<


a
b
a
b
a
b
x x
x x x x x x
d
d d , K
) ( quando para vale
) ( ) ( ) (
2
As funes F
l
so chamadas
autofunes e os nmeros ?
l
so denominados autovalores.
SVM e a Funo Kernel
Definio e Papel
41
Exemplo com o Kernel RBF
Nestes exemplos de funes
kernel, geralmente, possuem
parmetros escolhidos pelo
usurio e faixa de validade destes
parmetros para o Teorema de
Mercer.
( ) ( )
( )
2
2
2
1
: Inv. tica Multiquadr ; ) . ( tanh : Sigmoidal
) . ( : Polinomial ; exp ) , ( : Guassiana RBF
: kernel funo de Exemplos
c
K
c K
d
+
+
+
y x
y x
y x y x y x

SVM e a Funo Kernel


Definio e Papel
42
A expanso de K (x
j
,x
i
) permite a construo de superfcie de deciso
no-linear no espao de entrada, com imagem linear no espao de
caractersticas. Tal expanso viabiliza o enunciado da forma dual da
otimizao com restries de uma SVM:
( ) { }
( )
usurio. pelo o determinad e , , 2 , 1 para , 0
0 s.a.
,
2
1
)
objetivo funo a maximizam que Lagrange de
dores multiplica os encontre , , to treinamen de conjunto um Dado
1
1 1 1
N
1 i
C N i C
d
K d d Q(
d x
i
N
i
i i
N
i
N
i
j i j i j
N
j
i i
i i
K

x x
SVM e a Funo Kernel
Definio e Papel
43
Trs idias fundamentais:
Definio de um hiperplano timo de modo que ele possa ser
identificado em maneira computacional eficiente: Maximize a
margem.
Extenso da definio acima para problemas linearmente no-
separveis: Considere uma penalidade para termos
equivocadamente classificados.
Mapeamento dos dados para um espao de dimenso mais alta no
qual mais fcil realizar classificao com superfcies lineares de
deciso: reformula o problema tal que os dados so mapeados
implicitamente para este espao.
SVM e a Funo Kernel
Definio e Papel
44
SVM e a Funo Kernel
Arquitetura
45
Reconhecimento de
caracteres
manuscritos:
Exemplos de
caracteres:
SVM: Aplicaes
46
Reconhecimen
to de
caracteres
manuscritos:
Desempenho
de mquinas
de
aprendizagem
distintas:
SVM: Aplicaes
47
Deteco de faces (definio): Dada
uma imagem digital arbitrria determine
se existe faces humanas nesta imagem.
Se existirem, retorne uma codificao de
sua localizao.
Codificao significa acomodar cada face
em uma caixa de fronteiras definida pelas
coordenadas das esquinas na imagem.
Pode ser extendida para reconhecimento de
faces, HCI, sistemas de vigilncia, etc.
SVM: Aplicaes
48
Deteco de faces (processo):
SVM treinada para padres
com tamanho fixo de face e
no face.
Teste de candidatos de
localizao de imagens para
padres locais com
procedimento de classificao
que determina se padro de
imagem local uma face.
Este problema de classificao,
tem duas classes dicotmicas.
SVM: Aplicaes
49
Resultados experimentais em imagens estticas:
Conjunto A: 313 com alta qualidade, mesmo nmero de faces.
Conjunto B: 23 com qualidade misturada, total de 155 faces.
SVM: Aplicaes
50
Viso Computacional:
Deteco de pele.
SVM: Aplicaes
51
Discusso
Os parmetros tm grande influncia no treinamento.
Interface de treinamento geral.
Tempo de treinamento depende da CPU.
Necessidade de interface para aplicaes.
SVM expressa aprendizagem como um programa matemtico
empregando a teoria de otimizao.
SVM emprega a transformao pelo kernel para mapear
indiretamente para espaos de dimenses mais altas.
SVM tem se caracterizado por bom desempenho, robustez,
eficincia e versatilidade ao mesmo tempo que existem
indicaes tericas dos motivos de sua capacidade de
generalizao.
52
Referncias
Haykin, S. (1999). Neural Networks A Compreensive Survey. Prentice-
Hall, New Jersey, second edition.
Smola, A. J., Barlett, P., Schlkopf, B., & Schuurmans, D. (1999). Advances
in Large Margin Classifiers. The MIT Press (http://www.kernel-
machines.org/nips98/lmc-book.pdf).
Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-
Verlag.

Você também pode gostar