Escolar Documentos
Profissional Documentos
Cultura Documentos
CAMPINAS
Campinas
2018
Caio Vinicius Dadauto
Campinas
2018
Agência(s) de fomento e nº(s) de processo(s): CNPq, 132125/2016-1
ORCID: https://orcid.org/0000-0002-0986-007X
Ficha catalográfica
Universidade Estadual de Campinas
Biblioteca do Instituto de Matemática, Estatística e Computação Científica
Ana Regina Machado - CRB 8/5467
∇f Gradiente da função f
L Lagrangiano
Lc Lagrangiano aumentado
b Produto de Kronecker
B f (¨) Subdiferencial de f
INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
I CONTEXTO TEÓRICO 19
1 OT I M I Z AÇ ÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
A teoria de otimização é de suma importância à aprendizagem de máquina. Em parti-
cular, o método ADMM possui grande relevância no contexto distribuído. Tal método
pode ser interpretado como uma versão radical do método de lagrangiano aumentado
inexato. Portanto, serão discutidos aspectos teóricos intrínsecos à compreensão do
mesmo, tais como o problema dual, proximal e dual proximal e, posteriormente, será
introduzido o ADMM.
1.1 Notação e Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2 Dualidade Lagrangiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.2.1 Dualidade de Fenchel . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.3 Teoria do Método Proximal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3.1 Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.3.2 Proximal Dual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.4 Lagrangiano Aumentado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.5 Teoria do Método ADMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.5.1 Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2 MÁQUINA DE SUPORTE VETORIAL . . . . . . . . . . . . . . . . . . . . . . . 43
O paradigma de máquina de suporte vetorial SVM é largamente utilizado no contexto
de aprendizado de máquina para problemas supervisionados. O SVM será explorado
tanto em sua formulação centralizada como, principalmente, em sua formulação
distribuída. Utilizando, para isso, o método ADMM.
2.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2 Classificação Linear Centralizada . . . . . . . . . . . . . . . . . . . . . . . . 44
2.2.1 Problema Primal para a Margem Rígida . . . . . . . . . . . . . . . . 44
2.2.2 Conjunto de Dados não Separáveis . . . . . . . . . . . . . . . . . . 46
2.2.3 Abordagem Clássica . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3 Classificação Não Linear Centralizada . . . . . . . . . . . . . . . . . . . . . 49
2.4 Máquina de Suporte Vetorial Distribuído . . . . . . . . . . . . . . . . . . . . 51
2.4.1 Aplicação à Classificação Linear . . . . . . . . . . . . . . . . . . . . 51
2.4.1.1 Formulação do Algoritmo Distribuído . . . . . . . . . . 52
2.4.2 Aplicação à Classificação Não Linear . . . . . . . . . . . . . . . . . 64
2.4.2.1 Formulação do Algoritmo Distribuído . . . . . . . . . . 68
II SIMULAÇÕES 77
3 APLICAÇÃO NUMÉRICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Apresentação de simulações numéricas aplicadas à máquina de suporte vetorial
distribuída linear e não linear sobre uma rede conexa gerada de forma aleatória.
3.1 Implementação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.1.1 Organização do Código . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.2 Estudos de Caso à Classificação Linear . . . . . . . . . . . . . . . . . . . . 82
3.2.1 Dados Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.2.2 Dados Reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.3 Estudos de Caso à Classificação Não Linear . . . . . . . . . . . . . . . . . 86
3.3.1 Geração dos Dados Comuns a Rede . . . . . . . . . . . . . . . . . . 86
3.3.2 Dados Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.3.3 Dados Reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.1.1 Classificação Multi Classes . . . . . . . . . . . . . . . . . . . . . . . 93
4.1.2 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.1.3 SVM Online . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.1.4 Critério de Convergência . . . . . . . . . . . . . . . . . . . . . . . . 95
4.2 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
APÊNDICES 100
APÊNDICE A CARACTERIZAÇÃO DE N Ú C L E O S . . . . . . . . . . . . . . . 101
A.1 Definições e Resultados Preliminares . . . . . . . . . . . . . . . . . . . . . 101
A.2 Espaços de Hilbert Reproduzidos por Núcleos . . . . . . . . . . . . . . . . . 102
17
I n t ro du ç ão
Quanto a Privacidade Aplicações em que os dados não podem ser comunicados entre
os agentes da rede por uma questão de privacidade, apesar da necessidade de
processar todos os dados distribuídos nessa rede. Como exemplo, há a criação
de modelos para um diagnósticos autônomo a partir dos dados provenientes
de instituições hospitalares conectadas em rede. Neste caso, os dados de cada
instituição não podem ser compartilhados devido a privacidade inerente a esses
dados [Scardapane et al. (2018)].
capítulo 1
Ot i m i z aç ão
A teoria de otimização é de suma importância à aprendizagem de máquina. Em
particular, o método ADMM possui grande relevância no contexto distribuído.
Tal método pode ser interpretado como uma versão radical do método de lagran-
giano aumentado inexato. Portanto, serão discutidos aspectos teóricos intrínsecos
à compreensão do mesmo, tais como o problema dual, proximal e dual proximal e,
posteriormente, será introduzido o ADMM.
1 .1 notação e definições
ď
ě
v u,
ă
ą
ď
ě
vi ui ,
ă
ą
u=0
denota 0 P Rn . De forma análoga, nas matrizes identidade serão denotadas apenas por
I, sem índices que evidenciem o espaço em que estão inseridas.
c a p í t u l o 1 . o t i m i z aç ão 21
f (x) ă 8
ao menos para um x P Rn , e
f ( x ) ą ´8
para todo x de seu domínio.
f ( x̄ ) ď lim inf f ( xl ),
lÑ8
f (u) ě f ( x ) + g T (u ´ x ) @u P Rn .
B f ( x ).
com y P Rn .
1 .2 dualidade lagrangiana
min f ( x )
s.a. h( x ) = 0
(1.1)
g( x ) ď 0
x P Rn .
Ademais, o conjunto de soluções ótimas de (1.1) será denotado por X ˚ . Considera-se
que X ˚ é não vazio.
Estabelecido o problema primal, determina-se o lagrangiano2 de (1.1), como
L( x, µ, λ) = f ( x ) + λ T h( x ) + µ T g( x ), (1.2)
em que µ P Rm e λ P Rl são denominadas variáveis duais.
Assim, a partir do lagrangiano, é definido o problema dual de (1.1) da
seguinte forma3
max q(µ, λ)
s.a. µ ě 0 (1.3)
l
λPR ,
em que q(µ, λ) = infn L( x, µ, λ). Por simplicidade, considera-se que o conjunto de
xPR
soluções ótimas de (1.3) M˚ é não vazio.
Dessa forma, é possível derivar o seguinte resultado.
q(λ, µ) ď f ( x ).
Por outro lado, como os vetores ótimos são necessariamente viáveis, vale que
q˚ ď f ˚ .
Por outro lado, é possível garantir que q˚ = f ˚ . Para isso, é exigido que as
funções f , g e h sejam convexas, de forma que h( x ) = 0 necessariamente assume a
forma afim Ax ´ b = 0. Ademais, será definida a condição de Slater4 .
Definição 5. Seja o problema (1.1) com as funções h e g convexas. A condição de Slater é dita
válida se existir um vetor x̄ tal que sejam satisfeitas a condição de igualdade e de desigualdade
de maneira estrita, ou seja, A x̄ ´ b = 0 e g( x̄ ) ă 0.
em que as linhas de A2 são combinações lineares das linhas de A1 e estas são linear-
mente independentes. Assim, considere a seguinte proposição.
min f ( x ) min f ( x )
s.a. Ax ´ b = 0 s.a. A1 x ´ b1 = 0
W= Y=
g( x ) ď 0 g( x ) ď 0
x P Rn x P Rn
possuem os mesmos valores ótimos primal e dual, ou seja, são problemas equivalentes tanto na
abordagem primal quanto na dual.
˚
equivalentes, ou seja, que f W = f Y˚ . De fato, note que, como as linhas de A2 são
combinações lineares das linhas de A1 , então existe uma matriz C tal que
C T A1 = A2
C T b1 = b2 .
Logo, o problema W pode ser reescrito da seguinte forma
min f ( x )
s.a. A1 x ´ b1 = 0
C T ( A1 x ´ b1 ) = 0
g( x ) ď 0
x P Rn .
Observe que o conjunto de vetores que satisfazem as restrições lineares é dado por
tx | A1 x ´ b1 = 0u X tx | A1 x ´ b1 P Nu(C T )u = tx | A1 x ´ b1 = 0u,
Por outro lado, observe que o problema dual é definido por (1.3) e considere os vetores
( µW , λW W Y Y
1 , λ2 ) e ( µ , λ1 ) viáveis, respectivamente, para os problemas W e Y. Então, das
expressões de qW e qY apresentadas anteriormente, tem-se que
qW ( µW , λW W W W W
1 , λ2 ) = qY ( µ , λ1 + Cλ2 )
˚
ñ qW ď qY˚
e
Y Y
qY ( µ , λ 1 ) = qW (µY , λY1 , 0)
ñ qY˚ ď qW˚
.
˚
Portanto, qW = qY˚ , ou seja, os problemas duais de W e Y são equivalentes.
c a p í t u l o 1 . o t i m i z aç ão 25
q˚ = f ˚ .
V = t(u, v, w) P R ˆ Rm ˆ Rl | f ( x ) ď u, g( x ) ď v e Ax ´ b = w @x P Rn u.
Note que, uma vez que f e g são convexas e Ax-b linear, então o conjunto V é convexo.
A priori, será demonstrado que ( f ˚ , 0, 0) não está no interior de V. Por
contradição, suponha-se que ( f ˚ , 0, 0) P int(V ). Então, existe E ą 0 tal que
( f ˚ ´ E , 0, 0) P int(V ),
µ0 = 0
Como o vetor (µ0 , µ, λ) é não nulo, considera-se outros dois casos, a saber
µ‰0
Neste caso, de (1.5), tem-se que
µT v + λT w ě 0 @(u, v, w) P V
ñ inf µ T v + λ T w ě 0
(u,v,w)PV
ñ inf µ T g( x ) + λ T ( Ax ´ b) ě 0,
x
0 ď inf µ T g( x ) ď µ T g( x̄ ) ă 0.
Ax =b
λT w ě 0 @(u, v, w) P V
T
ñ λ ( Ax ´ b) ě 0 x P Rn
ñ ( AT λ)T x ´ λT b ě 0 x P Rn .
µ0 ą 0
A partir de (1.5), tem-se que
u + µ̃ T v + λ̃ T w ě f˚ @(u, v, w) P V
ñ inf tu + µ̃ T v + λ̃ T wu ě f˚
(u,v,w)PV
ñ inf t f ( x ) + µ̃ T g( x ) + λ̃ T ( Ax ´ b)u ě f˚
xPRn
ñ sup inf t f ( x ) + µ T g( x ) + λ T ( Ax ´ b)u ě f ˚ ,
xPRn
µě0, λPRl
µ λ
em que (µ̃, λ̃) = , . Logo, q˚ ě f ˚ .
µ0 µ0
Com isso, caso a dualidade forte seja válida, ao determinar o valor ótimo
do problema dual trivialmente é resgatado o valor ótimo do problema primal, pois
q˚ = f ˚ . Ademais, é importante observar que o minimizador do problema primal está,
necessariamente, contido no conjunto de minimizadores da função L( x, µ˚ , λ˚ ), como
segue na Proposição 3.
Proposição 3. Seja a dualidade forte válida e ( x˚ , (µ˚ , λ˚ )) a solução ótima primal e dual do
problema (1.1). Então,
x˚ P arg minn L( x, µ˚ , λ˚ ). (1.6)
xPR
c a p í t u l o 1 . o t i m i z aç ão 27
f ( x˚ ) = f ˚ = q˚ = infn L( x, µ˚ , λ˚ ) ď L( x˚ , µ˚ , λ˚ ).
xPR
L( x˚ , µ˚ , λ˚ ) = f ( x˚ ) + g( x˚ )T µ˚ ď f ( x˚ ),
logo
f ( x˚ ) = infn L( x, µ˚ , λ˚ ) ď L( x˚ , µ˚ , λ˚ ) ď f ( x˚ ).
xPR
Assim, essa expressão necessariamente é satisfeita por igualdade. Então,
infn L( x, µ˚ , λ˚ ) = L( x˚ , µ˚ , λ˚ ).
xPR
min f 1 ( x ) + f 2 ( Ax )
(1.7)
s.a. x P Rn ,
em que f 1 : Rn Ñ R, f 2 : Rm Ñ R e A P Rm x n . Pode-se introduzir as variáveis x1 e x2
de forma a reescrever o problema como
min f 1 ( x1 ) + f 2 ( x2 )
s.a. x2 = Ax1
(1.8)
x 1 P Rn
x 2 P Rm ,
Por outro lado, a função dual de (1.8) pode ser reescrita como
= ´( f 1˚ ( A T λ) + f 2˚ (´λ)), (1.9)
em que foi utilizada a definição de função conjugada (Definição 4). Assim, o problema
dual pode ser formulado como
min f 1˚ ( A T λ) + f 2˚ (´λ)
(1.10)
s.a. λ P Rm ,
note que o termo de regularização ||x ´ xl ||2 penaliza iterados que se distanciam demais
do iterando anterior, ou seja, as novas iterações devem se manter próximas à região
já conhecida. Enquanto, o parâmetro cl é utilizado para controlar o quão próximo da
região conhecida o método deve permanecer, ou seja, quanto menor esse parâmetro
mais próximo xl +1 estará de xl .
Ademais, a Proposição 5 [Bertsekas (2015)] evidencia a relação de otimali-
dade intrínseca ao método proximal.
c a p í t u l o 1 . o t i m i z aç ão 29
1.3.1 Convergência
Proposição 6. Sejam f convexa e a sequência txl ulPN gerada pelo método proximal. Então,
para todo xl e cl ą 0, tem-se que para qualquer y P Rn
( x l ´ x l +1 ) T
f (y) ě f ( x l +1 ) + ( y ´ x l +1 )
cl
( x l ´ x l +1 ) T
ñ f ( x l +1 ) ´ f ( y ) ď ( x l +1 ´ y )
cl
ñ 2cl ( f ( xl +1 ) ´ f (y)) ď 2( xl ´ xl +1 ) T ( xl +1 ´ y),
6
Proposição 5.4.6 e 5.4.7 de Bertsekas (2009)
c a p í t u l o 1 . o t i m i z aç ão 30
Proposição 7. Seja a sequência txl u gerada pelo método proximal (Algoritmo 1). Então, se
8
ÿ
cl = 8, tem-se que
l =0
f ( xl ) Ñ f ˚
xl Ñ x˚
f ( xl ) Ñ f 8 .
Como t f ( xl )u é não crescente (1.13), então f 8 está bem definida. Ainda, note que
f8 ě f ˚.
Ademais, de (1.14), tem-se que
N
ÿ
||x N +1 ´ y||2 + 2 cl ( f ( xl +1 ) ´ f (y)) ď ||x0 ´ y||2 ,
l =0
c a p í t u l o 1 . o t i m i z aç ão 31
ou seja,
N
ÿ
2 cl ( f ( xl +1 ) ´ f (y)) ď ||x0 ´ y||2 y P Rn , N ě 0.
l =0
Tomando N Ñ 8, tem-se que
8
ÿ
2 cl ( f ( xl +1 ) ´ f (y)) ď ||x0 ´ y||2 y P Rn . (1.16)
l =0
f 8 ą f (ŷ) ą f ˚ .
f ( xl +1 ) ´ f (ŷ) ě f 8 ´ f (ŷ) ą 0.
8
ÿ
Assim, usando o fato de cl = 8, tem-se que
l =0
8 ď ||x0 ´ y||2 ,
f ( x̄ ) ď lim inf f ( xl ).
lPL
a saber x1˚ e x2˚ . Observe que esses são, necessariamente, minimizadores de f . Assim,
existem dois conjuntos de índices dados por L1 Ă N e L2 Ă N tais que
min f 1 ( x1 ) + f 2 ( x2 )
s.a. x2 = x1 (1.17)
x 1 , x 2 P Rn ,
λlT+1 x ´ f ( x ) ď λlT+1 xl +1 ´ f ( xl +1 )
1 1 (1.21)
(´λl +1 )T x ´ ( ||x ´ xl ||2 ) ď (´λl +1 )T xl +1 ´ ( ||xl +1 ´ xl ||2 ).
2cl 2cl
Assim, é fácil ver que λl +1 e ´λl +1 satisfazem a Definição 3 de subgradiente para
1
f ( x l +1 ) e ||x ´ xl ||2 , respectivamente. Ou seja,
2cl l +1
λ l +1 P B f ( x l +1 ) (1.22)
1
´λl +1 P B ( || ¨ ´xl ||2 )( xl +1 ). (1.23)
2cl
1
Utilizando (1.23) e derivando a função ||x ´ xl ||2 , tem-se que
2cl
x l ´ x l +1
λ l +1 = . (1.24)
cl
Por outro lado, substituindo (1.24) em (1.22), obtêm-se que
x l ´ x l +1
P B f ( x l +1 ). (1.25)
cl
c a p í t u l o 1 . o t i m i z aç ão 34
Dessa forma, da Proposição 5, é possível inferir que a sequência gerada pelo método
proximal dual é em essência a mesma que é gerada pelo método proximal descrito
pelo Algoritmo 1. Assim, é possível realizar o método proximal primal (1.17) a partir
do dual (1.19). A saber, utilizando (1.24) para determinar xl +1 , é possível definir
o Algoritmo 2.
Ademais, como as sequências para a variável primal geradas pelo método
proximal dual e primal são as mesmas, então, satisfazendo as condições impostas
pela Proposição 7, é possível garantir a convergência do método proximal dual.
8
ÿ
Dados: x0 e uma função c : N ÞÑ R ´ t0u tal que cl = 8
l =0
para l = 0, 1, 2, 3, . . . faça
! c )
λ l +1 P arg minn f ˚ (λ) ´ λ T xl + l ||λ||2 (1.26)
λPR 2
x l +1 = x l ´ c l λ l +1 (1.27)
fim
1 .4 lagrangiano aumentado
min f ( x )
(1.28)
s.a. Ax ´ b = 0,
em que f : Rn ÞÑ R é convexa, A P Rm x n e b P Rm .
Definido o problema primal, é introduzida uma grandeza u de forma a
perturbar a restrição de igualdade, a saber Ax ´ b = u. Assim, define-se
p(u) = inf f ( x ).
x | Ax´b=u
7
Na seção 5.2.1 de Bertsekas (2015) é derivado o lagrangiano aumentado para restrições de desigual-
dade.
c a p í t u l o 1 . o t i m i z aç ão 35
Aplicando o método dual ao problema, tem-se que a função dual é dada por
= inf tp(u) + λ T uu
uPRm
= ´ sup t´p(u) ´ λ T uu
uPRm
˚
q(λ) = ´p (´λ). (1.30)
Tomando o problema dual, sup q(λ), é possível abordá-lo através do método proximal,
λPRm
a saber
" *
1 2
λ l +1 P arg maxm q(λ) ´ ||λ ´ λl || , (1.31)
λPR 2cl
em que cl ą c ą 0 para todo l com c sendo uma constante positiva, ou seja, cl ‰ 0 para
qualquer l 8 . Note que ao invés de somar, é subtraído o termo de regularização. Isso se
deve ao fato de que a abordagem dual é um problema de maximização. Utilizando a
relação em (1.30), tem-se que
" *
˚ 1 2
λl +1 P arg maxm ´p (´λ) ´ ||λ ´ λ||
λPR 2cl l
" *
˚ 1 2
λl +1 P arg minm p (λ) + ||λ + λ|| , (1.32)
λPR 2cl l
em que foi realizado um abuso de notação, tomando λ = ´λ, pois essa mudança não
altera o problema. Agora, é possível aplicar o método proximal dual (Algoritmo 2)
para resolver (1.32). Utilizando (1.19) e se atentando ao sinal de λ, tem-se que o
problema (1.32) passa a ser dado por
! c )
infm p˚˚ (u) + l ||u||2 + u T λl .
uPR 2
Ainda, note que p˚˚ (u) = p(u), uma vez que p é própria, convexa e semi-contínua
inferior9 . Dessa forma, utilizando a relação (1.22) para determinar λl +1 , o algoritmo
proximal dual é dado por
8
ÿ
8
Observe que, dessa forma, ainda é satisfeita a exigência cl = 8 imposta pelo método proximal.
i =0
9
Proposição 1.6.1 de Bertsekas (2009).
c a p í t u l o 1 . o t i m i z aç ão 36
fim
fim
λ l +1 ´ λ l Ñ 0
cl ( Axl +1 ´ b) Ñ 0.
Assim, como cl ą c ą 0 para todo l, então a sequência das variáveis primais txl u perde
inviabilidade com a progressão do método.
c a p í t u l o 1 . o t i m i z aç ão 37
f ( x̄ ) ď lim inf f ( xl ).
lPL
Algoritmo 5 – ADMM
Dados: z0 , λ0 e c ą 0
para l = 0, 1, 2, 3, . . . faça
fim
1.5.1 Convergência
Proposição 8. Seja o problema primal dado por (1.37) com dual dado por (1.38), em que X ˚ e
M˚ são não vazios. Então, todo ponto de acumulação ( x̄, z̄, λ̄) da sequência gerada pelo método
ADMM é tal que ( x̄, z̄) é minimizador do problema primal e λ̄ é minimizador do problema dual.
θ l +1 P B f 1 ( x l +1 ) (1.45)
´θl +1 P B f 2 ( xl +1 ). (1.46)
com gl +1 P B f 1 ( xl +1 ).
Agora, considera-se o primeiro subproblema do ADMM, apresentado em (1.42),
junto com as seguintes atribuições
f2 (x) = f (x)
c (1.48)
f 1 ( x ) = λlT Ax + ||Ax + Bzl ´ d||2 .
2
10
A demonstração apresentada é uma adaptação da proposição 4.2 de Bertsekas e Tsitsikhs (1997).
c a p í t u l o 1 . o t i m i z aç ão 39
tem-se que
f ( xl +1 ) + [λl + c( Axl +1 + Bzl ´ d)] T Axl +1
(1.50)
ď f ( x ) + [λl + c( Axl +1 + Bzl ´ d)] T Ax
para todo x P Rn . Analogamente, é possível resgatar o problema com relação a variável
primal z (1.43). Para isso, realiza-se as seguintes atribuições ao problema (1.47) em
função da variável z
f 2 (z) = g(z)
c (1.51)
f 1 (z) = λlT Bz + ||Axl +1 + Bz ´ d||2 .
2
Novamente da pertinência em (1.47) e notando que
tem-se que
g(zl +1 ) + [λl + c( Axl +1 + Bzl +1 ´ d)] T Bzl +1
(1.53)
ď g(z) + [λl + c( Axl +1 + Bzl +1 ´ d)] T Bz
para todo z P Rm .
Note que, a partir da iteração para a variável dual λ (1.44), tem-se que
em que ( x˚ , z˚ ) é uma solução do problema primal. Dessa forma, somando essas duas
desigualdades e usando o fato de Ax˚ + Bz˚ = d, então
L( x˚ , z˚ , λ˚ ) = inf L( x, z, λ˚ ) ď L( x, z, λ˚ )
xPRn , zPRm
ñ f ( x˚ ) + g(z˚ ) ď f ( x ) + g(z) + λ˚ ( Ax + Bz ´ d). (1.58)
Assim, a expressão (1.44) pode ser reescrita de duas formas distintas utilizando as
novas variáveis, a saber
1
Axl +1 + Bzl +1 ´ d = (λ̄ ´ λ̄l ) (1.61)
c l +1
1
A x̄l +1 = (λ̄l +1 ´ λ̄l ) ´ Bz̄l +1 , (1.62)
c
em que a última expressão faz uso da igualdade Ax˚ + Bz˚ = d. Dessa forma, utilizando
as novas variáveis e as identidades (1.61) e (1.62), a desigualdade (1.59) pode ser
reescrita como
1 T
λ̄ (λ̄ ´ λ̄l ) + ( Bz̄l ´ Bz̄l +1 ) T (λ̄l +1 ´ λ̄l ) ´ c( Bz̄l ´ Bz̄l +1 ) T Bz̄l +1 ď 0. (1.63)
c l +1 l +1
Ainda, note que as seguintes identidades são válidas
1 1 1
λ̄lT+1 (λ̄l +1 ´ λ̄l ) = ||λ̄l +1 ´ λ̄l ||2 + ||λ̄l +1 ||2 ´ ||λ̄l ||2
2 2 2
1 1 1
(1.64)
( Bz̄l ´ Bz̄l +1 )T Bz̄l +1 = ´ 2 2 2
||Bz̄l +1 ´ Bz̄l || + ||Bz̄l +1 || ´ ||Bz̄l || .
2 2 2
Por outro lado, ainda é possível mostrar que ( Bz̄l ´ Bz̄l +1 ) T (λ̄l +1 ´ λ̄l ) é não negativo.
De fato, da segunda desigualdade de (1.55) computada em zl +1 , tem-se que
λ̄l +1 ´ λ̄l Ñ 0
(1.67)
Bz̄l +1 ´ Bz̄l Ñ 0.
Inicialmente, note que para mostrar (1.67), basta concluir que γl Ñ 0. Para isso, a
partir de (1.66), facilmente é possível concluir que tαl u é uma sequência não crescente
e limitada inferiormente por 0, portanto, tαl u converge, em particular αl ´ αl +1 Ñ 0.
Assim, tomando o limite sobre a desigualdade (1.66), tem-se que
0 ď lim γl ď 0,
lP8
logo γl Ñ 0.
Agora, suponha que a sequência t( xl +1 , zl +1 , λl +1 )u gerada pelo método
ADMM possua ao menos um ponto de acumulação, a saber
lim( xl +1 , zl +1 , λl +1 ) = ( x̃ , ỹ , λ̃).
lPL
Dessa forma, a partir da expressão (1.61), é possível afirmar que x̃ e z̃ são viáveis, ou
seja,
A x̃ + Bz̃ = d.
Assim, tomando o limite para l P L nas desigualdades (1.57) e (1.58) (esta última
computada em l + 1), uma vez que f e g são contínuas, tem-se que
f ( x˚ ) + g(z˚ ) ě f ( x̃ ) + g(z̃)
f ( x˚ ) + g(z˚ ) ď f ( x̃ ) + g(z̃)
ñ f ( x˚ ) + g(z˚ ) = f ( x̃ ) + g(z̃). (1.68)
Por outro lado, ainda resta mostrar que λ̃ é solução dual. Para isso, inicial-
mente define-se a seguinte variável
λ̂l +1 = λl + c( Axl +1 + Bzl ´ d). (1.69)
Note que o subgradiente derivado em (1.49) pode ser reescrito em função da variável
λ̂, possibilitando reescrever a pertinência em (1.47) como
xl +1 P arg minn t f ( x ) + λ̂lT+1 Axu. (1.70)
xPR
Asim, a partir da definição da função v(λ) em (1.38), tem-se que
v(λ̂l +1 ) = f ( xl +1 ) + λ̂lT+1 Axl +1 . (1.71)
Logo,
lim(v(λ̂l +1 ) + w(λl +1 )) = sup tv(λ) + w(λ)u. (1.76)
lPL λPRl
Por fim, observando que, pela definição de λ̂ alinhada ao resultado (1.67), lim λ̂l +1 = λ̃
lPL
e utilizando a semi-continuidade superior de v e w, tem-se que
v(λ̃) + w(λ̃) ě sup (v(λ) + w(λ))
λPRl (1.77)
ñ v(λ̃) + w(λ̃) = sup (v(λ) + w(λ)),
λPRl
Portanto, λ̃ é solução dual, ou seja, λ̃ P M˚ .
43
capítulo 2
Má q u i na d e Suporte Vetorial
O paradigma de máquina de suporte vetorial SVM é largamente utilizado no
contexto de aprendizado de máquina para problemas supervisionados. O SVM será
explorado tanto em sua formulação centralizada como, principalmente, em sua
formulação distribuída. Utilizando, para isso, o método ADMM.
2. 1 motivação
M
H
a ser o melhor hiperplano de separação é o que leva à ideia central do SVM, a saber,
o conceito de margem. A ideia de margem se deve à intuição de que quanto mais
distante a fronteira de separação estiver dos dados rotulados por A e por B, então mais
c a p í t u l o 2 . m á q u i na d e s u p o r t e v e t o r i a l 44
confiável o modelo aparenta ser, ou seja, menos suscetível a erros de predição. Portanto,
o hiperplano é construído de tal forma a maximizar a menor distância relativa a este
hiperplano tanto entre os dados de classe A quanto entre os dados de classe B. A
distância que decorre dessa maximização é denominada por margem do conjunto de
treino.
S = t( xi , yi ) | xi P Rn , yi P t´1, 1u e i = 1, ¨ ¨ ¨ , mu , (2.1)
w
α( x)
||w||
x
PxHw,b
w T PxHw,b + b = 0. (2.2)
c a p í t u l o 2 . m á q u i na d e s u p o r t e v e t o r i a l 45
max M(w, b)
wT
b
s.a. M(w, b) ´ yi xi + ď 0 i = 1, ¨ ¨ ¨ , m (2.9)
||w|| ||w||
(w, b) P Rn+1 .
1
max
||w||
s.a. 1 ´ yi w T xi + b ď 0 i = 1, ¨ ¨ ¨ , m (2.11)
(w, b) P Rn+1 .
Ainda, como ||w|| é necessariamente positiva, então é possível afirmar que maximizar
1 1
a razão é o mesmo que minimizar ||w|| ou, equivalentemente, ||w||2 . Portanto, o
||w|| 2
problema (2.11) pode ser reescrito como um problema convexo, a saber
1
min ||w||2
2
s.a. 1 ´ yi (w T xi + b) ď 0 i = 1, ¨ ¨ ¨ , m (2.12)
(w, b) P Rn+1 .
Para esse caso, a ideia central é permitir que hiperplanos que comportam
um número pequeno de erros de classificação frente ao conjunto de treino sejam
factíveis ao problema de SVM, por exemplo, no caso da Figura 3 há três dados com
classificados de forma equivocada. Para tanto, é necessário lidar com dois conceitos
conflitantes, a saber, a flexibilização a margem e a limitação do erro.
ε3
ε2
ε1
yi (w T xi + b) ě M(w, b)(1 ´ ε i ),
como
m
1 ÿ
min ||w||2 + C ε i
2
i =1
T
s.a. 1 ´ ε i ´ yi (w xi + b) ď 0 i = 1, ¨ ¨ ¨ , m (2.13)
´ε i ď 0 i = 1, ¨ ¨ ¨ , m
n +1
(w, b) P R ,
em que o parâmetro C pondera o quão flexível o método será com relação aos erros,
ou seja, quanto maior C menos permissivo à erros intrínsecos o método será.
max q(µ, η )
s.a. µ ě 0 (2.14)
ηě0
m m m
1 ÿ ÿ ÿ
||w||2 + C ε i ´ µ i ( ε i + y i ( w T x i + b ) ´ 1) ´ ηi ε i . (2.15)
2
i =1 i =1 i =1
Ademais, note que, como o lagrangeano é uma função quadrática, é possível determinar
uma forma fechada para a função dual. Para isso, toma-se a condição de primeira
ordem
m
ÿ
w´ µi yi xi = 0 (2.16)
i =1
ÿm
µi yi = 0 (2.17)
i =1
C ´ µ i ´ ηi = 0 i = 1, ¨ ¨ ¨ , m. (2.18)
Ainda, de (2.17), (2.18) e observando que η ě 0, o problema dual pode ser reescrito
como
max q(µ)
ÿm
s.a. µi yi = 0 (2.20)
i =1
0 ď µi ď C i = 1, ¨ ¨ ¨ , m.
Por outro lado, é importante notar que, a partir de (2.16), tem-se que
m
ÿ
w˚ = µ˚i yi xi . (2.21)
i =1
˚
Logo, w pode ser reescrito apenas pelos vetores xi tais que satisfazem a restrição
1 ´ ε i ´ yi ( w T xi + b ) ď 0 (2.22)
por igualdade. Pois, apenas para esses vetores a variável dual µi não é necessariamente
nula4 . Devido a sua importância, esses vetores são denominados por vetores de suporte,
os quais são ilustrados na Figura 1.
Ainda de (2.21), é possível derivar que a classificação de um vetor x pode
ser realizada apenas utilizando as variáveis duais µ e o escalar b, a saber
!
m
ÿ
sign(w T x + b) = sign µi yi xiT x + b , (2.23)
i =1
Por fim, observe que, uma vez determinada as variáveis duais, é possível determinar b
através dos vetores de suporte. Pois, para qualquer vetor de suporte ε = 0 e, como já
discutido, a restrição (2.22) é ativa, ou seja, para qualquer vetor de suporte xi , tem-se
que
1 ´ yi ( w T xi + b ) = 0 (2.24)
podem ser apartados por um hiperplano em F de acordo com a classe y. Dessa forma,
seria possível reescrever o problema de suporte vetorial no espaço F . De fato, a partir
de (2.20), tem-se que
m
ÿ m ÿ
ÿ m
max µi ´ µ i µ j y i y j φ ( x i ), φ ( x j ) F
i =1 i =1 j =1
s.a. 0 ď µi ď C i = 1, ¨ ¨ ¨ , m (2.25)
ÿm
µi yi = 0.
i =1
Linear k ( xi , x j ) = xiT x j
Polinomial k ( xi , x j ) = ( xiT xj + c)d d P Ne c ě 0
RBF k ( xi , x j ) = exp ´γ||xi ´ x j ||2 γą0
RBF Laplaciano k ( xi , x j ) = exp ´γ||xi ´ x j || γą0
reformulado, para isso serão introduzidas novas variáveis. A saber, define-se N como
o número de nós de uma rede em que cada nó comporta mi dados de treino de forma
descentralizada. Ademais, considera-se que cada nó determina um hiperplano descrito
por um vetor (wi , bi ). Logo, o problema (2.13) pode ser reescrito como
N ÿ ÿi N m
1ÿ 2
min ||wi || + C ε ij
2
i =1 i =1 j =1
s.a. 1 ´ yij ( xijT wi + bi ) ´ ε ij ď 0 i = 1, ¨ ¨ ¨ , N j = 1, ¨ ¨ ¨ , mi
´ε ij ď 0 i = 1, ¨ ¨ ¨ , N j = 1, ¨ ¨ ¨ , mi (2.29)
wi ´ w k = 0 i = 1, ¨ ¨ ¨ , N k P Ki
bi ´ b k = 0 i = 1, ¨ ¨ ¨ , N k P Ki
n +1
( w i , bi ) P R i = 1, ¨ ¨ ¨ , N,
ÿ ÿi N m
N
min ||w||2 + C ε ij
2
i =1 j =1
T (2.30)
s.a. 1 ´ yij ( xij w + b) ´ ε ij ď 0 i = 1, ¨ ¨ ¨ , N j = 1, ¨ ¨ ¨ , mi
´ε ij ď 0 i = 1, ¨ ¨ ¨ , N j = 1, ¨ ¨ ¨ , mi
(w, b) P Rn+1 ,
treino. Para isso, busca-se aplicar o método ADMM ao problema (2.29), o que exige
reescrevê-lo de forma a possuir a estrutura apresentada em (1.37). A priori, será
introduzida uma nova notação, a saber
N N
1ÿ T ÿ
min vi ( I ´ en+1 enT+1 )vi + C EiT 1i
2
i =1 i =1
s.a. 1i ´ Yi Xi vi ´ Ei ď 0 i = 1, ¨ ¨ ¨ , N
´Ei ď 0 i = 1, ¨ ¨ ¨ , N (2.31)
vi ´ uik = 0 i = 1, ¨ ¨ ¨ , N k P Ki
vk ´ uik = 0 i = 1, ¨ ¨ ¨ , N k P Ki
v i P Rn +1 i = 1, ¨ ¨ ¨ , N,
Yi = diag
" (yi1 , ¨ ¨ ¨ , yimi#) P Rm i x m i
xi1 ¨ ¨ ¨ ximi
XiT = P Rn +1 x m i
1 ¨¨¨ 1
Ei = [ε i1 ¨ ¨ ¨ ε imi ]T P Rm i
1i = [1 ¨ ¨ ¨ 1] T P Rm i .
Note que a redundância introduzida pela variável uik é utilizada para desacoplar a
variável vi das variáveis vk determinadas pelos vizinhos do nó i. Em particular, o
problema (2.31) pode ser abordado a partir do método ADMM.
De fato, das restrições vi = uik para todos i = 1, ¨ ¨ ¨ , N e k P Ki , tem-se que
N
ÿ
Logo correspondem a #Ki equações vetoriais. Como a rede é conexa, a soma das
i =1
cardinalidades dos conjuntos Ki para todo nó i é exatamente o dobro do número de
arestas do grafo que traduz a rede em questão7 , ou seja
N
ÿ
#Ki = 2E, (2.33)
i =1
em que E representa o número de arestas do grafo. Como cada vetor v está em Rn+1 ,
então há 2E(n + 1) restrições de igualdade. Dessa forma, (2.32) pode ser reescrita da
seguinte forma
Âv = u, (2.34)
7
Teorema 1.1 de Bondy e Murty (2008).
c a p í t u l o 2 . m á q u i na d e s u p o r t e v e t o r i a l 54
em que
 = diag( A1 , ¨ ¨ ¨ , A N ) P R2E(n+1) ˆ N (n+1) (2.35)
em que o conjunto tvk = uik ukPKi necessariamente integra (2.36). Observando que a
rede é conexa e bidirecional, então i P Ka . Logo, de forma análoga,
vi = u ai P tvk = u ak ukPKa ,
em que o conjunto tvi = uik ukPKi também integra (2.36). Como o índice a é arbitrário,
então
vi = u ai P tvk = u ak ukPKa @a P Ki
ñ tvi = u ai uaPKi .
Portanto, é possível extrair de (2.36) o conjunto tvi = uki ukPKk para qualquer nó i da
rede. Logo, o conjunto de equações (2.36) pode ser reordenado como apresentado
em (2.37).
Dessa forma, (2.37) pode ser reescrita como
em que
tuk1 ukPK1
û = .. P R2E(n+1) .
.
tukN ukPKN
û = Pu. (2.39)
P R2Eˆ2E ,
T = tt1k ukPK1 , ¨ ¨ ¨ , tt Nk ukPKN (2.40)
em que9
tδi´i1 , k´1 ui1 PK1
tik = ..
P R2E . (2.41)
.
tδi´i1 , k´N ui1 PKN
Note que, de fato a matriz T representa uma permutação em que cada coluna
j indica em que posição o j-ésimo vetor que integra u será realocado para formar
û. Com efeito, os deltas de Kronecker são responsáveis por garantir a permutação
desejada entre uik e uki . Ademais, o produto de Kronecker utilizado na definição da
matriz P ajusta a dimensionalidade da matriz T, uma vez que os objetos de interesse à
permutação são vetores de dimensão n + 1.
Portanto, as restrições
vk = uik i = 1, ¨ ¨ ¨ , N k P Ki
vi = uik i = 1, ¨ ¨ ¨ , N k P Ki
Av ´ Bu = 0, (2.42)
8
O simbolo b representa o produto de Kronecker, o qual é dado por
a11 B ¨ ¨ ¨ a1n B
A b B = ... .. ..
PR
pmˆqn
,
. .
am1 B ¨¨¨ amn B
em que " #
Â
A = P R4E(n+1) ˆ N (n+1)
Â
" #
I
B = P R4E(n+1) ˆ 2E(n+1)
P
com I P R2E(n+1) ˆ 2E(n+1) .
Por outro lado, note que as restrições de desigualdade 1i ´ Yi Xi vi ď Ei e
N
ÿ
Ei ě 0 para i = 1, ¨ ¨ ¨ , N junto a necessidade de minimizar 1i Ei , implicam que
i =1
Ei = maxt0, 1i ´ Yi Xi vi u. (2.43)
De fato, como o objetivo é minimizar a soma dos erros e estes são limitados inferior-
mente, então Ei seria o próprio limite inferior, a saber 1i ´ Yi Xi vi . Entretanto, Ei ainda
precisa ser não negativo, o que implica na igualdade (2.43).
Dessa forma, a partir de (2.43) e (2.42), o problema (2.31) pode ser reescrito
como
min F (v)
s.a. Av ´ Bu = 0
(2.44)
v P R N ( n +1)
u P R2E(n+1) ,
em que
N
ÿ
F (v) = f i ( v i ),
i =1
com
1
f i (vi ) = viT ( I ´ en+1 enT+1 )vi + C1iT maxt0, 1i ´ Yi Xi vi u, (2.45)
2
que é claramente convexa. Portanto, de fato é possível enquadrar o problema de
suporte vetorial distribuído (2.31) a um caso particular da classe de problemas de
interesse ao método ADMM (1.37).
Assim, pode-se solucionar o problema (2.44) através do método ADMM e,
a partir da Proposição 8, é garantido que todo ponto de acumulação da sequência
gerada por esse método é solução do problema. A saber, aplicando o ADMM a (2.44),
tem-se que
vl +1 P arg min Lc (v, ul , λl )
vPR N (n+1)
l +1
u P arg min Lc (vl +1 , u, λl ) (2.46)
uPR2E(n+1)
λl +1 = λl + c( Avl +1 ´ Bul +1 ),
em que Lc é o lagrangeano aumentado do problema (2.44), ou seja,
c
Lc (v, u, λ) = F (v) + ( Av ´ Bu)T λ + ||Av ´ Bu||2 . (2.47)
2
c a p í t u l o 2 . m á q u i na d e s u p o r t e v e t o r i a l 57
1
em que f i (vi , Ei ) = viT ( I ´ en+1 enT+1 )vi + C1iT Ei e
2
E1
. Nm
. PR
E = .
EN
N
ÿ
com m = mi .
i =1
Portanto, o lagrangeano aumentado Lc , pode ser reescrito como
#
N
ÿ ÿ
Lc (v, E ), u, λ = f ( vi , Ei ) + (vi ´ uik )T λik1
i =1 kPKi
+ (2.52)
c c
+(vi ´ uki )T λki2 + ||vi ´ uik ||2 + ||vi ´ uki ||2 ,
2 2
em que uki e λki2 são, respectivamente, interpretadas como as variáveis auxiliar e dual
determinadas pelos nós vizinhos ao nó i.
Logo, o método apresentado em (2.46) é reescrito como
l +1 l l
(v, E ) P arg min Lc (v, E ), u , λ
(v,E )PH
l +1
u P arg min Lc (v, E )l +1 , u, λl (2.53)
uPR2E(n+1)
λ l +1 l
= λ + c( Av l +1
´ Bul +1 ),
em que
H = t(v, E ) | (vi , Ei ) P Hi i = 1, ¨ ¨ ¨ , Nu
com
l
Vc (vi , Ei ), tuik , ulki , λik
l
1
, λ l
ki2 kPKi =
u
ÿh
T l T l c l 2 c l 2
i
(2.55)
f ( vi , Ei ) + vi λik1 + vi λki2 + ||vi ´ uik || + ||vi ´ uki || .
2 2
kPKi
mensagens entre qualquer nó i e seus nós vizinhos com respeito aos vetores tulki ukPKi e
tλlki2 ukPKi .
Ademais, a minimização sobre a variável u pode, também, ser feita separa-
ÿ
damente para cada nó vizinho de um determinado nó i. Pois, a soma de (2.52) é
kPKi
separável entre as variáveis tuik ukPKi 10 . De fato, basta notar a seguinte reordenação nos
somatórios
ÿN ÿ N ÿ
ÿ
T
(vi ´ uki ) λki1 = (vk ´ uik )T λik1
i =1 kPKi i =1 kPKi
N ÿ N ÿ (2.56)
ÿ c ÿ c
||vi ´ uki ||2 = ||vk ´ uik ||2 ,
2 2
i =1 kPKi i =1 kPKi
em que é utilizado o mesmo raciocínio que permite ir de (2.37) para (1.38). Dessa
forma, aplicando essas identidades a Lc , a minimização segundo a variável u passa a
ser trivialmente separável entre os nós da rede. A saber, cada nó i realiza o seguinte
conjunto de minimizações
l +1
uik P arg min Uc vil +1 , vlk+1 , uik , λik
l
1
, λ l
ik2 @k P Ki (2.57)
n +1 uik PR
com
Uc vil +1 , vlk+1 , uik , λikl
1
, λ l
ik2 =
c l +1 c l +1 (2.58)
l T l T 2 2
´(λik ) u ik ´ ( λ ik ) u ik + ||v ´ u ik || + ||v ´ u ik || .
1 2 2 i 2 k
De forma análoga, Uc é definido como a parte de Lc pertinente à minimização com
respeito a variável uik Por fim, note que é necessária a troca de mensagens entre cada
nó i e seus vizinhos com respeito aos vetores tvlk+1 ukPKi .
Portanto, a partir do método (2.53), é possível derivar o Algoritmo 6, em
que a atualização da variável dual λ foi reescrita utilizando as notações introduzidas
em (2.48).
Entretanto, esse algoritmo exige demasiado processamento devido ao grande
número de variáveis auxiliares necessárias ao processo, demasiado overhead de co-
municação devido ao grande tráfego de informações provenientes da comunicação
dos vetores tulki ukPKi e tλlki2 ukPKi e, ainda, possui pouca praticidade na implementação.
Dessa forma, procura-se simplificar o Algoritmo 6 para reduzir o número de variáveis
a serem computadas e transmitidas.
l +1
Assim, observe que a minimização para determinar o vetor uik envolve
um problema quadrático e irrestrito, como apresentado em (2.58). Logo é possível
l
determinar uma forma fechada para o vetor uik . De fato, aplicando a condição de
10
Observe que isso só é possível uma vez que, em (2.31), foram introduzidas as variáveis
tuik ui=1,¨¨¨ ,N e kPKi para desacoplar os vetores tvi ui=1,¨¨¨ ,N dos vetores tvk ukPKi .
c a p í t u l o 2 . m á q u i na d e s u p o r t e v e t o r i a l 60
fim
fim
l
0 = ´(λik 1
l
+ λik 2
) ´ c(vil +1 ´ uik
l +1
) ´ c(vlk+1 ´ uik
l +1
)
l +1 1 l 1 l +1
uik = l
(λik1 + λik ) + (v + vlk+1 ). (2.59)
2c 2 2 i
Dessa expressão segue diretamente que
1 l 1
ulki+1 = (λki1 + λlki2 ) + (vlk+1 + vil +1 ). (2.60)
2c 2
Logo, substituindo (2.59) e (2.60) nas expressões para as variáveis duais que aparecem
no Algoritmo 6, deriva-se
l +1 1 l c
λik = l
(λik1 ´ λik ) + (vil +1 ´ vlk+1 ) (2.61)
1 2 2 2
l +1 1 l c
λki = (λki2 ´ λlki1 ) + (vil +1 ´ vlk+1 ). (2.62)
2 2 2
Ainda, de (2.62) segue que
l +1 1 l c
λik = (λik l
´ λik ) + (vlk+1 ´ vil +1 ). (2.63)
2 2 2 1 2
l l
Observe que as expressões (2.61) e (2.63) garantem que λik 1
= ´λik 2
para toda iteração
l com exceção do caso l = 0. Assim, procura-se inicializar as variáveis duais de forma
que λ0ik1 = ´λ0ik2 , ou seja,
Dessa forma, é possível introduzir uma nova variável λik tal que
l l l
λik = λik 1
= ´λik 2
@l. (2.65)
c a p í t u l o 2 . m á q u i na d e s u p o r t e v e t o r i a l 61
l +1
Por outro lado, ainda, é possível derivar uma forma alternativa para λik
além de (2.67). De fato, somando a expressão (2.67) recursivamente sobre as iterações
l, obtém-se que
+1
lÿ
l +1 c l +1
λik = (v ´ vlk+1 ). (2.69)
2 i
l =0
Por fim, desse resultado é possível afirmar que
l
λik = ´λlki @l. (2.70)
fim
fim
uma vez que não há mais a necessidade de comunicar os vetores tulki ukPKi e tλlki2 ukPKi
entre um nó i qualquer e seus vizinhos. Note que nesse algoritmo a atualização da
variável dual λi segue diretamente da expressão (2.67).
c a p í t u l o 2 . m á q u i na d e s u p o r t e v e t o r i a l 62
ÿ
em que ril = 2λil ´ c (vil + vlk ) e Di = ( I ´ en+1 enT+1 ) + 2c#Ki I. Ademais, é importante
kPKi
ressaltar que a matriz Di é diagonal e sempre possui inversa, pois qualquer nó i possui
ao menos um vizinho (a rede é conexa). Dessa forma, a partir da expressão (2.76), é
possível concluir que 0 ď µil +1 ď C1i . De fato, como µi e ηi são não negativos, então
Dessa forma, substitui-se essa identidade em (1i ´ Yi Xi vil +1 ´ Eil +1 ) T µil +1 = 0 obtendo
que
(1i ´ Yi Xi vil +1 )T µil +1 = C1iT Eil +1 . (2.78)
´(µil +1 ) T Yi Xi Di´1 XiT Yi µil +1 + (1i + Yi Xi Di´1 ril ) T µil +1 = C1iT Eil +1 (2.79)
(1i ´ Yi Xi vi ´ Ei )T µi = 0
(1i ´ Yi Xi vi ´ Ei )T µi = 0.
(1i ´ Yi Xi vi )T µi ď µiT Ei .
(1i ´ Yi Xi vi )T µi ď C1iT Ei ,
c ÿ l +1
λil +1 = λil + (vi ´ vlk+1 )
2
kPKi
com
ÿ
ril = 2λil ´ c (vil + vlk )
kPKi
fim
fim
com tχi ui=1,¨¨¨ ,p sendo vetores em Rn comuns a todo nó. Note que, dessa forma, dife-
rente do caso linear, os agentes não necessariamente determinam o mesmo classificador,
mas é garantido que os diferentes modelos preditivos determinados a cada nó concor-
dem com a classificação de um conjunto finito de p vetores. Além disso, p é tomado
de forma que seja necessariamente menor que M. Pois, busca-se evitar a manipulação
de vetores em espaços de alta dimensionalidade.
A saber, o problema de suporte vetorial distribuído pode ser reformulado
para o caso não linear da seguinte forma
N N
1ÿ ÿ
min ||ωi ||2F M + C EiT 1i
2
i =1 i =1
s.a. 1 ´ Yi (Φ Xi ωi + bi 1i ) ´ Ei ď 0 i = 1, ¨ ¨ ¨ , N
´Ei ď 0 i = 1, ¨ ¨ ¨ , N (2.84)
Φ χ ωi ´ Φ χ ω k = 0 i = 1, ¨ ¨ ¨ , N k P Ki
bi ´ b k = 0 i = 1, ¨ ¨ ¨ , N k P Ki
( ω i , bi ) P F M ˆ R i = 1, ¨ ¨ ¨ , N,
13
Note que a noção de dimensão para espaços reproduzidos por núcleos só existe pois os mesmos são
separáveis.
c a p í t u l o 2 . m á q u i na d e s u p o r t e v e t o r i a l 66
em que
T
φ( xi1 )
Φ Xi
= .. P F mi ˆM ,
.
φ( ximi ) T
g i ( x ) = f i ( x ) + bi , (2.85)
em que α˚ij e β˚ij são grandezas escalares. Ademais, como K é o núcleo associado a F M
e ωi P F M , para qualquer x P Rn , tem-se, pela Definição 11, que
ou seja, f i = ωi . Dessa forma, a função gi˚ ( x ) definida por cada nó i através da solução
ωi˚ do problema (2.84) pode ser apresentada como
mi
ÿ p
ÿ
gi ( x ) = α˚ij K ( x, xij ) + β˚ij K ( x, χ j ) + bi˚ . (2.87)
j =1 j =1
reescrever os erros ε ij como maxt0, 1 ´ yij ( f ( xij ) + bi )u, de forma que o problema (2.84)
pode ser reescrito como
N ÿ ÿi N m
1ÿ
min || f i ||2 + C maxt0, 1 ´ yij ( f ( xij ) + bi )u
2
i =1 i =1 j =1
s.a. f i (χt ) ´ f k (χt ) = 0 i = 1, ¨ ¨ ¨ , N k P Ki t = 1, ¨ ¨ ¨ , p (2.88)
bi ´ b k = 0 i = 1, ¨ ¨ ¨ , N k P Ki
( f i , bi ) P F M ˆ R i = 1, ¨ ¨ ¨ , N,
em que
N ÿ ÿi N m
1ÿ
˚
L t f i , ζ ikt , λ˚ik ui=1,¨¨¨ ,N = || f i ||2 + C maxt0, 1 ´ yij ( f ( xij ) + bi )u
kPKi 2
i =1 i =1 j =1
t=1,¨¨¨ ,p
N ÿ
ÿ p
ÿ N ÿ
ÿ
˚
+ ζ ikt ( f i (χt ) ´ f k (χt )) + λ˚ik (bi ´ bk )
i =1 kPKi t=0 i =1 kPKi
˚
com t(ζ ikt , λ˚ik )ui=1,¨¨¨ ,N sendo a solução dual de (2.88).
kPKi
t=1,¨¨¨ ,p
Por fim, observe que, assim como realizado em (2.56), as somas com respeito
as restrições apresentadas pelo lagrangeano podem ser reordenadas da seguinte forma
ÿ p
N ÿ ÿ p
N ÿ ÿ
ÿ
˚ ˚ ˚
ζ ikt ( f i (χt ) ´ f k (χt )) = f i (χt )(ζ ikt ´ ζ kit ) (2.90)
i =1 kPKi t=0 i =1 kPKi t=0
N ÿ
ÿ N ÿ
ÿ
λik (bi ´ bk ) = bi (λ˚ik ´ λ˚ki ). (2.91)
i =1 kPKi i =1 kPKi
Assim, o problema (2.89) pode ser separado entre os nós da rede, de forma que a
minimização a cada nó pode ser reescrita como
!
(
( f i˚ , bi˚ ) P arg min θ (|| f ||) + γ ( xij , yij , χt , f i ( xij ) + bi , f i (χt ), bi ) j=1,¨¨¨ ,mi , (2.92)
f i PF M t=1,¨¨¨ ,p
bi PR
c a p í t u l o 2 . m á q u i na d e s u p o r t e v e t o r i a l 68
em que
N
1ÿ
θ = || f i ||2
2
i =1
ÿ N ÿ mi p
N ÿ ÿ
ÿ
˚ ˚
γ = C maxt0, 1 ´ yij ( f ( xij ) + bi )u + f i (χt )(ζ ikt ´ ζ kit )
i =1 j =1 i =1 kPKi t=0
ÿN ÿ
+ bi (λ˚ik ´ λ˚ki ),
i =1 kPKi
Ademais, define-se
ω1 b1
. NM
. N
. PR
ω= . .
. PF b=
ωN bN
tu1k ukPK1 th1k ukPK1
u=
.. P R2Ep
h= .. P R2E
. .
tu Nk ukPKN th Nk ukPKN
 0
I 0
 0
P 0
P R4E( p+1)ˆ4E( p+1) ,
A= 0 Ã B=
0 I
0 Ã
loomo on loomoon 0 T
F 4E( p+1)ˆN M R4E( p+1)ˆN
com
 = diag( Â1 , ¨ ¨ ¨ ,  N ) P F 2EpˆN M
à = diag( Ã1 , ¨ ¨ ¨ , à N ) P R2EˆN .
Por sua vez, as matrizes P e T foram definidas em (2.40), contudo nesse caso o produto
de Kronecker é feito com relação a matriz identidade em R pˆp . Por fim, os vetores Âi e
Ãi são definidos como
Φχ 1
. #K pˆM
.
. PR
. . #Ki
Âi =
. PF
i Ãi =
Φχ 1
em que
Lc (ν, E ), κ l , λl =
#
N N ÿ
ÿ 1 ÿ
T
2
||ω || + C 1i Ei + (Φχ ωi ´ uik )T λik1 + (Φχ ωi ´ uki )T λki2
2 i
i =0 i =1 kPKi
c (2.98)
+(bi ´ hik )ζ ik1 + (bi ´ hki )ζ ki2 + ||Φχ ωi ´ uik ||2
2 +
c c c
+ ||Φχ ωi ´ uki ||2 + ||bi ´ hik ||2 + ||bi ´ hki ||2 .
2 2 2
H = t(ν, E ) | (νi , Ei ) P Hi i = 1, ¨ ¨ ¨ , Nu
com Hi = (νi , Ei ) | 1 ´ Yi (Φ Xi ωi + bi 1i ) ´ Ei ď 0 e ´ Ei ď 0 .
(
com
l l l l l l l l
Pc (ωi , bi , Ei ), tuik , hik , λik 1
, ζ , u , h ,
ik1 ki ki ki2 ki2λ , ζ u kPK i
=
1 ÿ h
||ω ||2 + C1iT Ei + (Φχ ωi )T λik l l
+ (Φχ ωi )T λlki2 + bi ζ ik l
+ bi ζ ki (2.99)
2 i 1 1 2
kPK i
c l 2
i
+ ||Φχ ωi ´ uik || + ||Φχ ωi ´ ulki ||2 + ||bi ´ hik l 2
|| + ||bi ´ hlki ||2 .
2
Ainda como no caso para a classificação linear, as minimizações com respeito as variá-
veis auxiliares u e h condensadas em κ podem, também, serem feitas separadamente
para cada nó vizinho de um determinado nó i. A saber, cada nó i realiza o seguinte
conjunto de minimizações
l +1
uik P arg minp Uc ωil +1 , ωkl +1 , uik , λik l
1
, λ l
ik2 @k P Ki
uik PR (2.100)
l +1
hik P arg min Hc bil +1 , bkl +1 , hik , ζ ik
l
1
, ζ l
ik 2
@k P K i
hik PR
com
Uc ωil +1 , ωkl +1 , uik , λik
l
1
l
, λik 2
=
c c
l T
´(λik1 ) uik ´ (λik2 ) uik l T
+ ||Φχ ωil +1 ´ uik ||2 + ||Φχ ωkl +1 ´ uik ||2
2 2 (2.101)
l +1 l +1 l l
Hc bi , bk , hik , ζ ik1 , ζ ik2 =
l T l T c l +1 2 c l +1
´(ζ ik ) u ik ´ ( ζ ik ) u ik + ||b i ´ h ik || + ||b ´ hik ||2 .
1 2 2 2 k
Apesar do problema ter sido derivado de forma a ser distribuído, ainda há a necessi-
dade de manipulação do vetor ωi P F M . Entretanto, como não há mais a imposição do
consenso com relação aos modelos preditivos determinados a cada agente da rede, o
que importa ao problema são os classificadores em si, ou seja, a função classificação
gi ( x ), a qual é expressa em função do núcleo (Proposição 9).
Dessa forma, busca-se determinar uma forma fechada para os coeficientes
tαij u j=1,¨¨¨ ,mi e tβ ij u j=1,¨¨¨ ,p introduzidos em (2.86) bem como uma forma distribuída
para determiná-los. Com efeito, de forma análoga a derivação do Algoritmo 8, aplica-se
as condições KKT ao problema (2.103), o qual possui lagrangeano dado por
l l l l
L (ωi , bi , Ei ), (ωi , bi ) , t(ωk , bk ) ukPKi , λi , ζ i , µi , ηi =
1
||ωi ||2 + C1iT Ei + 2(Φχ ωi ) T λil + 2bi ζ il
2 (2.106)
ÿ 1 1 l
l l l
+c ||Φχ ωi ´ (Φχ ωi + Φχ ωk )|| + ||bi ´ (bi + bk )||
2 2
2 2
kPKi
+µiT (1i ´ Yi (Φ Xi ωi + bi 1i ) ´ Ei ) ´ ηiT Ei ,
e é convexo com restrições lineares. Então, o vetor (ωi , bi , Ei )l +1 satisfaz o problema (2.103)
se somente se (ωi , bi , Ei )l +1 e (µi , ηi )l +1 satisfazem as condições KKT.
Dessa forma, das condições
∇ωi L (ωi , bi , Ei )l +1 , (ωi , bi )l , t(ωk , bk )l ukPKi , λil , ζ il , µil +1 , ηil +1 = 0 (2.107)
∇bi L (ωi , bi , Ei )l +1 , (ωi , bi )l , t(ωk , bk )l ukPKi , λil , ζ il , µil +1 , ηil +1 = 0 (2.108)
c a p í t u l o 2 . m á q u i na d e s u p o r t e v e t o r i a l 73
Gi = I ´ 2c#Ki ΦχT Φχ
ÿ
ril = 2λil ´ c (Φχ ωil + Φχ ωkl )
kPKi
ÿ
sil = 2ζ il ´ c (bil + bkl ).
kPKi
uma vez que K é o núcleo associado a F M (Definição 11). Dessa forma, é possível
escrever que
φ( x ) T ωil +1 =
K ( x, Xi ) T Yi µil +1 ´ K ( x, χ) T ril ´ 2c#Ki K ( x, χ) T Q´1 l +1
i K ( χ, Xi )Yi µi
(2.114)
+2c#Ki K ( x, χ)T Q´1 i K ( χ, χ )ri ,
l
ou seja,
φ( x ) T ωil +1 = h i (2.115)
K ( x, Xi ) T
Yi µil +1 + K ( x, χ) T
2c#Ki Q´1
i K (χ, χ)ril ´ K (χ, Xi )Yi µil +1 ´ ril ,
14
Apresentada na seção 3.8 de Meyer (2000).
c a p í t u l o 2 . m á q u i na d e s u p o r t e v e t o r i a l 74
em que
T
φ( x ) T Φ TXi = K ( x, Xi )
= K ( x, xi1 ), ¨ ¨ ¨ , K ( x, ximi )
T
φ( x ) T ΦχT
= K ( x, χ) = K ( x, χ1 ), ¨ ¨ ¨ , K ( x, χ p )
K ( xi1 , xi1 ) ¨¨¨ K ( xi1 , ximi )
Φ Xi Φ TXi
= K ( Xi , Xi ) = .. .. ..
. . .
K ( ximi , xi1 ) ¨¨¨ K ( ximi , ximi )
K ( χ1 , χ1 ) ¨¨¨ K ( χ1 , χ p )
Φχ ΦχT = K (χ, χ) =
.. .. ..
. . .
K ( χ p , χ1 ) ¨¨¨ K (χ p , χ p )
K (χ1 , xi1 ) ¨¨¨ K (χ1 , ximi )
Φχ Φ TXi = K (χ, Xi ) =
.. .. ..
.
. . .
K (χ p , xi1 ) ¨¨¨ K (χ p , ximi )
Ainda, utilizando essa notação observe que Qi = I + 2c#Ki K (χ, χ) e a expressão (2.86)
pode ser reescrita como
em que
K ( xi1 , χ1 ) ¨ ¨ ¨ K ( xi1 , χ p )
Φ Xi ΦχT
= K ( Xi , χ ) = .. .. ..
.
. . .
K ( ximi , χ1 ) ¨ ¨ ¨ K ( ximi , χ p )
c a p í t u l o 2 . m á q u i na d e s u p o r t e v e t o r i a l 75
Com isso, ril passa a depender unicamente dessa nova variável. Por fim, para determinar
como computar ω̃i l +1 em função de µil +1 , basta multiplicar a expressão (2.109) por Φχ .
De fato,
ω̃i l +1 = Φχ Gi´1 Φ TXi Yi µil +1 ´ Φχ Gi´1 ΦχT ril . (2.124)
em que seu sinal determina a classe y associada a x. Ademais, os vetores αil +1 e βli+1
são determinados respectivamente pelas expressões (2.117) e (2.118).
c a p í t u l o 2 . m á q u i na d e s u p o r t e v e t o r i a l 76
1
bil +1 = (1T Y µl +1 ´ sil )
2c#Ki i i i
c ÿ l +1
λil +1 = λil + ω̃i ´ ω̃k l +1 )
2
iPKi
c ÿ
ζ il +1 = ζ il + (bil +1 ´ bkl +1 )
2
iPKi
com
ÿ
ril = 2λil ´ c (ω̃i l + ω̃k l )
iPKi
ÿ
sil = 2ζ il ´c (bil + bkl )
kPKi
Qi = I + 2c#Ki K (χ, χ)
fim
fim
II
S i mulações
78
capítulo 3
Ap l i c aç ão Numérica
Apresentação de simulações numéricas aplicadas à máquina de suporte vetorial
distribuída linear e não linear sobre uma rede conexa gerada de forma aleatória.
3. 1 implementação
plots
createdata.py
createchess.py
main.py missdata.py
analysisdata readdata.py
plotdispersion.py
plotplanes.py
plotrisk.py
/ plotnonlinearclassifier.py
display start.py
datas
graph
results
LDSVM.py
src distsvm
NDSVM.py
Network.py
linearmpi.py
nonlinearmpi.py
kernels rbf.py
pathconf
creditcard
traindatas
diabetic
artificiallinear.py
artificialnonlinear.py
tests
reallinear.py
realnonlinear.py
testconf.py
display/ Responsável por criar uma interface com o usuário a partir do método em
start.py.
pathconf/ Responsável por gerir os caminhos nos quais são armazenados os gráficos,
os dados locais, os modelos e as informações da rede.
Figura 5 – Rede conexa utilizada para a simulação do Algoritmo 8 aplicado aos dados
artificiais.
5
Hospedado em https://github.com/caiodadauto/Distributed-SVM.
c a p í t u l o 3 . a p l i c aç ão n u m é r i c a 83
aplicado ao conjunto local de dados se refere a situação em que cada agente treina seu
classificador usando somente seus dados sem a cooperação com os demais agentes da
rede. Para determinar os parâmetros C e c da abordagem distribuída (Algoritmo 8)
e o parâmetro C da abordagem centralizada, foi realizada uma busca em grade com
respeito aos parâmetros apresentados em Tabela 2.
Determinado os parâmetros ótimos contidos nessa grade, foram estimados
os riscos provenientes de cada modelo aplicado aos dados artificiais após 400 iterações.
Como já comentado, essa estimativa foi realizada a partir da média das acurácias
provenientes da validação cruzada para 3 amostras estratificadas. Ademais, quanto ao
modelo distribuído, o risco foi determinado como a média dos riscos apresentados por
cada agente da rede. A qual foi tomada de forma conexa para 40 nós com topologia
determinada de forma aleatória, rede que é apresentada na Figura 5
Ainda, a Tabela 3 apresenta os riscos obtidos para o modelos distribuído,
central e local provenientes dessa simulação. Esses resultados evidenciam a semelhança
central, local e distribuído são apresentados na Figura 6, a qual foi gerada pelo método
em plotplanes.py.
4 3 2 1 0 1 2 3 4
N
1 ÿ l
l
em que v̄ = vi . Dessa forma, foi gerado um gráfico que apresenta ∆l (v̄l ) para as
N
i =0
400 primeiras iterações do método distribuído. A saber,
0.12
0.10
0.08
l(v)
0.06
0.04
0.02
0.00
0 50 100 150 200 250 300 350 400
Iterações (l)
Figura 7 – Dispersão entre os modelos gerados a cada iteração para cada agente da
rede.
c a p í t u l o 3 . a p l i c aç ão n u m é r i c a 85
A partir do teste em reallinear.py, foi gerada uma rede conexa com 30 nós
e os métodos distribuído e centralizado foram treinados frente ao conjunto de dados
para análise de crédito. Ademais, utilizando o método em plotrisk.py foi gerado um
gráfico (Figura 8) que apresenta o risco determinado pelo modelo distribuído a cada 5
iterações durante as primeiras 400 iterações. Para efeito de comparação, também são
6
De fato, o método de máquina de suporte vetorial é largamente utilizado para a análise de crédito
[Louzada, Ara e Fernandes (2016)].
c a p í t u l o 3 . a p l i c aç ão n u m é r i c a 86
0.30
0.25
0.20
Figura 9 – Distribuição dos dados locais entre os agentes da rede para o conjunto de
dados em malha de xadrez.
dividido de forma que cada agente possua exatamente um par de regiões adjacentes
de classes alternadas que compõe a malha de xadrez, como pode ser visualizado na
Figura 9. Ainda, note que, devido ao tamanho da malha de dados gerada, esses testes
serão realizados necessariamente para uma rede com 8 nós.
Dessa forma, os três modelos preditivos foram treinados usando esse con-
junto de dados com a distribuição local ilustrada na Figura 9. Os parâmetros de cada
modelo foram determinados com a busca em grade definida pelos valores apresentados
na Tabela 5. Enquanto, a dimensão p necessária ao Algoritmo 9 foi tomada como igual
a 150 e os vetores χi foram gerados como descrito na subseção 3.3.1.
2 2
1 1
0 0
1 1
2 2
2 1 0 1 2 2 1 0 1 2
(a) Classificador oriundo do SVM central apli- (b) Classificador oriundo do SVM central apli-
cado ao conjunto total de dados. cado ao conjunto local do agente 1.
pois o mesmo procura determinar um modelo à classificação dos seus dados, o que
c a p í t u l o 3 . a p l i c aç ão n u m é r i c a 89
2 2
1 1
0 0
1 1
2 2
2 1 0 1 2 2 1 0 1 2
2 2
1 1
0 0
1 1
2 2
2 1 0 1 2 2 1 0 1 2
2 2
1 1
0 0
1 1
2 2
2 1 0 1 2 2 1 0 1 2
2 2
1 1
0 0
1 1
2 2
2 1 0 1 2 2 1 0 1 2
Figura 11 – Classificadores não lineares para cada agente da rede gerados pelo Algo-
ritmo 9.
c a p í t u l o 3 . a p l i c aç ão n u m é r i c a 90
SVM distribuı́do com C = 1, c = 10, γ = 2−3 e p = 300 0.60 SVM distribuı́do com C = 1, c = 10, γ = 2−3 e p = 300
SVM distribuı́do com C = 1, c = 10, γ = 2−5 e p = 300 SVM distribuı́do com C = 1, c = 10, γ = 2−5 e p = 300
−3
0.6 SVM distribuı́do com C = 1, c = 20, γ = 2 e p = 300 SVM distribuı́do com C = 1, c = 20, γ = 2−3 e p = 300
0.55
SVM distribuı́do com C = 1, c = 20, γ = 2−5 e p = 300 SVM distribuı́do com C = 1, c = 20, γ = 2−5 e p = 300
SVM Local SVM Local
SVM Central 0.50 SVM Central
0.5
0.45
Risco
Risco
0.40
0.4
0.35
0.30
0.3
0.25
0 100 200 300 400 500 600 700 800 0 100 200 300 400 500 600 700 800
Iterações (l) Iterações (l)
0.60 SVM distribuı́do com C = 1, c = 10, γ = 2−3 e p = 300 0.60 SVM distribuı́do com C = 1, c = 10, γ = 2−3 e p = 300
SVM distribuı́do com C = 1, c = 10, γ = 2−5 e p = 300 SVM distribuı́do com C = 1, c = 10, γ = 2−5 e p = 300
SVM distribuı́do com C = 1, c = 20, γ = 2−3 e p = 300 SVM distribuı́do com C = 1, c = 20, γ = 2−3 e p = 300
0.55 SVM distribuı́do com C = 1, c = 20, γ = 2−5 e p = 300 0.55 SVM distribuı́do com C = 1, c = 20, γ = 2−5 e p = 300
SVM Local SVM Local
0.50 SVM Central 0.50 SVM Central
0.45 0.45
Risco
Risco
0.40 0.40
0.35 0.35
0.30 0.30
0.25 0.25
0 100 200 300 400 500 600 700 800 0 100 200 300 400 500 600 700 800
Iterações (l) Iterações (l)
0.55
SVM distribuı́do com C = 1, c = 10, γ = 2−3 e p = 300 SVM distribuı́do com C = 1, c = 10, γ = 2−3 e p = 300
SVM distribuı́do com C = 1, c = 10, γ = 2−5 e p = 300 SVM distribuı́do com C = 1, c = 10, γ = 2−5 e p = 300
SVM distribuı́do com C = 1, c = 20, γ = 2−3 e p = 300 0.6 SVM distribuı́do com C = 1, c = 20, γ = 2−3 e p = 300
0.50 −5
SVM distribuı́do com C = 1, c = 20, γ = 2 e p = 300 SVM distribuı́do com C = 1, c = 20, γ = 2−5 e p = 300
SVM Local SVM Local
SVM Central SVM Central
0.45
0.5
0.40
Risco
Risco
0.4
0.35
0.30
0.3
0.25
0 100 200 300 400 500 600 700 800 0 100 200 300 400 500 600 700 800
Iterações (l) Iterações (l)
capítulo 4
C o n s i d e r aç õ es Finais
4. 1 trabalhos futuros
d ( d ´ 1)
Por outro lado, a abordagem one-against-one cria modelos, em que cada um
2
desses é derivado do treino utilizando apenas as instâncias que possuem um dado par
de classes, a saber i e j. Ou seja,
m
1 ÿ
min ||wij ||2 + C ε ijl
2
l =1
s.a. 1 ´ wijT xl + bij ´ ε ijl ď 0 se yl = i (4.3)
1 + wijT xl + bij ´ ε ijl ď 0 se yl = j
´ε ijl ď 0.
4.1.2 Regressão
em que e é um novo parâmetro que dita a precisão com o problema aproxima a função
aos dados de treino.
Note que a formulação (4.4) se assemelha ao SVM aplicado a classificação
supervisionada. Desse fato, espera-se que a manipulação teórica para o SVM aplicado
a regressão supervisionada distribuída siga o mesmo raciocínio apresentado nesta
dissertação para a classificação supervisionada distribuída.
c a p í t u l o 4 . c o n s i d e r aç õ e s f i na i s 95
com
ÿ
ril = 2λil ´ c (vil + vlk )
kPKi
fim
fim
Por outro lado, no contexto do SVM linear distribuído, aplica-se esse critério
de convergência ao problema (2.44) de forma que
4. 2 conclusão
Re f e r ê n c i a s
HSU, C.-W.; LIN, C.-J. A comparison of methods for multiclass support vector
machines. Trans. Neur. Netw., IEEE Press, v. 13, n. 2, 2002. Citado 2 vezes nas páginas
93 e 94.
HSU, C. wei; CHANG, C. chung; LIN, C. jen. A practical guide to support vector
classification. 2010. Citado 2 vezes nas páginas 78 e 79.
JERZAK, Z.; ZIEKOW, H. The debs 2014 grand challenge. Proceedings of the 8th ACM
International Conference on Distributed Event-Based Systems, p. 266–269, 2014. Citado na
página 17.
KREYSZIG, E. Introductory Functional Analysis with Applications. 4. ed. [S.l.]: John Wiley
& Sons, 2016. Citado 4 vezes nas páginas 101, 102, 103 e 105.
LUENBERGER, D. G.; YE, Y. Linear and Nonlinear Programming. 4. ed. [S.l.]: Springer,
2016. Citado 3 vezes nas páginas 22, 49 e 62.
MEYER, C. D. Matrix Analysis and Applied Linear Algebra. 2. ed. [S.l.]: SIAM, 2000.
Citado na página 73.
SCHöLKOPF, B.; SMOLA, A. Learning with Kernels. [S.l.]: MIT Press, 2002. Citado na
página 106.
SHIERS, J. The worldwide lhc computing grid (worldwide lcg). Computer Physics
Communications, v. 177, p. 219–223, 07 2007. Citado na página 17.
. Default of Credit Card Clients Data Set. 2016. Disponível em: <https:
//archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients>. Citado na
página 85.
Apêndices
101
apêndice A
C a r ac t e r i z ação de N úcleos
(i) h x, yi = hy, x i
(iii) h x, x i ě 0 e h x, x i = 0 se somente se x = 0
b
Ademais, H é dotado de norma induzida pelo produto interno, ou seja, ||x|| = h x, x i e é um
espaço completo segundo a métrica induzida por esta norma.
Definição 7 (Funcional Linear). Uma função f sobre um espaço vetorial V é dita funcional
linear se se é linear em V e f : V ÞÑ R.
1
Comumente denominado como Reproducing Kernel Hilbert Spaces (RKHS).
a p ê n d i c e a . c a r ac t e r i z aç ão d e n ú c l e o s 102
| f ( x )| ď M||x||H @x P H.
Então, f pode ser representado por um produto interno, a saber existe z P H tal que
f ( x ) = h x, ziH ,
||z||H = || f ||F ,
Note que, neste caso, como L x é contínuo, então é, também, limitado2 , ou seja,
|L x ( f )| = | f ( x )| ď M|| f ||F
Proposição 10. Seja t f n u uma sequência de funções em um RKHS F que converge a uma
função f desse espaço. Então, t f n u converge pontualmente a f .
| f n ( x ) ´ f ( x )| = |L x ( f n ) ´ L x ( f )| = |L x ( f n ´ f )| ď M|| f n ´ f ||F ă Me @n ě N,
(i) K (¨, x ) P F
L x ( f ) = h f , k x iF .
L x ( f ) = h f , K (¨, x )i = f ( x ).
Por outro lado, seja um espaço F de Hilbert que possua o núcleo K associado.
Então, a partir da desigualdade de Cauchy-Schwarz, é válida a seguinte expressão para
a função avaliação sobre F ,
b
|L x ( f )| = | f ( x )| = | h f , K (¨, x )iF | ď || f ||F ||K (¨, x )||F = K ( x, x )|| f ||F .
n
ÿ m
ÿ
em que f = αi K (¨, xi ) e g = β j K (¨, x j ). Dessa forma, note que o produto interno
i =1 j =1
pode ser reescrito apenas em função de g ou de f . De fato,
n
ÿ m
ÿ
h f , gi = αi g ( xi ) = β j f (xj ) @g, f P F0 .
i =1 j =1
Dessa forma, fica claro que basta determinar um núcleo simétrico e positivo
para determinar um espaço de Hilbert reproduzível por esse núcleo, em que este espaço
e núcleo são únicos. Contudo, não é possível representar vetores infinitamente gerados
em uma unidade de processamento. Logo, no contexto prático de aprendizado de
máquina, tentar solucionar um problema de otimização sobre um espaço infinitamente
gerado é, aparentemente, impraticável. Entretanto, é recorrente em problemas de
aprendizado de máquina a necessidade de solucionar uma certa classe de problemas
que envolvem um mapeamento de vetores n dimensionais sobre um espaço de Hilbert
RKHS denotado por F . O Teorema 4 garante que o minimizador pertinente a essa
classe de problemas é finitamente gerado, apesar de estar contido em F .
possui posto M. Dessa forma, considere uma função monotonicamente crescente θ : [0, 8) ÞÑ R
e uma função convexa γ : (Rn+2 )m ÞÑ R Y t8u. Então, quaisquer f ˚ P F e h˚ P spantψj u
tais que
!
˚ ˚
( f , h ) P arg min γ x1 , y1 , f ( x1 ) + h ( x1 ) , ¨ ¨ ¨ , x m , y m , f ( x m ) + h ( x m )
f PF
hPspantψj u
) (A.1)
+θ (|| f ||F )
em que αi P R e β j P R.
em que g P V K .
Agora, como K é o núcleo associado a F , observe que para qualquer x j tal
que ( x j , y j ) P S, tem-se que
* + * +
m
ÿ m
ÿ
f ( x j ) = f , K (¨, x j ) F
= αi K (¨, xi ) + g, K (¨, x j ) = αi K (¨, xi ), K (¨, x j ) .
i =0 F i =0 F
M
ÿ
˚
h (¨) = β j ψ j (¨)
j =0