Escolar Documentos
Profissional Documentos
Cultura Documentos
C ENTRO DE T ECNOLOGIA
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE P ROGRAMA DE P ÓS -G RADUAÇÃO EM E NGENHARIA E LÉTRICA
Adriana Takahashi
Natal/RN, 2012
Máquinas de Vetores Suporte Intervalar
Adriana Takahashi
Tese de Doutorado
Aos meus orientadores, professores Adrião e Benjamin, sou grata pela orientação e paciên-
cia.
As máquinas de vetores suporte (SVM - Support Vector Machines) têm atraído muita
atenção na área de aprendizagem de máquinas, em especial em classificação e reconhe-
cimento de padrões, porém, em alguns casos nem sempre é fácil classificar com precisão
determinados padrões entre classes distintas. Este trabalho envolve a construção de um
classificador de padrões intervalar, utilizando a SVM associada com a teoria intervalar,
de modo a modelar com uma precisão controlada a separação entre classes distintas de
um conjunto de padrões, com o objetivo de obter uma separação otimizada tratando de
imprecisões contidas nas informações do conjunto de padrões, sejam nos dados iniciais
ou erros computacionais.
A SVM é uma máquina linear, e para que ela possa resolver problemas do mundo
real, geralmente problemas não lineares, é necessário tratar o conjunto de padrões, mais
conhecido como conjunto de entrada, de natureza não linear para um problema linear, as
máquinas kernels são responsáveis por esse mapeamento. Para a extensão intervalar da
SVM, tanto para problemas lineares quanto não lineares, este trabalho introduz a definição
de kernel intervalar, bem como estabelece o teorema que valida uma função ser um kernel,
o teorema de Mercer para funções intervalares.
Palavras-chave: máquinas de vetores suporte, intervalar, kernel
Abstract
The Support Vector Machines (SVM) has attracted increasing attention in machine
learning area, particularly on classification and patterns recognition. However, in some
cases it is not easy to determinate accurately the class which given pattern belongs. This
thesis involves the construction of a intervalar pattern classifier using SVM in association
with intervalar theory, in order to model the separation of a pattern set between distinct
classes with precision, aiming to obtain an optimized separation capable to treat impreci-
sions contained in the initial data and generated during the computational processing.
The SVM is a linear machine. In order to allow it to solve real-world problems (usu-
ally nonlinear problems), it is necessary to treat the pattern set, know as input set, trans-
forming from nonlinear nature to linear problem. The kernel machines are responsible to
do this mapping. To create the intervalar extension of SVM, both for linear and nonlin-
ear problems, it was necessary define intervalar kernel and the Mercer’s theorem (which
caracterize a kernel function) to intervalar function.
Keywords: support vector machine, interval, kernel
Sumário
Sumário i
Lista de Tabelas iv
1 Introdução 1
1.1 Apresentação e motivação . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Máquinas de Vetores-Suporte 5
2.1 Máquina de Vetores-Suporte Linearmente Separável . . . . . . . . . . . . 6
2.1.1 Hiperplano Ótimo para Classes Linearmente Separáveis . . . . . 10
2.2 Máquina de Vetor de Suporte Não Lineares . . . . . . . . . . . . . . . . 12
2.2.1 Hiperplano Ótimo para Classes Não Linearmente Separáveis . . . 12
2.2.2 Função Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3 Matemática Intervalar 18
3.1 Representação de Intervalos . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Operações Aritméticas Intervalares . . . . . . . . . . . . . . . . . . . . . 19
3.3 Propriedades Algébricas Intervalares . . . . . . . . . . . . . . . . . . . . 20
3.4 Ordem Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.5 Função Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.5.1 Metrica intervalar em IRn . . . . . . . . . . . . . . . . . . . . . 21
3.5.2 Integral Interval . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.6 R-vetoide e espaço R-vetoide intervalar . . . . . . . . . . . . . . . . . . 23
3.6.1 Produto interno intervalar . . . . . . . . . . . . . . . . . . . . . 24
i
3.6.2 Autovetoide intervalar . . . . . . . . . . . . . . . . . . . . . . . 25
5 Kernel Intervalar 31
5.1 Mapeamento Função Kernel Intervalar . . . . . . . . . . . . . . . . . . . 33
5.2 Construção de Kernel Intervalar . . . . . . . . . . . . . . . . . . . . . . 34
5.2.1 Fazendo Kernels de kernels . . . . . . . . . . . . . . . . . . . . 36
5.3 Alguns Kernels Intervalares . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3.1 Extensão Intervalar do Kernel Gaussiano . . . . . . . . . . . . . 37
5.3.2 Extensão intervalar do Kernel Polinomial . . . . . . . . . . . . . 38
8 Conclusões 57
8.1 Possibilidades de trabalhos futuros . . . . . . . . . . . . . . . . . . . . . 58
Referências bibliográficas 59
Lista de Figuras
iii
Lista de Tabelas
iv
Capítulo 1
Introdução
1.2 Objetivos
Ojetivando a diversidade e os pontos fortes da SVM, o desenvolvimento deste es-
tudo está focado na construção de uma teoria intervalar aplicada à SVM, abordando os
princípios teóricos da SVM e da teoria intervalar sob a nova modelagem da SVM inter-
valar, que será chamado resumidamente de SVMI. Essa nova modelagem tende a oferecer
uma precisão, herdada de conceitos da matemática intervalar, para controlar erros com-
putacionais, que poderá advir de ruídos durante a aquisição dos dados de treinamento,
imprecisão e informações faltosas nos dados de entrada.
A contribuição científica desde estudo está em oferecer uma formalização deste novo
modelo para o mundo científico, tanto de Redes Neurais, quando de qualquer outra área,
que pretende obter um controle de erros computacionais, ou analisar o desempenho de
métodos que gerem resultados com uma dada precisão, utilizando como classificador uma
SVMI.
sificação de duas ou mais classes [Hsu & Lin 2002], ou estudos unindo SVMs a outras
teorias, como lógica Fuzzy, máquinas de vetores de suporte fuzzy (MVSF) ou do inglês
Fuzzy Support Vector Machines (FSVM) [Lin & Wang 2002].
Pesquisas mostram a SVM utilizando análise intervalar. Zhao [Zhao et al. 2005] de-
senvolveu uma extensão intervalar da SVM para classificação de padrões que estivessem
incompletos. Através de experimentos e análises de resultados, Zhao, concluiu que o
método proposto classifica novos padrões mesmo com informações incompletas, e com
a utilização do conhecimento à priori pode ser reduzido os atributos em relação ao custo
durante o processo de classificação.
Existe também um outro estudo na teoria de aproximação, onde, Lingras [Lingras &
Butz 2004] propõe o uso de duas técnicas de classificação, a SVM e teoria Rough Set,
onde, busca-se interpretar o resultado da classificação da SVM em termos intervalares
ou rough sets e explora-se tais vantagens. Hong [Hong & Hwang 2005] propõe utilizar
SVM para regressão intervalar, partindo de uma análise de regressão fuzzy. Em [Do &
Poulet n.d.] propõe-se uma análise de dados intervalares para métodos baseados no ker-
nel. Angulo e autores [Angulo et al. 2007] utilizam análise intervalar sobre a SVM para
o caso linear. A SVM desenvolvida neste trabalho consiste em uma extensão (essen-
cialmente intervalar), caracterizando-se entre outros aspectos, pelo uso de uma métrica
caracterizando-se do usual para tratamento intervalar dos dados.
• Capítulo 1: traz uma breve introdução da SVM, bem como a motivação de realizar
este estudo, os objetivos juntamente com as contribuições que se pretende alcançar
e alguns trabalhos relacionados na área e nesta proposta.
• Capítulo 2: mostra a fundamentação teórica da SVM para os casos de classes linear-
mente separáveis e não linearmente separáveis, com o objetivo de um embasamento
teórico bem esclarecido para um melhor entendimento da proposta deste estudo.
• Capítulo 3: apresenta a fundamentação teórica da abordagem intervalar, objeti-
vando apresentar os conceitos básicos da matemática intervalar que serão utilizados
na construção de uma máquina SVM intervalar.
• Capítulo 4: fornece os fundamentos básicos de conceitos de otimização, produto
interno kernel e da teoria do aprendizado estatístico. Conceitos utilizados na SVM
para encontrar o hiperplano ótimo calculado a partir da resolução de problemas de
CAPÍTULO 1. INTRODUÇÃO 4
Máquinas de Vetores-Suporte
wT · x + b = 0 (2.1)
Figura 2.2: Hiperplano ótimo com máxima margem ρo de separação dos padrões linear-
mente separáveis.
wTo · xo + bo = 0 (2.3)
A função discriminante
g(x) = wTo · xo + bo (2.4)
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 8
fornece uma medida algébrica de distância r entre x e o hiperplano (wo , bo ) que pode ser
representado por:
x = x p + xn (2.5)
Figura 2.3: Interpretação gráfica da distância x até o hiperplano ótimo para o caso bidi-
mensional.
Considerando g(x p ) = 0
g(x) = wTo · xo + bo
(2.7)
= r· k wo k
| g(x) |
r= (2.8)
k wo k
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 9
di (wTo · xi + bo ) ≥ 1 (2.10)
O pontos (x, d), onde a equação (2.10) é satisfeita para o sinal de igualdade são deno-
minados de vetores-suporte, e são esses pontos que influenciam diretamente na localiza-
ção do hiperplano ótimo de máxima margem, pois, esses pontos estão mais próximos da
superfície de decisão.
Considerando um ponto x(s) vetor-suporte de classe positiva d (s) = +1, então por
definição:
g(x(s) ) = wTo · x(s) + bo − 1 para di = +1 (2.11)
Da equação (2.8), a distância do vetor de suporte x(s) até o hiperplano ótimo é dado
por: (
T (s)
wo ·x +bo + kw1o k se d (s) = +1
r= kwo k = (2.12)
− kw1o k se d (s) = −1
onde, o sinal positivo indica que x(s) pertence ao lado positivo do hiperplano ótimo e o
sinal negativo o contrário. Considerando ρ a margem de separação máxima entre duas
classes de um conjunto de treinamento, então:
ρ = 2r = 2
kwo k (2.13)
di (wT · xi + b) ≥ 1 (2.14)
1 T
Minimizar: 2w ·w
(2.16)
Sujeito as restrições: di (wT · xi + b) ≥ 1, para i = 1, ..., n
N
1
J(w, b, α) = k w k2 − ∑ αi (di (wT · x + b) − 1) (2.17)
2 i=1
∂J(w,b,α)
Condição 1: ∂w =0
∂J(w,b,α) (2.18)
Condição 2: ∂b =0
resultado:
i=1 αi di xi
w = ∑N
(2.19)
i=1 αi di = 0
∑N
Substituindo a equação (2.19) em (2.17), obtém-se o problema dual de otimização:
N
wo = ∑ αoi di xi (2.21)
i=1
NSV
f (x) = sgn( ∑ di αoi xT · x + bo) (2.23)
i=1
Os padrões de entrada que não são vetores de suporte não influenciam na função de
decisão da escolha do hiperplano ótimo pela da SVM.
Um ponto importante para este problema de otimização é que fornece solução única
encontrado eficientemente, diferente de outras técnicas.
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 12
Para a construção da SVM no caso não linear, a idéia depende de duas operações
matemáticas. Primeiro: o mapeamento não linear do vetor de entrada para um espaço de
características de alta dimensionalidade. O teorema que trata dessa operação é o teorema
de Cover [Haykin 2001], onde, as funções ϕi são não lineares e a dimensionalidade do
espaço de características M é suficientemente alta. Segundo: a construção de um hiper-
plano ótimo para separação das características descobertas no primeiro, uma vez que o
teorema de Cover não procura o hiperplamo ótimo de separação. A fundamentação desta
última operação está na teoria da dimensão VC que busca o princípio da minimização do
risco estrutural [Haykin 2001, Lorena & Carvalho 2003, Semolini 2002].
Figura 2.5: (a) O ponto (xi , di ) se encontra na região de separação, mas do lado correto.
(b) O ponto (xi , di ) se encontra na região de separação, mas do lado incorreto. (c) O ponto
(xi , di ) se encontra fora da região de separação, mas do lado incorreto.
Para tratar desses problemas introduz-se uma variável não negativa {ξi }1≤i≤N na
definição do hiperplano de separação:
di (wT · xi + b) ≥ 1 − ξi (2.24)
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 14
N
Φ(ξ) = ∑ ξi (2.27)
i=1
2 w · w +C ∑i=1 ξi
1 T N
Minimizar: (
(1) di (wT · xi + b) ≥ 1 − ξi , para i = 1, ..., N (2.29)
Sujeito as restrições:
(2) ξi ≥ 0, ∀i = 1, ..., N
representado por:
k(xi x j ) = ϕT (xi ) · ϕ(x j ) (2.31)
N
∑ αi di k(xi , x j ) (2.33)
i, j=1
2.3 Considerações
Algumas considerações deste capítulo.
Para a SVM linear existem algumas particularidades:
Matemática Intervalar
A matemática intervalar, assim como a matemática “clássica”, é uma ciência que es-
tuda medidas, relações de quantidade e grandezas e possui diversos ramos, por exemplo,
a aritmética intervalar, que estuda as propriedades dos números intervalares (intervalos)
e suas operações. O histórico do desenvolvimento da matemática intervalar não é muito
recente, possuindo diversos estudos realizados a mais de cinco décadas atrás. Norbert
Wiener, considerado o “pai” da cibernética, em 1914, introduziu a análise de medida de
aproximações [Kreinovich et al. 1998]. Na década de 30, Young publicou um estudo
[Young 1931] em que dava regras para cálculos com intervalos e outros conjuntos de
números reais. Outras publicações foram feitas nas décadas posteriores, mas foi com Ra-
mon E. Moore [Moore 1966], na década de 60, que a matemática intervalar ficou mais
difundida na computação, devido principalmente à sua abordagem de computação inter-
valar, e das técnicas para problemas computacionais.
Sistemas computacionais podem ser descritos como um conjunto finito de processos
que envolvem operações matemáticas para uma determinada função. O uso da matemática
intervalar em sistemas computacionais consiste em buscar soluções mais eficientes para
problemas computacionais, como a criação de modelos computacionais que reflitam de
forma fidedigna a realidade, e também a escolha de técnicas de programação adequadas
para desenvolvimento de softwares científicos a fim de minimizar erros do resultado.
A qualidade do resultado computacional está diretamente associada ao conhecimento
e controle do erro, que pode ocorrer no processo computacional. Esses erros são fre-
quentemente gerados pela, propagação dos mesmos nos dados e parâmetros iniciais, trun-
camento e/ou arredondamento da informação. A precisão do resultado consiste então
na estimativa e análise do erro, que geralmente é uma tarefa extensa, dispendiosa e nem
sempre viável. O uso da matemática intervalar na computação busca garantir que no pro-
cessamento, o tratamento do erro se torne o menor possível e conhecido. O processo dos
métodos que fazem uso da computação intervalar, consiste na manipulação de dados ini-
CAPÍTULO 3. MATEMÁTICA INTERVALAR 19
1. Adição Intervalar:
X +Y = [x1 + y1 ; x2 + y2 ]
CAPÍTULO 3. MATEMÁTICA INTERVALAR 20
1. Fechamento:
• Se X , Y ∈ IR, então X +Y ∈ IR
• Se X , Y ∈ IR, então X ∗Y ∈ IR
2. Comutativa:
• X +Y = Y + X
• X ∗Y = Y ∗ X
3. Associativa:
• X + (Y + Z) = (X +Y ) + Z
• X ∗ (Y ∗ Z) = (X ∗Y ) ∗ Z
4. Elemento Neutro:
• X + [0; 0] = [0; 0] + X = X
• X ∗ [1; 1] = [1; 1] ∗ X = X
5. Subdistributiva:
X ∗ (Y + Z) ⊆ (X ∗Y ) + (X ∗ Z)
CAPÍTULO 3. MATEMÁTICA INTERVALAR 21
6. Inclusão Monotônica:
Sejam X , Y , Z e W ∈ IR, tais que, X ⊆ Z e Y ⊆ W .
• X +Y ⊆ Z +W
• −X ⊆ −Z
• X −Y ⊆ Z −W
• X ∗Y ⊆ Z ∗W .
• 1/X ⊆ 1/Z, se 0 6∈ Z
• X /Y ⊆ Z/W , se 0 6∈ W
A extensão dessa definição de função para X ⊂ IRm e Y ⊂ IRn é feita de forma natural.
métrico. A distância mais utilizada é a distância Euclidiana. Para o caso intervalar, pode
ser visto como subconjunto de R2 suas métricas naturais seguindo:
Definição 1 (Metrica de Moore) [Moore 1979] Seja DM : IRn ×IRn → R, definido, para
cada X = (X1 , . . ., Xn ), Y = (Y1 , . . . ,Yn ) ∈ IRn como:
s
n
DM (X, Y) = ∑ max((Xi −Yi )2, (Xi −Yi )2).
i=1
p
k X k= D (X , [0, 0])2 + ... + DT B (Xn, [0, 0])2
p TB 1
= k X1 k2 +...+ k Xn k2
Definição 5 (Matriz Interval) [Moore et al. 2009] Uma matrix X de ordem m × n é uma
matriz intervalar se cada elemento da matriz for um intervalo. O intervalo na linha i e
coluna j é denotado por Xi, j . Um vetor intervalar é uma matriz intervalar de dimensão
m × 1. Será adotado a notação MIRm,n para o conjnto de matrizes intervalares de ordem
m por n.
CAPÍTULO 3. MATEMÁTICA INTERVALAR 24
n m
hX, Yi = ∑ ∑ Xi, j ·Yi, j (3.1)
i=1 j=1
Então (I R , M I R m,n , ·, h·, ·i) é um espaço produtoide intervalar. Este espaço interno
produtoide também satisfaz a propriedade de subdistributividade, i.e. para cada X, Y, Z ∈
MIRm,n , hX + Y, Zi ⊆ hX, Zi + hY, Zi.
CAPÍTULO 3. MATEMÁTICA INTERVALAR 25
Aui = λi ui (3.2)
Este capítulo apresenta conceitos sobre a teoria de otimização utilizado para encontrar
o hiperplano ótimo de separação de classes através da SVM. As conceituações sobre o
problema de otimização "clássico"foram extraídas de [Bazaraa et al. 1993, Haykin 2001,
Lorena & Carvalho 2003, Luenberger 1984] e para o problema de otimização usando
análise intervalar foram extraídas de [Bliek et al. 2001, Hanses & Walster 1992, Kearfott
1996].
Será apresentado nas seções seguintes otimização de função com restrições, no con-
texto "clássico"e intervalar, onde, restrição intervalar é uma tecnologia alternativa de-
senvolvida para conjuntos contínuos, geralmente não lineares, associados com restrições
sobre números reais. O termo restrição intervalar (interval constraints) é frequentemente
associado com a propagação e técnicas de buscas desenvolvidas em inteligência artificial
e métodos para análise intervalar [Bliek et al. 2001].
Minimizar: f (x) , x ∈ Ω ⊆ Rn
Sujeito a: gi (x) ≤ 0 , i = 1, ..., k (4.1)
h j (x) ≤ 0 , j = 1, ..., m
F = {x ∈ Ω : gi (x) ≤ 0; h j (x) = 0}
CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 27
A solução do problema de otimização será o ponto x∗ ∈ F tal que não exista outro
ponto x ∈ F com f (x) < f ∗ (x), denominado de mínimo global.
Um problema de otimização onde a função objetivo é quadrática e as restrições line-
ares, é denominado de problema de otimização quadrático, ou se a função objetivo for
convexo e as restrições também, é denominado de problema de otimização convexo. O
caso do problema de otimização do treinamento da SVM, a função objetivo é convexa e
quadrática e as restrições lineares, sendo um problema de otimização convexo quadrático.
Para encontrar a solução para este tipo de problema utiliza-se a função de Lagrange,
para restrições de igualdade e a condição de Kuhn Tucker para restrições de desigualdades
[Hanses & Walster 1992, Haykin 2001, Martinez & Santos 1995, Semolini 2002].
k m
L(x, α, β) = f (x) + ∑ αi gi (x) + ∑ βi hi (x) (4.4)
i=1 j=1
onde, (p, x) é o produto interno de um vetor real p e x, b é um vetor real e Ar é uma matriz
intervalar.
Suponha que z∗ seja uma solução aproximada de (4.6) para p∗ ∈ P, b∗ ∈ B e A∗r ∈ A
CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 29
Minimar: f (x)
Sujeito a: pi (x) ≤ 0(i = 1, ..., m) (4.9)
qi (x) = 0(1 = 1, ..., r)
onde, f (x) é diferenciável e as funções de restrições pi (x) e qi (x) são continuamente
diferenciáveis.
Assumindo um intervalo inicial X o objetivo é encontrar um mínimo de f (x) ∈ X
sujeito as restrições.
ui pi (x) = 0
(4.10)
qi (x) = 0
ui ≥ 0
onde, u e v são multiplicadores de Lagrange.
Para a resolução do problema de otimização pode ser considerado o uso do método de
Newton, onde, ui ≥ 0 e os vetores x, u e v da condição de John são escritos em termos do
vetor t.
Rk (t)
i=1 ui ▽p(x) + ∑i=1 vi ▽q(x)
u0 ▽ f (x) + ∑m r
(4.11)
ui pi (x)
qi (x)
Capítulo 5
Kernel Intervalar
Neste capítulo foi desenvolvido uma extensão intervalar de kernels, de modo que,
definindo as funções intervalares que mapeiam o espaço de entrada e as funções kernels
intervalares, o espaço de características é encontrado implicitamente.
Considere um conjunto de treinamento {(X1 ,Y1 ), . . . , (XN ,YN )} ⊆ (X × Y)N , onde,
o i-ésimo exemplo Xi ∈ X ⊆ IRn de um espaço n-dimensional pertence a um rótulo ou
classe Y = {[−1, −1], [+1, +1]} (classificação binária), para todo i = 1, . . . , N e N ∈ N.
Assim como no caso usual, encontrar um kernel que represente o espaço de entrada é
menos complexo do que definir funções que mapeiam o espaço de entrada para o espaço
de características. Dessa forma, algumas propriedades foram estendidas para a abordagem
intervalar de modo que asseguram que uma função kernel intervalar é um kernel intervalar
CAPÍTULO 5. KERNEL INTERVALAR 32
Definição 11 (Matriz Kernel) Seja K uma matriz kernel com entradas intervalares X1 , . . . , XN ∈
X, Xi ∈ IRn ,
K = (K(Xi , X′j ))N
i, j=1 (5.3)
N
∑ CiC j Ki j ≥ 0 (5.4)
i, j
Definição 13 (Kernel definido positivo) Seja X um conjunto não vazio, a função kernel
K : X × X → IR para Xi ∈ X define a matriz Gram definida positiva é ligado a função
kernel definida positiva.
Φ : X → F,
(5.5)
Xi 7→ Φ(Xi )
onde, Xi = (X1, ..., Xn), Xi ∈ IRn e Φ(Xi ) = (φ1 (Xi ), ..., φm(Xi )), Φ(Xi ) ∈ IRm .
Para o problema de aprendizado da SVM, o mapeamento do espaço de entrada, con-
junto de entrada X = {X|Xi ∈ IRn }, para um espaço de características é equivalente a
F = {Φ(X)|X ∈ X}. Uma característica importante dessa máquina está no mapeamento
do espaço de entrada não-linear no espaço de características sem explicitar as funções que
farão esse mapeamento.
Um kernel intervalar K representa o produto interno intervalar de dois vetores in-
tervalares induzidos no espaço de características pelo vetor intervalar de entrada X e o
padrão intervalar representado no problema dual, e um intercepto intervalar B ∈ IR
N
∑ αiDi(< Φ(Xi) · Φ(X) > +B) ≥ [1, 1]
i=1
As condições para uma função kernel intervalar representar uma função intervalar que
mapeia o espaço de entrada (original) para um espaço de características intervalar são:
O teorema de Mercer caracteriza uma função k(x, z) como um kernel, pois demon-
stra que se k é um kernel contínuo de uma transformada (operador) integral positiva en-
tão pode ser construído um mapeamento Φ num espaço de características onde k atua
como produto interno, ou seja, se k é positivo definido então existe um mapa Φ onde
k(x, z) = hΦ(x), Φ(z)i. Neste contexto, o kernel intervalar deve satisfazer a extensão in-
tervalar do Teorema de Mercer. O kernel intervalar K é positivo definido se possui todos
os autovalores intervalares não negativos.
Teorema 5.2.1 (Extensão Intervalar do Teorema de Mercer) Seja K(X, Z) um kernel in-
tervalar simétrico e contínuo, definido no intervalo fechado [a, b] × [a, b], para X, Z ∈ X.
O kernel intervalar pode ser expandido na série
∞
K(X, Z) = ∑ λi Φi (X)Φi (Z)
i=1
onde, λi ∈ IR são auto-valores intervalares para todo i e Φi (·) são auto-funções in-
tervalares, resultando na expressão:
Z b
K(X, Z)Φ(Z)dZ = λΦ(X)
a
CAPÍTULO 5. KERNEL INTERVALAR 35
Prova:
Considerando a integral da análise funcional para o caso finito e fechado
Z b
K(X, Z)Φ(Z)dZ = λΦ(X)
a
e considerando a generalização do produto interno
∞
hΦ(X), Φ(Z)i = ∑ λi Φi (X)Φi (Z) = K(X, Z)
i=1
o teorema de Mercer fornece uma condição suficiente para que K seja simétrica
∞
K(X, Z) = ∑ λi Φi (X)Φi (Z)
i=1
K = K(Xi , X j ), i, j = 1, · · · , p
for simétrica, então existe uma matriz intervalar V, tal que, K = VVt , ou K = V ΛVt ,
onde, Λ é uma matriz intervalar diagonal contendo auto-valores intervalares λt de K,
CAPÍTULO 5. KERNEL INTERVALAR 36
Φ : Xi → λt Vti ∈ IR p , i = 1, · · · , p
p
então
p
hΦ(Xi ), Φ(X j )i = ∑ λtVtiVt j = V ΛV t = K
t=1
Demonstrações:
Yt KY ≥ [0, 0]
tem-se
Yt (K1 + K2 )Y ⊆ Yt K1 Y + Yt K2 Y ≥ [0, 0]
Dado pelas propriedades (4) e (3), o kernel intervalar gaussiano é dado por
hX ,X i hZ,Zi hX ,Zi
(− ) (− ) ( )
K(X , Z) = exp [2,2]σ2 exp [2,2]σ2 exp σ2
K(X, Xi ) = ([1, 1] + XT Xi )p
K(X, Xi ) = ([1, 1] + XT Xi )2
= ([1, 1] + V)2
= ([1 + V, 1 + V])2
= [(1 + V)2 , (1 + V)2 ]
2 2
[(1 + V) , (1 + V) ]
se V ≥ 0
= [(1 + V)2 , (1 + V)2 ] se V < 0
[0, ((1 + V)2 , (1 + V)2 )] caso contrário
Capítulo 6
As máquinas de vetor de suporte tem atraído muita atenção nos últimos anos devido
a sua eficiência para técnicas de reconhecimento de padrões ou aplicações que requerem
aprendizado de máquina. Este capítulo desenvolve uma nova abordagem para SVM, uti-
lizando SVM associado com a teoria intervalar, as máquinas de vetor de suporte inter-
valares.
A eficiência das SVM no aprendizado de máquinas tem levado ao desenvolvimento
de muitas pesquisas e aplicações associadas, porém, em alguns casos nem sempre é fácil
classificar com precisão um determinado padrão entre duas ou mais classes, para reconhe-
cimento de padrões, e uma vez que, para encontrar o hiperplano de separação ótimo está
relacionado diretamento aos dados de entrada aos vetores de suporte, então a teoria inter-
valar é proposta para casos onde os padrões de entrada não possuem características que
modelem com precisão alguma classe. O objetivo proposto para a abordagem da SVMI,
máquina de vetor de suporte intervalar, é controlar as informações de padrões de entrada
para encontrar vetores-suporte de um hiperplano de separação ótimo quando houver da-
dos incertos ou imprecisos contidos no conjunto de treinamento, e obter um controle nos
erros computacionais durante o treinamento da máquina.
NV S
f (x) = sgn( ∑ di αoi xT x + bo ) (6.1)
i=1
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 40
WT X + B = [0; 0] (6.2)
que é equivalente a:
Di (WT Xi + B) ≥ [1; 1] (6.4)
onde, G(X) fornece uma medida algébrica da distância de X até o hiperplano, podendo
ser expresso também da seguinde forma:
Wo
X = Xp + R (6.6)
k Wo k
Para o caso de separação ótima, por definição, G(X p ) = [0; 0], resultando:
G(X) = WTo X + Bo
= WTo (X p + Xn ) + Bo
⊆ WTo X p + Bo + WTo Xn
= [0; 0] + WTo Xn (6.8)
Wo
= WTo kW ok
R
kWo k2
= R kWo k
= R k Wo k
Logo,
G(X)
R= (6.9)
k Wo k
Para encontrar os parâmetros Wo e Bo para o hiperplano ótimo dado um conjunto de
treinamento, as restrições da equação (6.3) devem ser satisfeitas. Os pontos intervalares
(Xi , Di ) satisfeito no sinal de igualdade da equação (6.3) são chamados de vetores de
suporte intervalar.
Considerando um vetor de suporte intervalar X(s) temos:
[1;1]
(
+ kW ok
se D(s) = +[1; 1]
R= [1;1] (6.11)
− kW ok
se D(s) = −[1; 1]
ρ = 2R
(6.12)
= kW2o k
1
Φ = WT W (6.13)
2
sujeito as restrições:
Di (WT Xi + B) ≥ [1; 1]
Este é um problema de otimização que pode ser resolvido através do método de mul-
tiplicadores de Lagrange adaptado para intervalar:
∂L(W, B, α) N
= [0; 0] ⇔ W = ∑ αDi Xi (6.16)
∂W i=1
i=1 ∑ j=1 αi Di Xi α j D j X j −
= [ 21 ; 12 ] ∑N N
(6.17)
− ∑N i=1 ∑ j=1 αi Di Xi α j D j X j − [0; 0] + ∑i=1 αi
N N
N
1 1 N N
Q(α) = ∑ αi − [ ; ] ∑ ∑ αi α j Di D j Xi X j (6.18)
i=1 2 2 i=1 j=1
N
1 1
φ(W, ξ) = [ ; ]WT W +C ∑ ξi (6.25)
2 2 i=1
Minimizar: ( i=1 ξi
φ(W, ξ) = [ 21 ; 12 ]WT W +C ∑N
(1) yi (W Xi + B) ≥ 1 − ξi , para i = 1, ..., N
T (6.26)
Sujeito as restrições:
(2) ξi ≥ 0, ∀N i=1
Um kernel intervalar K é uma função intervalar K : IRn × IRn → IR que recebe dois
padrões intervalares Xi e X j , ∀ Xi , X j ∈ IRn , do espaço de entrada e computa o produto
intervalar ϕT (Xi )ϕ(X j ) no espaço de características.
O termo ϕT (Xi )ϕ(X j ) representa o produto interno intervalar dos vetores intervalares
Xi e X j , sendo o kernel intervalar representado por:
Uma extensão da equação (7.1) envolvendo o espaço de características, pode ser rees-
crito como:
N
W= ∑ αi Di ϕT (Xi )ϕ(X j ) (6.29)
i, j=1
N
∑ αi Di K(Xi , X j ) (6.30)
i, j=1
Maximizar:
i=1 αi − [ 2 , 2 ] ∑i, j=1 αi α j Di D j ϕXi ϕX j
Q(α) = ∑N 1 1 N T
Uma vez que o produto interno permite a construção de uma superfície de decisão
do espaço de entrada não-linear para um mapeamento em um espaço de características
linear, o problema da máquina trata de encontrar os valores ótimos intervalares dos multi-
plicadores de Lagrange da função Q, e tendo encontrado esses valores, o vetor intervalar
de peso associado ao espaço de característica é encontrado através da equação (6.29).
O procedimento para o projeto de uma máquina de vetores-suporte intervalar pode ser
representado como segue abaixo:
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 47
Implementações Computacionais e
Resultados
N
Wo = ∑ αoi Di Xvs
i
i=1
F(X) = sgn(WT X + B)
F(X) = sgn(αDXT X + B)
∂W(α)
η
∂αi
onde, η é um intervalo considerado como a taxa de aprendizado,
∂W(α)
αi = αi + η
∂αi
Algoritmo:
Esse método obtém resultados demorados e instáveis, pois, a máquina exige que o
conjunto de treinamento possua o intercepto intervalar, o bias B, passando pela origem.
Não computando ∑ αD = [0, 0].
Algoritmo:
Para este método foi considerado, o intervalo delimitante C e um valor intervalar para
o bias B, calculado de forma:
1. B ≤ max k Xi k
min(F + (X )−max(F − (X )
i i
2. B = − 2
3. B = n1vs ∑X j ∈vs ( D1j − ∑Xi ∈vs αi Di hXi , X j i)
suporte. O Problema 4 e 5 são do tipo não linearmente separável, sendo um ajuste inter-
valar da porta lógica X OR, sendo obtidos dois resultados, o primeiro utilizando o kernel
intervalar polinomial e o segundo utilizando o kernel intervalar gaussiano, com quatro
vetores suporte cada teste. O Problema 6 é do tipo não linearmente separável, sendo um
problemas de duas espirais, que obteve oito vetores suporte com o treinamento da função
kernel intervalar gaussiana. Os testes foram feitos utilizando o método intervalar iter-
ativo baseado na rede neural Perceptron e no método Adatron, uma vez que o método
do gradiente (mais simples) não trouxe resultados satisfatórios. O método intervalar im-
plementado demostrou mais estabilidade nos resultados, porém, um desgaste maior para
encontrar a convergência.
0.4500 0.3500
-0.4000 0.2750
-0.2750 -0.7750
0.3000 -0.3000
Tabela 7.3: Problema das espirais
[0.45,0.46] [0.3,0.35]
[-0.41,-0.39] [0.275,0.275]
[-0.3,-0.26] [-0.78,0.77]
[0.3,0.3] [-0.3,-0.29]
Tabela 7.4: Problema das espirais intervalar
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 55
A Tabela 7.5 mostra a matriz da função kernel linear do conjunto de entrada apresen-
tado na Tabela 7.3
A Tabela 7.6 mostra a matriz kernel intervalar linear do conjunto de entrada apresen-
tado na Tabela 7.4
A Tabela 7.9 mostra a matriz da função kernel gaussiano do conjunto de entrada ap-
resentado na Tabela 7.3
Conclusões
• Gradiente
• Adatron
• Percepton Dual
Angulo, C., D Anguita & L Gonzalez (2007), ‘Interval discriminant analysis using support
vector machines’, European Symposium on Artificial Neural Network .
Bazaraa, M., H. Sherali & C. M. Shetty (1993), Nonlinear Programming: Theory and
Algorithms, John Wiley and Sons.
Boser, B. E., I. M. Guyon & V. N. Vapnik (1992), ‘A training algorithm for optimal mar-
gin classifiers’, Proceedings of the 5 th Annual ACM Workshop on computacional
Learning Theory pp. 144–152.
Do, T. N. & F. Poulet (n.d.), ‘Kernel methods and visualizations for interval data mining’.
Hanses, E. & G. W. Walster (1992), Global Optimization using Interval Analysis, Marcel
Dekker, New Work.
59
REFERÊNCIAS BIBLIOGRÁFICAS 60
Hearst, M. A. (1998), ‘Support vector machines’, IEEE Inteligent Systems 13(4), 18–28.
Hofmann, T., B. Schölkopf & A. J. Smola (2008), ‘Kernel methods in machine learning’,
The Annals of Statistics 36(3), 1171–1220.
Hong, D. H. & C. Hwang (2005), ‘Interval regression analysis using quadratic loss su-
pport vector machines’, IEEE Transactions On Fuzzy Systems 13(2), 229–237.
Hsu, C. W. & C. J. Lin (2002), ‘A comparison of methods for multiclass support vector
machines’, IEEE Transactions On Neural Networks 13, 415–425.
Kreinovich, V., A. Lakeyev J. Rohn & P. Kahl (1998), Computational Complexity and
Feability of Data Processing and Interval Computations, Kluwer Academic Pub-
lishers, Canadá.
Kulisch, U. W. (1982), ‘Computer arithmetic and programing languages’, ACM 13, 176–
182.
Lin, F. C. & S. D. Wang (2002), ‘Fuzzy support vector machines’, IEEE Transactions On
Neural Networks 13(2), 464–470.
Lingras, P. & C. Butz (2004), ‘Interval set classifiers using support vector machines’,
Proceedings of 2004 Conferenceof the North American .
REFERÊNCIAS BIBLIOGRÁFICAS 61
Pontil, M. & A. Verri (1997), Proprieties of support vector machines, Relatório técnico,
Massachusetts Institute of Technology.
Santos, J. M. (2001), Em direção a uma representação para equações algébricas: Uma lóg-
ica equacional local, Dissertação de mestrado, Universidade Federal do Rio Grande
do Norte.
Young, R. C. (1931), The Algebra of Many-valued Quantities, Verlag Von Julius Springe,
Berlin.
Zhao, Y., Q. He & Q. Chen (2005), ‘An interval set classification based on support vector
machines’, Proceedings of the Joint International Conference on Autonomic and
Autonomous Systems .