Você está na página 1de 72

U NIVERSIDADE F EDERAL DO R IO G RANDE DO N ORTE

C ENTRO DE T ECNOLOGIA
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE P ROGRAMA DE P ÓS -G RADUAÇÃO EM E NGENHARIA E LÉTRICA

Máquina de Vetores-Suporte Intervalar

Adriana Takahashi

Orientador: Prof. Dr. Adrião Duarte Dória Neto

Co-orientador: Prof. Dr. Benjamín René Callejas Bedregal

Tese de Doutorado apresentada ao Pro-


grama de Pós-Graduação em Engenharia
Elétrica da UFRN, área de concentração:
Engenharia de Computação como parte dos
requisitos para obtenção do título de Doutor
em Ciências.

Natal/RN, 2012
Máquinas de Vetores Suporte Intervalar

Adriana Takahashi

Tese de Doutorado

Prof. Dr. Adrião Duarte Dória Neto (orientador) . . . . . . . . . . . . . . . . UFRN/DCA

Prof. Dr. Benjamín René Callejas Bedregal (co-orientador) . . . UFRN/DIMAp

Prof. Dr. Jorge Dantas de Melo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . UFRN/DCA

Prof. Dr. Aarão Lyra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . UnP

Prof. Dra. Renata Hax Sander Reiser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . UFPel

Prof. Dr. Tiago Alessandro Espínola Ferreira . . . . . . . . . . . . . . . . . . . . . . . UFRPE


A minha família, e a Deus.
Agradecimentos

Aos meus orientadores, professores Adrião e Benjamin, sou grata pela orientação e paciên-
cia.

Aos colegas do departamento.

Aos demais colegas de pós-graduação, pelas críticas e sugestões.

À minha família pelo apoio durante esta jornada.


Resumo

As máquinas de vetores suporte (SVM - Support Vector Machines) têm atraído muita
atenção na área de aprendizagem de máquinas, em especial em classificação e reconhe-
cimento de padrões, porém, em alguns casos nem sempre é fácil classificar com precisão
determinados padrões entre classes distintas. Este trabalho envolve a construção de um
classificador de padrões intervalar, utilizando a SVM associada com a teoria intervalar,
de modo a modelar com uma precisão controlada a separação entre classes distintas de
um conjunto de padrões, com o objetivo de obter uma separação otimizada tratando de
imprecisões contidas nas informações do conjunto de padrões, sejam nos dados iniciais
ou erros computacionais.
A SVM é uma máquina linear, e para que ela possa resolver problemas do mundo
real, geralmente problemas não lineares, é necessário tratar o conjunto de padrões, mais
conhecido como conjunto de entrada, de natureza não linear para um problema linear, as
máquinas kernels são responsáveis por esse mapeamento. Para a extensão intervalar da
SVM, tanto para problemas lineares quanto não lineares, este trabalho introduz a definição
de kernel intervalar, bem como estabelece o teorema que valida uma função ser um kernel,
o teorema de Mercer para funções intervalares.
Palavras-chave: máquinas de vetores suporte, intervalar, kernel
Abstract

The Support Vector Machines (SVM) has attracted increasing attention in machine
learning area, particularly on classification and patterns recognition. However, in some
cases it is not easy to determinate accurately the class which given pattern belongs. This
thesis involves the construction of a intervalar pattern classifier using SVM in association
with intervalar theory, in order to model the separation of a pattern set between distinct
classes with precision, aiming to obtain an optimized separation capable to treat impreci-
sions contained in the initial data and generated during the computational processing.
The SVM is a linear machine. In order to allow it to solve real-world problems (usu-
ally nonlinear problems), it is necessary to treat the pattern set, know as input set, trans-
forming from nonlinear nature to linear problem. The kernel machines are responsible to
do this mapping. To create the intervalar extension of SVM, both for linear and nonlin-
ear problems, it was necessary define intervalar kernel and the Mercer’s theorem (which
caracterize a kernel function) to intervalar function.
Keywords: support vector machine, interval, kernel
Sumário

Sumário i

Lista de Figuras iii

Lista de Tabelas iv

1 Introdução 1
1.1 Apresentação e motivação . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Máquinas de Vetores-Suporte 5
2.1 Máquina de Vetores-Suporte Linearmente Separável . . . . . . . . . . . . 6
2.1.1 Hiperplano Ótimo para Classes Linearmente Separáveis . . . . . 10
2.2 Máquina de Vetor de Suporte Não Lineares . . . . . . . . . . . . . . . . 12
2.2.1 Hiperplano Ótimo para Classes Não Linearmente Separáveis . . . 12
2.2.2 Função Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3 Matemática Intervalar 18
3.1 Representação de Intervalos . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Operações Aritméticas Intervalares . . . . . . . . . . . . . . . . . . . . . 19
3.3 Propriedades Algébricas Intervalares . . . . . . . . . . . . . . . . . . . . 20
3.4 Ordem Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.5 Função Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.5.1 Metrica intervalar em IRn . . . . . . . . . . . . . . . . . . . . . 21
3.5.2 Integral Interval . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.6 R-vetoide e espaço R-vetoide intervalar . . . . . . . . . . . . . . . . . . 23
3.6.1 Produto interno intervalar . . . . . . . . . . . . . . . . . . . . . 24

i
3.6.2 Autovetoide intervalar . . . . . . . . . . . . . . . . . . . . . . . 25

4 Otimização usando Análise Intervalar 26


4.1 Otimização Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.1 Funcional de Lagrange . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.2 Condições de Kuhn-Tucker . . . . . . . . . . . . . . . . . . . . . 28
4.2 Otimização Linear usando Computação Intervalar . . . . . . . . . . . . . 28
4.2.1 Otimização com restrições . . . . . . . . . . . . . . . . . . . . . 29
4.2.2 Condições de John . . . . . . . . . . . . . . . . . . . . . . . . . 30

5 Kernel Intervalar 31
5.1 Mapeamento Função Kernel Intervalar . . . . . . . . . . . . . . . . . . . 33
5.2 Construção de Kernel Intervalar . . . . . . . . . . . . . . . . . . . . . . 34
5.2.1 Fazendo Kernels de kernels . . . . . . . . . . . . . . . . . . . . 36
5.3 Alguns Kernels Intervalares . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3.1 Extensão Intervalar do Kernel Gaussiano . . . . . . . . . . . . . 37
5.3.2 Extensão intervalar do Kernel Polinomial . . . . . . . . . . . . . 38

6 Máquina de Vetores-Suporte Intervalar 39


6.1 Máquina de Vetores-Suporte Intervalares Linearmente Separáveis . . . . 39
6.2 Máquina de Vetor de Suporte Intervalares Não Separáveis . . . . . . . . . 44

7 Implementações Computacionais e Resultados 48


7.1 Implementações Computacionais e Resultados . . . . . . . . . . . . . . . 48
7.1.1 Método Intervalar: Gradiente . . . . . . . . . . . . . . . . . . . 50
7.1.2 Algumas variações: . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.1.3 Método Intervalar: Adatron . . . . . . . . . . . . . . . . . . . . 50
7.1.4 Método Intervalar: Perceptron Dual . . . . . . . . . . . . . . . . 51
7.2 Resultados de testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.2.1 Resultados da SVMI . . . . . . . . . . . . . . . . . . . . . . . . 53
7.2.2 Conjunto de treinamento intervalar . . . . . . . . . . . . . . . . 54

8 Conclusões 57
8.1 Possibilidades de trabalhos futuros . . . . . . . . . . . . . . . . . . . . . 58

Referências bibliográficas 59
Lista de Figuras

2.1 Hiperplano de separação (w, b) para um conjunto de treinamento bidi-


mensional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Hiperplano ótimo com máxima margem ρo de separação dos padrões lin-
earmente separáveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Interpretação gráfica da distância x até o hiperplano ótimo para o caso
bidimensional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4 Mapeamento de características. . . . . . . . . . . . . . . . . . . . . . . . 12
2.5 (a) O ponto (xi , di ) se encontra na região de separação, mas do lado cor-
reto. (b) O ponto (xi , di ) se encontra na região de separação, mas do lado
incorreto. (c) O ponto (xi , di ) se encontra fora da região de separação,
mas do lado incorreto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

6.1 Ilustração do hiperplano ótimo intervalar. . . . . . . . . . . . . . . . . . 40


6.2 Interpretação da distância de X até p hiperplano ótimo. . . . . . . . . . . 41

7.1 Treimanento de uma SVMI . . . . . . . . . . . . . . . . . . . . . . . . . 49


7.2 Topologia da SVMI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

iii
Lista de Tabelas

2.1 Principais kernels utilizados nas SVMs . . . . . . . . . . . . . . . . . . . 16

7.1 Tabela de resultados da SVMI . . . . . . . . . . . . . . . . . . . . . . . 53


7.2 Tabela de resultados da SVMI . . . . . . . . . . . . . . . . . . . . . . . 54
7.3 Problema das espirais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.4 Problema das espirais intervalar . . . . . . . . . . . . . . . . . . . . . . 54
7.5 Matriz intervalar do problema das espirais intervalar para o kernel linear . 55
7.6 Matriz intervalar do problema das espirais intervalar para o kernel linear . 55
7.7 Matriz kernel do problema das espirais para o kernel polinomial . . . . . 55
7.8 Matriz intervalar do problema das espirais intervalar para o kernel poli-
nomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.9 Matriz kernel do problema das espirais para o kernel gaussiano . . . . . . 56
7.10 Matriz intervalar do problema das espirais intervalar para o kernel gaussiano 56

iv
Capítulo 1

Introdução

1.1 Apresentação e motivação


As máquinas de vetores suporte (SVM - Support Vector Machines) têm atraído muita
atenção nos últimos anos devido a sua eficiência, comparada com outros tipos de redes
neurais, em aplicações que requerem aprendizado de máquina e por estar bem fundamen-
tado na teoria de aprendizado estatístico [Stitson et al. 1996, Pontil & Verri 1997]. A
SVM pode ser usada para resolver problemas de classificação e regressão linear. Burges
[Burges 1998] apresenta um tutorial sobre a SVM que trata de problemas de classificação
de padrões, e em [Stitson et al. 1996, Hearst 1998], mostram-se problemas de regressão,
fazendo da SVM uma abordagem abrangente para diversas aplicações que envolvem prob-
lemas de modelagem de dados empíricos.
Uma propriedade especial da SVM é a minimização do risco estrutural, proveniente
da teoria do aprendizado estatístico, cujo princípio se baseia no fato de que o erro de uma
máquina de aprendizagem sobre os dados de teste (erro de generalização) é limitado pelo
erro de treinamento mais um termo que depende da dimensão de Vapnik-Chervonenkis
(dimensão VC), que é uma medida da capacidade de expressão de uma família de funções.
O objetivo da SVM é a construção de um hiperplano ótimo que minimiza o risco empírico
e a dimensão VC conjuntamente, e que ao maximizar a margem de separação das classes
implica na minimização da dimensão VC, satisfazendo a minimização do risco estrutural.
Um modelo de uma SVM pode ser descrito em simples palavras. Considerando um
problema linearmente separável cujo conjunto de treinamento pode ser classificado por
duas classes, uma SVM mapeia o espaço de entrada e encontra o hiperplano ótimo que
maximiza a margem de separação das classes, ou duas vezes a distância mínima de cada
classe ao hiperplano ótimo, cujos pontos situados sobre os extremos da máxima margem
do hiperplano ótimo são denominados de vetores-suporte. Em casos reais, nem sempre os
problemas são linearmente separáveis e tanto o hiperplano quanto os vetores-suporte são
CAPÍTULO 1. INTRODUÇÃO 2

obtidos através de um problema de otimização com restrições. Uma generalização deste


conceito é utilizado para o caso não linear.
O problema de classificação de padrões, que originou a formulação da SVM, pode
ser resolvido por muitos outros classificadores, porém, a grande vantagem da SVM sobre
outros classificadores está no hiperplano ótimo que consegue obter uma máxima margem
de separação entre classes. Entretanto, mesmo com todas as vantagens e eficiência da
SVM como um classificador, existem alguns casos onde não é tão simples determinar oti-
mamente a separação entre classes distintas através de um hiperplano, seja por utilizar um
conjunto de treinamento com informações imprecisas ou inconsistentes, ou por problemas
de erros de arredondamentos de valores durante a execução da máquina para encontrar o
hiperplano, ou por problemas de truncamento ou aproximação de procedimentos.

1.2 Objetivos
Ojetivando a diversidade e os pontos fortes da SVM, o desenvolvimento deste es-
tudo está focado na construção de uma teoria intervalar aplicada à SVM, abordando os
princípios teóricos da SVM e da teoria intervalar sob a nova modelagem da SVM inter-
valar, que será chamado resumidamente de SVMI. Essa nova modelagem tende a oferecer
uma precisão, herdada de conceitos da matemática intervalar, para controlar erros com-
putacionais, que poderá advir de ruídos durante a aquisição dos dados de treinamento,
imprecisão e informações faltosas nos dados de entrada.
A contribuição científica desde estudo está em oferecer uma formalização deste novo
modelo para o mundo científico, tanto de Redes Neurais, quando de qualquer outra área,
que pretende obter um controle de erros computacionais, ou analisar o desempenho de
métodos que gerem resultados com uma dada precisão, utilizando como classificador uma
SVMI.

1.3 Trabalhos relacionados


As áreas mais comuns de aplicações da SVM estão em: reconhecimento de caracteres,
reconhecimento de imagens, detecção de faces em imagens e categorização de textos
[Boser et al. 1992, Burges 1998, Ganapathiraju 2002, Hearst 1998, Joachims 1998, Lima
2004, Pontil & Verri 1997, Stitson et al. 1996], e entre diversos problemas de regressão
[Stitson et al. 1996, Hearst 1998].
A SVM também é encontrada na literatura em problemas de multi-classificação, clas-
CAPÍTULO 1. INTRODUÇÃO 3

sificação de duas ou mais classes [Hsu & Lin 2002], ou estudos unindo SVMs a outras
teorias, como lógica Fuzzy, máquinas de vetores de suporte fuzzy (MVSF) ou do inglês
Fuzzy Support Vector Machines (FSVM) [Lin & Wang 2002].
Pesquisas mostram a SVM utilizando análise intervalar. Zhao [Zhao et al. 2005] de-
senvolveu uma extensão intervalar da SVM para classificação de padrões que estivessem
incompletos. Através de experimentos e análises de resultados, Zhao, concluiu que o
método proposto classifica novos padrões mesmo com informações incompletas, e com
a utilização do conhecimento à priori pode ser reduzido os atributos em relação ao custo
durante o processo de classificação.
Existe também um outro estudo na teoria de aproximação, onde, Lingras [Lingras &
Butz 2004] propõe o uso de duas técnicas de classificação, a SVM e teoria Rough Set,
onde, busca-se interpretar o resultado da classificação da SVM em termos intervalares
ou rough sets e explora-se tais vantagens. Hong [Hong & Hwang 2005] propõe utilizar
SVM para regressão intervalar, partindo de uma análise de regressão fuzzy. Em [Do &
Poulet n.d.] propõe-se uma análise de dados intervalares para métodos baseados no ker-
nel. Angulo e autores [Angulo et al. 2007] utilizam análise intervalar sobre a SVM para
o caso linear. A SVM desenvolvida neste trabalho consiste em uma extensão (essen-
cialmente intervalar), caracterizando-se entre outros aspectos, pelo uso de uma métrica
caracterizando-se do usual para tratamento intervalar dos dados.

1.4 Organização do Trabalho


Este trabalho está organizado em capítulos da seguinte forma:

• Capítulo 1: traz uma breve introdução da SVM, bem como a motivação de realizar
este estudo, os objetivos juntamente com as contribuições que se pretende alcançar
e alguns trabalhos relacionados na área e nesta proposta.
• Capítulo 2: mostra a fundamentação teórica da SVM para os casos de classes linear-
mente separáveis e não linearmente separáveis, com o objetivo de um embasamento
teórico bem esclarecido para um melhor entendimento da proposta deste estudo.
• Capítulo 3: apresenta a fundamentação teórica da abordagem intervalar, objeti-
vando apresentar os conceitos básicos da matemática intervalar que serão utilizados
na construção de uma máquina SVM intervalar.
• Capítulo 4: fornece os fundamentos básicos de conceitos de otimização, produto
interno kernel e da teoria do aprendizado estatístico. Conceitos utilizados na SVM
para encontrar o hiperplano ótimo calculado a partir da resolução de problemas de
CAPÍTULO 1. INTRODUÇÃO 4

otimização com restrições. Será mostrado também os fundamentos da otimização


com uso da análise intervalar, necessário para encontrar o hiperplano que satisfaça
as condições de otimização intervalar e as propriedades da SVM.
• Capítulo 5: formalismo da extensão intervalar de kernels, bem como o teorema que
valida funções a serem consideradas válidas para serem kernels.
• Capítulo 6: este capítulo descreve os aspectos teóricos baseados nos capítulos an-
teriores, e uma definição inicial para o caso linearmente separável, detalhando com
um algoritmo e a aplicação de exemplos para apresentar alguns resultados já obti-
dos.
• Capítulo 7: implementações de métodos iterativos intervalares para o treinamento
de uma SVMI.
• Capítulo 8: considerações gerais e possibilidades de trabalhos futuros.
Capítulo 2

Máquinas de Vetores-Suporte

As máquinas de vetores suporte, referenciado em inglês como Support Vector Ma-


chines (SVM), constituem numa técnica fundamentada na Teoria de Aprendizado Estatís-
tico visando a proposição de técnicas de aprendizado de máquina que buscam a maximiza-
ção da capacidade de generalização e a minimização do risco estrutural [Haykin 2001].
A maximização da capacidade de generalização em técnicas de aprendizado de máquina
é a capacidade da máquina na classificação eficiente perante o conjunto de treinamento,
e a minimização do risco estrutural é a probabilidade de classificação errônea de padrões
ainda não apresentados à máquina.
Na literatura é encontrado o termo máquinas de vetor de suporte ligado a proble-
mas de classificação e regressão [Hearst 1998, Lima 2004, Stitson et al. 1996], e o termo
vetores-suporte ou ainda, vetores de suporte utilizado para encontrar um hiperplano ótimo
de separação, responsável pela separação de classes, ou uma função de separação com
margem máxima entre classes distintas. A teoria que define rigososamente os conceitos
e demonstrações matemática da função do hiperplano ótimo é a teoria de aprendizado
estatístico, tratado por Vapnik como dimensão Vapnik-Chervonenkis, ou simplemente di-
mensão VC [Haykin 2001, Lorena & Carvalho 2003, Semolini 2002]. Essa dimensão é de
fundamental importância, pois, sua estimativa correta garante o aprendizado de maneira
confiável, em outras palavras, a dimensão VC engloba o princípio de minimização de
risco estrutural, que envolve a minimização de um limite superior sobre o erro de general-
ização, tornando a máquina com uma habilidade alta para generalizar padrões ainda não
apresentados.
Neste capítulo será descrito uma formulação básica da SVM, apresentando a SVM
para classificação do caso linearmente separável e do caso não linearmente separável.
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 6

2.1 Máquina de Vetores-Suporte Linearmente Separável


O problema de classificação binária, problema de classificação inicial tratado pela
SVM, trata da classificação de duas classes, sem perda de generalidade, através de um
hiperplano ótimo à partir de um conjunto de treinamento linearmente separável. Um
conjunto de treinamento é dito linearmente separável se for possível separar os padrões
de classes diferentes contidos no mesmo por pelo menos um hiperplano [Haykin 2001,
Semolini 2002].
Considere o conjunto de treinamento {(xi , di )}N
i=1 , onde xi é o padrão de entrada para
o i-ésimo exemplo e di é a resposta desejada, di = {+1, −1}, que representa as classes
linearmente separáveis.
A equação que separa os padrões através de hiperplanos pode ser definida por:

wT · x + b = 0 (2.1)

onde, wT · x é o produto escalar entre os vetores w e x, em que x é um vetor de entrada


que representa os padrões de entrada do conjunto de treinamento, w é o vetor de pesos
ajustáveis e b é um limiar também conhecido como bias.
A Figura 2.1 mostra o hiperplano de separação (w, b) em um espaço bidimensional
para um conjunto de treinamento linearmente separável.

Figura 2.1: Hiperplano de separação (w, b) para um conjunto de treinamento bidimen-


sional.
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 7

A equação (2.1) pode ser reescrita por:


(
wT · xi + b ≥ 0, se di = +1
(2.2)
wT · xi + b < 0, se di = −1

A margem de separação, distância entre o hiperplano definido na equação (2.1) e o


ponto mais próximo de ambas as classes, é representado por ρ. O objetivo de uma SVM
é encontrar um hiperplano que separe o conjunto de treinamento sem erro e maximize
a margem de separação, sobre essa condição, o hiperplano é referido como hiperplano
ótimo. A Figura 2.2 ilustra o hiperplano ótimo para um espaço de entrada bidimensional.

Figura 2.2: Hiperplano ótimo com máxima margem ρo de separação dos padrões linear-
mente separáveis.

Considerando que wo e bo representam os valores ótimos do vetor peso e do bias,


respectivamente, a equação (2.1) do hiperplano pode ser reescrita para o hiperplano como:

wTo · xo + bo = 0 (2.3)

A função discriminante
g(x) = wTo · xo + bo (2.4)
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 8

fornece uma medida algébrica de distância r entre x e o hiperplano (wo , bo ) que pode ser
representado por:
x = x p + xn (2.5)

onde, x p é a projeção normal de x sobre o hiperplano ótimo e xn é o vetor normal com


distância r, onde,
wo
xn = r · (2.6)
k wo k
A Figura 2.3 ilustra a distância r entre x e o hiperplano (wo , bo ), onde, r é positivo se
x estiver no lado positivo do hiperplano ótimo caso contrário será negativo.

Figura 2.3: Interpretação gráfica da distância x até o hiperplano ótimo para o caso bidi-
mensional.

Considerando g(x p ) = 0

g(x) = wTo · xo + bo
(2.7)
= r· k wo k

onde, através da equação (2.7) é obtido a distância r

| g(x) |
r= (2.8)
k wo k
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 9

O conjunto de treinamento é linearmente separável se wo e bo satisfazer a restrição


(
wTo · xi + bo ≥ +1, se di = +1
(2.9)
wTo · xi + bo ≤ −1, se di = −1

onde, os parâmetros wo e bo são obtidos somente através do conjunto de treinamento.


A equação (2.9) pode ser reescrita por:

di (wTo · xi + bo ) ≥ 1 (2.10)

O pontos (x, d), onde a equação (2.10) é satisfeita para o sinal de igualdade são deno-
minados de vetores-suporte, e são esses pontos que influenciam diretamente na localiza-
ção do hiperplano ótimo de máxima margem, pois, esses pontos estão mais próximos da
superfície de decisão.
Considerando um ponto x(s) vetor-suporte de classe positiva d (s) = +1, então por
definição:
g(x(s) ) = wTo · x(s) + bo − 1 para di = +1 (2.11)

Da equação (2.8), a distância do vetor de suporte x(s) até o hiperplano ótimo é dado
por: (
T (s)
wo ·x +bo + kw1o k se d (s) = +1
r= kwo k = (2.12)
− kw1o k se d (s) = −1

onde, o sinal positivo indica que x(s) pertence ao lado positivo do hiperplano ótimo e o
sinal negativo o contrário. Considerando ρ a margem de separação máxima entre duas
classes de um conjunto de treinamento, então:

ρ = 2r = 2
kwo k (2.13)

Logo, a equação (2.13) mede a distância entre os hiperplanos da equação (2.10), da


mesma forma que a distância entre os hiperplanos wT · x + b = 0 e wT · x + b = 1 ou
1
wT · x + b = −1 é dado por kwk . Como é suposto que a margem de separação é sempre
maior que esta última distância, a minimização de k w k leva a uma maximização da
margem.
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 10

2.1.1 Hiperplano Ótimo para Classes Linearmente Separáveis


O hiperplano ótimo definido para os parâmetros w e b que satisfaçam as desigualdades
da equação (2.10), pode ser reescrito como:

di (wT · xi + b) ≥ 1 (2.14)

O objetivo da SVM é encontrar um procedimento computacional que, utilizando o


conjunto de treinamento {(xi , di )}N
i=1 encontra o hiperplano ótimo sujeito às restrições da
equação (2.14). Este problema pode ser resolvido através do problema de otimização com
restrições, minimizando a função custo Φ em relação ao vetor de peso w e satisfazendo
as restrições da equação (2.14)
1
Φ(w) = wT · w (2.15)
2
A partir da função custo Φ da equação (2.15) pode ser formulado o problema de
otimização com restrições, denominado de problema primal:

1 T
Minimizar: 2w ·w
(2.16)
Sujeito as restrições: di (wT · xi + b) ≥ 1, para i = 1, ..., n

Este é um problema clássico em otimização de programação quadrática [Hearst 1998]


sob o aspecto de aprendizado de máquina. O problema de otimização analisado sob o
ponto de vista de otimização de função quadrática pode ser resolvido introduzindo uma
função lagrangiana, definida em termos de w e b:

N
1
J(w, b, α) = k w k2 − ∑ αi (di (wT · x + b) − 1) (2.17)
2 i=1

onde, os αi são denominados de multiplicadores de Lagrange não-negativos.


O problema passa a ser então a minimização da equação (2.17) em relação a w e b e
maximização de αi , com αi ≥ 0. Os pontos ótimos desta esquação são obtidos diferen-
ciando a equação (2.17) em relação a w e b e igualando os resultados a zero, obtendo as
condições de otimização:

∂J(w,b,α)
Condição 1: ∂w =0
∂J(w,b,α) (2.18)
Condição 2: ∂b =0

A aplicação das condições de (2.18) à função lagrangiana da equação (2.17) levam ao


CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 11

resultado:
i=1 αi di xi
w = ∑N
(2.19)
i=1 αi di = 0
∑N
Substituindo a equação (2.19) em (2.17), obtém-se o problema dual de otimização:

i=1 αi − 2 ∑i=1 ∑ j=1 αi α j di d j xi · x j


∑N 1 N N T
Maximizar: (
(1) αi ≥ 0, i = 1, ..., N (2.20)
Sujeito as restrições:
(2) ∑Ni=1 αi di = 0

Tendo encontrado os multiplicadores de Lagrange ótimos, representados por αoi , pode-


se calcular o vetor de peso ótimo wo através da equação (2.19):

N
wo = ∑ αoi di xi (2.21)
i=1

O valor do bias ótimo bo é encontrado utilizando os pesos ótimos wo encontrados na


equação (2.21) e descrito como:

bo = 1 − wTo · x(s) para d (s) = 1 (2.22)

O problema dual (2.20) é formulado totalmente em termos dos padrões de treina-


mento, além disso, a equação a ser maximizada da equação (2.20) depende somente dos
padrões de entrada. O hiperplano ótimo depende somente dos vetores de suporte, consi-
derados os padrões mais significativos do conjunto de treinamento. Os multiplicadores de
Lagrange αo > 0 (diferentes de zero) são justamente os padrões de entrada com margem
igual a 1, chamados de vetores de suporte.
O hiperplano ótimo é expresso em termos do conjunto de vetores de suporte descrito
pela função sinal como:

NSV
f (x) = sgn( ∑ di αoi xT · x + bo) (2.23)
i=1

Os padrões de entrada que não são vetores de suporte não influenciam na função de
decisão da escolha do hiperplano ótimo pela da SVM.
Um ponto importante para este problema de otimização é que fornece solução única
encontrado eficientemente, diferente de outras técnicas.
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 12

2.2 Máquina de Vetor de Suporte Não Lineares


O problema de classificação binária, onde, classes distintas são não linearmente se-
paráveis no espaço original, mas, com um mapeamento não linear através de um produto
interno kernel transforma o espaço original em um espaço de características de dimensão
maior, e, o problema que era não linearmente separável no espaço original passa-se a ser
linearmente separável no espaço de características é representado pela SVM não linear-
mente separável ou SVM para classes linearmente separáveis no espaço de características.
O espaço de características, mencionado acima, corresponde a uma representação
do conjunto de treinamento, um mapeamento do espaço de entrada original em um novo
espaço utilizando funções reais ϕi , ..., ϕM . A Figura 2.4 ilustra esse conceito.

Figura 2.4: Mapeamento de características.

Para a construção da SVM no caso não linear, a idéia depende de duas operações
matemáticas. Primeiro: o mapeamento não linear do vetor de entrada para um espaço de
características de alta dimensionalidade. O teorema que trata dessa operação é o teorema
de Cover [Haykin 2001], onde, as funções ϕi são não lineares e a dimensionalidade do
espaço de características M é suficientemente alta. Segundo: a construção de um hiper-
plano ótimo para separação das características descobertas no primeiro, uma vez que o
teorema de Cover não procura o hiperplamo ótimo de separação. A fundamentação desta
última operação está na teoria da dimensão VC que busca o princípio da minimização do
risco estrutural [Haykin 2001, Lorena & Carvalho 2003, Semolini 2002].

2.2.1 Hiperplano Ótimo para Classes Não Linearmente Separáveis


Considerando, em uma visão geral, o problema de classificação, onde, as classes são
não linearmente separáveis, a construção do hiperplano de separação, dado os padrões de
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 13

treinamento, possivelmente gerará erros de classificação. O objetivo da SVM neste caso é


encontrar um hiperplano que minimiza a probabilidade de erro de classificação junto com
o conjunto de treinamento.
Existem alguns casos onde, não é necessário fazer um mapeamento de características
no conjunto de treinamento. Esses casos são tratados pela SVM linear com margens de
separação entre classes suaves ou flexíveis (soft), pois, poderão existir pontos (xi , di ) que
violarão a equação (2.14).
Esta violação pode ocorrer em três diferentes situações descritas a seguir:

• O ponto (xi , di ) se encontra dentro da região de separação e no lado correto da


superfície de decisão, ilustrado na Figura 2.5 (a). Neste caso, houve uma escolha
incorreta do hiperplano.
• O ponto (xi , di ) se encontra dentro da região de separação e no lado incorreto da
superfície de decisão, ilustrado na Figura 2.5 (b). Neste caso, houve uma escolha
incorreta do hiperplano de margem maior.
• O ponto (xi , di ) se encontra fora da região de separação e no lado incorreto da
superfície de decisão, ilustrado na Figura 2.5 (c).

Figura 2.5: (a) O ponto (xi , di ) se encontra na região de separação, mas do lado correto.
(b) O ponto (xi , di ) se encontra na região de separação, mas do lado incorreto. (c) O ponto
(xi , di ) se encontra fora da região de separação, mas do lado incorreto.

Para tratar desses problemas introduz-se uma variável não negativa {ξi }1≤i≤N na
definição do hiperplano de separação:

di (wT · xi + b) ≥ 1 − ξi (2.24)
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 14

As variáveis ξi são denominadas de variáveis soltas, e medem os desvios dos pontos


(xi , di ) para a condição ideal de separação de classes. Quando ξi satisfazer 0 ≤ ξi ≤ 1
o ponto encontra-se dentro da região de separação mas do lado correto da superfície de
decisão. Quando ξi > 1 o ponto encontra-se do lado incorreto do hiperplano de separação.
Os vetores-suporte são os pontos que o resultado da equação (2.24) é igual a 1 − ξi
mesmo que ξi > 0. Ao retirar um padrão do conjunto de treinamento em que ξi > 0 a
superfície de decisão tem possibilidade de mudança, porém, ao retirar um padrão em que
ξi = 0 e o resultado da equação (2.24) for maior que 1 a superfície de decisão permanecerá
inalterada.
O objetivo é encontrar um hiperplano de separação onde o erro de classificação in-
correta seja mínimo perante o conjunto de treinamento, podendo ser feito minimizando a
equação:
N
Φ(ξ) = ∑ I(ξi − 1) (2.25)
i=1

em relação ao vetor peso w, sujeito à restrição da equação do hiperplano de separação


da equação (2.24) e a restrição sobre wT w. A função I(ξ − 1) é uma função indicadora,
definida por: (
0 se ξ ≤ 0
I(ξ − 1) = (2.26)
1 se ξ > 0
A minimização de Φ(ξ) é um problema de otimização não convexo de classe NP-
completo não determinístico em tempo polinomial. Para fazer este problema de otimiza-
ção matematicamente tratável, aproxima-se a função Φ(ξ) por:

N
Φ(ξ) = ∑ ξi (2.27)
i=1

Para a simplificação de cálculos computacionais a função a ser minimizada em relação


ao vetor peso w segue:
N
1
Φ(w, ξ) = wT · w +C ∑ ξi (2.28)
2 i=1

onde, o parâmetro C controla a relação entre a complexidade do algoritmo e o número de


amostras do conjunto de treinamento classificados incorretamente, sendo denominado de
parâmetro de penalização.
A minimização do primeiro termo da equação (2.28) está relacionada à minimização
da dimensão VC da SVM. O segundo termo pode ser visto como um limitante supe-
rior para o número de erros no padrão de treinamento apresentados à máquina. Logo, a
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 15

equação (2.28) satisfaz os princípios de minimização do risco estrutural.


O problema de otimização em sua representação primal para encontrar o hiperplano
ótimo de separação para classes não linearmente separáveis pode ser escrito como:

2 w · w +C ∑i=1 ξi
1 T N
Minimizar: (
(1) di (wT · xi + b) ≥ 1 − ξi , para i = 1, ..., N (2.29)
Sujeito as restrições:
(2) ξi ≥ 0, ∀i = 1, ..., N

Utilizando o método dos multiplicadores de Lagrange, pode-se formular o problema


de otimização primal em seu correspondente problema dual de maneira similar à descrita
na seção 2.1.

(i=1 αi − 2 ∑i=1 ∑ j=1 αi α j di d j xi · x j


∑N 1 N N T
Maximizar:
(1) ∑Ni=1 di αi (2.30)
Sujeito as restrições:
(2) 0 ≤ αi ≤ C para i = 1, ..., N

onde, C > 0 é especificado pelo usuário.


A principal diferença entre o caso de classes linearmente separáveis, seção 2.1, e o
caso de classes não linearmente separáveis é qua a restrição αi ≥ 0 é substituída por uma
mais forte 0 ≤ αi ≤ C.
O vetor de pesos ótimos wo é calculado da mesma maneira do caso de classes linear-
mente separáveis, equação (2.21). O bias ótimo b também segue um procedimento similar
ao descrito anteriormente, equação (2.22).
Existem casos também onde, é necessário mapear o espaço de entrada não linear para
um espaço de características. Para realizar esse mapeamento, as funções kernel ou pro-
duto do núcleo interno são utilizadas e que serão apresentados a seguir.

2.2.2 Função Kernel


Existem muitos casos onde não é possível dividir satisfatoriamente os padrões do
conjunto de treinamento através de um hiperplano, mesmo observando as variáveis soltas.
Para a realização desta tarefa é feito um mapeamento no domínio do espaço de entrada do
conjunto de treinamento para um novo espaço, o espaço de características, usando uma
função kernel apropriada.
Um kernel k é uma função que recebe dois pontos xi e x j do espaço de entrada e
computa o produto escalar ϕT (xi ) · ϕ(x j ) no espaço de características.
O termo ϕT (xi ) · ϕ(x j ) representa o produto interno dos vetores xi e x j , sendo o kernel
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 16

representado por:
k(xi x j ) = ϕT (xi ) · ϕ(x j ) (2.31)

Adaptando a equação (2.21) envolvendo um espaço de características, pode ser rees-


crito como:
N
w= ∑ αi di ϕT (xi ) · ϕ(x j ) (2.32)
i, j=1

onde, o vetor de características ϕ(xi ) corresponde ao padrão de entrada xi no i-ésimo


exemplo.
Dessa forma, pode ser usado o produto interno k(xi , x j ) para construir um hiperplano
ótimo no espaço de características sem ter que considerar o próprio espaço de caracterís-
ticas de forma explícita, observe a equação (2.32) em (5.1):

N
∑ αi di k(xi , x j ) (2.33)
i, j=1

A utilização de kernels está na simplicidade de cálculos e na capacidade de representar


espaços muito abstratos.
As funções ϕ devem pertencer a um domínio em que seja possível o cálculo de pro-
dutos internos. No geral, utiliza-se o teorema de Mercer para satisfazê-las. Segundo o
teorema, os kernels devem ser matrizes positivamente definidas, isto é, ki j = k(xi , x j ),
para todo i, j = 1, ..., N, deve ter auto-vetores maiores que 0.
Alguns kernels mais utilizados são: os polinomiais, os gaussianos ou RBF (Radial
Basis Function) e o sigmoidais.

Kernel Função k(xi , x j ) Comentários


Polinomial (xTi · x j + 1) p p é especificado a priori pelo usuário
(− 1 kx −x k2 )
RBF e 2σ2 i j a largura de σ2 é especificada a priori pelo usuário
Sigmoidal tanh(β0xTi · x j + β1 ) teorema de Mercer satisfeito somente para β0 e β1
Tabela 2.1: Principais kernels utilizados nas SVMs

A obtenção de um classificador por meio do uso de SVMs envolve a escolha de uma


função kernel apropriada, além de parâmetros desta função e do algoritmo de determi-
nação do hiperplano ótimo. A escolha do kernel e de seus parâmetros afetam o desem-
penho do classificador através da superfície de decisão.
CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 17

2.3 Considerações
Algumas considerações deste capítulo.
Para a SVM linear existem algumas particularidades:

• O problema dual é formulado somente com os padrões de treinamento.


• O hiperplano ótimo é definido somente pelos vetores de suporte, que são os padrões
mais significativos.
• Os vetores de suporte são os multiplicadores de Lagrange diferentes de zero para
α > 0.
• Os padrões de entrada que não são vetores de suporte não influenciam a definição
do hiperplano ótimo.
• Essa máquina oferece solução única e ótima, ao contrário de outras máquinas.

Algumas particularidades para o caso não linear:

• No caso de classes não linearmente separáveis a restrição αi ≤ 0 é substituída por


uma mais forte 0 ≤ αi ≤ C.
• O vetor de pesos ótimos wo é calculado da mesma maneira do caso de classes
linearmente separáveis, wo = ∑N i=1 αoi di xi .
• Para o caso onde é necessário mapear o espaço de entrada para um espaço de ca-
racterística é utilizado funções de núcleo interno, as funções kernel, que devem
satisfazer um teorema, chamado de teorema de Mercer.
Capítulo 3

Matemática Intervalar

A matemática intervalar, assim como a matemática “clássica”, é uma ciência que es-
tuda medidas, relações de quantidade e grandezas e possui diversos ramos, por exemplo,
a aritmética intervalar, que estuda as propriedades dos números intervalares (intervalos)
e suas operações. O histórico do desenvolvimento da matemática intervalar não é muito
recente, possuindo diversos estudos realizados a mais de cinco décadas atrás. Norbert
Wiener, considerado o “pai” da cibernética, em 1914, introduziu a análise de medida de
aproximações [Kreinovich et al. 1998]. Na década de 30, Young publicou um estudo
[Young 1931] em que dava regras para cálculos com intervalos e outros conjuntos de
números reais. Outras publicações foram feitas nas décadas posteriores, mas foi com Ra-
mon E. Moore [Moore 1966], na década de 60, que a matemática intervalar ficou mais
difundida na computação, devido principalmente à sua abordagem de computação inter-
valar, e das técnicas para problemas computacionais.
Sistemas computacionais podem ser descritos como um conjunto finito de processos
que envolvem operações matemáticas para uma determinada função. O uso da matemática
intervalar em sistemas computacionais consiste em buscar soluções mais eficientes para
problemas computacionais, como a criação de modelos computacionais que reflitam de
forma fidedigna a realidade, e também a escolha de técnicas de programação adequadas
para desenvolvimento de softwares científicos a fim de minimizar erros do resultado.
A qualidade do resultado computacional está diretamente associada ao conhecimento
e controle do erro, que pode ocorrer no processo computacional. Esses erros são fre-
quentemente gerados pela, propagação dos mesmos nos dados e parâmetros iniciais, trun-
camento e/ou arredondamento da informação. A precisão do resultado consiste então
na estimativa e análise do erro, que geralmente é uma tarefa extensa, dispendiosa e nem
sempre viável. O uso da matemática intervalar na computação busca garantir que no pro-
cessamento, o tratamento do erro se torne o menor possível e conhecido. O processo dos
métodos que fazem uso da computação intervalar, consiste na manipulação de dados ini-
CAPÍTULO 3. MATEMÁTICA INTERVALAR 19

ciais na forma de intervalos, computando-os, onde, cada intervalo contém um indicativo


máximo de erro, antes de ser introduzido na computação.
A seguir, serão abordado alguns conceitos fundamentais da aritmética intervalar en-
contrados na literatura em [Acióly 1991, Santos 2001, Hayes 2003, Kreinovich et al. 1998,
Kulisch 1982, Kulisch & Miranker 1981, Lyra 2003, Moore 1966, Young 1931].

3.1 Representação de Intervalos


A motivação de pesquisas computacionais no desenvolvimento do campo intervalar
vem da impossibilidade de representar uma informação computacional igual à informação
original. Por exemplo, informações do tipo imagem, como discutida anteriomente, são
representadas por funções contínuas, e na discretização, existe uma perda de informações,
e a utilização intervalar possibilitará uma maior manipulação dos erros na aquisição da
imagem.
A noção de intervalos foi traçada inicialmente por Arquimedes quando estimou dois
valores para π, e que garantia que esse intervalo continha o valor de π.
A representação de intervalos no conjunto dos números reais R é denotado pelo par
ordenado de números reais X = [x1 ; x2 ] (ou X = [x, x]), tal que x1 ≤ x2 , e x1 e x2 ∈ R, e se
R representa o conjunto de todos os números reais, então, X = {x ∈ R | x1 ≤ x ≤ x2 }.
Considerem as descrições deste estudo as letras maiúsculas como pontos do conjunto
de intervalos reais, por exemplo, seguindo a definição acima, a letra X representa o ponto
do conjunto dos intervalos de reais e x1 é denominado de ínfimo e x2 denominado de
supremo. O conjunto intervalar dos números reais será denotado como IR.
A representação de um número real exato é dado como X = [x1 ; x2 ], em que, x1 =
x2 , ou seja, seja X = 4, logo, 4 = [4; 4]. Este tipo de intervalo é chamado de intervalo
degenerado.

3.2 Operações Aritméticas Intervalares


Sejam X = [x1 ; x2 ] e Y = [y1 ; y2 ], onde, X e Y ∈ IR. As operações aritméticas, tais
como, adição, subtração, multiplicação e divisão em IR são definidas sobre os extremos
de seus intervalos.

1. Adição Intervalar:
X +Y = [x1 + y1 ; x2 + y2 ]
CAPÍTULO 3. MATEMÁTICA INTERVALAR 20

2. Pseudo Inverso Aditivo Intervalar:


−X = [−x2 ; −x1 ]
3. Subtração Intervalar:
X −Y = [x1 − y2 ; x2 − y1 ]
4. Multiplicação Intervalar:
X ∗Y = [min{x1 y1 ; x2 y1 ; x1 y2 ; x2 y2 }; max{x1 y1 ; x2 y1 ; x1 y2 ; x2 y2 }]
5. Pseudo Inverso Multiplicativo Intervalar: 0 ∈
/X
−1
X = 1/X = [1/x2 ; 1/x1 ]
6. Divisão Intervalar: 0 ∈ /Y
X /Y = [min{x1 /y2 ; x2 /y2 ; x1 /y1 ; x2 /y1 }; max{x1 /y2 ; x2 /y2 ; x1 /y1 ; x2 /y1 }]
7. Quadrado
 Intervalar:
 [x21 ; x22 ], se 0 ≤ x1

X2 = [x22 ; x21 ], se x2 ≤ 0

[0, max{x21 ; x22 }], senão

3.3 Propriedades Algébricas Intervalares


Sejam X , Y , Z ∈ IR. As propriedades algébricas para as operações anteriores são,
fechamento, comutativa, associativa, elemento neutro, subdistributiva, e monotônica.

1. Fechamento:
• Se X , Y ∈ IR, então X +Y ∈ IR
• Se X , Y ∈ IR, então X ∗Y ∈ IR
2. Comutativa:
• X +Y = Y + X
• X ∗Y = Y ∗ X
3. Associativa:
• X + (Y + Z) = (X +Y ) + Z
• X ∗ (Y ∗ Z) = (X ∗Y ) ∗ Z
4. Elemento Neutro:
• X + [0; 0] = [0; 0] + X = X
• X ∗ [1; 1] = [1; 1] ∗ X = X
5. Subdistributiva:
X ∗ (Y + Z) ⊆ (X ∗Y ) + (X ∗ Z)
CAPÍTULO 3. MATEMÁTICA INTERVALAR 21

6. Inclusão Monotônica:
Sejam X , Y , Z e W ∈ IR, tais que, X ⊆ Z e Y ⊆ W .
• X +Y ⊆ Z +W
• −X ⊆ −Z
• X −Y ⊆ Z −W
• X ∗Y ⊆ Z ∗W .
• 1/X ⊆ 1/Z, se 0 6∈ Z
• X /Y ⊆ Z/W , se 0 6∈ W

3.4 Ordem Intervalar


Na literatura encontramos diversas formas de definição de ordens (parciais) para in-
tervalos. As mais conhecidas são, ordem de Moore [Moore 1966], ordem de Kulisch &
Miranker [Kulisch & Miranker 1981], ordem da Informação [Acióly 1991] e ordem da
Teoria dos Conjuntos.
Para X ,Y ∈ IR, tem-se que:
1. Ordem de Moore: X < Y = [x1 ; x2 ] < [y1 ; y2 ] ⇔ x2 < y1
2. Ordem de Kulisch-Miranker: X ≤ Y = [x1 ; x2 ] ≤ [y1 ; y2 ] ⇔ x1 ≤ y1 e x2 ≤ y2
3. Ordem da Teoria dos Conjuntos: X < Y = [x1 ; x2 ] ≤ [y1 ; y2 ] ⇔ [x1 ; x2 ] ⊆ [y1 ; y2 ] ⇔
y1 ≤ x1 e x2 ≤ y2 . Logo [x1 ; x2 ] ≤ [y1 ; y2 ].
4. Ordem da Informação: X ≤ Y = [x1 ; x2 ] ≤ [y1 ; y2 ] ⇔ [y1 ; y2 ] ⊆ [x1 ; x2 ] ⇔ x1 ≤
y1 e y2 ≤ x2 . Logo, [x1 ; x2 ] ≤ [y1 ; y2 ].

3.5 Função Intervalar


Sejam F : IR → IR e f : R → R. Dizemos que F representa f ou que f é representado
por F, denotado por f ⊆ F, se:

∀X ∈ IR, ∀x ∈ X temos que f (x) ∈ F(X )

A extensão dessa definição de função para X ⊂ IRm e Y ⊂ IRn é feita de forma natural.

3.5.1 Metrica intervalar em IRn


A definição de distância entre dois pontos é formalizado utilizando o conceito de
espaço métrico e onde existe uma distância ou conjunto métrica é chamado um espaço
CAPÍTULO 3. MATEMÁTICA INTERVALAR 22

métrico. A distância mais utilizada é a distância Euclidiana. Para o caso intervalar, pode
ser visto como subconjunto de R2 suas métricas naturais seguindo:

Definição 1 (Metrica de Moore) [Moore 1979] Seja DM : IRn ×IRn → R, definido, para
cada X = (X1 , . . ., Xn ), Y = (Y1 , . . . ,Yn ) ∈ IRn como:
s
n
DM (X, Y) = ∑ max((Xi −Yi )2, (Xi −Yi )2).
i=1

Para n = 1, DM (X ,Y ) = max(|X − Y |, |X − Y |). Como cada métrica, esta definição


determina a noção de continuidade para funções intervalares [Acióly & Bedregal 1997].
Essa métrica não é estritamente intervalar, ou seja, a distância entre dois intervalos
não é um intervalo, mas um número real, o que não parecem ser natural quando visto
intervalos como representação de um número desconhecido real. Por exemplo, se só
sabermos que um objeto A está em uma cidade C e uma pessoa B está em uma cidade D,
mas não saber a sua posição exata nas cidades, não é realista que nós podemos fornecer a
real distância entre A e B, mas apenas um intervalo. Isto motivou [Trindade et al. 2008]
introduzir a noção de métricas intervalares e, particularmente, métrica intervalar para
IR, chamado de distância essencialmente intervalar, que não perde as características da
métrica Euclidiana quando se trata de números reais ou intervalos degenerados. Este
trabalho usará essa extensão intervalar de distância para IRn .
A distância essencialmente intervalar é uma função DT B : IRn × IRn → IR definido
por

DT B (X, Y) = [min{d(x, y) | x ∈ X and y ∈ Y}, max{d(x, y) | x ∈ X and y ∈ Y}]1

Definição 2 (Norma vetorial intervalar) Seja a norma de um número real a distância


entre o ponto
 e a origem, a norma para um intervalo2, X ∈ IR é definido por
 [X, X], if X > 0

k X k= [| X |, | X |], if X < 0

[0, max{| X |, | X |}], senão

A definição geral da norma intervalar baseada na distância essencialmente intervalar


é
r
n
1A distância d : Rn × Rn → R é a distância Euclidiana, i.e. d(x, y) = ∑ k xi − yi k, ∀x =
i=1
(x1 , . . . , xn ), y = (y1 , . . . , yn ) ∈ Rn .
2 Note que essa definição de norma intervalar é diferente da definição usual de norma intervalar, eg.: a

norma intervalar de Moore [Moore 1979].


CAPÍTULO 3. MATEMÁTICA INTERVALAR 23

p
k X k= D (X , [0, 0])2 + ... + DT B (Xn, [0, 0])2
p TB 1
= k X1 k2 +...+ k Xn k2

3.5.2 Integral Interval


Definição 3 (Integral Interval) Seja F : R → IR uma função intervalar contínua e X ∈
IR. Para integral intervalar F limitado em [X, X] é definido [Moore 1966, Moore 1979,
Moore et al. 2009]
Z X Z X Z X
F(t)dt = [ F(t)dt, F(t)dt]
X X X

onde, F(t) = F(t) e F = F(t).

3.6 R-vetoide e espaço R-vetoide intervalar


Uma vez que, operação aritmética intervalar não é um campo, então também não é um
espaço vetorial. A fim de considerar as propriedades do espaço vectorial para intervalos,
essa definição será relaxada.

Definição 4 (R-Vetoide) [Kulisch 2008] Seja R = (R, +, ∗) um aneloide com 0 e 1 como


elementos identidade aditivo e multiplicativo, respectivamente, V = (V, ⊕) um grupoide
e · : R ×V → V . Então (R , V , ·) é um espaço R-vetoide se satisfaz as seguintes condições:
1. Comutatividade de soma vetorial: X ⊕ Y = Y ⊕ X;
2. Vetor identidade: X ⊕ 0 = X;
3. α · 0 = 0 e 0 · X = 0;
4. 1 · X = X;
5. −(X ⊕ Y) = (−X) ⊕ (−Y);
6. −(α · X) = (−α) · X = α · (−X).
onde −α = −1 ∗ α e −1 é o único elemento em R tal que (−1) ∗ (−1) = 1.

Elementos de V são chamados de vetoides e elementos de R são chamados de es-


calares. Neste trabalho, vetores são distinguidos dos escalares pelo negrito.
Note que todo espaço vetorial em um espaço R é um R-vetoide.

Definição 5 (Matriz Interval) [Moore et al. 2009] Uma matrix X de ordem m × n é uma
matriz intervalar se cada elemento da matriz for um intervalo. O intervalo na linha i e
coluna j é denotado por Xi, j . Um vetor intervalar é uma matriz intervalar de dimensão
m × 1. Será adotado a notação MIRm,n para o conjnto de matrizes intervalares de ordem
m por n.
CAPÍTULO 3. MATEMÁTICA INTERVALAR 24

As operações aritméticas entre matrizes intervalares e intervalos com matrizes inter-


valares são como o caso real, mas considerando a aritmética intervalar. Será considerado
o mesmo símbolo para operadores similares em IR e MIRm,n , i.e. em vez de ⊕ também
será usado + e em vez de ∗ também será usado ·. Na adição, considere a seguinte exten-
são de subconjunto relacionado com intervalos: seja X, Y ∈ MIRm,n , X ⊆ Y se Xi, j ⊆ Yi, j
para algum i = 1, . . . , m e j = 1, . . . , n.

Definição 6 Um espaço R-vetoide (R , V , ·) é um espaço intervalar R-vetoide quando


R = IR e V = MIRm,n para alguns m, n ∈ N.

Proposição 3.6.1 [Kulisch 2008] Seja m, n ≥ 1, I R = (IR, +, ·) o aneloide de intervalos


e M I R = (MIRm,n , +) o grupoide de matrizes intervalares de ordem m por n. Então
(I R , M I R , ·), onde · : IR × MIRm,n → MIRm,n é um espaço R-vetoide intervalar. Na
adição esse espaço R-vetoide intervalar também satisfaz a seguinte propriedades:

1. Distributividade de adição por um escalar: (α + β) · X ⊆ α · X ⊕ β · X;


2. Distributividade de soma vetorial: α · (X ⊕ Y) ⊆ α · X ⊕ α · Y;

3.6.1 Produto interno intervalar


Definição 7 (Produtoide interno) Seja (R , V , ·) um R-vetoide. Um mapeamento h·, ·i :
V ×V → R é um produtoide interno se para cada X, Y ∈ V , satisfazer as seguintes pro-
priedades:

1. Comutatividade: hX, Yi = hY, Xi.


2. Homogeneidade: hα · X, Yi = α · (X, Y)
3. Positividade: hX, Xi ≥ 0 and hX, Xi = 0 iff X = 0.

Um espaço R-vectoide juntamente com um produtoide interno é chamado um espaço


interno produtoide.

Proposição 3.6.2 Seja (I R , M I R m,n , ·) um espaço R-vetoide intervalar e uma apli-


cação intervalar (função intervalar) h·, ·i : MIRm,n × MIRm,n → R definido por

n m
hX, Yi = ∑ ∑ Xi, j ·Yi, j (3.1)
i=1 j=1

Então (I R , M I R m,n , ·, h·, ·i) é um espaço produtoide intervalar. Este espaço interno
produtoide também satisfaz a propriedade de subdistributividade, i.e. para cada X, Y, Z ∈
MIRm,n , hX + Y, Zi ⊆ hX, Zi + hY, Zi.
CAPÍTULO 3. MATEMÁTICA INTERVALAR 25

3.6.2 Autovetoide intervalar


Definição 8 (Autovetoide intervalar) Seja uma matriz intervalar quadratica A de or-
dem M ∈ R, um autovetoide é definido por:

Aui = λi ui (3.2)

para i = 1, · · · , M, onde, ui é chamado de autovetoide e λi é chamado de autovalor inter-


valar.
Capítulo 4

Otimização usando Análise Intervalar

Este capítulo apresenta conceitos sobre a teoria de otimização utilizado para encontrar
o hiperplano ótimo de separação de classes através da SVM. As conceituações sobre o
problema de otimização "clássico"foram extraídas de [Bazaraa et al. 1993, Haykin 2001,
Lorena & Carvalho 2003, Luenberger 1984] e para o problema de otimização usando
análise intervalar foram extraídas de [Bliek et al. 2001, Hanses & Walster 1992, Kearfott
1996].
Será apresentado nas seções seguintes otimização de função com restrições, no con-
texto "clássico"e intervalar, onde, restrição intervalar é uma tecnologia alternativa de-
senvolvida para conjuntos contínuos, geralmente não lineares, associados com restrições
sobre números reais. O termo restrição intervalar (interval constraints) é frequentemente
associado com a propagação e técnicas de buscas desenvolvidas em inteligência artificial
e métodos para análise intervalar [Bliek et al. 2001].

4.1 Otimização Linear


Para o problema de otimização considere:

Minimizar: f (x) , x ∈ Ω ⊆ Rn
Sujeito a: gi (x) ≤ 0 , i = 1, ..., k (4.1)
h j (x) ≤ 0 , j = 1, ..., m

onde, f : Ω ⊆ Rn → R é a função objetivo, gi : Ω ⊆ Rn → R e h j : Ω ⊆ Rn → R são


utilizados para definir as restrições funcionais.
A solução do problema (4.1) é denotado por:

F = {x ∈ Ω : gi (x) ≤ 0; h j (x) = 0}
CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 27

A solução do problema de otimização será o ponto x∗ ∈ F tal que não exista outro
ponto x ∈ F com f (x) < f ∗ (x), denominado de mínimo global.
Um problema de otimização onde a função objetivo é quadrática e as restrições line-
ares, é denominado de problema de otimização quadrático, ou se a função objetivo for
convexo e as restrições também, é denominado de problema de otimização convexo. O
caso do problema de otimização do treinamento da SVM, a função objetivo é convexa e
quadrática e as restrições lineares, sendo um problema de otimização convexo quadrático.
Para encontrar a solução para este tipo de problema utiliza-se a função de Lagrange,
para restrições de igualdade e a condição de Kuhn Tucker para restrições de desigualdades
[Hanses & Walster 1992, Haykin 2001, Martinez & Santos 1995, Semolini 2002].

4.1.1 Funcional de Lagrange


Em problemas com restrições é necessário construir uma função que englobe a função
objetivo juntamente com as restrições e que sua estacionalidade defina a solução. O fun-
cional de Lagrange pode resolver este problema definindo como uma combinação linear
a função objetivo e cada uma das restrições associando ao multiplicadores de Lagrange.
m
L(x, α) = f (x) + ∑ αi hi (x) (4.2)
j=1

onde, αi são os multiplicadores de Lagrange.


Se L(x, α) for uma função convexa em x, a condição necessária para que o ponto x∗
seja mínimo de f (w) , sujeito a restrição h j é igualando o gradiente da L em relação a x e
a α:
∂L(x∗ ,α∗ )
∂x =0
∂L(x∗ ,α∗ ) (4.3)
∂α = 0
Uma forma mais geral do problema de otimização que satisfaz tanto restrições de
igualdades quanto de desigualdades pode ser generalizada da definição para otimização
com restrições de igualdades, dado por:

k m
L(x, α, β) = f (x) + ∑ αi gi (x) + ∑ βi hi (x) (4.4)
i=1 j=1

onde, αi são os multiplicadores de Lagrange.


CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 28

4.1.2 Condições de Kuhn-Tucker


Dado o problema de otimização pela equação (4.1) com domínio convexo, a solução
necessária para o ponto x∗ ser ótimo é a existência de α∗ e β∗ que satisfaz:

∂L(x∗ ,α∗ ,β∗ )


∂x =0
∂L(x∗ ,α∗ ,β∗ )
∂β =0
α∗i gi (x∗ ) = 0, i = 1, ..., k (4.5)
gi (x∗ ) ≤ 0, i = 1, ..., k
α∗ ≥ 0, i = 1, ..., k

O tratamento do funcional de Lagrange para problema de otimização convexo fornece


a um problema de dual que diversas vezes é mais simples de ser resolvida do que o
problema primal [Martinez & Santos 1995].

4.2 Otimização Linear usando Computação Intervalar


Muitos autores tem considerado a computação intervalar para resolver problemas
de otimização linear, aplicando métodos intervalares com métodos de programação li-
near para encontrar uma solução ótima do problema de otimização ou a partir de uma
solução aproximada obtem-se um vetor que contém a solução exata, para mais detalhes
ver [Moore 1979].
Dado A sendo uma matriz m × n com m < n, de coeficientes intervalares. Dado B e
P sendo vetores intervalares de m e n dimensão, respectivamente. O objetivo é encontrar
um vetor intervalar Z que contenha o conjunto de soluções do problema de otimização
linear, para cada b ∈ B, p ∈ P, Ar ∈ A.
Por conveniência, será denominado, neste estudo, otimização intervalar, a otimização
que fizer uso de conceito da análise intervalar.
Para o problema de otimização intervalar considere:

Maximizar: Q(x) = (p, x)


Sujeito a: Ar x = b ou Ar x ≦ b (4.6)
0≦x

onde, (p, x) é o produto interno de um vetor real p e x, b é um vetor real e Ar é uma matriz
intervalar.
Suponha que z∗ seja uma solução aproximada de (4.6) para p∗ ∈ P, b∗ ∈ B e A∗r ∈ A
CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 29

obtidos usando um método de otimização. Dado S sendo o conjunto de índice de todas


variáveis bases da solução aproximada z∗ . Para a condição ser suficientemente com-
putável do conjunto de todas as soluções de (4.6) tem um mesma base com z∗ . Denotado
por x′ o vetor de m dimensão consistindo de componentes bases de um vetor x de n di-
mensão. Assim, x′ = (xi1 , ..., xim onde S = {i1 , ..., im}. Similarmente, denotado por x′′
um vetor de n − m dimensão consistindo de todos os componentes não bases de x. Seja
A′r uma matriz m × m consistindo de colunas bases de Ar e A′′ uma matriz (n − m) × m
consistindo de colunas não bases de Ar e assim por diante.
Suponha que z∗ é a solução de A′r z′ = b′ para algum A′r ∈ A′ , b′ ∈ B′ , assume-se que
todo A′r ∈ A′ , são não singular. Dado Z ′ sendo o conjunto de todas soluções z′ para todo
A′r ∈ A′ , b′ ∈ B′ . Assim, z′∗ é uma solução aproximada de A′r z′ = b′ . Dado Y sendo a
aproximação da inversa da matriz A′∗
r que é usado na computação de z8 .
Logo, o conjunto de soluções de um problema linear da equação (4.6) para todo b ∈ B,
p ∈ P, Ar ∈ A é contido no vetor intervalar Z computado através de:

Zi′ = z∗i + q[−1, 1], para componentes bases de Z


(4.7)
Z ′′ = 0, para componentes não bases de Z

onde, q =k Y kk A′ z∗ − B k)/(1 − R).


Se w(A) e w(B) são pequenos, o limite de Z pode ser refinado. Para encontrar o
vetor intervalar mais estreito do conjunto de soluções para a equação (4.6) computa, para
k = 1, ...2:
Z k+1 = Z k ∩ {Y B + (I −YA′ )Z k } (4.8)

A equação (4.8) na sequencia de iterações contem no vetor intervalar os componentes


bases da solução de (4.6).
Para determinar se o conjunto de todas as soluções tem uma mesma base como z∗ , é
testado Z ′ ≧ 0 e denota a transposta das matrizes A′ e A′′ por A′T e A′′T , respectivamente.
Seja P′ e P′′ sendo componentes bases e componentes não bases, respectivamente, do
vetor de coeficientes da função objetivo, o vetor intervalar V é encontrado e contem o
conjunto de soluções de A′T ′ ′ ′ ′ ′ ′′T ′′
r v = p para todo Ar ∈ A e todo p ∈ P . Caso A V − P ≧ 0,
então o conjunto de soluções tem uma mesma base z∗ .
Para o valor máximo de Q(x), possui Q(z) ∈ (P, Z).

4.2.1 Otimização com restrições


Para o problema de otimização com restrições é considerado:
CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 30

Minimar: f (x)
Sujeito a: pi (x) ≤ 0(i = 1, ..., m) (4.9)
qi (x) = 0(1 = 1, ..., r)
onde, f (x) é diferenciável e as funções de restrições pi (x) e qi (x) são continuamente
diferenciáveis.
Assumindo um intervalo inicial X o objetivo é encontrar um mínimo de f (x) ∈ X
sujeito as restrições.

4.2.2 Condições de John


Para resolução do problema de otimização com restrições é utilizado a condição de
John:
i=1 ui ▽p(x) + ∑i=1 vi ▽q(x) = 0
u0 ▽ f (x) + ∑m r

ui pi (x) = 0
(4.10)
qi (x) = 0
ui ≥ 0
onde, u e v são multiplicadores de Lagrange.
Para a resolução do problema de otimização pode ser considerado o uso do método de
Newton, onde, ui ≥ 0 e os vetores x, u e v da condição de John são escritos em termos do
vetor t.
Rk (t)
i=1 ui ▽p(x) + ∑i=1 vi ▽q(x)
u0 ▽ f (x) + ∑m r
(4.11)
ui pi (x)
qi (x)
Capítulo 5

Kernel Intervalar

Os métodos kernels têm sido considerado um poderoso atalho computacional em


aprendizado de máquinas devido ao desempenho, generalização e adaptação em resolver
problemas diversos [Abe 2005, Bishop 2006, Hofmann et al. 2008]. Uma vasta variedade
de algoritmos em aprendizagem de máquina fazem uso desses métodos, tais como, em
máquinas de vetores suporte, redes neurais, algoritmos de agrupamentos, análise de com-
ponentes principais, entre outros.
Uma característica marcante dos métodos de aprendizagem de máquina que utilizam
kernel é formular um problema em um novo espaço. A SVM, visto para classificação
de padrões, é uma máquina linear cujo objetivo é encontrar um hiperplano que separe as
classes distintas da melhor forma possível. Uma característica que torna a SVM para uso
geral é tratar da dimensionalidade do espaço de entrada, mapeando o conjunto de entrada
por meio de uma função que projeta uma imagem linear em um novo espaço. Em outras
palavras, o espaço de entrada de um problema não linear é mapeado através da função
kernel para um outro espaço, o espaço de características, dado pela relação:

k(x, x′) = hφ(x) · φ(x′)i (5.1)

Neste capítulo foi desenvolvido uma extensão intervalar de kernels, de modo que,
definindo as funções intervalares que mapeiam o espaço de entrada e as funções kernels
intervalares, o espaço de características é encontrado implicitamente.
Considere um conjunto de treinamento {(X1 ,Y1 ), . . . , (XN ,YN )} ⊆ (X × Y)N , onde,
o i-ésimo exemplo Xi ∈ X ⊆ IRn de um espaço n-dimensional pertence a um rótulo ou
classe Y = {[−1, −1], [+1, +1]} (classificação binária), para todo i = 1, . . . , N e N ∈ N.
Assim como no caso usual, encontrar um kernel que represente o espaço de entrada é
menos complexo do que definir funções que mapeiam o espaço de entrada para o espaço
de características. Dessa forma, algumas propriedades foram estendidas para a abordagem
intervalar de modo que asseguram que uma função kernel intervalar é um kernel intervalar
CAPÍTULO 5. KERNEL INTERVALAR 32

para algum espaço de características.


O espaço de características é definido, em aprendizagem de máquina, pela mudança de
representação dos dados do conjunto de entrada. Seja uma função intervalar φi : X → IR
que mapeia cada X ∈ X para φi (X), para todo i = 1, . . . , m e m ∈ N, é chamado de caracte-
rísticas, e combinando N características Φ1 , ..., Φl resulta no mapeamento de característi-
cas Φ : X → F, onde F é o espaço de características.

Definição 9 (Função kernel intevalar) Um kernel intervalar é uma função K : X × X →


IR, tal que, ∀ X, Z ∈ X,
K(X, Z) = hΦ(X) · Φ(Z)i (5.2)

onde, Φ mapeia o espaço de entrada X para um espaço de características F usando


produto interno.

Definição 10 Seja k uma função kernel real e K : X × X → IR. K é uma representação


intervalar de k se para todo X, X′ ∈ X, x ∈ X e x′ ∈ X′ , temos que k(x, x′ ) ∈ K(X, X′ ).

Proposição 5.0.1 Seja K : X × X → IR uma função intervalar. Se existir funções kernels


K : X × X → R, K : X × X → R, tais que, para todo X, X′ ∈ X e x ∈ X, x′ ∈ X′ , tem-se
que K(X, X′) = [K, K] então K é uma função kernel intervalar.

Proposição 5.0.2 Seja X ⊆ IRl um conjunto finito de entradas e K : X × X → IR uma


função comutativa em X. K é uma função kernel intervalar se, e somente se, a matriz
K = K(Xi , X′j ), com i, j = 1, ..., N, for semi-definida positiva.

O problema de otimização dual da SVM permite a substituição do conjunto de entrada


através do truque kernel, que possui como vantagem a não necessidade de encontrar a
função que mapeia o espaço de entrada para um espaço de características.

Definição 11 (Matriz Kernel) Seja K uma matriz kernel com entradas intervalares X1 , . . . , XN ∈
X, Xi ∈ IRn ,
K = (K(Xi , X′j ))N
i, j=1 (5.3)

é a matriz kernel (ou matriz Gram) com coeficientes intervalares.

Definição 12 (Matriz definida positiva) Seja K uma matriz kernel simétrica,

N
∑ CiC j Ki j ≥ 0 (5.4)
i, j

é definido a matriz definida positiva, para todo Ci ∈ IR.


CAPÍTULO 5. KERNEL INTERVALAR 33

Definição 13 (Kernel definido positivo) Seja X um conjunto não vazio, a função kernel
K : X × X → IR para Xi ∈ X define a matriz Gram definida positiva é ligado a função
kernel definida positiva.

5.1 Mapeamento Função Kernel Intervalar


Uma função kernel intervalar consiste em mapear um espaço de entrada não-linearmente
separável por um hiperplano intervalar em um espaço de características separável por um
hiperplano intervalar.
Seja Φ : X → F uma função que mapeia um espaço de entrada intervalar X ∈ X para
um espaço de características de alta dimensão,

Φ : X → F,
(5.5)
Xi 7→ Φ(Xi )
onde, Xi = (X1, ..., Xn), Xi ∈ IRn e Φ(Xi ) = (φ1 (Xi ), ..., φm(Xi )), Φ(Xi ) ∈ IRm .
Para o problema de aprendizado da SVM, o mapeamento do espaço de entrada, con-
junto de entrada X = {X|Xi ∈ IRn }, para um espaço de características é equivalente a
F = {Φ(X)|X ∈ X}. Uma característica importante dessa máquina está no mapeamento
do espaço de entrada não-linear no espaço de características sem explicitar as funções que
farão esse mapeamento.
Um kernel intervalar K representa o produto interno intervalar de dois vetores in-
tervalares induzidos no espaço de características pelo vetor intervalar de entrada X e o
padrão intervalar representado no problema dual, e um intercepto intervalar B ∈ IR

N
∑ αiDi(< Φ(Xi) · Φ(X) > +B) ≥ [1, 1]
i=1

Um kernel intervalar K é uma função intervalar, tal que:

K(X1 , X2 ) =< Φ(X1 ) · Φ(X2) >


K : IRn × IRn → IR (5.6)
K : X × X → IRN×N

onde, X1 , X2 ∈ X, e Φ ∈ F mapeia X com o produto interno para um espaço de caracte-


rísticas F, definindo a matriz intervalar kernel K de elementos do espaço de entrada X
através da função intervalar kernel Φ para um espaço de características F.
CAPÍTULO 5. KERNEL INTERVALAR 34

5.2 Construção de Kernel Intervalar


Funções kernels intervalares são casos especiais do produto interno intervalar.

Definição 14 (Kernel Intervalar) Um kernel intervalar é uma função kernel intervalar K,


tal que, para todo X, Z ∈ X
m
K(X, Z) = hΦ(X), Φ(Z)i = ∑ Φ j (X)Φ j (Z)
j=1

onde, Φ é uma função que mapeia X ∈ X para um espaço de características intervalar


Φ(X ) ∈ F.

As condições para uma função kernel intervalar representar uma função intervalar que
mapeia o espaço de entrada (original) para um espaço de características intervalar são:

1. Simetria: K(X, Z) = K(Z, X), ∀X, Z ∈ X


2. Desigualdade Cauchy-Schwarz:
K(X, Z)2 = hΦ(X), Φ(Z)i2 ≤k Φ(X) k2 k Φ(Z) k2 , ∀X, Z ∈ X e Φ ∈ F
3. Positividade: extensão intervalar do teorema de Mercer

O teorema de Mercer caracteriza uma função k(x, z) como um kernel, pois demon-
stra que se k é um kernel contínuo de uma transformada (operador) integral positiva en-
tão pode ser construído um mapeamento Φ num espaço de características onde k atua
como produto interno, ou seja, se k é positivo definido então existe um mapa Φ onde
k(x, z) = hΦ(x), Φ(z)i. Neste contexto, o kernel intervalar deve satisfazer a extensão in-
tervalar do Teorema de Mercer. O kernel intervalar K é positivo definido se possui todos
os autovalores intervalares não negativos.

Teorema 5.2.1 (Extensão Intervalar do Teorema de Mercer) Seja K(X, Z) um kernel in-
tervalar simétrico e contínuo, definido no intervalo fechado [a, b] × [a, b], para X, Z ∈ X.
O kernel intervalar pode ser expandido na série

K(X, Z) = ∑ λi Φi (X)Φi (Z)
i=1

onde, λi ∈ IR são auto-valores intervalares para todo i e Φi (·) são auto-funções in-
tervalares, resultando na expressão:
Z b
K(X, Z)Φ(Z)dZ = λΦ(X)
a
CAPÍTULO 5. KERNEL INTERVALAR 35

da extensão intervalar do operador integral (análise funcional) definido pelo kernel


intervalar K(X, Z). Para garantir que o kernel intervalar K(X, Z) defina o produto in-
terno hΦ(X), Φ(Z)i em um espaço de características intervalar todos os auto-valores
intervalares λi da série expandida são positivos, e para esta expansão ser válida e para
convergir absoluta e uniformemente é necessário e suficiente que
Z bZ b
K(X, Z)ψ(X)ψ(Z)dXdZ ≥ [0, 0]
a a

seja válida para todo ψ(·) para o qual


Z b
Ψ(X)2 dX < ∞
a

Prova:
Considerando a integral da análise funcional para o caso finito e fechado
Z b
K(X, Z)Φ(Z)dZ = λΦ(X)
a
e considerando a generalização do produto interno

hΦ(X), Φ(Z)i = ∑ λi Φi (X)Φi (Z) = K(X, Z)
i=1

o teorema de Mercer fornece uma condição suficiente para que K seja simétrica

K(X, Z) = ∑ λi Φi (X)Φi (Z)
i=1

onde, λi são intervalos não negativos, e K é equivalente a um produto interno no


espaço de características considerando o conjunto de funções em X de um espaço nor-
malizado, logo,
Z b
k Ψ k= Ψ(X)2 dX < [∞, ∞]
a

Proposição 5.2.2 Seja X = (X1 , · · · , X p ) o espaço intervalar (original) e K uma função


comutativa em X. Se a matriz intervalar

K = K(Xi , X j ), i, j = 1, · · · , p

for simétrica, então existe uma matriz intervalar V, tal que, K = VVt , ou K = V ΛVt ,
onde, Λ é uma matriz intervalar diagonal contendo auto-valores intervalares λt de K,
CAPÍTULO 5. KERNEL INTERVALAR 36

com correspondentes auto-vetores intervalares Vt = Vti , i = 1, · · · , p de V. Sendo os auto-


vetores intervalares não negativos e considerando o mapeamento de características

Φ : Xi → λt Vti ∈ IR p , i = 1, · · · , p
p

então

p
hΦ(Xi ), Φ(X j )i = ∑ λtVtiVt j = V ΛV t = K
t=1

onde, a função intervalar kernel K(X, Z) corresponde ao espaço de características


intervalar Φ.

5.2.1 Fazendo Kernels de kernels


A construção de uma função sendo um kernel válido geralmente não é trivial, e o
teorema de Mercer somente garante a validade de uma função qualquer ser um kernel não
a construção da mesma. Uma forma de construir kernels válidos é utilizando algumas
propriedades que constroem kernels à partir de kernels válidos. Tal forma de construção
de kernels válidos na forma clássica será estendida para kernels intervalares.
A construção de kernels intervalares é uma extensão da construção de kernels respei-
tando o teorema de Mercer. A construção de um kernel intervalar válido é definido através
da positividade, extraído da construção clássica, onde, um kernel intervalar é uma matriz
intervalar simétrica semi-positiva definida.

Proposição 5.2.3 Sejam K1 e K2 kernels intervalares sobre X ×X ⊆ IRn , α ∈ IR é um in-


tervalo real, e ∀α > [0, 0], F(·) é uma função intervalar em X, então as seguintes funções
kernels são kernels intervalares

1. K(X, Z) = K1 (X, Z) + K2 (X, Z)


2. K(X, Z) = αK1 (X, Z)
3. K(X, Z) = K1 (X, Z)K2 (X, Z)
4. K(X, Z) = exp(K1 (X, Z))
5. K(X, Z) = X′ BZ

Demonstrações:

1. Sejam K1 e K2 matrizes intervalares simétricas, então K é semi-positiva definida


se e somente se para algum vetor intervalar Y 6= [0, 0]
CAPÍTULO 5. KERNEL INTERVALAR 37

Yt KY ≥ [0, 0]

tem-se

Yt (K1 + K2 )Y ⊆ Yt K1 Y + Yt K2 Y ≥ [0, 0]

logo, K1 + K2 é semi-positiva definida, então K é uma função kernel intervalar.


2. Da mesma forma da demonstração anterior,

Yt (αK1 )Y = αYt K1 Y ≥ [0, 0]

K é uma função kernel intervalar.


3. Seja K = K1 K2 o produto tensor de duas matrizes intervalares, se K1 e K2 são
semi-positivas definidas e os auto-valores intervalares do produto for os pares dos
auto-valores de K1 e K2 , então o produto K será semi-positivo definido.
4. A função exponencial pode ser aproximada por polinômios positivos, sendo fechada
por limites do kernel intervalar, logo, K é um kernel intervalar.
5. Seja B = Vt ΛV uma matriz intervalar ortogonal a V, onde, Λ é uma matriz inter-

valar diagonal contendo os auto-valores não negativos. Sendo Λ a matriz inter-

valar diagonal de auto-valores e A = ΛV, então

K(X, Z) = Xt BZ = Xt Vt ΛVZ = Xt At AZ = hAX, AZi

é um kernel intervalar mapeando pela matriz A.

5.3 Alguns Kernels Intervalares


Alguns kernels de produto interno são encontrados na literatura, dentre eles:
Linear: K(X, Xi ) =< X · Xi >, i = 1, ..., N.
Polinomial: K(X, Xi ) = (< X · Xi > +1)2 , i = 1, ..., N.
1 2
Gaussiano: K(X, Xi ) = e− 2σ kX−Xi k , i = 1, ..., N.

5.3.1 Extensão Intervalar do Kernel Gaussiano


Um kernel muito aplicado para problemas de natureza não linear é o kernel gaussiano,
e devido sua grande aplicabilidade esse kernel foi estendido para a abordagem intervalar.
CAPÍTULO 5. KERNEL INTERVALAR 38

A construção do kernel intervalar gaussiano se dá na utilização da distância intervalar


[Trindade et al. 2008] de modo que a norma:

k X − Z k2 ⊆ hX , X i + hZ, Zi − [2, 2]hX , Zi

para o kernel intervalar do tipo


2
− kX−Zk
K(X , Z) = exp 2 σ

Dado pelas propriedades (4) e (3), o kernel intervalar gaussiano é dado por
hX ,X i hZ,Zi hX ,Zi
(− ) (− ) ( )
K(X , Z) = exp [2,2]σ2 exp [2,2]σ2 exp σ2

sendo um kernel intervalar válido.

5.3.2 Extensão intervalar do Kernel Polinomial

K(X, Xi ) = ([1, 1] + XT Xi )p

onde, p = 2, X = (X1 , X2 ) e Xi = (Xi1, Xi2)

K(X, Xi ) = ([1, 1] + XT Xi )2
= ([1, 1] + V)2
= ([1 + V, 1 + V])2
= [(1 + V)2 , (1 + V)2 ]

2 2
 [(1 + V) , (1 + V) ]
 se V ≥ 0
= [(1 + V)2 , (1 + V)2 ] se V < 0

[0, ((1 + V)2 , (1 + V)2 )] caso contrário

Capítulo 6

Máquina de Vetores-Suporte Intervalar

As máquinas de vetor de suporte tem atraído muita atenção nos últimos anos devido
a sua eficiência para técnicas de reconhecimento de padrões ou aplicações que requerem
aprendizado de máquina. Este capítulo desenvolve uma nova abordagem para SVM, uti-
lizando SVM associado com a teoria intervalar, as máquinas de vetor de suporte inter-
valares.
A eficiência das SVM no aprendizado de máquinas tem levado ao desenvolvimento
de muitas pesquisas e aplicações associadas, porém, em alguns casos nem sempre é fácil
classificar com precisão um determinado padrão entre duas ou mais classes, para reconhe-
cimento de padrões, e uma vez que, para encontrar o hiperplano de separação ótimo está
relacionado diretamento aos dados de entrada aos vetores de suporte, então a teoria inter-
valar é proposta para casos onde os padrões de entrada não possuem características que
modelem com precisão alguma classe. O objetivo proposto para a abordagem da SVMI,
máquina de vetor de suporte intervalar, é controlar as informações de padrões de entrada
para encontrar vetores-suporte de um hiperplano de separação ótimo quando houver da-
dos incertos ou imprecisos contidos no conjunto de treinamento, e obter um controle nos
erros computacionais durante o treinamento da máquina.

6.1 Máquina de Vetores-Suporte Intervalares Linearmente


Separáveis
Máquina de vetores-suporte é uma técnica de reconhecimento de padrões, como men-
cionado no capítulo 2, que é baseada na teoria do aprendizado estatístico e tem sido uti-
lizada em diversas aplicações. A tarefa de classificar padrões é feito através da função:

NV S
f (x) = sgn( ∑ di αoi xT x + bo ) (6.1)
i=1
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 40

onde, xi ∈ Rn é o vetor de entrada de n-dimensão, yi ∈ {−1, 1} é a classe a qual pertence


xi , e αi e b são parâmetros da função objetivo encontrados durante o treinamento através
da resolução de um problema de otimização.
Para uma SVMI, considere uma amostra de treinamento {(Xi , Di )}N i=1 , onde, Xi é
um vetor intervalar que representa o padrão de entrada para o i-ésimo exemplo e Di =
[d i ; d i ] ∈ {[+1; +1], [−1; −1]} é a resposta desejada para o padrão Xi .
A equação de uma superfície de decisão na forma de hiperplano que realiza a separa-
ção entre as classes é definida como:

WT X + B = [0; 0] (6.2)

onde, X é um vetor intervalar de entrada, W é um vetor intervalar peso ajustável e B é o


bias, um valor intervalar.

Figura 6.1: Ilustração do hiperplano ótimo intervalar.

O conjunto de treinamento {(Xi , Di )}N


i=1 é dito linearmente separável se existir um
vetor intervalar W e um intervalo B que satisfaça:
(
WT Xi + B ≥ [+1; +1], para Di = [+1; +1]
(6.3)
WT Xi + B ≤ [−1; −1], para Di = [−1; −1]
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 41

que é equivalente a:
Di (WT Xi + B) ≥ [1; 1] (6.4)

onde, o par (W, B) define o hiperplano de separação da equação (6.2).


Para obter o hiperplano ótimo, ou seja, o hiperplano de máxima margem entre as
classes é necessário encontrar a distância de um intervalo Xi com o hiperplano de separa-
ção (W, B). Considerando a função discriminante:

G(X) = WTo Xi + Bo (6.5)

onde, G(X) fornece uma medida algébrica da distância de X até o hiperplano, podendo
ser expresso também da seguinde forma:

Wo
X = Xp + R (6.6)
k Wo k

onde, X p é a projeção normal de X sobre o hiperplano ótimo, e R é a distância.

Figura 6.2: Interpretação da distância de X até p hiperplano ótimo.

O vetor normal é dado por:


Wo
Xn = R (6.7)
k Wo k
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 42

Para o caso de separação ótima, por definição, G(X p ) = [0; 0], resultando:

G(X) = WTo X + Bo
= WTo (X p + Xn ) + Bo
⊆ WTo X p + Bo + WTo Xn
= [0; 0] + WTo Xn (6.8)
Wo
= WTo kW ok
R
kWo k2
= R kWo k
= R k Wo k

Logo,
G(X)
R= (6.9)
k Wo k
Para encontrar os parâmetros Wo e Bo para o hiperplano ótimo dado um conjunto de
treinamento, as restrições da equação (6.3) devem ser satisfeitas. Os pontos intervalares
(Xi , Di ) satisfeito no sinal de igualdade da equação (6.3) são chamados de vetores de
suporte intervalar.
Considerando um vetor de suporte intervalar X(s) temos:

G(X(s) ) = WTo X(s) + Bo − [1; 1], D(s) = +[1; 1] (6.10)

Da equação (6.9) a distância do vetor de suporte intervalar até o hiperplano ótimo:

[1;1]
(
+ kW ok
se D(s) = +[1; 1]
R= [1;1] (6.11)
− kW ok
se D(s) = −[1; 1]

Considerando que ρ represente o valor intervalar ótimo da margem de separação entre


as duas classes do conjunto de treinamento, então:

ρ = 2R
(6.12)
= kW2o k

Da equação (6.12) temos que, maximizar a margem de separação entre as classes é


equivalente a minimizar a norma do vetor intervalar W com respeito as restrições.
O hiperplano da equação (6.2) é único e de máxima separação entre as classes.
Para encontrar o hiperplano ótimo utilizando o conjunto de treinamento {(Xi , Di )}N
i=1
e que satisfaça as restrições é necessário encontrar os parâmentros W e B.
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 43

O hiperplano de separação ótimo minimiza a função custo intervalar:

1
Φ = WT W (6.13)
2

sujeito as restrições:
Di (WT Xi + B) ≥ [1; 1]

Este é um problema de otimização que pode ser resolvido através do método de mul-
tiplicadores de Lagrange adaptado para intervalar:

i=1 αi (Di (Wi Xi + B) + [−1; −1])


J(W, B, α) = [ 21 ; 12 ]WT W − ∑N T
(6.14)
i=1 αi Di Wi Xi + αi Di B − αi
⊆ [ 21 ; 12 ]WT W − ∑N T

onde, αi são intervalos representando os multiplicadores de Lagrange.


A função lagrangiana tem que ser minimizada com respeito a W, B e maximizada com
respeito a αi ≥ 0. Assim, diferenciando L(W, B, α) em relação a W B temos as seguintes
condições:
∂L(W, B, α) N
= [0; 0] ⇔ ∑ αi Di = [0; 0] (6.15)
∂B i=1

∂L(W, B, α) N
= [0; 0] ⇔ W = ∑ αDi Xi (6.16)
∂W i=1

Substituindo as condições (6.15) e (6.16) em (6.14) temos:

J(W, B, α) = [ 21 ; 12 ]WT W − ∑N i=1 αi Di Wi Xi + αi Di B − αi


T

i=1 ∑ j=1 αi Di Xi α j D j X j −
= [ 21 ; 12 ] ∑N N
(6.17)
− ∑N i=1 ∑ j=1 αi Di Xi α j D j X j − [0; 0] + ∑i=1 αi
N N

i=1 ∑ j=1 αi Di Xi α j D j X j + ∑i=1 αi


= −[ 21 ; 21 ] ∑N N n

Fazendo a função objetivo J(W, B, α) = Q(α) temos:

N
1 1 N N
Q(α) = ∑ αi − [ ; ] ∑ ∑ αi α j Di D j Xi X j (6.18)
i=1 2 2 i=1 j=1

Logo, o problema é dado por:

Q(α) = ∑N i=1 αi − [ 2 ; 2 ] ∑i=1 αi αi Di D j Xi X j


1 1 N T
Maximizar: (
(1) αi ≥ [0; 0], i = 1, ..., N (6.19)
Sujeito as restrições:
(2) ∑Ni=1 αi Di = [0; 0]
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 44

Após encontrar os multiplicadores de Lagrange é possível calcular os pesos inter-


valares ótimos:
N
Wo = ∑ αoi Di Xi (6.20)
i=1

O valor do bias ótimo Bo é encontrado utilizando os pesos ótimos Wo encontrados na


equação (7.1) e descrito como:

Bo = [1; 1] − WTo X(s) para D(s) = [1; 1] (6.21)

6.2 Máquina de Vetor de Suporte Intervalares Não Sepa-


ráveis
Considerando um conjunto de dados de treinamento onde não é possível construir
um hiperplano de separação sem qualquer erro de classificação, o caso de padrões não-
separáveis em uma SVM visto no capítulo 2 em 2.2, o objetivo da SVMI é classificar os
padrões com a menor probabilidade de erro da classificação, mantendo a precisão com a
informação intervalar durante o treinamento.
Uma margem de separação onde viola-se a condição da equação (6.14) é dita margem
de separação entre classes suaves ou soft. E existem duas formas de violação desta
condição, como mostra a figura 2.5.
Para um tratamento desses padrões intervalares não-separáveis é definido um conjunto
de variáveis escalares não negativas, denominadas de variáveis soltas {ξi }N
i=1 , na definição
do hiperplano de separação:

di (WT X + B) ≥ [1; 1] − ξi para i = 1, 2, ..., N (6.22)

O objetivo é encontrar um hiperplano intervalar de separação onde o erro de classifi-


cação incorreta seja mínimo perante o conjunto de treinamento, podendo ser feito mini-
mizando a equação:
N
φ(ξ) = ∑ I(ξi − 1) (6.23)
i=1

em relação ao vetor peso W, sujeito à restrição da equação do hiperplano de separação


(6.22) e a restrição sobre k W k2 . A função I(ξ − 1) é uma função indicadora, definida
por: (
0 se ξ ≤ 0
I(ξ − 1) = (6.24)
1 se ξ > 0
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 45

Para a simplificação de cálculos computacionais a função a ser minimizado em relação


ao vetor peso W segue:

N
1 1
φ(W, ξ) = [ ; ]WT W +C ∑ ξi (6.25)
2 2 i=1

onde, o parâmetro C é o parâmetro de penalização.


O problema de otimização em sua representação primal para encontrar o hiperplano
intervalar ótimo de separação para classes não linearmente separáveis pode ser escrito
como:

Minimizar: ( i=1 ξi
φ(W, ξ) = [ 21 ; 12 ]WT W +C ∑N
(1) yi (W Xi + B) ≥ 1 − ξi , para i = 1, ..., N
T (6.26)
Sujeito as restrições:
(2) ξi ≥ 0, ∀N i=1

Utilizando o método dos multiplicadores de Lagrange, pode-se formular o problema


de otimização primal em seu correspondente problema dual de maneira similar à descrita
na seção 6.1.

= ∑N i=1 αi − 2 ∑i=1 ∑ j=1 αi α j Di D j Xi X j


1 N N T
Maximizar: Q(α)
(
(1) ∑Ni=1 Di αi (6.27)
Sujeito as restrições:
(2) [0; 0] ≤ αi ≤ C para i = 1, ..., N

onde, C > 0 é especificado pelo usuário.


Para problemas de classificação, onde, classes distintas são não linearmente separáveis
no espaço original, mas, com um mapeamento não linear através de um produto interno
(função kernel) transforma o espaço original em um espaço de características de dimen-
são maior, e o problema que era não linearmente separável no espaço original passa-se
a ser linearmente separável no espaço de características é representado pela SVM não
linearmente separável ou SVM para classes linearmente separáveis no espaço de caracte-
rísticas.
Uma extensão intervalar dessa abordagem o mapeamento do espaço de entrada origi-
nal X em um novo espaço, o espaço de características ϕ(X), é equivalente a

X = (X1 , ..., Xn) 7→ ϕ(X) = (ϕ1 (X), ..., ϕN (X))

onde, X ∈ Rn é um vetor intervalar que representa o espaço de entrada original e ϕ(X)


são funções intervalares que mapeiam o espaço original para o espaço de características.
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 46

Função Kernel Intervalar

Um kernel intervalar K é uma função intervalar K : IRn × IRn → IR que recebe dois
padrões intervalares Xi e X j , ∀ Xi , X j ∈ IRn , do espaço de entrada e computa o produto
intervalar ϕT (Xi )ϕ(X j ) no espaço de características.
O termo ϕT (Xi )ϕ(X j ) representa o produto interno intervalar dos vetores intervalares
Xi e X j , sendo o kernel intervalar representado por:

K(Xi X j ) = ϕT (Xi )ϕ(X j ) (6.28)

Uma extensão da equação (7.1) envolvendo o espaço de características, pode ser rees-
crito como:
N
W= ∑ αi Di ϕT (Xi )ϕ(X j ) (6.29)
i, j=1

onde, o vetor intervalar de características ϕ(Xi ) corresponde ao padrão de entrada inter-


valar Xi no i-ésimo exemplo.
Dessa forma, o produto interno intervalar K(Xi X j ) é utilizado para construir um hiper-
plano ótimo intervalar no espaço de características sem ter que considerar o próprio es-
paço de características de forma explícita, observe a equação (6.29) em (6.28):

N
∑ αi Di K(Xi , X j ) (6.30)
i, j=1

e o problema de otimização intervalar passa-se a ser

Maximizar:
i=1 αi − [ 2 , 2 ] ∑i, j=1 αi α j Di D j ϕXi ϕX j
Q(α) = ∑N 1 1 N T

Sujeito as restrições: (6.31)


(
(1) αi ≥ [0, 0], i = 1, ..., N
(2) ∑Ni=1 αi Di = [0, 0]

Uma vez que o produto interno permite a construção de uma superfície de decisão
do espaço de entrada não-linear para um mapeamento em um espaço de características
linear, o problema da máquina trata de encontrar os valores ótimos intervalares dos multi-
plicadores de Lagrange da função Q, e tendo encontrado esses valores, o vetor intervalar
de peso associado ao espaço de característica é encontrado através da equação (6.29).
O procedimento para o projeto de uma máquina de vetores-suporte intervalar pode ser
representado como segue abaixo:
CAPÍTULO 6. MÁQUINA DE VETORES-SUPORTE INTERVALAR 47

1. Representar o conjunto de entrada capturando informações incompletas usando ve-


tor intervalar X.
2. Dado X como entrada da SVMI encontrar a máxima margem de separação entre as
classes intervalares resolvendo o problema de otimização encontrando os αi .
3. Classificar a saída da máquina F(X = Y , considerando, se Y > +1, então Y ∈ D =
[+1, +1] ou se Y > −1, então Y ∈ D = [−1, −1]. Se Y satisfizer as condições
citadas, então a máquina classificou corretamente.
Capítulo 7

Implementações Computacionais e
Resultados

7.1 Implementações Computacionais e Resultados


Para solucionar um problema de otimização utilizando uma SVM, ou o treinamento
de uma SVM, depende de alguns fatores, tais como, a função objetiva do problema a con-
siderar (primeira ordem ou segunda ordem), a forma de apresentação dos dados durante
o treinamento (online ou bach), o espaço de variáveis para a solução do problema (primal
ou dual).
Existem diferentes algoritmos para resolver problemas da SVM usual, tais como, Ker-
nel Adatron, SMO, Gradiente Ascendente, utilização de um solver, entre outros. Neste foi
desenvolvido e implementado métodos para solução do problema relacionado ao treina-
mento de uma SVMI. Os métodos implementados tem como objetivo determinar o hiper-
plano intervalar ótimo no espaço intervalar dual do conjunto de treinamento. O treina-
mento consiste em computar um método iterativo utilizando o gradiente da função la-
grangeana com relação a cada multiplicador α associado a uma taxa de aprendizagem.
Foram implementadas uma extensão intervalar do método Gradiente Ascendente e a uma
extensão intervalar baseada na rede Perceptron. A extensão intervalar do método Gradi-
ente ascendente mostrou-se pouco eficaz devidos a algumas particularidades como:

• O hiperplano ótimo passa pela origem.


• Não utiliza o intercepto B para a classificação.

O problema da SVMI requer resolver a extensão do problema dual, ou seja, encon-


trar o vetor intervalar α, tal que, Q(α) seja maximizado com respeito as restrições do
problema.
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 49

Q(α) = ∑N i=1 αi − [ 2 , 2 ] ∑i, j=1 αi α j Di D j Xi X j


1 1 N T
Maximizar: (
(1) αi ≥ [0, 0], i = 1, ..., N
sujeito as restrições:
(2) ∑Ni=1 αi Di = [0, 0]

A Figura 7.1 ilustra o treinamento da SVMI. Dado um conjunto de treinamento,


(X,Y ), ∀Xi ∈ IRn e Yi ∈ IR, a máquina intervalar, através de métodos kernels intervalares,
encontra os intervalos de α, com respeito ao problema dual. Ao encontrar os α (multipli-
cadores de Lagrange) é possível calcular os pesos intervalares ótimos da SVMI de acordo
com os vetores-suporte intervalares, α > [0, 0]:

N
Wo = ∑ αoi Di Xvs
i
i=1

Figura 7.1: Treimanento de uma SVMI

Sendo a função intervalar:

F(X) = sgn(WT X + B)

a função intervalar que classifica os padrões da máquina, pode ser reescrita:

F(X) = sgn(αDXT X + B)

para a máquina linear.


CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 50

7.1.1 Método Intervalar: Gradiente


O método Gradiente é um método iterativo e bem simples. O algoritmo inicia com
uma estimativa para a solução (α) e então atualiza iterativamente α de acordo com o
gradiente de W(α)

∂W(α)
η
∂αi
onde, η é um intervalo considerado como a taxa de aprendizado,

∂W(α)
αi = αi + η
∂αi
Algoritmo:

0 Inicialização: α e η > [0, 0]


1 Atualização: αi = αi + η([1, 1] − Di ∑nj=1 α j D j K(Xi , X j )), ∀i = 1, · · · , n
2 Restrição: se αi < [0, 0] então αi = [0, 0]
3 repita 1 e 2 até critério de parada

Esse método obtém resultados demorados e instáveis, pois, a máquina exige que o
conjunto de treinamento possua o intercepto intervalar, o bias B, passando pela origem.
Não computando ∑ αD = [0, 0].

7.1.2 Algumas variações:


Foram testadas algumas variações para generalizar este método, para calcular o bias
B, respeitando as restrições:

1. B = [0, 0], otimização sem restrição ∑ αD = [0, 0]


∂W(α)
2. αi = min{C, max{[0, 0], αi + η ∂αi }}
3. B ≤ max k Xi k
min(F + (X )−max(F − (X )
i i
4. B = − 2
5. B = n1vs ∑X j ∈vs ( D1j − ∑Xi ∈vs αi Di hXi , X j i)
6. Atualização de (α e B) de acordo com o valor máximo: k = argmaxi ∂W(α)
∂αi

7.1.3 Método Intervalar: Adatron


O Adatron é um método iterativo simples que busca encontrar hiperplanos de máxima
margem de separação. Possui uma boa estabilidade e garantias de convergência para
solução ótima, onde, a taxa de convergência cresce exponencialmente a cada iteração
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 51

Algoritmo:

0 Inicialização: α e η > [0, 0]


1 Atualização: αi = αi + η([1, 1] − Di ∑nj=1 α j D j K(Xi , X j )), ∀i = 1, · · · , n
2 Restrição: se αi < [0, 0] então αi = [0, 0]; se αi > C então αi = C, ∀C ∈ IR
3 repita 1 e 2 até critério de parada

Para este método foi considerado, o intervalo delimitante C e um valor intervalar para
o bias B, calculado de forma:

1. B ≤ max k Xi k
min(F + (X )−max(F − (X )
i i
2. B = − 2
3. B = n1vs ∑X j ∈vs ( D1j − ∑Xi ∈vs αi Di hXi , X j i)

após encontrar os α’s.


O item 1 possui resultados fracos, uma vez que o bias intervalar é encontrado através
da maior distância intervalar entre a origem e um padrão de entrada, desconsiderando a
restrição ∑ αD = [0, 0]. Somente para conjuntos de treinamentos simples e lineares, a
máquina consegue encontrar um hiperplano de separação.
O item 2 e 3 possuem resultados melhores, tanto para problemas linearmente sepa-
ráveis, quanto para problemas não linearmente separáveis, obtendo melhores resultados
utilizando o kernel do tipo Gaussiano. A diferença entre esses dois métodos de calcular
o bias intervalar consiste no cálculo aproximado do bias intervalar, para o item 2, e um
valor intervalar médio considerando todos os vetores-suporte. O item 2 encontra o bias
intervalar através de uma média intervalar calculado pela: menor distância intervalar en-
tre um vetor-suporte pertencente a classe positiva e a origem, e maior distância intervalar
entre um vetor-suporte pertencente a classe negativa e a origem.

7.1.4 Método Intervalar: Perceptron Dual


Este método diferencia-se dos anteriores devido a forma de avaliação dos multipli-
cadores de lagrange e do bias intervalar, a atualização ocorre através de um único multi-
plicador a cada época, o multiplicador considerado mais informativo, trazendo, de acordo
com a bibliografia, resultados mais estáveis.
Algoritmo:

0 Inicialização: α e η > [0, 0]


i + η([1, 1] − Di ∑ j=1 α j D j K(Xi , X j )), ∀i = 1, · · · , n
1 Atualização: αi = αant n ant
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 52

2 Atualização: se αi > [0, 0] então B = B + Di ∗ (η([1, 1] − Di ∑nj=1 αantj D j K(Xi , X j ))),


∀i = 1, · · · , n senão B = B−Di ∗(η([1, 1]−Di ∑ j=1 α j D j K(Xi , X j ))), ∀i = 1, · · · , n
n ant

3 Restrição: se αi < [0, 0] então αi = [0, 0]; se αi > C então αi = C, ∀C ∈ IR


3 repita do 1 ao 3 até critério de parada

A implementação deste método se deu através do método online para solucionar o


problema da SVMI, tendo como objetivo determinar o hiperplano separador ótimo estab-
elecendo uma máxima margem intervalar.
Por meio da função Lagrangeana

Q(α) = ∑Ni=1 αi − [ 2 ; 2 ] ∑i=1 αi αi Di D j Xi X j


1 1 N T
Maximizar: (
(1) αi ≥ [0; 0], i = 1, ..., N (7.1)
Sujeito as restrições:
i=1 αi Di = [0; 0]
(2) ∑N

o processo de aprendizagem foi baseado em computar o gradiente da função em re-


lação aos multiplicadores α, associado a uma taxa de aprendizagem.
Métodos online, em sua maioria, atualizam os multiplicadores a cada época, como o
algoritmo Adatron. Contudo, um outro algoritmo, o MinOver, utiliza a atualização de um
único multiplicador, o mais significativo da época, que apesar de produzir resultados mais
estáveis, a taxa de convergência é menor.
O algoritimo perceptron intervalar foi optado a implementação do modo de atualiza-
ção e ajustes do α mais significativo na época computada. A estrutura do processamento
pode ser representada pela topologia da rede Perceptron, descrita pela Figura 7.2 que
fornece a função intervalar:

F(X) = αDK + B (7.2)

que gera a máquina intervalar classificadora considerando somente os vetores suporte.


A figura ilustra a topologia utilizada.
A SVMI utilizando o método intervalar Perceptron Dual mostrou melhores resultados
para uma gama maior de problemas. Duas alternativas podem ser consideradas neste
método: atualização de todos os α’s durante o processo de treinamento, ou alteração de
apenas um α, considerado uma variação do α mais significativo para o treinamento da
máquina.
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 53

Figura 7.2: Topologia da SVMI

7.2 Resultados de testes


Nesta seção são apresentados alguns resultados de testes da SVMI e também mostra-
dos que os dados inicias estão contidos nos intervalos do conjunto de treinamento bem
como seus kernels (pontual e intervalar).

7.2.1 Resultados da SVMI


Para comprovar a aplicabilidade da SVMI, foram testados alguns problema artificiais
binários para conjuntos de treinamento linearmente separáveis e não linearmente separá-
veis.
As Tabelas 7.1 e 7.2 mostram alguns resultados da SVMI:

Problema 1 Problema 2 Problema 3


Conj. treinamento 4 2 4
Vetores suporte 3 2 3
bias [0.275,0.287] [0.39, 0.3951] [0.279, 0.28]
Kernel intervalar linear linear linear
Tabela 7.1: Tabela de resultados da SVMI

O Problema 1 é do tipo linearmente separável, um ajuste intervalar da porta lógica OR,


treinado com o kernel linear, obtendo como saida do teinamento os al pha intervalares
ótimos e os vetores de suporte intervalares para a máquina intervalar classificadora. O
Problema 2 também é do tipo linearmente separável, sendo um ajuste intervalar da porta
lógica NOT , onde, obteve dois vetores suporte. O problema 3 também é do tipo line-
armente separável, sendo um ajuste intervalar da porta lógica AND, obteve três vetores
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 54

Problema 4 Problema 5 Problema 6


Conj. treinamento 4 4 20
Vetores suporte 4 4 8
bias [0.1, 0.1] [0.01, 0.0132] [0.0002, 0.00023]
Kernel intervalar polinomial gaussiana gaussiana
Tabela 7.2: Tabela de resultados da SVMI

suporte. O Problema 4 e 5 são do tipo não linearmente separável, sendo um ajuste inter-
valar da porta lógica X OR, sendo obtidos dois resultados, o primeiro utilizando o kernel
intervalar polinomial e o segundo utilizando o kernel intervalar gaussiano, com quatro
vetores suporte cada teste. O Problema 6 é do tipo não linearmente separável, sendo um
problemas de duas espirais, que obteve oito vetores suporte com o treinamento da função
kernel intervalar gaussiana. Os testes foram feitos utilizando o método intervalar iter-
ativo baseado na rede neural Perceptron e no método Adatron, uma vez que o método
do gradiente (mais simples) não trouxe resultados satisfatórios. O método intervalar im-
plementado demostrou mais estabilidade nos resultados, porém, um desgaste maior para
encontrar a convergência.

7.2.2 Conjunto de treinamento intervalar


A Tabela 7.3 mostra o conjunto de entrada de um problema das espirais:

0.4500 0.3500
-0.4000 0.2750
-0.2750 -0.7750
0.3000 -0.3000
Tabela 7.3: Problema das espirais

A Tabela 7.4 mostra uma extensão intervalar do conjunto de entrada de um problema


das espirais:

[0.45,0.46] [0.3,0.35]
[-0.41,-0.39] [0.275,0.275]
[-0.3,-0.26] [-0.78,0.77]
[0.3,0.3] [-0.3,-0.29]
Tabela 7.4: Problema das espirais intervalar
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 55

A Tabela 7.5 mostra a matriz da função kernel linear do conjunto de entrada apresen-
tado na Tabela 7.3

0.3250 -0.0838 -0.3950 0.0300


-0.0838 0.2356 -0.1031 -0.2025
-0.3950 -0.1031 0.6763 0.1500
0.0300 -0.2025 0.1500 0.1800
Tabela 7.5: Matriz intervalar do problema das espirais intervalar para o kernel linear

A Tabela 7.6 mostra a matriz kernel intervalar linear do conjunto de entrada apresen-
tado na Tabela 7.4

[0.29249,0.3341] [-0.1061,-0.079249] [-0.411,0.1525] [0.029,0.0510]


[-0.1061,-0.079249] [0.227725,0.243725] [-0.1131,0.33475] [-0.2055,-0.19675]
[-0.411,0.1525] [-0.1131,0.33475] [-0.533,0.6984] [-0.321,0.156]
[0.029,0.051] [-0.2055,-0.19675] [-0.321,0.156] [0.17409,0.18]
Tabela 7.6: Matriz intervalar do problema das espirais intervalar para o kernel linear

A Tabela 7.7 mostra a matriz da função kernel polinomial do conjunto de entrada


apresentado na Tabela 7.3

1.7556 0.8395 0.3660 1.0609


0.8395 1.5268 0.8044 0.6360
0.3660 0.8044 2.8098 1.3225
1.0609 0.6360 1.3225 1.3924
Tabela 7.7: Matriz kernel do problema das espirais para o kernel polinomial

A Tabela 7.8 mostra a matriz kernel intervalar polinomial do conjunto de entrada


apresentado na Tabela 7.4

[1.67055,1.77982] [0.79905,0.84778] [0.34692,1.32825] [1.0609,1.104601]


[0.79905,0.84778] [1.50730,1.54685] [0.78659,1.78155] [0.63123,0.64521]
[0.34692,1.32825] [0.786591,1.7815] [0.218088,2.8845] [0.461040,1.3363]
[1.0609,1.1046] [0.6312,0.6452] [0.4610,1.3363] [1.3785,1.3924]
Tabela 7.8: Matriz intervalar do problema das espirais intervalar para o kernel polinomial
CAPÍTULO 7. IMPLEMENTAÇÕES COMPUTACIONAIS E RESULTADOS 56

A Tabela 7.9 mostra a matriz da função kernel gaussiano do conjunto de entrada ap-
resentado na Tabela 7.3

1.0000 0.6948 0.4084 0.8005


0.6948 1.0000 0.5717 0.6634
0.4084 0.5717 1.0000 0.7572
0.8005 0.6634 0.7572 1.0000
Tabela 7.9: Matriz kernel do problema das espirais para o kernel gaussiano

A Tabela 7.10 mostra a matriz kernel intervalar gaussiano do conjunto de entrada


apresentado na Tabela 7.4

[0.99870,1] [0.68299,0.702498] [0.39564,0.77720] [0.799275,0.830854]


[0.68299,0.70249] [0.99980,1] [0.56679,0.99595] [0.65878,0.67188]
[0.39564,0.77720] [0.56679,0.99595] [0.30057,1] [0.47121,0.854875]
[0.79927,0.83085] [0.65878,0.67188] [0.47121,0.85487] [0.99995,1]
Tabela 7.10: Matriz intervalar do problema das espirais intervalar para o kernel gaussiano
Capítulo 8

Conclusões

Este trabalho propôs uma extensão intervalar da SVM fundamentando matematica-


mente com conceitos intervalares. Para que a extensão intervalar da SVM fosse possível,
foi necessário um estudo detalhado da SVM, tanto linearmente separável quanto não li-
nearmente separável, bem como um estudo sobre a teoria intervalar, fazendo um estudo
bibliográfico necessário para que a construção da abordagem intervalar fosse possível.
O desenvolvimento deste trabalho teve início com a construção da SVM para os casos
mais simples, os casos linearmente separáveis. E também a construção da abordagem da
SVM para um caso geral, que engloba dados linearmente separáveis e não linearmente
separáveis. Para tanto utiliza-se funções kernels, sendo necessário uma formalização
matemática de funções do tipo kernels dentro da abordagem intervalar para resolução
de problemas de classificação de padrões utilizando as SVMs. Os capítulos 2, 3 e 4 são
relacionados a fundamentação teórica, tanto para o formalismo das SVMs quanto a fun-
damentação matemática intervalar, aritmética e otimização intervalar.
O formalismo matemático intervalar que trata da definição, extensão intervalar, de
kernels intervalares foi tratado no capítulo 6. As contribuições deste capítulo está na for-
malização de um kernel intervalar, independente da máquina utilizada, a diferenciação
da proposta é a utilização de uma métrica essencialmente intervalar para funções inter-
valares validadas como kernels, outros trabalhos relacionados foram pesquisados, porém,
utilizando a (quasi)métrica de Moore, que utiliza dados intervalares com resultados reais
(pontuais). Após a definição de kernels intervalares, foi feito uma formalização de uma
máquina de vetor de suporte intervalar, tratada no capítulo 7, e métodos numéricos inter-
valares para resolver problemas utilizando a SVMI.
Foram construídas algumas definições para que a construção da SVMI fosse possível,
dentre as principais são:

• Norma vetorial intervalar


• Produtoide interno
CAPÍTULO 8. CONCLUSÕES 58

• Auto valores intervalares


• Auto vetoides
• Matriz positiva definida
• Kernel intervalar
• Teorema de Mercer

Foram implementados métodos para resolver o problemas de otimização, extensões


intervalares dos métodos:

• Gradiente
• Adatron
• Percepton Dual

8.1 Possibilidades de trabalhos futuros


As contribuições deste trabalho geram possibilidades de trabalhos futuros, dentre eles:

• Análise intervalar para otimização intervalar: métodos intervalares para resolver


problemas de otimização.
• Kernel intervalar: extensões intervalares de métodos kernels que tratam de proble-
mas de classificação, regressão e multiclassificação.
• Análise intervalar do comportamento do kernel intervalar para problemas com-
plexos.
• Análise numérica dos métodos intervalares para solucionar o problema de otimiza-
ção.
• Abordagem Fuzzy intevalar para SVM.
Referências Bibliográficas

Abe, S. (2005), Support Vector Machines for Pattern Classification, Springer.

Acióly, B. M. (1991), Fundamentação Computacional da Matemática Intervalar, Tese de


doutorado, Universidade Federal do Rio Grande do Sul.

Acióly, B. M. & B.C. Bedregal (1997), ‘A quasi-metric topology compatible with


inclusion-monotonicity property on interval space’, Reliable Computing 3(3), 305–
313.

Angulo, C., D Anguita & L Gonzalez (2007), ‘Interval discriminant analysis using support
vector machines’, European Symposium on Artificial Neural Network .

Bazaraa, M., H. Sherali & C. M. Shetty (1993), Nonlinear Programming: Theory and
Algorithms, John Wiley and Sons.

Bishop, C. M. (2006), Pattern Recognition and Machine Learning, Springer.

Bliek, C., P. Spellucci, L. N. Vicente, A. Neumaier, L. Granvilliers, E. Huens, P. V. Hen-


tenryck, D. Sam-Haroud & B. Faltings (2001), Algorithms for solving nonlinear
constrained, Relatório técnico, Universität Wien.

Boser, B. E., I. M. Guyon & V. N. Vapnik (1992), ‘A training algorithm for optimal mar-
gin classifiers’, Proceedings of the 5 th Annual ACM Workshop on computacional
Learning Theory pp. 144–152.

Burges, C. J. C. (1998), ‘A tutorial on support vector machines for pattern recognition’,


Data Mining and Knowledge Discovery 2, 121–167.

Do, T. N. & F. Poulet (n.d.), ‘Kernel methods and visualizations for interval data mining’.

Ganapathiraju, A. (2002), Support Vector Machines for Speech Recognition, The-


sis(Ph.D.), Faculty of Mississipi State University.

Hanses, E. & G. W. Walster (1992), Global Optimization using Interval Analysis, Marcel
Dekker, New Work.

59
REFERÊNCIAS BIBLIOGRÁFICAS 60

Hayes, B. (2003), ‘A lucid interval’, American Scientist 91, 484–488.

Haykin, S. (2001), Redes Neurais: Princípios e prática, Bookman.

Hearst, M. A. (1998), ‘Support vector machines’, IEEE Inteligent Systems 13(4), 18–28.

Hofmann, T., B. Schölkopf & A. J. Smola (2008), ‘Kernel methods in machine learning’,
The Annals of Statistics 36(3), 1171–1220.

Hong, D. H. & C. Hwang (2005), ‘Interval regression analysis using quadratic loss su-
pport vector machines’, IEEE Transactions On Fuzzy Systems 13(2), 229–237.

Hsu, C. W. & C. J. Lin (2002), ‘A comparison of methods for multiclass support vector
machines’, IEEE Transactions On Neural Networks 13, 415–425.

Joachims, T. (1998), ‘Text categorization with support vector machines’, Proceedings of


European Conference on Machine Learning pp. 137–142.

Kearfott, R. B. (1996), Rigorous Global Search: Continuous Problems, Kluwer Academic


Publishers, London.

Kreinovich, V., A. Lakeyev J. Rohn & P. Kahl (1998), Computational Complexity and
Feability of Data Processing and Interval Computations, Kluwer Academic Pub-
lishers, Canadá.

Kulisch, U. W. (1982), ‘Computer arithmetic and programing languages’, ACM 13, 176–
182.

Kulisch, U. W. (2008), Computer Arithmetic and Validity: Theory, Implementation, and


Applications, Walter de Gruyter.

Kulisch, U. W. & W. L. Miranker (1981), Computer Arithmetic Theory and Pratice,


Academin Press.

Lima, C. A. M. (2004), Comitê de Máquinas: Uma Abordagem Unificada Empregando


Máquinas de Vetores-Suporte, Tese de doutorado, Universidade Estadual de Camp-
inas.

Lin, F. C. & S. D. Wang (2002), ‘Fuzzy support vector machines’, IEEE Transactions On
Neural Networks 13(2), 464–470.

Lingras, P. & C. Butz (2004), ‘Interval set classifiers using support vector machines’,
Proceedings of 2004 Conferenceof the North American .
REFERÊNCIAS BIBLIOGRÁFICAS 61

Lorena, A. C. & A. C. P. L. F. Carvalho (2003), Introdução às máquinas de vetore suporte,


Relatório técnico, Universidade de São Paulo.

Luenberger, D. (1984), Linear and Nonlinear Programming, Addison-Wesley.

Lyra, A. (2003), Uma Fundamentação Matemática para o Processamento de Imagens


Digitais Intervalares, Thesis(Ph.D.), Universidade Federal do Rio Grande do Norte,
Natal.

Martinez, J. M. & S. A. Santos (1995), Métodos computacionais de otimização, Relatório


técnico, UNICAMP.

Moore, R. E. (1966), Interval Analysis, Pretice Halls, New Jersey.

Moore, R. E. (1979), Methods and Applications of Interval Analysis, SIAM, Philadelphia.

Moore, R. E., R. B. Kearfott & M. J. Cloud (2009), Introduction to interval analysis,


Philadelphia: SIAM, Philadelphia.

Pontil, M. & A. Verri (1997), Proprieties of support vector machines, Relatório técnico,
Massachusetts Institute of Technology.

Santos, J. M. (2001), Em direção a uma representação para equações algébricas: Uma lóg-
ica equacional local, Dissertação de mestrado, Universidade Federal do Rio Grande
do Norte.

Semolini, R. (2002), Support vector machines, inferência transdutiva e o problema de


classificação, Dissertação de mestrado, Universidade Estadual de Campinas.

Stitson, M. O., J. A. E. Weston, A. Gammerman, V. Vovk & V. Vapnik (1996), Theory oh


support vector machines, Relatório técnico, University of London.

Trindade, R. M. P., B. R. C. Bedregal & A. D. Dória Neto (2008), ‘Basic concepts of


interval digital signal processing’, Proceedings of World Academy of Science, Engi-
neering and Technology .

Young, R. C. (1931), The Algebra of Many-valued Quantities, Verlag Von Julius Springe,
Berlin.

Zhao, Y., Q. He & Q. Chen (2005), ‘An interval set classification based on support vector
machines’, Proceedings of the Joint International Conference on Autonomic and
Autonomous Systems .

Você também pode gostar