Você está na página 1de 13

Dimenso de Vapnik-Chervonenkis

Ignacio Del Hoyo1


1
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial
Universidade Tecnolgica Federal do Paran (CPGEI - UTFPR)
Av. Sete de Setembro, 3165 - 80230-901 - Curitiba - Pr - Brasil
hoyo@utfpr.alunos.edu.br

Resumo. Quando se projeta uma mquina de aprendizado, maximizar a


capacidade de generalizao da mquina um objetivo constante e a dimen-
so de Vapnik-Chervonenkis, ou dimenso VC, que mede a capacidade de
expresso de uma famlia de funes, tem papel fundamental nessa tarefa.
Considerando que o erro para os testes (erro de generalizao) sempre
menor ou igual ao erro de treinamento mais um termo que depende da di-
menso VC, possvel avaliar como ser o desempenho dos dados de teste
apenas avaliando os dados de treinamento. Considerando que a dimenso
VC um conceito fundamentalmente combinatrio este tema foi aprofun-
dado no trabalho, do mesmo modo a notao assinttica foi utilizada para
avaliar os limites de convergncia da dimenso VC, assim como os teore-
mas que foram provados. Foi possvel concluir que a dimenso de Vapnik-
Chervonenkis pode ser vista como uma varivel de controle para se obter
o melhor compromisso entre a capacidade generalizao e a quantidade de
amostras disponveis para o treinamento.
Palavras-chave: Aprendizado Estatstico, Generalizao, Minimizao
do Risco Emprico, Minimizao do Risco Estrutural.

1. Introduo
No aprendizado de mquina um dos temas de interesse central capacidade de
generializao da mquina. Este problema reside em se determinar qual deve ser a
complexidade das funes que mapeiam os dados de treinamento. Se a complexidade
no for suficiente, os dados podem ficar sub ajustados e se a complexidade for maior
que a necessria, os dados podem ficar sobre ajustados, em ambos os casos h perda
na capacidade de generalizao. Esta capacidade de generalizao intimamente
relacionada ao conceito da dimenso de Vapnik-Chervonenkis, uma vez que esta
expressa a complexidade de um conjunto de funes.
Assim, a dimenso VC relaciona-se com as diversas reas do aprendizado de
mquina, sendo um exemplo disso as redes neurais. [Amaldi et al. 1994] discutem os
problemas combinatoriais que surgem nas redes neurais artificiais, especificamente
as do tipo feedforward e como a dimenso VC impacta nos limites de convergn-
cia para a generalizao. Por outro lado, [Koiran and Sontag 1998] consideram o
conceito da dimenso VC aplicado a diferentes classes de redes neurais recorren-
tes. [Engel and Broeck 1993] utilizam a tcnica de rplica para calcular a mxima
distncia entre os erros de teste e generalizao em um conjunto de perceptrons
treinados por um perceptron professor, os resultados so comparados com os forne-
cidos pela teoria de Vapnik-Chervonenkis. [Linial et al. 1991] apresentam o conceito
de amostragem dinmica, onde os nmeros de exemplos utilizados no treinamento
aumentam conforme a complexidade do conceito a ser aprendido, de acordo com o
princpio da minimizao do risco estrutural.
O trabalho de [Anthony 2008] serviu como inspirao para este projeto. No
artigo o autor discorre a respeito de como a matemtica discreta e a teoria de
probabilidade esto presentes no aprendizado de mquina.
Assim sendo, este trabalho estrutura-se da seguinte maneira. Na seo 3.
so apresentados os conceitos de aprendizado de mquina, generalizao, sub ajuste
e sobre ajuste. apresentado na seo 3.1 uma modelagem para a aprendizado
estatstico e so definidos o risco funcional e risco emprico. A dimenso VC
definida na seo 3.2 onde tambm so apresentados alguns exemplos. Na 3.3
discutida a importncia da dimenso VC no projeto de redes neurais bem como so
demonstrados alguns exemplos de dimenso VC para redes neurais. Nas sees 3.4
e 3.5 so explicados os princpios de minimizao do risco emprico e minimizao
do risco estrutural, respectivamente.

2. Descrio do problema
A dimenso VC expressa a complexidade de uma famlia de funes, com isso
possvel determinar qual deve ser a complexidade das funes que mapeiam os dados
de treinamento em uma mquina de aprendizado. Essa medida de complexidade
combinatria, por isso so explorados os conceitos de funo de crescimento e do
lema Sauer-Shelah que se baseiam na teoria combinatria.
Este faz trabalho faz algumas consideraes da importncia da dimenso VC
no projeto de redes neurais, por isso utilizada a notao assinttica para avaliar o
limite de convergncia da dimenso VC em redes neurais feedforward.

3. Fundamentao Terica
No aprendizado por exemplos, a mquina de aprendizado deve aprender a aproximar
o mais bem possvel alvos desconhecidos ou uma relao de entrada-sada a partir
de um conjunto de treinamento rotulado como exemplos [Vapnik and Le Cun 1994].
Segundo [Mukherjee et al. 2006] no aprendizado por exemplo a propriedade
chave no algoritmo de aprendizado a generalizao. Diversos estudos tericos
e experimentais mostram a influncia da capacidade de aprendizado de uma m-
quina em sua habilidade de generalizao [Vapnik 1982, Baum and Haussler 1989,
Guyon et al. 1990].
Considerando que tanto os dados de treinamento quanto os teste tem a mesma
distribuio estatstica, a capacidade de generalizao a habilidade que o modelo
tem em mapear os dados de entrada-sada para os teste, da maneira mais prxima
possvel da que fez para os dados de treinamento, ou seja, a capacidade de inferir
corretamente para os dados teste a partir dos dados de treinamento.
A capacidade de generalizao depende da funo que modela os dados. Se
a capacidade de aprendizado for muito superior necessidade do problema poder
ocorrer o sobre ajuste, ou seja, os dados de treinamento estaro muito bem repre-
sentados, porm quando for apresentado um dado de teste a funo apresentar
uma resposta distante da ideal, com isso perdendo capacidade de generalizao. Por
outro lado, se a capacidade de aprendizado for inferior necessidade do problema
poder ocorrer o sub ajuste e tambm haver perda na capacidade generalizao.
Portanto, um desafio determinar a capacidade de aprendizado das funes que
mapeiam os dados do problema a fim de maximizar a capacidade de generalizao
da soluo encontrada.
Assim, em uma mquina de aprendizado com boa capacidade de generaliza-
o os erros para os dados de testes sero muito prximos aos erros dos dados de
treinamento. A teoria de aprendizado baseado na dimenso VC prediz como ser o
comportamento da diferena entre os erros de teste e treinamento a partir de uma
nica medida, a dimenso VC, a qual caracteriza a capacidade de aprendizado da
mquina [Vapnik 1982].

3.1. Teoria do Aprendizado Estatstico


A teoria do aprendizado estatstico foi desenvolvida por Vladmir Vapnik
[Vapnik 1995, Vapnik 1998] aborda as questes fundamentais de como controlar a
capacidade de generalizao do aprendizado de mquina em termos matemticos.
Foi descrito por [Vapnik 1999] o modelo de aprendizado baseado em exemplos a
partir das trs componentes do aprendizado supervisionado.
Ambiente - contm o vetor de entradas x, apresenta funo de distribuio
Fx (x) fixa apesar de desconhecida.
Professor - retorna um vetor de sada d para todo vetor de entrada x, respei-
tando a funo de distribuio Fx (x|d), de acordo com a relao:

d = f (x, v) (1)
onde v permite o professor ser ruidoso.
Mquina de aprendizado - implementa funes que mapeam o conjunto de
entradas-sada, descrito por:
y = F(x, w) (2)
onde y resposta real produzida pela mquina de aprendizado para a entrada
x e w so os pesos sinpticos, w W .
O objetivo ento escolher a partir de um conjunto de funes F(x, w),
aquela que produz a melhor resposta d do professor. A seleo se baseia em um
conjunto de n pares de amostras de treinamento independentes e igualmente distri-
budas (i.i.d.) que seguem a distribuio Fx,D (x, d) = F x(x)F (x|d)

= = (xi , di )ni=1 (3)

Para medir o erro entre a resposta desejada d correspondente ao vetor de


entrada x e a resposta real produzida por F(x, w), utiliza-se uma funo de perda,
denotada aqui por L(d, F(x, w)). Usualmente utiliza-se a funo quadrtica para
mensurar esse erro, a qual representa a distncia quadrada entre d e a aproximao
F(x, w), dada por:
L(d, F(x, w)) = (d F(x, w))2 (4)
Segundo [Vapnik 1999] o objetivo do processo de aprendizagem estatstica
chegar a funo que minimize esse erro, dito risco funcional, dado por:
Z
R(w) = L(d, F(x, w))dFx,D (x, d) (5)

Dado um conjunto de treinamento = = (xi , di )ni=1 , o risco funcional emprico


definido em termos da funo de perda L(di , F(x, w)), dado por:

n
1X
Remp (w) = L(di , F(x, w)) (6)
n i=1

Segundo [Vapnik 1999] a intenso minimizar o risco funcional R(w) da


equao 5. Porm frequentemente Fx,D (x, d) uma distribuio desconhecida, por
isso o que se faz a minimizao do risco emprico Remp (w), expresso na equao
6, pois este baseia-se em dados de treinamento. Como o conjunto de treinamento
tem um nmero finito de dados, obter Remp (w) = 0 no necessariamente implica
em R(w) = 0. Deste modo, a densidade amostral de Fx,D (x, d) e a complexidade de
F(x, w) determinaram a relao entre Remp (w) e R(w).

3.2. Dimenso VC
A dimenso Vapnik-Chervonenkis de um conjunto de dados remonta influente
publicao de Vapnik e Chervonenkis [Vapnik and Chervonenkis 1971], que trata
da convergncia uniforme de frequncias relativas de eventos e suas probabilidades.
importante ressaltar que a dimenso VC puramente um conceito com-
binatrio que no tem conexo com a noo geomtrica da dimenso. Segundo
[Haykin 2008] estimar a dimenso VC uma preocupao primria pois o nmero
de exemplos necessrios para o aprendizado de uma classe de interesse com comfia-
bilidade, proporcional dimenso VC daquela classe.
Assim sendo, a maior aplicao da dimenso VC como uma medida da
capacidade ou poder de expresso de uma classe de funes de mapeamento feitas
pelo aprendizado de mquina e pode ser descrita da seguinte maneira.
Seja H um conjunto de funes que mapeiam os dados de X em {0, 1}. Assim,
para x X n , o conjunto H |x finito e tem cardinalidade 2n , e defini-se ento como
funo de crescimento H : N N por:

H (n) = maxn |H |x | (7)


xX

A dimenso VC, dimV C(H) ento definida como o maior d tal que
H (d) = 2d . Em outras palavras, para uma funo H e um conjunto S de m
pontos no espao de entrada X, se H consegue computar todas as dicotomias de S,
ento H particionado por S. A dimenso VC a maior cardinalidade que divide
o conjunto.
Os limites da para a funo de crescimento em termos da dimenso VC foram
estudos estudados simultnea e independentemente por [Sauer 1972] e [Shelah 1972].
Posteriormente passou a ser chamado ento de lema de Sauer-Shaleh.
Teorema 1: Suponha H, um conjunto de funes de mapeamento de X em
{0, 1}, e que a dimV C(H) = d < . Ento para todo n d,

d
!
X n
H (n) (8)
i=0 i

Isto pode ser provado por induo da seguinte maneira:


Prova:
Passo bsico. Existem dois casos a se considerar:

(i) d = 0, m 1. Neste caso Hpode


 conter apenas uma nica funo, e tem
Pd n n
H (n) = 1, alm disso i=0 i = 0 . Portanto a hiptese verdadeira.
     
Pd n 1 1
(ii) m = 1, d 1. Neste caso H (n) = 2, alm disso i=0 i
= 0
+ 1
= 2.
O que mantm a hiptese verdadeira.

Passo indutivo: Seja m > 1 e d > 0. Assumindo a hiptese de que para


todos (m0 , d0 ) tal que m0 < n ou d0 < d. Mostraremos que a hiptese
verdadeira para o caso (m, d).
Seja xn1 = (x1 , .., xn ) X n . Considerando

H|x1 n = {(h(x1 ), ..., h(xn ))|h H} (9)


e
H|x1 n 1 = {(h(x1 ), ..., h(xn1 ))|h H} (10)

Seja H3 toda a sequncia de H|x1 n que no est presente em H|x1 n 1.

H3 = {y1 , ..., yn1 H|x1 n 1 | h, h0 H, h(xi ) = h0 (xi ) = yi ,


(11)
i [n 1], h(xn ) 6= h0 (xn )}

Assim:

| H|x1 n |=| H|x1 n 1 | + | H3 | (12)


Assim H|x1 n 1 uma restrio para n 1 pontos da funo de classe H
de dimV C = d. Alm disso H3 pode ser visto como restrio para n 1 pontos da
funo de classe H de dimenso VC de d 1. Assim aplicando a hiptese indutiva,
temos:

d d1
! !
X n1 X n1
| H|x1 n |= + (13)
i=0 i i=0 i
d d
! !
X n1 X n1
| H|x1 n |= + (14)
i=0 i i=0 i 1

d
!
X n
| H|x1 n |= (15)
i=0 i

Exemplos de dimenses VC

Funes lineares

Na Figura 1 mostrado que a dimenso VC de um classificador linear no <2


3, pois este o nmero mximo de amostras que puderam ser corretamente
classificadas para todas as possibilidades de rotulao binria. Para 4 ou
mais pontos, existem rotulaes que no podem ser classificadas por uma
nica reta. Generalizando, a dimenso VC para funes lineares no <n
n+1, para n 2, como o caso do perceptron.

Figura 1. Trs pontos em <2 podem ser particionados por um classificador linear

Retngulos com eixos alinhados

Considerando o classificador como sendo um retngulo com eixes alinhados


e o espao <2 , 4 o nmero mximo de pontos que independentemente da
rotulao que lhes for atribuda possvel classifica-los. Para 5 pontos essa
separao no mais possvel, portanto a dimenso VC 4.

3.3. Dimenso VC em Redes Neurais


Segundo [Baum and Haussler 1989], em redes neurais a dimenso VC estreita-
mente relacionada com o nmero de pesos w na arquitetura da rede. Assim, este
fato importante para se construir uma rede prxima do tamanho mnimo mas
ainda capaz de representar todas as dicotomias do problema.
Apesar de importante, em casos prticos de redes neurais dificil de se avaliar
a dimenso VC em termos analticos. Por outro lado, os limites da dimenso VC
em redes neurais so frequentemente mais fceis de se trabalhar.
Figura 2. Quatro pontos em <2 podem ser particionados por retngulos com eixos
alinhados usados como classificador

Dimenso VC de um perceptron
Teorema 2: Seja Pn a notao para para um perceptron de n camadas.
Ento, dimVC(Pn , <n ) = n + 1.
Prova: Seja 0 a notao para um vetor composto de zeros e, para 1 < i < n
seja ei o ponto com valor igual a 1 na i-sima coordenada e todas as outras coordena-
das so zero. Mostraremos que Pn particiona a amostra x = (0, e1 , ..., en ). Supondo
que S qualquer subconjunto de E = {0, e1 , ..., en }, para i = 1, 2, ..., n, seja

1, se ei S
wi =
1, se ei
6 S
e seja

1/2, se 0 S
=
1/2, se 0
6 S
Ento verifica-se diretamente que se w = (w1 , w2 , ..., ) o estado de Pn ,
ento o conjunto positivo de exemplos hw em E precisamente S. Portanto x
particionado por Pn e consequentemente, dimVC(Pn , <n ) = n + 1.
2
Dimenso VC de uma Rede Neural com funo de ativao do tipo
threshold
Decorrente do trabalho de [Baum and Haussler 1989].
Teorema 3: Seja N uma rede neural feedforward com w pesos e funo de
ativao Heaviside (threshold). Ento, dimVC(N ) = O(W log W).
Prova:
Seja X = <n e x X m uma amostra de m pontos de X. Fazemos o limite
da funo de crescimento do espao de hipteses H pela limitao de H (x). Seja N
o nmero de neurnios na rede e esta sendo feedforward, N inteiro. Seja denotado
o i-simo neurnio que entra na funo de ativao, como sendo di . Ento o conjunto
de funes ter dimenso VC di + 1, pelo teorema 2. Segue como consequncia do
lema de Sauer-Shelah, que se y qualquer amostra de comprimento m de pontos
em {0, 1}di , ento o nmero mximo de maneiras no qual o i-simo neurnio pode
classificar y no mximo mdi +2 . Segue que o nmero de classificaes H (x) de
x X m pela rede limitado por md1 +2 md2 +2 ...mdN +2 , onde W = d1 +d2 +...+dN +N ,
nmero total de pesos no mximo mW +N . Como W N , no pior caso m2W .
Se y particionado por N , ento N pode computar todos as funes de y em
{0, 1}di , o que implica que 2m m2W , por consequncia m 2W.log(m). Como
log(m) = O(log(w)), temos que m O(W.log(W )).
2

3.4. Princpio da Minimizao do Risco Emprico


Como comentado anteriormente, o objetivo do aprendizado estatstico minimizar
a diferena entre a resposta desejada e a resposta real obtida pela mquina de
aprendizado. Para isso [Vapnik 1982] descreveu o princpio da minimizao do risco
emrico (ERM - Empirical Risk Minimization). Trabalha-se com o risco emprico
ao invs do risco funcional , pois no depende da distribuio desconhecida Fx,D =
(x, d).
Sejam wemp e F (x, wemp ), o vetor de pesos e o correspondente mapeamento
que minimiza o risco emprico Remp (w) da equao 6. Da mesma maneira, w0 e
F (x, w0 ) representam o vetor de pesos e o mapeamento que minimizam o risco
funcional R(w) da equao 5. O problema reside em encontrar as condies para as
quais o mapeamento aproximado de F (x, wemp ), o mais prximo ao mapeamento
desejado F (x, w0 ), atravs da medida de disparidade entre R(wemp ) e R(w0 ).
O uso do risco emprico ao invs do risco funcional matemticamente justi-
ficvel pela seguinte considerao. Para um vetor de pesos w fixo, o risco funcional
R(w ) determina a esperana matemtica da varivel aleatria Zw = L(d, F (x, w )).
Por outro lado, o risco emprico Remp (w ) a mdia aritmtica emprica da vari-
vel aleatria Zw . Segundo a lei dos grandes nmeros, de modo geral encontra-se
que quando o tamanho N dos dados de treinamento = feito infinitamente grande,
a mdia emprica da varivel aleatria Zw converge para o valor esperado. En-
tretanto, o fato do vetor de pesos wemp minimizar o risco emprico Remp (w), no
necessariamente minimizar o risco funcional R(w).
Para garantir, de maneira aproximada, que vetor de pesos wemp minimize o
risco funcional R(w) procede-se da seguinte maneira. Se o risco emprico Remp (w)
aproxima o risco funcional original R(w) uniformemente em w como uma preciso ,
ento o mnimo de Remp (w) se desvia de R(w) por uma quantia que no excede 2.
Segundo [Vapnik 1982] isto impem uma rigorosa condio, tal que para qualquer
w W e > 0, vale a relao de probabilidade

P (sup | R(w) Remp (w) |> ) 0, N (16)


w

Se a equao 16 for satisfeita, dito que a mdia emprica do risco do vetor


de pesos w convergem uniformemente. De maneira anloga, a partir de qualquer
preciso , a seguinte inequao valida

P (sup | R(w) Remp (w) |> ) < (17)


w
Se a condio da inequao 17 for satisfeita, ento existe com probabilidade
de pelo menos (1 ), uma soluo de F (x, wemp ) que minimiza o erro emprico
Remp (w) e dar um risco real R(wemp ) que se desvia do mnimo verdadeiro do risco
R(w0 ) por uma quantidade que no excede 2.
Para determinar quais os limites construtivos para a habilidade de genera-
lizao, assume-se a seguinte interpretao. O risco funcional R(w) corresponde
probabilidade de erro de classificao, tambm chamado de taxa de erro, denotado
por P (w). Enquanto o risco emprico corresponde ao erro de treinamento, tambm
referida como frequncia de erros cometidos durante o treinamento, denotado por
v(w).
Para um conjunto de treinamento N suficientemente grande, P (w) e v(w)
esto prximos, respeitando a condio que segue, para qualquer > 0

P (sup | P (w) v(w) |> ) 0, N (18)


w

De maneira anloga equao 17, temos

P (sup | P (w) v(w) |> ) < (19)


w

Assim sendo, o que ocorre a convergncia uniforme da frequncia de erros


de treinamento para a probabilidade em que v(w) = P (w).
Neste momento ento, a dimenso de Vapnik-Chervonenkis fornece um limite
para a taxa de convergncia uniforme. Assim sendo, h corresponde dimenso VC,
ento segundo [Vapnik 1982, Vapnik 1998] a seguinte desigualdade vlida

h
2eN

P (sup | P (w) v(w) |> ) < exp(2 N ) (20)
w h
onde N representa o tamanho da amostra de treinamento e e o logaritmo neperi-
ano. Deseja-se que a diferena entre o erro de classificao e a frequncia de erros
cometidos durante o treimamento seja pequena, assim, o lado esquerdo da equao
deve ser pequeno para um N grande a fim de se obter a convergncia uniforme. O
decaimento exponencialde do fator exp(2 N ) ajuda nesse ponto, enquanto o fator
 h
2eN a
h
o limite da funo de crescimento H , obtido pelo lema de Sauer-Shelah.
Seja a probabilidade de um evento ocorrer

sup | P (w) v(w) | (21)


w

Assim, com uma probabilidade (1 ), podemos afirmar que os vetores de


peso w satisfazem a desigualdade

P (w) < v(w) + (22)


Deste modo, usando os limites descritos na equao 20 e considerando a
definio para a probabilidade , podemos assumir

h
2eN

= exp(2 N ) (23)
h
Seja 0 (N, h, ) a notao que que satisfaz a equao 23, assim temos
s
h 2N 1
 
0 (N, h, ) = log + 1 log (24)
N h N

O termo 0 (N, h, ) chamado de intervalo de confiana, qual depende, evi-


dentemente, do tamanho das amostras de treinamento, da dimenso VC e da pro-
babilidade .
O limite descrito pela equao 20, no qual = 0 (N, h, ) alcanado para
uma probabilidade de erro na classificao P (w) alta, no pior caso P (w) = 1/2.
Porm para uma probabilidade P (w) pequena, mais interessante utilizar a modi-
ficao proposta por [Vapnik 1982] na equao 20, tornando-se

h !
| P (w) v(w) | 2eN 2 N

P sup q > < exp (25)
w P (w) h 4

Assim, com uma probabilidade (1 ), podemos afirmar que os vetores de


peso w satisfazem a desigualdade

P (w) v(w) + 1 (N, h, , v) (26)

Aqui 1 (N, h, , v) corresponde ao novo intervalo de confiana em termos do


antigo intervalo de confiana 0 (N, h, ), ficam da seguinte maneira
v
v(w)
u
22 (N, h, ) 1 + t1 +
u
1 (N, h, , v) = 0 (27)
20 (N, h, )

Finalmente podemos afirmar que para o caso mais geral, o limite para a
convergncia uniforme segue

P (w) v(w) + 1 (N, h, ) (28)

3.5. Minimizao do Risco Estrutural


Ao contrrio do princpio da minimizao do risco emprico que busca minimizar
o risco emprico a qualquer custo, o princpio da minimizao do risco estrutural
(SRM - Structural Risk Minimization), busca uma relao tima entre a preciso
na aproximao dos dados de treinamento (erro emprico) e a capacidade (dimenso
VC) do conjunto de funes.
A SRM desenvovido por [Vapnik 1995] um mtodo que controla habilidade
de generalizaao de uma mquina de aprendizado usando uma pequena quantidade
de dados de treinamento. A quantidade dos dados de treinamento dita pequena
se a razo N/h for menor que 20, onde N o nmero de amostras de treinamento
e h a dimenso VC.
Para se determinar qual a capacidade tima do conjunto de funes, estas
so ordenadas em termos de complexidade, como por exemplo polimnios de or-
dem crescente. Assim sendo, considerando o conjunto de funes de classificao
{F(x, w), w W }, e definindo o aninhamento de n classificadores

Fk = {F(x, w); w Wk }, k = 1, 2, ..., n (29)

Tal que respeita a seguinte hierarquia

F1 F2 ... Fn (30)

Onde a hierarquia definida com base na dimenso VC, logo

h1 h2 ... hn (31)

Na figura 3 apresentado como para um nmero N fixo de amostras de


treinamento o erro de testes decai monotonicamente com ou aumento da capacidade
(dimenso VC), por outro lado o intervalo de confiana fica mais amplo. Mas em
um dado momento o erro de generalizao encontra um mnimo, onde este erro de
generalizao definido como a frequncia de erros so cometidos pela mquina de
aprendizado quando apresentados dados de teste, no vistos antes.

Figura 3. Relao entre o erro de generalizao, erro de tetes e o intervalo de


confiana com relao a dimenso VC

O objetivo ento da minimizao do risco estrututural encontrar este m-


nimo no erro de generalizao, pois onde teremos a melhor capacidade de genera-
lizao do classificador.
4. Concluso
Neste trabalho foi abordado o problema de como maximizar a capacidade de ge-
neralizao em mquinas de aprendizado. Foi apresentada a teoria do aprendizado
estatstico a qual procura explicar de maneira estatstica o processo de aprendizado
de mquina. O conceito de generalizao e a dificuldade de se otimizar esse par-
metro foram explicados. A dimenso de Vapnik-Chervonenkis que um indicador
da complexidade de funes foi definida, bem como sua relao com a capacidade
de generalizao. Para isso, os conceitos da minimizao do risco emprico e da
minimizao do risco estrutural foram descritos.
Como o erro de um algoritmo de aprendizado junto aos dados de validao
(erro de generalizao) limitado pelo erro de treinamento mais um termo que
depende da dimenso VC, esta relao foi melhor estudada. Deste modo foi possvel
concluir que a dimenso de Vapnik-Chervonenkis pode ser vista como uma varivel
de controle para se obter o melhor compromisso entre a capacidade generalizao e a
quantidade de amostras disponveis para o treinamento, isso feito por um processo
indutivo denominado minimizao do risco estrutural.
Apesar de no ser de conhecimento do autor, antes da consecuo deste
trabalho, o contedo aqui abordado a base terica fundamental para as mquinas
de vetor de suporte (SVM), a qual muito possivelmente seja a ferramenta utilizada no
decorrer da ps-graduao, assim sendo o trabalho se mostrou bastante enriquecedor.

Referncias
Amaldi, E., Mayoraz, E., and Werra, D. (1994). A review of combinatorial problems
arising in feedforward neural network design. Discrete Applied Mathematics.
Anthony, M. (2008). Aspects of discrete mathematics and probability theory of
machine learning. Discrete Applied Mathematics.
Baum, E. and Haussler, D. (1989). What size gives a valid generalization? Neural
Computing.
Engel, A. and Broeck, C. (1993). Replica calculation of the vapnik-chervonenkis
bound for the perceptron. Physica A.
Guyon, I., Vapnik, V., Boser, B., Bottou, L., and Solla, S. (1990). Structural
risk minimazation for character recognition. In Advances in Neural Information
Processing Systems.
Haykin, S. (2008). Neural Networks. Pearson.
Koiran, P. and Sontag, E. (1998). Vapnik-chervonenkis dimension of recurrent neural
networks. Discrete Applied Mathematics.
Linial, A., Mansour, Y., and Rivet, R. (1991). Results on learnability and the
vapnik-chervonenkis dimension. Information and Computation.
Mukherjee, S., Niyogi, P., Poggio, T., and Rifkin, R. (2006). Learning theory:
stability is sufficient for generalization and necessary and sufficient for consistency
of empirical risk minimization. Advances in Computational Mathematics.
Sauer, N. (1972). On the density of families of sets. Journal of Combinatorial
Theory.
Shelah, S. (1972). A combinatorial problem; stability and order for models and
theories in infinitary languages. Pacific Journal of Mathematics.
Vapnik, V. Levin, E. and Le Cun, Y. (1994). Measuring de vc-dimension of a learning
michine. Neural Computation.
Vapnik, V. (1982). Estimation of Dependencies Based on Empirical Data. Springer-
Verlag.
Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer.
Vapnik, V. (1998). Statistical Learning Theory. John Wiley and Sons.
Vapnik, V. (1999). An overview of statistical learning theory. IEEE Transactions
Neural Networks.
Vapnik, V. and Chervonenkis, Y. (1971). On the uniform convergence of relative
frequencies of events to their probabilities. Theory of Probability and its Applica-
tions.