Você está na página 1de 126

Aprendizado semissupervisionado via

competio de partculas em redes


complexas: modelagem, anlise e aplicaes
Thiago Christiano Silva

ii

iii
SERVIO DE PS-GRADUAO DO
ICMC-USP
Data de Depsito: 23 de janeiro de 2012
Assinatura:

Aprendizado semissupervisionado via competio de


partculas em redes complexas: modelagem, anlise e
aplicaes

Thiago Christiano Silva

Orientador: Prof. Dr. Zhao Liang

Monografia apresentada ao Instituto de Cincias Matemticas e de Computao ICMC/USP, para o


exame de Qualificao, como parte dos requisitos para
obteno do ttulo de Doutor em Cincias de Computao e Matemtica Computacional.

USP - So Carlos
Janeiro de 2012

iv

Resumo

Aprendizado de mquina figura como uma rea de pesquisa que visa a desenvolver mtodos computacionais capazes de aprender com a experincia.
As tcnicas tradicionais de aprendizado de mquina, na construo de classificadores, necessitam de uma grande quantidade de dados rotulados. Estes
dados so geralmente difceis de serem obtidos, principalmente quando envolvem a rotulao manual por parte de um especialista. Recentemente, uma nova
vertente da rea de aprendizado de mquina, intitulada aprendizado semissupervisionado, tem atrado a ateno de muitos pesquisadores. Esta forma de
aprendizado objetiva a propagao de rtulos para todos os dados no rotulados, de tal forma a preservar a distribuio original. Alm disso, recentemente,
um crescente interesse nas tcnicas que utilizam redes para representar os dados foi verificado. Este fato deve-se ao surgimento das redes complexas como
um tpico unificador de sistemas complexos e como uma poderosa ferramenta
de representao e abstrao de dados, sendo capazes de capturar suas relaes
espaciais, topolgicas e funcionais. Nos ltimos anos, foram desenvolvidas tcnicas de aprendizado de mquina baseadas em competio partculas por meio
de redes complexas, as quais dispem de alta preciso e baixa complexidade
computacional. Todavia, apenas resultados empricos esto presentes na literatura, carecendo tal modelo de uma anlise matemtica rigorosa. Com o intuito
de suprir esta lacuna, neste projeto sero desenvolvidas tcnicas de competio de partculas, no contexto de aprendizado semissupervisionado, baseadas
em competio e cooperao de partculas em redes complexas, em conjunto
com uma modelagem analtica do sistema competitivo. A hiptese assumida
que tal modelo de competio exista e possa ser analiticamente avaliado. Alm
disso, o assunto de confiabilidade dos dados em aprendizado semissupervisionado ser analisado, o qual ainda configura-se como um ramo pouco estudado
na literatura. Com o objetivo de validar as tcnicas desenvolvidas em problemas reais, estas sero aplicadas para anlise de dados em bases amplamente
aceitas na comunidade. Os modelos matemticos propostos sero avaliados
quanto a sua acurcia na previso dos processos descritos, por meio de mtodos estatsticos. Enfim, acredita-se que este estudo possa gerar contribuies
relevantes para a rea de aprendizado de mquina.
Palavras-chave: aprendizado competitivo, caminhadas aleatrias, aprendizado semissupervisionado, classificao, redes complexas.

vi

Abstract

Machine Learning is evidenced as a research area whose main purpose is to


develop computational methods that are capable of learning with their previously acquired experiences. The traditional machine learning techniques, in
what concern about classifiers, must be presented to a significant amount of
labeled data in order to produce relevant results. In a general manner, these
data are cumbersome and expensive to gather, by virtue of requiring manual
labeling of an expert. Recently, a new branch of this research area, denominated semi-supervised learning, has attracted attention of the researchers. This
learning paradigm aims to propagate labels to all the unlabeled data, always
preserving its initial distribution. Besides that, in the last years, an increasing
interest in techniques based on graphs has been verified. This emergence is
explained by the inherent advantages provided by the complex network representation, which is able to capture the spatial, topological and functional
relations of the data. In the recent years, it has been proposed machine learning techniques based on particle competition by using complex networks,
which harmonize high precision and low computational complexity. However,
only empirical results have been presented, without any rigorous mathematical analysis. In light of this absence, in this work, we will develop techniques
based on particle competition, in the context of semi-supervised learning, as
well as a solid analytical model which describes the behavior of the proposed
technique. The assumed hypothesis is that such competition model exists and
is passible of being analytically evaluated. In addition to that, data reliability
issues will be explored in the semi-supervised learning. Such matter is found to
be of little investigation in the literature. With the purpose of validating these
techniques on real problems, simulations on broadly accepted databases will
be conducted. Ultimately, the proposed mathematical model will be evaluated
against the empirical behavior of the model, with the aid of statistical methods.
Finally, it is expected that this study will contribute, in a relevant manner, to
the machine learning area.
Keywords: competitive learning, random walks, semi-supervised learning, classification, complex networks.

vii

viii

Sumrio

Resumo

Abstract

vii

Sumrio

ix

Lista de Figuras

xi

Introduo
1.1 Objetivos e Motivaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Organizao do Documento . . . . . . . . . . . . . . . . . . . . . . . . . .

Redes Complexas
2.1 Evoluo Histrica . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Modelos de Formao de Rede . . . . . . . . . . . . . . . . . . . .
2.2.1 Redes Randmicas . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Redes de Pequeno Mundo . . . . . . . . . . . . . . . . . . .
2.2.3 Redes Livre de Escala . . . . . . . . . . . . . . . . . . . . .
2.2.4 Redes Aleatrias Clusterizadas . . . . . . . . . . . . . . . .
2.3 Deteco de Comunidades . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Conceitos Relevantes . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Trabalhos Relevantes . . . . . . . . . . . . . . . . . . . . . .
2.3.3 Competio de Partculas para Deteco de Comunidades
2.4 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

Aprendizado Semissupervisionado
3.1 Aprendizado de Mquina . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Aprendizado Semissupervisionado: Definies, Motivaes e Modelos
3.2.1 Uma Breve Evoluo Histrica . . . . . . . . . . . . . . . . . . .
3.2.2 Motivaes para o Aprendizado Semissupervisionado . . . . .
3.2.3 Formulao Matemtica . . . . . . . . . . . . . . . . . . . . . . .
3.3 Abordagens de Aprendizado Semissupervisionado . . . . . . . . . . .
3.3.1 Modelos Generativos . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Mtodos de Separao por Regies de Baixa Densidade . . . . .
3.3.3 Mtodos Baseados em Grafos . . . . . . . . . . . . . . . . . . . .
3.4 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ix

1
5
8

.
.
.
.
.
.
.
.
.
.
.

11
11
13
13
15
17
18
20
20
20
21
23

.
.
.
.
.
.
.
.
.
.

25
25
28
28
29
30
32
32
33
33
47

Sumrio

Resultados Obtidos
4.1 Modelagem do Sistema de Competio de Partculas via Sistema Dinmico Estocstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Viso Geral do Modelo . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Derivao da Matriz de Transio Competitiva . . . . . . . . . . .
4.1.3 O Modelo de Aprendizado Competitivo Semissupervisionado . .
4.1.4 As Condies Iniciais do Sistema Competitivo . . . . . . . . . . .
4.1.5 O Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.6 Anlise de Complexidade Algortmica . . . . . . . . . . . . . . . .
4.2 Anlise Matemtica do Modelo Competitivo . . . . . . . . . . . . . . . .
4.2.1 Resultados Tericos . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Um Exemplo Numrico . . . . . . . . . . . . . . . . . . . . . . . .
4.2.3 Validao dos Resultados Tericos . . . . . . . . . . . . . . . . . .
4.3 Simulaes Computacionais . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Anlise Emprica da Sensibilidade dos Parmetros do Modelo . .
4.3.2 Simulaes com Bases de Dados Artificiais . . . . . . . . . . . . .
4.3.3 Simulaes em Bases de Dados Reais . . . . . . . . . . . . . . . .
4.3.4 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . .

49

Proposta de Pesquisa
5.1 Estratgia de Desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1 Modelagem da Tcnica de Competio de Partculas para Aprendizado Semissupervisionado . . . . . . . . . . . . . . . . . . . . .
5.1.2 Anlise Matemtica do Modelo de Competio Semissupervisionado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.3 Extenso do Modelo Competitivo ao Aprendizado No Supervisionado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.4 Deteco de Vrtices e Comunidades Sobrepostos . . . . . . . . .
5.1.5 Tratamento da Confiabilidade dos Dados no Processo de Aprendizado Semissupervisionado . . . . . . . . . . . . . . . . . . . . .
5.2 Atividades e Cronograma . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Materiais e Recursos Disponveis . . . . . . . . . . . . . . . . . . . . . . .
5.4 Forma de Anlise dos Resultados . . . . . . . . . . . . . . . . . . . . . . .

97
97

Referncias Bibliogrficas

49
49
52
60
62
63
64
67
67
80
83
85
85
87
90
96

98
98
99
100
101
102
103
103
105

Lista de Figuras

1.1

2.1

2.2

2.3
2.4

2.5

3.1

3.2

3.3

Exemplo de rede com estrutura de comunidades retirado de uma rede


de protenas. As cores representam as comunidades. Figura extrada de
(Girvan e Newman, 2002) . . . . . . . . . . . . . . . . . . . . . . . . . . .

Um exemplo de rede aleatria de Erds e Rnyi. (a) uma rede construda


por meio da abordagem randmica proposta por Erds e Rnyi; (b) o
grfico da mdia de distribuio de grau de uma rede apresentando N =
10000 e p = 0.2. Figura integralmente extrada de Costa et al. (2007). . . .

14

Mtodo de construo de uma rede de pequeno mundo, de acordo com


o proposto por Watts e Strogatz em (Watts e Strogatz, 1998). Figura extrada de Costa et al. (2007). . . . . . . . . . . . . . . . . . . . . . . . . . .

16

Comportamento da rede com a mudana do parmetro responsvel pela


frequncia de remanejamento das arestas. . . . . . . . . . . . . . . . . .

16

( a) Ilustrao de uma rede livre de escala; (b) Grfico da distribuio de


grau em funo do grau k. Figura modificada a partir da proposta em
Barabasi e Albert (1999). . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

Esquemtico de uma rede aleatria clusterizada. As comunidades so


representadas pelas cores. Figura integralmente retirada de Papadopoulos et al. (2009). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

Esquemtico dos trs modos de aprendizado de mquina. Aprendizado:


(a) no supervisionado (agrupamento); (b) semissupervisionado (classificao semissupervisionada); (c) supervisionado (classificao supervisionada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

Motivao para o estudo de aprendizado semissupervisionado. A linha


pontilhada mostra o plano decisor que divide as duas classes feita por
um algoritmo supervisionado. A linha contnua denota o plano decisor
gerado por um algoritmo semissupervisionado. . . . . . . . . . . . . . .

30

Motivao para utilizao de grafos. (a) Problema inicial para classificao semissupervisionada. (b) Resultado obtido aplicando SVM. (c)
Resultado obtido aplicando kNN. (d) Resultado ideal. Figura extrada
de Zhou et al. (2003). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

xi

xii

Lista de Figuras

4.1

Uma tpica situao em que a partcula vermelha, presentemente localizada no vrtice v1 , tem de selecionar o prximo vizinho a visitar. Neste
exemplo, h 2 partculas, vermelha e azul (a partcula azul no mostrada). A cor bege denota os vrtices que ainda no foram dominados
por quaisquer partculas at o instante t. . . . . . . . . . . . . . . . . . . .
4.2 Ilustrao do procedimento de reanimao. H duas partculas, a vermelha e azul, localizadas nos vrtices v17 e v1 no instante t, respectivamente, as quais se tornaram exaustas. A rede engloba 20 vrtices. A
cor do vrtice representa qual partcula est impondo o maior nvel de
dominao no tempo t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Diagrama de fluxo que indica, em alto nvel, como o sistema dinmico
evolui no tempo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
(t) se estabilize. Cada ponto na curva
4.4 Tempo consumido para que N
uma mdia de 10 realizaes independentes. As barras verticais de erro
representam o maior e menor tempos de processamento. . . . . . . . . .
4.5 Uma rede construda para ilustrar a trajetria que uma partcula deve
percorrer para aumentar uma entrada arbitrria de N (t) o mais rpido
possvel. (a) Rede sem autolaos; (b) rede com autolaos. . . . . . . . . .
4.6 Comparao entre as distribuies terica e emprica para trs vrtices
distintos: v4 , v11 e v16 em relao ao nvel de dominao imposto pela
partcula vermelha. Pode-se verificar que o nvel de dominao mais
provvel que a partcula vermelha impor ao vrtice v4 ser aproximadamente de 0.88 com 34% de chance, ao vrtice v11 ser 0.53 com 47% de
chance, e ao vrtice v16 ser 0.14 com 33% chance. . . . . . . . . . . . . .
4.7 Acurcia de classificao vs. . Nestas simulaes, N = 1000, h 4
comunidades de mesmo tamanho, k = 16, zout/ k = 0.4 e = 0.07.
Cada ponto na curva a mdia de 100 realizaes. As barras verticais
indicam o desvio padro. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8 Acurcia de classificao vs. . Nestas simulaes, N = 1000, h 4
comunidades de mesmo tamanho, k = 16, zout/ k = 0.4 e = 0.6.
Cada ponto na curva a mdia de 100 realizaes. As barras verticais
indicam o desvio padro. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9 Ilustrao de um processo de classificao semissupervisionada via competio de partculas. As redes possuem 100 vrtices. Vrtices escuros
ainda no foram dominados por nenhuma partcula. As cores nos vrtices representam a partcula que o est dominando. Retrato da rede
quando: (a) t = 0; (b) t = 100; (c) t = 200; e (d) t = 300. . . . . . . . . . .
4.10 Comportamento evolucional do nvel de dominao mdio imposto pelas partculas no modelo. (a) Nvel mdio de dominao imposto pela
partcula 1; e (b) Mesma informao para a partcula 2. . . . . . . . . . .
4.11 Classificao de dados semissupervisionada. A cor do vrtice indica a
partcula que o est dominando. Os pontos escuros so vrtices ainda
no dominados. (a) e (b) Duas classes com formatos de banana; (c) e (d)
Duas classes, cada qual seguindo uma distribuio Highleyman; (e) e (f)
Duas classes, cada qual seguindo uma distribuio Lithuanian; (g) e (h)
Quatro classes, cada qual seguindo uma distribuio Gaussiana. . . . . .

55

59
63

68

74

85

86

87

88

89

91

C APTULO

1
Introduo

Os seres humanos nascem com uma capacidade surpreendente de aprender. Com


ela, absorvem e assimilam conhecimento durante toda a vida. Com o propsito de simular computacionalmente esta capacidade, surgiu a rea da Cincia da Computao
denominada aprendizado de mquina. Essa rea visa a desenvolver mtodos computacionais capazes de aprender com a experincia (Bishop, 2007; Duda et al., 2000;
Mitchell, 1997). Por meio da representao computacional de dados obtidos a partir
de domnios diversos, as tcnicas de aprendizado de mquina podem, de forma automtica, gerar modelos capazes de organizar o conhecimento existente ou ainda imitar
o comportamento de um especialista humano nos domnios considerados. De uma
forma geral, as tcnicas de aprendizado de mquina so tradicionalmente classificadas
em dois modos principais: aprendizado supervisionado e aprendizado no supervisionado
(Bishop, 2007; Mitchell, 1997). No aprendizado supervisionado, o objetivo deduzir
conceitos a partir de exemplos rotulados de acordo com uma classe conhecida. Isto
, o processo de aprendizagem visa construo de uma funo de mapeamento entrada/sada com base na observao dos dados de treinamento fornecidos. Quando
o rtulo composto por valores discretos, o problema denominado classificao e,
quando valores contnuos so utilizados, regresso. J no aprendizado no supervisionado, a tarefa principal est no agrupamento de dados segundo algum critrio de
similaridade estabelecido, e o processo, neste caso, guiado pelos dados, pois no
necessrio um conhecimento prvio sobre as classes existentes (Mitchell, 1997).
A tarefa de rotular manualmente os dados pode ser um processo lento e caro, que
normalmente envolve o trabalho de um especialista. Para lidar com essa dificuldade,
foi proposto o aprendizado semissupervisionado, cujo objetivo primrio reside em propagar os rtulos para os dados no rotulados. O classificador semissupervisionado
1

Captulo 1 - Introduo

induzido a partir de uma base de dados, geralmente, composta por uma grande
quantidade de dados no rotulados e apenas uma pequena parcela de dados rotulados fornecida. Desta forma, o trabalho do especialista na rotulagem dos exemplos
consideravelmente reduzido. Alm disso, resultados empricos tm demonstrado que
a utilizao de dados no rotulados pode aumentar o desempenho do classificador
(Chapelle et al., 2006).
A competio um processo natural observvel na natureza e em diversos sistemas sociais que compartilham recursos escassos, tais como gua, comida, parceiros,
territrios, entre muitos outros. O aprendizado competitivo uma importante abordagem no aprendizado de mquina e amplamente utilizado em redes neurais artificiais para realizar aprendizado no supervisionado. Trabalhos relevantes anteriores
incluem o desenvolvimento do famoso Mapa Auto-Organizvel (SOM - Self-organizing
Map) (Kohonen, 1990), Aprendizado Competitivo Diferencial (Kosko, 1991), e Teoria
de Ressonncia Adaptativa (ART - Adaptive Resonance Theory) (Carpenter e Grossberg,
1987; Grossberg, 1987). Desde ento, muitas redes neurais baseadas em aprendizado
competitivo foram desenvolvidas (Amorim et al., 2007; Athinarayanan et al., 2002; Jain
et al., 2010; Kaylani et al., 2010; Lu e Ip, 2009; Lpez-Rubio et al., 2009; Meyer-Bse e
Thmmler, 2008; N. Allinson e Slack, 2001; Principe e Miikkulainen, 2009; Tan et al.,
2008) e uma vasta gama de aplicaes foi verificada (Bacciu e Starita, 2008; Chen et al.,
2005; Deboeck e Kohonen, 2010; do Rgo et al., 2010; Liu et al., 2008; Wang et al., 2009;
Xu e II, 2005), quais sejam em agrupamento de dados, visualizao computacional
de dados, reconhecimento de padres e processamento de imagens. Sem sombras de
dvidas, redes neurais baseadas em aprendizado competitivo representam um dos
principais sucessos do desenvolvimento de redes neurais. Entretanto, dois problemas
remanescem: (i) geralmente, a rede construda pequena. Desta forma, a competio
ocorre entre um pequeno nmero de neurnios; consequentemente, o modelo pode
no exibir grande robustez para o processamento dos dados. (ii) No h uma ligao
direta entre os dados de entrada e a rede neural treinada. Quando um grande conjunto
de dados mapeado em uma rede com um pequeno nmero de neurnios, constitui
uma tarefa complexa traduzir a correspondncia entre os dados originais e a rede neural treinada. Esta uma das razes pelas quais as redes neurais so, normalmente,
consideradas como sistemas caixa-preta.
Uma caminhada aleatria uma formalizao matemtica de uma trajetria consistindo em tomar sucessivos passos aleatrios. Tal conceito j foi usado para descrever
muitos fenmenos naturais, bem como foi aplicado para resolver inmeros problemas
de engenharia, tais como em correspondncia entre grafos (graph matching) e reconhecimento de padres (Gori et al., 2005), segmentao de imagens (Grady, 2006), modelagem de redes neurais (Jiang e Wang, 2000; Liang et al., 2009), indicao de centralidade
de uma rede (Noh e Rieger, 2004), partio de redes (Zhou, 2003a), construo e an-

lise de redes de telecomunicao (Zeng et al., 2010; Zhong et al., 2008), entre diversos
outros. Entretanto, at o presente momento, no h teoria ainda que descreva um processo geral de vrias caminhadas aleatrias que se interagem.
Nos ltimos anos, ocorreu um intenso desenvolvimento em uma rea de pesquisa
chamada redes complexas. Tais redes tm emergido como um tpico unificador em sistemas complexos e esto presentes em vrios ramos da cincia (Bornholdt e Schuster,
2003). Estruturalmente, as redes complexas so representadas por um grafo de grande
escala G = V , E , em que V representa o conjunto de vrtices e E , o conjunto de
arestas. Segundo Albert et al. (2004), as redes complexas so modelos para sistemas
em geral, em virtude de possurem uma topologia no trivial, alm de serem compostas por uma grande quantidade de vrtices. Dentre alguns exemplos plausveis
de representao em rede, incluem-se: a Internet (Faloutsos et al., 1999), a World Wide
Web (WWW) (Albert et al., 1999), redes neurais biolgicas (Sporns, 2002), redes sociais
entre indivduos (Scott, 2000) e entre companhias e organizaes (Mizruchi, 1982), cadeias alimentares (Montoya e Sol, 2002), redes do metabolismo (Jeong et al., 2000) e
de distribuio como a corrente sangunea (West et al., 1999), rotas de entrega postal e
de distribuio de energia eltrica (Albert et al., 2004), etc. De acordo com (Strogatz,
2001), algumas caractersticas inerentes a esse tipo de rede so: a complexidade estrutural - que se traduz na dificuldade de visualizao da rede; a evoluo - que marca
a constante alterao na estrutura da rede devido incluso e remoo de vrtices
e conexes; a diversidade de conexes - pois estas ligaes entre os vrtices podem
apresentar muitas variaes em suas caractersticas, tais como a capacidade, o comprimento, a largura e o sentido; e a dinmica e a estrutura complexas - as quais influem em
grande escala nos estados de uma rede, j que podem ser entendidas como o trfego
de informaes (Zhao et al., 2007), as ocorrncias de falhas de comunicao (Zhao et al.,
2004, 2005, 2007), as relaes de similaridade entre vrtices, a distribuio de funes
(Newman, 2003), entre outras.
As redes com topologias complexas eram tradicionalmente descritas, em meados
da dcada de 60, de acordo com o modelo proposto em (Erds e Rnyi, 1959), mais conhecido como grafos randmicos ou redes randmicas. Em 1998, Watts e Strogatz descobriram que a mdia de caminhos mais curtos em uma rede pode ser drasticamente
reduzida por uma alterao aleatria de poucas ligaes, partindo-se de uma rede regular (Watts e Strogatz, 1998). Esta rede resultante chamada de Rede de Pequeno
Mundo (Small-World Network). Em 1999, Barabsi e Albert descobriram que muitas
redes reais tm uma distribuio de grau dos vrtices que obedece a lei de potncia:
P(k ) k , na qual k o nmero de ligaes de um vrtice escolhido aleatoriamente
e o expoente de escala (Barabasi e Albert, 1999). Essa distribuio heterognea modela a existncia de um pequeno grupo de vrtices que apresenta um grande nmero
de ligaes. Tais redes so denominadas Redes Livres de Escala (Scale-free Networks).

Captulo 1 - Introduo

Por outro lado, existem as Redes Aleatrias (Random Networks), que tm uma distribuio de grau homognea, resultando, nesse caso, na ausncia de vrtices dominantes.
Ademais, algumas redes complexas, ou modelagens de sistemas e dados como redes, apresentam comunidades (Danon et al., 2007). Tais comunidades podem ser definidas como grupos de vrtices da rede densamente conectados, enquanto que as conexes entre vrtices de grupos diferentes so esparsas (Newman e Girvan, 2004), conforme pode ser observado na Figura 1.1. Pela figura, de fcil percepo que existem
inmeras conexes entre vrtices da mesma comunidade e uma quantidade escassa do
mesmo entre comunidades distintas. As comunidades representam padres de interao entre os vrtices de uma rede e sua identificao importante para o entendimento
dos mecanismos de crescimento e formao da rede (Clauset, 2005).

Figura 1.1: Exemplo de rede com estrutura de comunidades retirado de uma rede de protenas.
As cores representam as comunidades. Figura extrada de (Girvan e Newman, 2002)

Recentemente, muitas tcnicas para a deteco de comunidades tm sido desenvolvidas (Boccaletti et al., 2007; Danon et al., 2007; Newman e Girvan, 2004; Reichardt
e Bornholdt, 2004; Zhou, 2003b). As tcnicas de deteco de comunidades em redes
complexas podem ser diretamente empregadas para se realizar o aprendizado no supervisionado de agrupamento de dados (Cook e Holder, 2000; Karypis et al., 1999;
Quiles et al., 2008; Schaeffer, 2007). Para tanto, o conjunto de dados deve ser transformado em uma rede. Este processo pode ser realizado tomando cada item de dado
como um vrtice de uma rede. As ligaes entre os vrtices definem as similaridades
entre os dados. Assim, dados com maiores similaridades estaro mais conectados en-

tre si e pouco ligados a outros dados com menores similaridades. Logo, a aplicao de
tcnicas de deteco de comunidades na rede permite evidenciar os grupos de vrtices
fortemente ligados, ou seja, as comunidades. Em suma, uma tarefa de agrupamento de
dados se transforma em uma tarefa de deteco de comunidades, to logo que a rede
seja construda a partir do conjunto de dados. Alm disso, essa abordagem apresenta
interessantes vantagens em relao a outras abordagens de agrupamento de dados,
como a capacidade de deteco de clusters de formas variadas e a representao hierrquica dos dados, como, por exemplo, na forma de dendogramas (Duda et al., 2000;
Jain et al., 1999).

1.1

Objetivos e Motivaes

Este projeto de pesquisa traz como objetivo geral o desenvolvimento e fundamentao terico-matemtica de uma nova tcnica de aprendizado semissupervisionado
para a anlise de dados baseada em redes complexas. A hiptese assumida da existncia de tal modelo matemtico que represente o comportamento de competio de
partculas. Os objetivos especficos so listados abaixo.
1. Proposio e desenvolvimento de uma nova tcnica de aprendizado semissupervisionado baseada em competio de partculas em redes complexas. Neste caso,
alguns vrtices da rede so rotulados, ou seja, suas classes (grupos) so previamente definidas. O modelo a ser desenvolvido dever ser capaz de propagar os
rtulos para os outros vrtices da rede via competio e cooperao de partculas, de forma eficiente em relao aos algoritmos j produzidos na literatura. Um
mecanismo de cooperao entre as partculas ser desenvolvido, de forma que
partculas do mesmo time propaguem o mesmo tipo de rtulo (classe). Esperase que a proposio desse modelo dinmico competitivo trar uma contribuio
para o campo de mltiplas caminhadas aleatrias com interao, cuja modelagem e estudo inexistem na literatura.
2. A partir do modelo semissupervisionado desenvolvido na etapa anterior, ser
conduzida uma anlise matemtica do modelo, a fim de descrever o comportamento emprico do mesmo por meio de equaes probabilsticas. esperado
tambm que uma validao seja realizada, com o propsito de constatar se o
modelo matemtico realmente se assemelha com o comportamento emprico do
modelo competitivo.
3. O modelo semissupervisionado ser estendido ao modo de aprendizado no supervisionado. Neste caso, espera-se que o modelo possa realizar tarefas de deteco de comunidades e agrupamento de dados. Para o caso de tarefas de deteco

Captulo 1 - Introduo

de comunidades, sero utilizados benchmarks bem conhecidos (Danon et al., 2005;


Fortunato, 2010) e redes reais para verificar a qualidade do modelo. Quanto s
tarefas de agrupamento de dados, sero utilizadas algumas bases de dados fornecidas pelo repositrio UCI (Frank e Asuncion, 2010) e pela base de dados MNIST
de dgitos manuscritos (LeCun et al., 1998). Por ltimo, a partir da prpria informao gerada pelo modelo competitivo, ser proposta uma medida para estimao do nmero de clusters em uma base de dados.
4. A partir do modelo de competio de partculas proposto, ser estudada e desenvolvida uma nova medida para deteco de vrtices sobrepostos (overlapping
vertices). Para validar a medida proposta, simulaes com bases de dados conhecidas na literatura sero conduzidas, tais como a rede de karat de Zachary
(Zacharys karate club network) (Zachary, 1977), rede social de golfinhos (dolphin social network) (Lusseau, 2003), rede da novela Les Misrables (Les Misrables network)
(Knuth, 1993), rede representando uma liga de futebol americano (American college football network) (Girvan e Newman, 2002) e rede de colaborao cientfica
(scientific collaboration network) (Newman, 2006).
5. Na ltima fase, ser tratado do assunto de confiabilidade na classificao dos
dados no aprendizado semissupervisionado. Especificamente, espera-se que a
tcnica a ser desenvolvida seja capaz de: (i) oferecer nvel de pertinncia de cada
item de dado a cada classe (soft-label), ao invs de s oferecer rtulo de classe
(hard-label); e (ii) detectar outliers e, consequentemente, impedir a sua propagao. Por fim, sero conduzidos estudos e anlises de propagao de erros (dados
erroneamente rotulados) junto propagao de rtulos em redes, ou seja, certa
percentagem de erros ser introduzida antes do processo de propagao de rtulos. Pretende-se identificar, com isso, o ponto crtico de porcentagem de erros introduzidos que leva a uma preciso de classificao drasticamente decada.
Esse tipo de estudo muito importante no s para obter uma classificao precisa, mas tambm para obter um melhor entendimento do conjunto de dados em
processamento.
As motivaes vm do fato de que as redes complexas so ferramentas poderosas para muitas disciplinas da cincia, inclusive para a modelagem e a aplicao de
aprendizado de mquina em anlise de dados. Em razo da alta complexidade e da
versatilidade dessa aproximao, ainda existe um grande espao para explorao.
Outra motivao embasa-se no argumento que o processo de competio de partculas muito similar a diversos processos sociais e naturais, quais sejam: competio
entre animais, explorao territorial por humanos (animais), campanhas eleitorais, entre outros. Ademais, a movimentao aleatrio-preferencial incorporada na poltica de

1.1 - Objetivos e Motivaes

movimentao das partculas pode, de forma substancial, melhorar a taxa de classificao, como ser visto no captulo de resultados obtidos. Este modelo corrobora a
importncia do papel da aleatoriedade em sistemas evolucionrios, cuja funo principal de evitar, de forma automtica, que as partculas caiam em armadilhas locais,
alm de proporcionar, para as partculas, a habilidade de explorar territrios desconhecidos. Logo, uma certa quantidade de aleatoriedade essencial para o processo
de aprendizado. Tal aleatoriedade incumbida de representar o estado No sei e
presta-se como um eficiente explorador de novas caractersticas.
O modelo de competio de partculas foi originalmente proposto em Quiles et al.
(2008) no campo de aprendizado no supervisionado, em que apenas um procedimento de competio de partculas foi introduzido, sem nenhuma definio formal.
Tal tcnica mostra pelo menos duas vantagens salientes, em cotejo entre muitas outras
tcnicas de deteco de comunidades atuais (Boccaletti et al., 2007; Danon et al., 2007;
Newman e Girvan, 2004; Reichardt e Bornholdt, 2004; Zhou, 2003b): (i) o mecanismo
de competio de partculas no s oferece uma tcnica de deteco de comunidades,
mas tambm apresenta um esquema geral de aprendizado de mquina competitivo;
e (ii) a tcnica apresenta alta preciso de deteco e, ao mesmo tempo, baixa ordem
de complexidade computacional. No trabalho presente, uma definio rigorosa ser
fornecida, na qual a competio de partculas formalmente modelada a partir de um
sistema dinmico estocstico. Tal modelo , ao contrrio do originalmente proposto em
Quiles et al. (2008), utilizado em classificao semissupervisionada, i.e., no campo de
aprendizado semissupervisionado. Alm disso, um mecanismo de cooperao entre
as partculas ser introduzido. Tendo em vista que o modelo de vrias partculas que
se interagem corresponde a muitos sistemas naturais e artificiais, o estudo deste tpico configura-se como uma importante tarefa. Em virtude da ausncia de teoria para
tais modelos, este trabalho (a definio do modelo per se) um importante passo para
compreender e dominar tais sistemas. Adicionalmente, o mecanismo de cooperao
entre partculas permite que partculas do mesmo time propaguem o mesmo tipo de
rtulo e, ao mesmo tempo, times distintos compitam uns contra os outros para definir
as bordas das classes. Outra caracterstica saliente do modelo a propagao local dos
rtulos, i.e., em decorrncia do processo competitivo, cada partcula apenas visita uma
poro de vrtices potencialmente pertencente quela partcula ou ao seu time. Esta
caracterstica pode ser entendida como um efeito dividir para conquistar embutido
no prprio esquema competitivo-cooperativo. Em funo disto, muitas caminhadas
longas e redundantes realizadas pelas partculas so evitadas. Como resultado, o algoritmo apresenta complexidade temporal baixa. Outra particularidade importante
que a rede subjacente construda diretamente do conjunto de dados de entrada; portanto, a correspondncia entre os dados de entrada e o resultado de processamento (a
rede final) mantida. Como consequncia disso, o efeito caixa-preta, o qual existe,

Captulo 1 - Introduo

por exemplo, em muitos sistemas competitivos neurais, significativamente reduzido.


As tcnicas tradicionais de aprendizado semissupervisionado baseadas em grafo
envolvem minimizao de uma funo de custo e multiplicao de matrizes. Desta
forma, a complexidade computacional dessas tcnicas geralmente da ordem O(V 3 )
ou superiores (Belkin e Niyogi, 2003; Belkin et al., 2004; Zhou et al., 2003), onde V
o nmero de vrtices. Espera-se que os modelos gerados baseados em competio
de partculas sejam mais eficientes, o que importante para tratar grandes bases de
dados. Portanto, a tcnica a ser proposta deve tentar suprir essa lacuna, no que tange
complexidade computacional.
Quanto deteco de vrtices e comunidades sobrepostos, deve ser exaltado que
a maioria dos mtodos de deteco de comunidades propostos na literatura objetiva
designar um vrtice a apenas um grupo (classe) (Danon et al., 2005; Fortunato, 2010).
Entretanto, em redes reais, os vrtices normalmente so compartilhados entre grupos
diferentes (Fortunato, 2010). Por exemplo, em uma rede de associao semntica de
conceitos (Kiss et al., 1973), o conceito Brilhante pode ser um membro de vrios grupos, tais como o grupo representando os conceitos relativos Luz, Astronomia,
Cor, e assim sucessivamente (Palla et al., 2005). Em uma rede social, cada pessoa
naturalmente pertence ao grupo da empresa em que trabalha e tambm ao grupo representando os membros de sua famlia. Diante desse cenrio, a descoberta de vrtices
sobrepostos importante no s para minerao de dados, mas tambm para a anlise
dos dados em geral.
Em aprendizado semissupervisionado, o problema de confiabilidade pode ser
ainda mais crtico, pois uma pequena quantidade de erros pode se espalhar desde um
pequeno subconjunto at o conjunto inteiro de dados. Por exemplo, em um diagnstico mdico, em virtude da quantidade de trabalho e da complexidade do problema,
pode acontecer que somente uma pequena percentagem de sintomas classificada (rotulada) por determinado especialista humano. A tcnica de aprendizado semissupervisionado deve propagar esses rtulos de classes para sintomas (itens de dados) no
rotulados. Neste processo, o erro em rotulao de poucos sintomas pode contaminar
uma percentagem razovel de sintomas no rotulados, causando diagnsticos errados.
Portanto, a confiabilidade de resultados do aprendizado semissupervisionado, apesar
de pouco estudada, crucial em muitos sistemas de classificao. Por isso, este projeto
de pesquisa tem a expressa preocupao de tratar do assunto referente confiabilidade
dos dados no contexto de aprendizado semissupervisionado.

1.2

Organizao do Documento

Este documento foi organizado da seguinte forma: nos Captulos 2 e 3, sero fornecidos uma reviso bibliogrfica pertinente ao projeto de pesquisa proposto: Redes

1.2 - Organizao do Documento

Complexas e Aprendizado Semissupervisionado, respectivamente. No captulo 4, os


resultados obtidos so apresentados minuciosamente. Por fim, no captulo 5, apresentado o plano de pesquisa deste projeto.

10

Captulo 1 - Introduo

C APTULO

2
Redes Complexas

Neste captulo, ser apresentada toda fundamentao terica relevante ao plano de


pesquisa desse projeto concernente rea de Redes Complexas. Aqui sero ilustrados
a trajetria de evoluo desse sub-ramo de pesquisa da rea de Inteligncia Artificial,
as suas principais tcnicas de formao de rede, bem como os conceitos e mtodos de
deteco de comunidades.

2.1

Evoluo Histrica

O estudo de redes teve incio a partir do desenvolvimento da teoria dos grafos,


inaugurada por Leonhard Euler em 1736 com a soluo do problema das sete pontes de Knigsberg, hoje, Kaliningrado, Rssia. O problema, bem discutido na poca,
registrava que existiam sete pontes que atravessavam o rio Pregel, com duas ilhas intermedirias, com as quais os moradores desejavam saber se era possvel atravessar
todas essas sete pontes, sem repetio, e regressar ao ponto de partida. Euler demonstrou para a Academia de Cincias Russa de So Petersburgo, analiticamente, que no
era possvel completar tal caminhada, com auxlio de uma representao grfica constituda de pontos e curvas interligando estes pontos. Era o incio da representao formal e grfica de uma rede ou grafo, at hoje conhecido, com vrtices e arestas. A partir
desse momento, vrios pesquisadores comearam a estudar esse ramo de pesquisa em
busca de novos teoremas e aplicaes (Newman, 2003).
De fato, o primeiro grande passo para o estudo de Redes Complexas foi impulsionado por Paul Erds e Alfrd Ryni que analisaram um certo tipo de rede, denominada
de redes aleatrias, ou redes randmicas, em seu trabalho publicado em 1959, abrindo
11

12

Captulo 2 - Redes Complexas

portas para uma rea de estudos: a teoria de redes aleatrias, que representa uma mistura de teoria dos grafos e teoria da probabilidade (Erds e Rnyi, 1959).
Seguindo a cronologia, em 1967, Stanley Milgram resolveu aceitar o desafio proposto por Frigyes Karinthy, inspirado pelas conjecturas de Guglielmo Marconi em
1909, o qual desafiava algum encontrar outra pessoa a qual no poderia ser conectada por meio de, no mximo, 5 pessoas intermedirias (Milgram, 1967). Estava lanado o conceito denominado de separao em seis graus, que constituiu a semente
para o estudo de redes de pequeno mundo. Para solucionar tal desafio, Milgram conduziu experimentos no intuito de tentar descobrir a probabilidade de duas pessoas
quaisquer se conhecerem. Para tanto, foram enviadas cartas para pessoas aleatrias
residentes em regies pr-determinadas dos Estados Unidos, cujo contedo versava
sobre informaes de outra pessoa qualquer. Caso a pessoa referida na carta fosse conhecida pelo leitor, ento este remetia a carta para o destinatrio. Por outro lado, caso
no a conhecesse, ento deveria enviar para alguma outra pessoa conhecida. No fim
do experimento, Milgram constatou que a mdia de encaminhamentos de uma pessoa
para outra atingia 5, 5 pessoas. Estava, portanto, descoberta a propriedade de pequeno
mundo, em termos empricos, que afirma que mesmo que existam milhes de vrtices interconectados em uma rede social, a distncia mdia entre eles no passa de um
pequeno valor, no caso do exemplo, 5, 5 pessoas (Milgram, 1967).
Apesar das concluses de Milgram, foi somente no final da dcada de 90 que as
pesquisas foram retomadas nesta rea. Em 1998, Watts e Strogatz descobriram que a
mdia de caminhos mais curtos em uma rede pode ser drasticamente reduzida por
uma alterao aleatria de poucas ligaes, partindo-se de uma rede regular (Watts e
Strogatz, 1998). Esta rede resultante chamada de Rede de Pequeno Mundo (SmallWorld Network), j empiricamente descoberta por Milgram. Em 1999, Barabsi e Albert
descobriram que muitas redes reais tm uma distribuio de grau dos vrtices que
obedece a lei de potncia: P(k) k , na qual k o nmero de ligaes de um vrtice
escolhido aleatoriamente e o expoente de escala (Barabasi e Albert, 1999). Essa
distribuio heterognea modela a existncia de um pequeno grupo de vrtices que
possuem um grande nmero de ligaes. Tais redes so denominadas Redes Livre de
Escala (Scale-free Networks).
Impulsionada pelo avano tecnolgico computacional e as crescentes propores
de dados a serem analisados, as redes complexas tm emergido como um tpico unificador em sistemas complexos e esto presentes em vrios ramos da cincia (Bornholdt
e Schuster, 2003). Estruturalmente, as redes complexas so representadas por um grafo
de grande escala G = V , E , onde V representa o conjunto de vrtices e E , o conjunto
de arestas. Segundo Albert et al. (2004), as redes complexas so modelos para sistemas
em geral, em virtude de possurem uma topologia no trivial, alm de serem compostas por uma grande quantidade de vrtices. Dentre alguns exemplos plausveis de

2.1 - Evoluo Histrica

13

representao em rede, incluem-se: a Internet (Faloutsos et al., 1999), a World Wide Web
(Albert et al., 1999), redes neurais biolgicas (Sporns, 2002), redes sociais entre indivduos (Scott, 2000) e entre companhias e organizaes (Mizruchi, 1982), cadeias alimentares (Montoya e Sol, 2002), redes do metabolismo (Jeong et al., 2000) e de distribuio
como a corrente sangunea (West et al., 1999), rotas de entrega postal e de distribuio
de energia eltrica (Albert et al., 2004), etc. De acordo com (Strogatz, 2001), algumas caractersticas inerentes a esse tipo de rede so: a complexidade estrutural - que se traduz
na dificuldade de visualizao da rede; a evoluo - que marca a constante alterao
na estrutura da rede devido incluso e remoo de vrtices e conexes (Dorogovtsev e Mendes, 2003); a diversidade de conexes - pois estas ligaes entre os vrtices
podem apresentar muitas variaes em suas caractersticas, tais como a capacidade, o
comprimento, a largura e o sentido; e a dinmica e a estrutura complexas - as quais
influem em grande escala nos estados de uma rede, j que podem ser entendidas como
o trfego de informaes (Zhao et al., 2007), as ocorrncias de falhas de comunicao
(Zhao et al., 2004, 2005, 2007), as relaes de similaridade entre vrtices, a distribuio
de funes (Newman, 2003), entre outras.

2.2

Modelos de Formao de Rede

Com a expectativa de estudar propriedades topolgicas que esto presentes em


redes reais, diversos modelos de redes foram propostos. Alguns desses modelos, inclusive, ensejam um estudo aprofundado devido s suas caractersticas de grande interesse. Como exemplo de categorias de redes importantes, podem ser elencadas: redes
randmicas, o modelo de pequeno mundo, as redes aleatrias clusterizadas e as redes
de Barabsi-Albert, mais conhecidas como redes livres de escala (Costa et al., 2007).
Nas prximas subsees, sero revisados os principais modelos de rede conhecidos na
literatura.

2.2.1

Redes Randmicas

A rede desenvolvida por Erds e Rnyi pode ser considerada o modelo mais fundamental das redes complexas. No seu artigo de 1959 (Erds e Rnyi, 1959), Erds
e Rnyi apresentaram um modelo gerador de redes aleatrias consistindo de N vrtices e M arestas. Iniciando de N vrtices completamente desconectados (nenhuma
aresta na rede), a rede construda a partir da adio de L arestas aleatoriamente, sempre evitando conexes mltiplas ou autoconexes (determinado vrtice i ligar com ele
mesmo). Outro modelo similar define N vrtices e uma probabilidade p de conectar
cada par de vrtices. O ltimo modelo amplamente reconhecido como o modelo de
Erds e Rnyi. A Figura 2.1a mostra um exemplo que goza dessa propriedade de rede

14

Captulo 2 - Redes Complexas

randmica.

Figura 2.1: Um exemplo de rede aleatria de Erds e Rnyi. (a) uma rede construda por meio
da abordagem randmica proposta por Erds e Rnyi; (b) o grfico da mdia de distribuio de
grau de uma rede apresentando N = 10000 e p = 0.2. Figura integralmente extrada de Costa
et al. (2007).

Uma vez que, para cada vrtice i da rede (de um total de N), existem N 1 possibilidades de conexo, segue que a cardinalidade do espao amostral, que representa a
totalidade de opes em uma rede que uma aresta pode existir, dada por:

|| =

N ( N 1)
,
2

(2.1)

sendo que a diviso por dois decorre do fato que as arestas aqui tomadas no so
direcionadas, isto , se existe uma aresta que origina de vi e termina em v j , ento, por
consequncia, considera-se que a mesma aresta tambm origina-se em v j e termina em
vi . Em termos gerais, a presena dessas duas arestas representa a ocorrncia do mesmo
evento probabilstico. Tendo como base que, para cada aresta que esteja inclusa no
espao amostral , existe a probabilidade p dela ocorrer e de 1 p, no caso contrrio,
e sabendo que h ( N k1) formas de escolher k vrtices entre N 1 no total, e pk a
probabilidade deles terem k arestas, ento ( N k1) pk representa a probabilidade de um
vrtice da rede possuir arestas para k outros vrtices. Entretanto, deve-se impor no
modelo que no exista mais nenhuma aresta, alm dessas k, ou seja, para a quantidade
de vrtices restantes, dada por N 1 k, que deva ocorrer o evento complementar
de existir arestas, isto , (1 p)( N 1k) . Portanto, a distribuio de grau segue uma
Binomial ( N 1, p), cuja equao regida pela seguinte expresso:
P(grau(k )) =

N1 k
p (1 p)( N 1)k .
k

(2.2)

2.2 - Modelos de Formao de Rede

15

Dado que N e p sejam suficiente pequenos, possvel mostrar que uma


Binomial ( N 1, p) aproxima-se da distribuio de Poisson() (Meyn e Tweedie, 2009),
com a seguinte expresso de relacionamento:

( N 1) p = .

(2.3)

Retomando da teoria de probabilidade que a mdia e varincia de uma distribuio


de Poisson() so dadas simplesmente por = 2 = , nota-se, a partir da observao
da rede na Figura 2.1b, a qual construda a partir dos parmetros N = 10000 e p = 0.2,
que a distribuio realmente de Poisson com mdia (pico) prxima de = ( N
1) p = (10000 1)0.2 2000.
Ademais, a mdia do menor caminho l pequena nessas redes, aumentando de
ln( N )
forma proporcional ao logaritmo do tamanho da rede, isto , l ln( k ) , sendo k
dado pela mdia da distribuio de Poisson (mdia do grau), ou seja, k = = ( N
1) p, sempre que N e p sejam suficiente pequenos (Costa et al., 2007).
A maior descoberta de Erds e Rnyi foi que muitas propriedades importantes
de uma rede randmica aparecem conforme se incrementam os hiperparmetros da
Binomial ( N 1, p), de forma que, por exemplo, para uma determinada probabilidade
crtica p, a maioria das redes apresentam alguma propriedade especfica Q, tal como
apresentar apenas um componente. Para valores superiores a essa probabilidade crtica, a rede no mais apresenta um nico componente, mas sim vrios sub-grafos desconexos (Newman, 2003).

2.2.2

Redes de Pequeno Mundo

Muitas redes do mundo real exibem a propriedade de mundo pequeno, isto , a


maioria dos vrtices pode ser atingido por quaisquer outros, por meio de um pequeno
nmero de arestas. Esta caracterstica encontrada, por exemplo, em redes sociais,
onde praticamente todas as pessoas do mundo podem ser alcanadas por uma pequena cadeia de pessoas (Watts, 2003; Watts e Strogatz, 1998).
De forma a construir uma rede que goze da propriedade de pequeno mundo, podese utilizar um processo de formao de rede da seguinte forma: a rede inicialmente
regular, composta de N vrtices, tal como mostra a Figura 2.2, na qual cada vrtice
conecta-se com os seus k vizinhos mais prximos em cada direo, totalizando 2k conexes. Em seguida, cada aresta aleatoriamente remanejada, isto , dado um vrtice
i qualquer da rede, toma-se uma aresta genrica ligando os vrtices i e j e troca-se o
vrtice-destino ao qual aquela aresta ligava, ou seja, substitui-se j por um outro vrtice
k qualquer, tal que j = k, com uma probabilidade p. Quando p = 0, no haver remanejamentos e, portanto, a rede continuar sendo regular, enquanto que, para o caso em
que p tende ao valor mximo 1, o remanejamento se torna constante e muito provvel

16

Captulo 2 - Redes Complexas

que todas as arestas troquem de vrtice-destino (Watts e Strogatz, 1998). A Figura 2.3
traz um esquemtico do comportamento do parmetro p, responsvel pela frequncia
de remanejamento das arestas. Perceba que para valores de p pequenos, tem-se redes
efetivamente regulares. Conforme p aumenta, a propriedade de pequeno mundo se
torna evidente. Quando p = 1, a rede se torna randmica. O pico da distribuio de
grau, seguindo esta abordagem de construo, se localiza prximo do valor 2k (Watts,
2003; Watts e Strogatz, 1998).

Figura 2.2: Mtodo de construo de uma rede de pequeno mundo, de acordo com o proposto
por Watts e Strogatz em (Watts e Strogatz, 1998). Figura extrada de Costa et al. (2007).

Figura 2.3: Comportamento da rede com a mudana do parmetro responsvel pela frequncia
de remanejamento das arestas.

A implicao imediata para redes que apresentem a propriedade de pequeno


mundo que o transporte de qualquer informao, posto que ela foi gerada em qualquer vrtice da rede, muito rpido. Por exemplo, no contgio viral: dado que uma
pessoa contraiu algum vrus, o qual esteja vivendo em um ambiente propcio para sua
multiplicao e disseminao, ento, espera-se que, em pouco tempo, vrias pessoas
estejam contagiadas por este vrus.

2.2 - Modelos de Formao de Rede

2.2.3

17

Redes Livre de Escala

Em um estudo proposto por Barabsi e Albert, eles notaram que algumas redes
possuem um pequeno nmero de vrtices com graus elevados, enquanto que a maioria possui graus muito reduzidos (Barabasi e Albert, 1999). Com esta observao em
mente, em 1999, eles propuseram as redes livre de escala, na qual a distribuio de
grau obedece a lei de potncia (power-law) dada por:
P (k ) k ,

(2.4)

onde representa um expoente de escala. Analiticamente, pode ser mostrado que o


modelo de construo que ser estudado abaixo evolui para um estado de escala invariante, o qual segue uma a lei de potncia com expoente = 3, independentemente do
conjunto inicial de vrtices (Barabasi e Albert, 1999). Perceba que, fixando , conforme
o grau k aumenta, o nmero de vrtices que possui grau k diminui. Assim, esperase que P(k ) tenha um alto valor para baixos valores de k e um baixo valor para altos
valores de k, o que condiz com a observao encontrada por Barabsi e Albert.
O modelo de rede de Barabsi e Albert baseia-se em duas regras fundamentais: o
crescimento e a ligao preferencial. A rede gerada a partir de um conjunto m0 de vrtices. Em seguida, a cada passo da construo, a rede cresce por meio da adio de
novos vrtices. Para cada novo vrtice agregado, m novas arestas so inseridas entre
o novo vrtice e alguns vrtices anteriores aleatoriamente escolhidos. Os vrtices que
recebem essas novas arestas so escolhidos segundo uma regra de ligao preferencial
linear, isto , a probabilidade de um novo vrtice i se conectar com um vrtice j existente proporcional ao grau do vrtice j. Em termos matemticos, se k i denotar o grau
do vrtice i, ento esta caracterstica pode ser precisamente indicada por:
P (i j ) =

kj
.
u k u

(2.5)

Portanto, os vrtices mais conectados possuem maior probabilidade de receber a


ligao de novos vrtices. Barabasi e Albert (1999) argumentaram que a natureza das
redes livre de escala estava associada a dois mecanismos bsicos, compartilhados por
diversos tipos de redes reais. Os modelos anteriores consideravam um conjunto inicial
de vrtices fixo, dado por N, e apenas o conjunto de arestas era modificado conforme
avanavam-se nos passos do algoritmo de formao de rede. A maioria das redes reais,
no entanto, representa sistemas que crescem pela adio contnua de vrtices, que
caracterstico de redes complexas, devido sua dinamicidade. Partindo de um ncleo
pequeno de vrtices, o nmero de vrtices total aumenta durante a vida til da rede,
por meio de subsequentes adies de vrtices. Um exemplo clssico a World Wide
Web, cujo crescimento exponencial em relao ao tempo, tendo em vista que a adio

18

Captulo 2 - Redes Complexas

de novas pginas ocorre a praticamente todo momento. Outro ponto que difere das
abordagens anteriores que os modelos vistos assumem que a probabilidade de dois
vrtices serem conectados independe do grau dos vrtices, ou seja, feita de forma
uniformemente aleatria. A maioria das redes reais, todavia, exibe a propriedade de
ligao preferencial, na qual a existncia de uma aresta depende diretamente do grau
do vrtice em questo. Retomando o exemplo da World Wide Web, fica evidente que
muito mais provvel haver uma ligao de uma nova pgina a outra que seja mais
referenciada em relao quelas j existentes na rede (Barabasi e Albert, 1999). A Figura
2.4a ilustra um exemplo de rede livre de escala. Perceba que, com o auxlio da Figura
2.4b, constata-se um nmero reduzido de vrtices com grau alto (evidenciado com
cores na rede em Figura 2.4a), enquanto que existem muitos vrtices com grau baixo,
o que mostra a tendncia de novos vrtices de se conectarem a vrtices com graus j
elevados.

Figura 2.4: ( a) Ilustrao de uma rede livre de escala; (b) Grfico da distribuio de grau em
funo do grau k. Figura modificada a partir da proposta em Barabasi e Albert (1999).

2.2.4

Redes Aleatrias Clusterizadas

Algumas redes reais, tais como sociais e biolgicas, apresentam estruturas modulares (Girvan e Newman, 2002). Essas redes so constitudas de conjuntos ou comunidades de vrtices, com a caracterstica de que vrtices pertencentes a mesma comunidade
possuem muitas arestas os interligando e, ao mesmo tempo, vrtices de comunidades
distintas possuem poucas arestas ligando uma comunidade com a outra. Um modelo
para gerar tais comunidades foi proposto por Girvan e Newman (2002). Inicialmente,
um conjunto de N vrtices disposto em M comunidades distintas, sem sobreposio.

2.2 - Modelos de Formao de Rede

19

Em seguida, dois vrtices so selecionados e conectados com probabilidade pin , se eles


pertencerem a mesma comunidade, ou pout , se eles forem oriundos de comunidades
distintas. Os valores de pin e pout devem ser escolhidos de acordo com quo definidas
as comunidades devem ser. Um valor alto de pin remete a uma rede com comunidades
bem definidas, enquanto que valores baixos tornam a propriedade de comunidades na
rede pouco visvel. Em termos empricos, pout
pin para haver comunidades bem
definidas na rede. A Figura 2.5 ilustra uma rede com quatro comunidades bem definidas. Atente s comunidades na figura as quais apresentam-se de forma bem definida,
j que o nmero de arestas ligando vrtices da mesma comunidade muito maior
que a quantidade de arestas ligando vrtices de comunidades distintas. Diante dessas
quantidades, tambm definem-se o nmero de arestas intracomunidades e intercomunidades zin e zout , respectivamente, para uma rede arbitrria de grau mdio k . Com
base nisso, pode-se definir a frao de arestas intracomunidades zin/ k e, da mesma
forma, a frao de arestas intercomunidades zout/ k . A quantidade zout/ k quantifica a
mistura entre as comunidades, i.e., conforme zout/ k aumenta, as comunidades ficam
mais difceis de serem visualizadas. Estas quantidades so bastante utilizadas no benchmark proposto em Danon et al. (2005), o qual ser utilizado neste projeto em captulos
posteriores.

Figura 2.5: Esquemtico de uma rede aleatria clusterizada. As comunidades so representadas pelas cores. Figura integralmente retirada de Papadopoulos et al. (2009).

20

2.3

Captulo 2 - Redes Complexas

Deteco de Comunidades

Nesta seo, ser dada uma viso geral sobre os conceitos e tcnicas de deteco de
comunidades. Especificamente, especial ateno ser importada tcnica proposta em
Quiles et al. (2008), uma vez que o plano de pesquisa relaciona-se com esta tcnica.

2.3.1

Conceitos Relevantes

A cincia moderna em redes trouxe um avano substancial para o entendimento de


redes complexas. Uma das caractersticas evidentes e de destaque em redes complexas
a presena de comunidades. A noo de comunidade em redes direta: cada comunidade definida como um sub-grafo cujos vrtices esto densamente interconectados,
e, ao mesmo tempo, tais vrtices possuem poucas ligaes com o restante da rede. A
deteco de comunidades em redes complexas tornou-se um importante tpico em minerao em grafos e dados (Danon et al., 2005; Fortunato, 2010; Newman, 2004a). Na
teoria dos grafos, a deteco de comunidades corresponde ao problema de partio de
grafos, o qual j foi mostrado ser um problema NP-completo (Fortunato, 2010).
Outro conceito importante de comunidades e vrtices sobrepostos (Fortunato,
2010). Tais vrtices so definidos como membros de mais de uma comunidade ou
classe ao mesmo tempo (Palla et al., 2005). Por exemplo, em uma rede de associao semntica de conceitos (Kiss et al., 1973), o conceito Brilhante pode ser um membro de
vrios grupos, tais como o grupo representando os conceitos relativos Luz, Astronomia, Cor, e assim sucessivamente (Palla et al., 2005). Em uma rede social,
cada pessoa naturalmente pertence ao grupo da empresa em que trabalha e tambm
ao grupo representando os membros de sua famlia. Diante desse cenrio, a descoberta
de vrtices e comunidades sobrepostos importante no s para minerao de dados,
mas tambm para a anlise dos dados em geral.

2.3.2

Trabalhos Relevantes

Tendo em vista que o problema de deteco de comunidades de forma exata


NP-completo, muitos esforos esto sendo gastos para desenvolver solues aproximadas e eficientes, tais como mtodos espectrais (Newman, 2006), a tcnica baseada
na medida betweenness (Newman, 2004a), otimizao da modularidade (Newman,
2004b), deteco de comunidades baseada no modelo de Potts (Reichardt e Bornholdt,
2004), sincronizao (Arenas et al., 2006), teoria da informao (Fortunato et al., 2004) e
caminhadas aleatrias (Zhou, 2003a). Fortunato (2010) apresenta uma recente reviso
neste tpico.
Quanto s tcnicas de deteco de vrtices e comunidades sobrepostos, vrios mtodos foram propostos na literatura (Evans e Lambiotte, 2009; Lancichinetti et al., 2009;

2.3 - Deteco de Comunidades

21

Nicosia et al., 2009; Palla et al., 2005; Shen et al., 2009; Sun et al., 2011; Zhang et al., 2007).
Em Zhang et al. (2007), os autores combinam a ideia da funo de modularidade Q, relaxao espectral e agrupamento por meio de fuzzy c-means com o intuito de construir
uma nova funo de modularidade baseada na funo generalizada Q de Newman e
Girvan. Em Palla et al. (2005), as estruturas de comunidades so descobertas por meio
de percolaes em cliques de k vrtices, enquanto que as sobreposies em comunidades so garantidas pelo fato que um vrtice pode participar de mais de um clique
ao mesmo tempo. Entretanto, o mtodo por cliques de tamanho k traz alguns efeitos indesejveis, e.g., alguns vrtices podem no pertencer a nenhuma comunidade na
rede. Alm disso, a estrutura hierrquica pode no ser revelada, dependendo da escolha do parmetro k. Em Lancichinetti et al. (2009), apresentado um algoritmo que
encontra tanto comunidades sobrepostas, quanto a estrutura hierrquica das parties
em comunidades, por intermdio de uma funo de otimizao e um parmetro de
resoluo fornecidos pelo usurio. Recentemente, Evans e Lambiotte (2009) propuseram um mtodo para reconhecer estrutura de comunidades sobrepostas por meio da
partio de um grafo em sub-grafos menores. Um ponto negativo da maioria dessas
tcnicas que a deteco de comunidades e vrtices sobrepostos realizada como um
processo dedicado, ou seja, separado do processo de deteco de comunidades. Desta
forma, um processamento computacional adicional necessrio.

2.3.3

Competio de Partculas para Deteco de Comunidades

A tcnica proposta por Quiles et al. (2008) ser estudada em detalhes nesta seo,
uma vez que ela se assemelha muito ao principal tpico de pesquisa desse documento.
Em termos gerais, tal tcnica se baseia em competio de partculas. Essas partculas navegam na rede com o propsito de conquistar novos vrtices, enquanto que,
tambm, tentam defender seus vrtices previamente conquistados. O modelo foi originalmente proposto para deteco de comunidades em redes complexas e, portanto,
figura-se como uma tcnica pertencente ao aprendizado no supervisionado.
Um partcula, denotada por j , matematicamente expressa por duas variveis escalares: (i) vj (t), a qual representa o vrtice vi visitado pela partcula j no instante t; e
(ii)
j ( t ) [ min , max ], a qual indica o potencial de explorao da partcula no tempo
t. A dinmica que rege a movimentao e atualizao da capacidade de explorao das
partculas dada por:

vj (t + 1) = vi

(2.6)

22

Captulo 2 - Redes Complexas

j (t)

j ( t + 1) = j ( t ) + ( max j ( t ))

(t) ( (t) )
j

se vi (t) = 0

se vi (t) = j = 0
se

min

vi ( t )

(2.7)

= j = 0

onde controla a variao do nvel de explorao ou potencial que cada partcula


perde ou ganha, dependendo da natureza do vrtice que visita. Especificamente, caso
visite um vrtice dominado pela partcula visitante, o nvel de explorao daquela partcula aumentado, caso contrrio, decrementado.

Cada vrtice vi da rede representado por meio de trs variveis escalares: (i) vi (t),
a qual define a partcula proprietria do vrtice vi no instante t; (ii) vi (t) indica o nvel

de dominao imposto pela partcula j ao vrtice vi no instante t; e (iii) vi simboliza


se o vrtice vi est sendo visitado por alguma partcula no instante t. Com o auxlio
dessas variveis, a dinmica dos vrtices regida pelo seguinte conjunto de equaes:

v i ( t + 1)

vi ( t )
j

se vi (t) = 0

se vi (t) = 1 e vi (t) = min

vi ( t )

v i ( t + 1) =
max{min , vi (t) v }


j ( t + 1)

(2.8)

se vi (t) = 0

se vi (t) = 1 e vi (t) = j

se vi (t) = 1 e vi (t) = j

(2.9)

onde v denota a frao de nvel de explorao perdida por um vrtice, caso uma
partcula rival venha a visit-lo. O algoritmo de deteco de comunidades inicia inserindo K partculas em K vrtices escolhidos aleatoriamente. No incio do processo
dinmico, cada partcula j e cada vrtice vi possuem potencial igual a
j (0) = min
e vi (t) = min , respectivamente. Alm disso, cade vrtice no dominado por nenhuma partcula, i.e., ela est no estado livre, o qual matematicamente modelado por

vi (0) = 0. A cada iterao, cada partcula escolhe um vrtice para visitar, segundo
uma poltica de movimentao aleatria ou determinstica. Na primeira, a partcula
visita aleatoriamente os vizinhos, enquanto que, na segunda, a partcula prefere visitar vrtices j dominados por ela. A seguir, ilustram-se os casos que podem ocorrer
quando da escolha, por um partcula, de um vrtice adjacente:

1. Se o vrtice visitado vi ainda no pertencer a uma partcula: vi (0) = 0. Logo, o

vrtice passa a pertencer a essa partcula visitante, i.e., vi (t) = j . O potencial


da partcula j no alterado e o potencial do vrtice vi recebe o potencial da
partcula: vi (t) =
j ( t );
2. Se o vrtice visitado dominado pela mesma partcula, o potencial da partcula
visitante, j , incrementado e vi recebe o novo potencial da partcula: vi (t) =

2.3 - Deteco de Comunidades

23

j ( t );
3. Caso o vrtice visitado pertena a partcula diversa, ento os potenciais da partcula e do vrtice so enfraquecidos. Se o potencial da partcula
j atingir um
valor inferior que min , ento essa partcula reiniciada em um novo vrtice escolhido aleatoriamente. Caso o potencial do vrtice v
j atingir um valor menor
que min , ento o vrtice no mais propriedade de partcula alguma no modelo,
i.e., o mesmo regressa ao estado livre: v
j = 0.
Assim, o nvel de dominao de um vrtice aumenta, caso seja visitado pela partcula a qual o domina no instante atual. A contrario sensus, quando da visita de uma
partcula rival a um vrtice no dominado pela mesma, ocorre um enfraquecimento
do nvel de dominao da partcula proprietria sobre aquele vrtice. Caso essa dominao no for slida o suficiente, a partcula ora dominante perde a propriedade sobre
aquele vrtice. Em um amplo perodo de tempo, espera-se que cada partcula domine
uma comunidade na rede.
O modelo proposto em Quiles et al. (2008) apresenta duas caractersticas salientes:
(i) altas taxas de deteco de comunidades e (ii) baixa complexidade computacional.
No entanto, no trabalho original, apenas um procedimento de competio de partculas introduzido, sem nenhuma definio formal. Isto impossibilita qualquer anlise
ou predio do comportamento do modelo. Como ser visto mais para frente, uma das
principais contribuies dessa pesquisa apresentar um modelo rigoroso por meio de
um sistema dinmico estocstico competitivo.

2.4

Consideraes Finais

Neste captulo, foi explorada a rea de redes complexas, mostrando as vantagens


inerentes sua utilizao, como a de levar em considerao a topologia estrutural para
realizar as tarefas a que so incumbidas. Esta vantagem de especial importncia, pois
traz independncia do modelo a distncias de similaridade, caracterstica comum em
mtodos que no utilizam redes complexas. Alm disso, foram revisados os conceitos
de comunidades e sobreposio de comunidades e vrtices. Por ltimo, as principais
tcnicas de deteco de comunidades propostas na literatura baseadas em Redes Complexas foram revistas, com especial importncia para a tcnica de deteco de comunidades via competio de partculas.

24

Captulo 2 - Redes Complexas

C APTULO

3
Aprendizado Semissupervisionado

Neste captulo, sero fornecidos conceitos fundamentais sobre o aprendizado semissupervisionado. Especificamente, sero analisadas tcnicas pertencentes ao aprendizado semissupervisionado, com nfase nas baseadas em redes.

3.1

Aprendizado de Mquina

Tradicionalmente, existem dois tipos fundamentais de aprendizados em aprendizado


de mquina. O primeiro intitulado de aprendizado no supervisionado, cuja formulao
dada a seguir: seja X = { x1 , . . . , xn } um conjunto de n exemplos ou pontos, em
que xi para todo i [n] := {1, . . . , n}, onde representa o espao caracterstico dos dados. Tipicamente, assumido que os pontos so identicamente e independentemente distribudos com uma distribuio comum . conveniente definir, por
questes de clareza, para um problema em que os pontos so d-dimensionais, a matriz
de dimenses n d denotada por X = ( xiT )iT[n] que contm, em cada uma de suas n
linhas, os itens de dados. Fundamentalmente, pode-se dizer que o problema de aprendizado no supervisionado consiste em estimar a densidade geradora dos dados em
(Chapelle et al., 2006). Entre as principais tarefas de aprendizado no supervisionado, podem-se destacar: agrupamento (Girvan e Newman, 2002; Karypis et al., 1999;
Newman, 2006), deteco de outliers (Liu et al., 2004; Lu et al., 2003), reduo de dimensionalidade (Lim e Park, 2009), associao (Piatetsky-Shapiro, 1991), entre outras.
No agrupamento, espera-se encontrar grupos em que itens de dados do mesmo grupo
sejam bem semelhantes uns aos outros, enquanto que itens de dados de grupos distintos pouco se assemelhem, em termos da funo de similaridade adotada (Mitchell,
1997). Na deteco de outliers, a meta encontrar itens de dados que destoam muito da
25

26

Captulo 3 - Aprendizado Semissupervisionado

distribuio original que o gerou, i.e., objetiva-se encontrar aqueles itens de dados que
so diferentes da maioria (Liu et al., 2004). Na reduo de dimensionalidade, espera-se
dispor os itens de dados em um espao dimensional inferior ao espao da distribuio
original, com o fim de simplificar as relaes entre os dados (Lim e Park, 2009). Na associao, buscam-se gerar regras que relacionem subconjuntos de atributos preditivos
(Piatetsky-Shapiro, 1991).
O segundo tipo de aprendizado denomina-se aprendizado supervisionado. A meta
aqui aprender um mapeamento de x para y, dado o conjunto de treinamento constitudo pelos pares ( xi , yi ). Neste caso, yi Y chamado de rtulo do exemplo xi .
Se os rtulos tiverem natureza numrica, ento y = (yi )iT[n] denota o vetor-coluna
de rtulos. Novamente, um requisito padro que os pares ( xi , yi ) sejam amostrados
identicamente e independentemente distribudos de uma distribuio mapeada no espao Y (Chapelle et al., 2006). Este aprendizado bem definido, uma vez que esse
mapeamento pode ser avaliado atravs do desempenho preditivo do classificador no
conjunto de testes. Quando Y = R ou Y = Rd , isto , o conjunto possvel de rtulos
contnuo, a tarefa chamada de regresso. Caso o conjunto de rtulos possveis seja
discreto, a tarefa dita de classificao. Existem duas famlias de algoritmos para o
aprendizado supervisionado. Os algoritmos generativos tentam modelar a densidade
condicional das classes p( x |y) utilizando algum procedimento de aprendizado no supervisionado. A densidade preditiva pode ser inferida a partir do teorema de Bayes:
p(y | x ) =

p( x | y) p(y)
.
p
(
x
|
y
)
p
(
y
)
dy
Y

(3.1)

De fato, p( x | y) p(y) = p( x, y) representa a densidade conjunta dos dados, da


qual os pares ( xi , yi ) Y podem ser gerados. J como segundo tipo de algoritmo de
aprendizado supervisionado, existem os mtodos discriminativos que no tentam estimar como os xi foram gerados, mas sim focalizam em estimar p(y| x ). Alguns mtodos
discriminativos at limitam-se a modelar se p(y| x ) maior ou igual a 0, 5; um exemplo
disto as Mquinas de Vetor Suporte (SVM - Support Vector Machines) (Chapelle et al.,
2006).
Em outras palavras, a principal diferena de uma tarefa relacionada ao aprendizado
supervisionado com outra concernente ao aprendizado no supervisionado reside no
fato de que a primeira possui todo o conjunto de treinamento rotulado, sendo que o
objetivo criar uma funo preditiva que possa generalizar a partir deste conjunto
de treinamento. Por outro lado, tarefas de aprendizado no supervisionado buscam
comportamentos ou tendncias nos dados, tentando agrup-los de forma que dados
mais similares estejam em um mesmo grupo. Pode-se dizer que, neste caso, tais tarefas
guiam-se a partir da composio intrnseca dos dados. Como uma nova vertente de
pesquisa, o aprendizado semissupervisionado foi proposto, de forma a aliar os pontos

3.1 - Aprendizado de Mquina

27

positivos de cada modo de aprendizado. Nele, apenas alguns dados so rotulados,


enquanto que a maioria no rotulada. O objetivo propagar o rtulo de exemplos
rotulados para os exemplos no rotulados. A Figura 3.1 ilustra um esquemtico mostrando a diferena dos trs modos de aprendizado. Especificamente, na Figura 3.1a
mostrada como uma tarefa de agrupamento realizada em aprendizado no supervisionado. Observe-se que no h informao alguma sobre os dados e o agrupamento
realizado a partir de uma funo de similaridade entre os dados. Na Figura 3.1b
ilustrado o cenrio de uma classificao semissupervisionada em aprendizado semissupervisionado. Note que alguns dados j possuem rtulos de antemo e outros
no. O classificador deve propagar estes rtulos para os dados no rotulados. Por fim,
na Figura 3.1c explicitada uma tarefa de classificao em aprendizado supervisionado. Inicialmente, apenas os dados circulares so apresentados para o classificador,
todos rotulados. Aps o mesmo induzir uma hiptese sobre aquele conjunto de dados,
novos dados - explicitados pelos dados triangulares - so apresentados para o classificador decidir sobre qual classe cada um pertence. Na prxima seo, sero detalhados
os conceitos sobre aprendizado semissupervisionado, o qual ser objeto de estudo no
presente projeto de pesquisa.

(a)

(b)

(c)
Figura 3.1: Esquemtico dos trs modos de aprendizado de mquina. Aprendizado: (a) no
supervisionado (agrupamento); (b) semissupervisionado (classificao semissupervisionada);
(c) supervisionado (classificao supervisionada).

28

3.2

Captulo 3 - Aprendizado Semissupervisionado

Aprendizado Semissupervisionado: Definies, Motivaes e Modelos

Algoritmos capazes de aprender utilizando apenas alguns exemplos rotulados tm


despertado o interesse da comunidade de Inteligncia Artificial. O aprendizado semissupervisionado visa, dentre outras caractersticas, a reduzir o trabalho do especialista na rotulao de dados. Esta caracterstica bastante interessante principalmente
quando o processo de anlise dos dados caro e demorado, como, por exemplo, em
indexao de vdeo, classificao de sinais de udio, categorizao de textos, diagnsticos mdicos, dados do genoma, dentre outros (Chapelle et al., 2006). Na Subseo 3.2.1,
sero exploradas as razes do aprendizado semissupervisionado. J na Subseo 3.2.2,
algumas motivaes so elucidadas. Finalizando, na Subseo 3.2.3, uma formulao
matemtica rigorosa apresentada.

3.2.1

Uma Breve Evoluo Histrica

Conforme a literatura indica, uma das primeiras ideias de se utilizar dados no


rotulados para classificao foi no auto-aprendizado, que ocorreu em meados da dcada de 60. Este representa um algoritmo iterativo que repetidamente utiliza mtodos
supervisionados a cada iterao. No seu incio, apenas so utilizados, na sua fase de
treinamento, os dados previamente rotulados. medida que cada passo se conclui,
uma parte dos dados no rotulados rotulada de acordo com uma funo de deciso.
Aps isso, o mtodo supervisionado retreinado utilizando suas prprias predies
com os dados adicionais que o mtodo rotulou nos passos anteriores (Chapelle et al.,
2006).
Um aspecto negativo do auto-aprendizado reside no fato de que o efeito de rotular
novos dados no rotulados depende do mtodo de superviso utilizado neste aprendizado. Se o auto-aprendizado for utilizado para minimizao de riscos empricos, i.e.,
para descrever limites tericos para o desempenho do algoritmo, e de perdas binrias,
os dados no rotulados no surtiro efeitos na soluo. Ao invs disso, se for utilizado
um mtodo de maximizao marginal, como resultado, os limites de deciso sero alocados em lugares que se situam longe dos dados no rotulados (Vapnik, 1998). Um
grande aplicao de auto-aprendizado pode ser encontrada para desambiguao de
palavras em Yarowsky (1995).
Seguindo a cronologia, o aprendizado semissupervisionado obteve um grande desenvolvimento em meados da dcada de 70, quando o problema de estimar o discriminante linear de Fisher com dados no rotulados foi analisado. Mais precisamente,
o problema examinado constitua o caso em que cada densidade condicionada s classes era Gaussiana com matrizes de covarincia iguais. A probabilidade do modelo

3.2 - Aprendizado Semissupervisionado: Definies, Motivaes e Modelos

29

ento maximizada utilizando tanto os dados rotulados quanto os no rotulados com o


auxlio de um algoritmo iterativo, tal como o Expectation Maximization (Dempster et al.,
1977).
J na dcada de 90 e na primeira dcada do sculo XXI, o interesse em aprendizado
semissupervisionado cresceu no mbito de aplicaes (Chapelle et al., 2006), sendo que
foi utilizado em problemas de linguagem natural, classificao de textos (Yarowsky,
1995) e anlise e desenvolvimento de tcnicas com baixas complexidade temporal e
espacial (Breve et al., 2010; Callut et al., 2008).

3.2.2

Motivaes para o Aprendizado Semissupervisionado

De um ponto de vista de engenharia, claro que a coleta de dados rotulados


muito mais intensa e onerosa em relao coleta de dados no rotulados. Entretanto, o
propsito do aprendizado semissupervisionado vai alm de consideraes puramente
utilitrias. De forma discutvel, a maioria do aprendizado natural (humano e animal)
ocorre no regime semissupervisionado. No mundo em que se vive, os seres vivos
esto em uma constante exposio a um fluxo de estmulos naturais. Tais estmulos
englobam os dados no rotulados que so facilmente perceptveis. Por exemplo, em
um contexto de aquisio e reconhecimento fonolgico, uma criana exposta a muitos
sons acsticos. Muitos destes sons no so familiares criana. Um feedback positivo
por parte de uma outra pessoa a fonte principal de dados rotulados. Em muitos
casos, uma pequena poro de feedback suficiente para permitir a criana dominar o
mapeamento acstico-fontico de quaisquer linguagens (Belkin et al., 2005, 2006).
A habilidade humana de aprender conceitos no supervisionados, como, por exemplo, clusters e categorias de objetos, sugere que dados no rotulados podem ser utilizados de forma satisfatria para aprender invarincias naturais, para formar categorias
e para construir classificadores. Em muitas tarefas de reconhecimento de padres, humanos apenas tm acesso a uma pequena quantidade de dados rotulados. Logo, o
sucesso do aprendizado humano nesse pequeno conjunto de dados reconhecido, sem
sombras de dvida, acontece pela efetiva utilizao de grandes conjuntos de dados no
rotulados para extrair informao que til para generalizao. Consequentemente, se
o objetivo for progredir no entendimento e dominao de como o aprendizado natural
se processa, h a necessidade de se pensar em termos de aprendizado semissupervisionado (Belkin et al., 2004, 2006).
Outra motivao para o estudo de aprendizado semissupervisionado est intrinsicamente ligada melhoria da acurcia de modelos. Em um recente trabalho proposto
por Singh et al. (2008), foi definido que, utilizando uma anlise de amostras finita, se a
complexidade da distribuio sob considerao for muito alta para ser aprendida por
n dados rotulados, mas pequena o suficiente para ser aprendida por m
n dados

30

Captulo 3 - Aprendizado Semissupervisionado

no rotulados, ento o aprendizado semissupervisionado capaz de melhorar o desempenho de uma tarefa supervisionada. Como exemplo, considere a Figura 3.2 em
que os crculos escuros denotam dados rotulados, enquanto que crculos claros, dados no rotulados. Aplicando-se um algoritmo supervisionado, a fronteira de deciso
seria estabelecida, muito provavelmente, nas vicinidades da linha pontilhada. De maneira anloga, algoritmos semissupervisionados fixariam, com uma grande margem
de certeza, a fronteira de deciso na linha contnua. No caso desse exemplo, algoritmos supervisionados no seriam capazes de eficientemente classificar os exemplos no
rotulados. Por outro lado, algoritmos semissupervisionados, a partir da utilizao de
dados no rotulados, poderiam obter acurcias bem superiores. Isto exatamente o
que ocorre na figura, a qual mostra que o algoritmo semissupervisionado reflete mais
fielmente a distribuio das classes. Isto decorre graas utilizao da informao dos
dados no rotulados no ato do treinamento do classificador.

Figura 3.2: Motivao para o estudo de aprendizado semissupervisionado. A linha pontilhada


mostra o plano decisor que divide as duas classes feita por um algoritmo supervisionado. A
linha contnua denota o plano decisor gerado por um algoritmo semissupervisionado.

3.2.3

Formulao Matemtica

De uma forma geral, o aprendizado semissupervisionado pode ser definido da seguinte maneira (Chapelle et al., 2006): seja um conjunto de dados X = { x1 , x2 , . . . , xn },
dividido em duas partes, Xl = { x1 , x2 , . . . , xl } onde l < n e Xu = { xl +1 , . . . , xn }. J,
Y = {1, 2, . . . , c} representa o conjunto de rtulos. Para todo exemplo xi Xl , um
rtulo y j Y fornecido. Os rtulos do subconjunto Xu no so conhecidos a priori.
Normalmente, l
u, ou seja, a grande maioria de vrtices no possui um rtulo (Chapelle et al., 2006). Isto ocorre porque a tarefa de rotulao extremamente onerosa e
deve ser feita por especialista. A Figura 3.1b ilustra um esquemtico de uma tarefa de
classificao semissupervisionada.
Com base nestas definies, o aprendizado semissupervisionado pode ter como
funo tanto tarefas de classificao de dados, quando os exemplos rotulados so utilizados no processo de rotulao de exemplos no rotulados, quanto de tarefas de

3.2 - Aprendizado Semissupervisionado: Definies, Motivaes e Modelos

31

agrupamento. Neste ltimo caso, os exemplos rotulados so responsveis por guiar


o processo de formao de clusters (Chapelle et al., 2006).
Entretanto, para um adequado funcionamento das tcnicas de aprendizado semissupervisionado, algumas suposies sobre a consistncia dos dados so essenciais
(Chapelle et al., 2006):
Suposio de agrupamento: pontos que pertenam a uma mesma regio de alta
densidade, isto , estejam localizados em um mesmo agrupamento so plausveis
de pertencerem a mesma classe. Esta suposio tambm referenciada como
suposio de variedade, onde assume-se que dados pertencentes a uma mesma
variedade tambm so rotulados com a mesma classe.
Suposio de suavidade: pontos prximos no espao de atributos so provveis de
pertencerem a mesma classe. Esta suposio fora que a funo responsvel por
rotular seja mais suave em regies de alta densidade do que em regies de baixa
densidade. Fica claro o porqu desta restrio: basta pensar que, em regies onde
existam vrios pontos adjacentes, mais provvel que estes pertenam mesma
classe; logo, ficaria incoerente ter uma funo que mudasse rapidamente de sada
para estas regies. Esta anlise vai ao encontro com a suposio de agrupamento
e as duas, portanto, se complementam.
Suposio de existncia de manifolds: Tal ideia se embasa na premissa que um conjunto de dados em alta dimenso pode ser, de forma aproximada, reduzido a um
espao de menor dimenso (manifold dos dados). Esta hiptese normalmente
seguida para amenizar o problema da maldio da dimensionalidade. Tal problema relativo ao fato que o volume do espao aumenta exponencialmente com
o nmero de dimenses, e um nmero exponencialmente maior de exemplos
necessrio para induo de classificadores com o mesmo poder de acurcia.
A forma como os algoritmos de aprendizado semissupervisionado tratam essas suposies de consistncia representa uma das diferenas fundamentais entre eles. Vrios algoritmos de aprendizado semissupervisionado foram propostos (Chapelle et al.,
2006; Zhu, 2005a), sendo que grande parte destes utiliza como base algum algoritmo
que foi projetado como tcnica de aprendizado supervisionado ou no supervisionado,
o qual modificado para tratar dados rotulados e no rotulados. Como exemplo: COP
K-Means (Wagsta et al., 2001) e outros, que so modificaes do K-Means; SVM transdutiva (Cortes e Vapnik, 1995; Vapnik, 1998), que uma extenso da tcnica SVM (Vapnik,
1999); algoritmos baseados em Expectation Maximization (Nigam et al., 2000); dentre diversos outros (Chapelle et al., 2006; Zhu, 2005b).
Outra abordagem interessante utilizada pela tcnica denominada Co-Training. O
Co-Training visa a rotular automaticamente mais exemplos a partir de um pequeno con-

32

Captulo 3 - Aprendizado Semissupervisionado

junto previamente rotulado. Esta tcnica se baseia na cooperao de dois algoritmos de


aprendizado supervisionado, sendo que a ideia principal consiste em um classificador
rotular exemplos que so utilizados pelo segundo classificador e vice-versa (Blum e
Mitchell, 1998; Goldman e Zhou, 2000). Desta forma, espera-se aumentar a preciso de
classificao quando comparado com a aplicao direta de uma tcnica de aprendizado
supervisionado.

3.3

Abordagens de Aprendizado Semissupervisionado

A diviso de abordagens que os algoritmos de aprendizado semissupervisionado


podem tomar difere muito entre autores. Neste documento, a diviso de classes ser
elencada baseando-se em Chapelle et al. (2006). Em termos gerais, existem trs tipos:
os modelos generativos, explorados na Subseo 3.3.1, os mtodos de separao por
regies de baixas densidades, vistos na Subseo 3.3.2, e os mtodos baseados em grafos, detalhados na Subseo 3.3.3. Dentre essas abordagens, o desenvolvimento de
tcnicas baseadas em grafos tem, nos ltimos anos, obtido maior ateno (Chapelle
et al., 2006; Zhu, 2005a). Nas prximas sees, sero analisadas essas abordagens em
detalhes, com ateno especial para a ltima.

3.3.1

Modelos Generativos

A inferncia por modelos generativos envolve a estimao da densidade condicional p( x | y). Nesta abordagem, qualquer informao adicional correspondente
natureza de p( x ) de extrema valia. Para efeitos didticos, suponha, por exemplo,
que p( x | y) seja Gaussiano (Chapelle et al., 2006). Ento, pode-se utilizar o algoritmo
Expectation Maximization para encontrar os parmetros concernentes distribuio geradora da Gaussiana para cada classe do problema. A nica diferena entre o famoso
algoritmo Expectation Maximization padro, aquele utilizado para agrupamento, e o em
estudo resta no fato de que as variveis desconhecidas associadas a cada exemplo rotulado, na verdade, no so a priori desconhecidas, ou seja, so sabidas e devem ser
iguais aos rtulos das classes j pr-definidos ao longo de todo o processo de otimizao do Expectation Maximization (Zhu e Goldberg, 2009). Vale frisar que a suposio de
clusters deve ser cumprida, a fim de que o mtodo gere resultados coerentes.
Um ponto forte da abordagem generativa que o conhecimento da estrutura do
problema ou dos dados pode ser facilmente incorporado ao modelo. De acordo com
Ratsaby e Venkatesht (1995), os dados rotulados corretamente so exponencialmente
mais efetivos para a minimizao do erro de classificao do que os dados no rotulados. J para o caso de dados no rotulados, conforme Shahshahani e Landgrebe (1994)
indica, estes podem degradar o desempenho de classificadores utilizando esta aborda-

3.3 - Abordagens de Aprendizado Semissupervisionado

33

gem se forem introduzidos apenas dados outliers, ou, em outras palavras, dados que
so muito diferentes que os outros da sua classe.
Nota-se, portanto, que as tcnicas que utilizam esta abordagem so, de maneira
geral, muito sensveis aos dados rotulados e no rotulados. Uma pr-anlise deve ser
efetuada antes de proceder s simulaes computacionais desses algoritmos, visto que
rudos podem degradar consideravelmente o desempenho final do algoritmo (Alpaydin, 2004; Chapelle et al., 2006; Grtner, 2008; Zhu e Goldberg, 2009).

3.3.2

Mtodos de Separao por Regies de Baixa Densidade

Nesta abordagem, os algoritmos buscam implementar a suposio de baixa densidade interclasse por meio do afastamento dos limites de deciso (hiperplanos de deciso) dos dados no rotulados (Chapelle et al., 2006). O mtodo mais comum para atingir esse objetivo consiste em utilizar o algoritmo de maximizao marginal, tal como
as SVMs transdutivas. Entretanto, salienta-se que tal problema de maximizao , na
maioria dos casos, no convexo e, portanto, apresenta srias dificuldades na sua otimizao, tendo em vista que encontrar o melhor hiperplano que maximize a distncia
total no trivial (Zhu e Goldberg, 2009).
Algumas alternativas, com o intuito de resolver esses problemas de maximizao
no convexa, foram propostas na literatura (Alpaydin, 2004; Chapelle et al., 2006; Cortes e Vapnik, 1995; Zhu e Goldberg, 2009). Por exemplo, em Vapnik (1998), inicia-se
de uma soluo da SVM treinada apenas com os dados rotulados, e, conforme cada
iterao avana, os dados no rotulados so rotulados por meio de predies da SVM.
O processo refeito com os novos dados rotulados at se atingir alguma condio de
parada especfica. Cada iterao conduzida de forma que os pesos dos dados no
rotulados utilizados na maximizao so sucessivamente incrementados. Como outro
exemplo, o trabalho proposto em De Bie e Cristianini (2004) discute uma abordagem
alternativa baseada na relaxao convexa do problema de otimizao associada em
SVM transdutivas.

3.3.3

Mtodos Baseados em Grafos

Durante os ltimos anos, a rea mais ativa de pesquisa no campo de aprendizado


semissupervisionado foi a relacionada a mtodos baseados em grafos ou redes. O
ponto comum das tcnicas que utilizam essa abordagem consiste no fato de utilizarem
os dados como sendo os vrtices da rede, enquanto que ligaes entre os dados existem, dependendo da funo de similaridade escolhida, bem como da rotulao dos vrtices (Chapelle et al., 2006). Uma das vantagens salientes da utilizao de grafos para a
anlise de dados est na habilidade de revelar a estrutura topolgica entre o conjunto
de dados. Por exemplo, considere uma tarefa de classificao semissupervisionada em

34

Captulo 3 - Aprendizado Semissupervisionado

um problema binrio, conforme mostrada na Figura 3.3a, em que as classes possuem


distribuio com formato de bananas e apenas dois dados foram pr-rotulados. O resultado da tcnica SVM dado na Figura 3.3b, enquanto que o resultado da tcnica
k-vizinhos mais prximos (kNN) mostrado na Figura 3.3c. Considere que a classificao ideal dada na Figura 3.3d. Em ambos os resultados anteriores, os algoritmos
no foram capazes de encontrar as classes corretamente. A utilizao de grafos nesse
tipo de problema pode revelar a estrutura topolgica entre os dados, permitindo, assim, a deteco de classes e grupos com formatos arbitrrios (Karypis et al., 1999; Zhou
et al., 2003).

Figura 3.3: Motivao para utilizao de grafos. (a) Problema inicial para classificao semissupervisionada. (b) Resultado obtido aplicando SVM. (c) Resultado obtido aplicando kNN. (d)
Resultado ideal. Figura extrada de Zhou et al. (2003).

O aprendizado semissupervisionado baseado em redes comea pela construo do


grafo a partir do conjunto de treinamento. Matematicamente, sejam {( xi , yi )}il=1 o
u
conjunto de vrtices rotulados e { x j }lj+
=l +1 , o conjunto de vrtices no rotulados. Claramente, a rede ser de larga escala se l + u, o nmero de instncias rotuladas e no
rotuladas, for grande. Perceba que, uma vez que a rede seja construda, o processo
de aprendizado envolver designar o valor yt para todo vrtice no rotulado xt . Isto
possvel por meio da informao que as arestas, as quais interconectam os vrtices,
transportam (Chapelle et al., 2006). de extrema valia mencionar que, em contraste
com as tcnicas tradicionais que se utilizam de tabelas atributo-valor para conduzir
suas anlises sobre os dados, a utilizao de grafos utiliza diretamente a informao
da vizinhana para analisar os dados. Conforme explicitado em Zhu (2005b), isto pode
gerar mais robustez e eficcia na construo de classificadores.

3.3 - Abordagens de Aprendizado Semissupervisionado

35

Quanto natureza das arestas, a literatura indica que podem ser direcionadas (dgrafos), no direcionadas, com peso, entre outros tipos. Na maioria dos problemas,
normalmente, as arestas so consideradas no direcionadas (um contraexemplo so os
links de pgina web). O peso da aresta wij entre dois vrtices xi e x j pode representar,
por exemplo, a similaridade entre essas duas instncias. Neste caso, a ideia que se wij
for grande, ento os dois rtulos de yi e y j so esperados de serem o mesmo. Observe
aqui a conexo com a suposio de suavidade, porm com representao distinta: ao
invs de regies de alta densidade, aqui considera-se o peso wij . Portanto, de extrema
importncia a designao correta dos pesos das arestas do grafo, pois esses traduzem
as relaes entre o conjunto de dados para a representao em grafo. Os pesquisadores
da rea especificam os pesos das arestas a partir de heursticas bem conhecidas, algumas das quais so elencadas a seguir. Reitera-se que a lista apresentada fica longe de
ser exaustiva.
Rede completamente conectada: cada par de vrtices xi , x j conectado por uma
aresta. O peso da aresta decresce medida que a distncia xi x j aumenta.
Uma funo de peso popular dada por:

wij = exp

xi x j
22

(3.2)

onde conhecido como o parmetro de comprimento de banda e faz o papel


de controlar a velocidade na qual os pesos so decrementados, conforme cada
unidade de distncia aumenta. Este peso tem a mesma forma que uma funo
Gaussiana, e, por isso, esta funo tambm intitulada como kernel Gaussiano
ou kernel RBF (do ingls - Radial Basis Function). Esse peso equivale um quando
xi = x j e zero quando xi x j (Zhou e Schlkopf, 2004). Um exemplo bem
utilizado para calcular a distncia xi x j a funo de Minkowski para um p
fixo, cuja expresso satisfaz:
d

d ( xi , x j ) = xi x j =

|xik x jk |2

1
p

(3.3)

k =1

em que d representa a dimenso dos dados. Claramente, pode-se verificar que,


quando p = 2, a Equao (3.3) reduz-se ao caso Euclidiano. Adicionalmente,
quando p = 1, a Equao (3.3) torna-se a de Manhattan. A ltima normalmente
utilizada em problemas geogrficos de rodovias, corridas de txis, entre outros
(Duda et al., 2000).
Rede k-vizinhos mais prximos (kNN): cada vrtice define seus k vizinhos mais prximos a partir de uma distncia de similaridade, tal como a Euclidiana. Vale

36

Captulo 3 - Aprendizado Semissupervisionado

notar que, em um grafo dgrafo, se xi estiver entre os k vizinhos mais prximos


de x j , o contrrio no necessariamente verdade, isto , x j pode no estar entre
os k vizinhos mais prximos de xi . Haver uma conexo, portanto, entre xi e
x j , caso qualquer um dos dois estiver na vizinhana dos k mais prximos um do
outro. Se xi e x j no forem conectados, ento wij = 0. O mtodo de construo
kNN naturalmente adapta-se s densidades das instncias no espao gerado pelo
domnio das caractersticas. Em outras palavras, em uma regio densa, o raio de
vizinhana kNN ser pequeno, j que, por suposio, existem vrios vrtices pertos uns dos outros, enquanto que, em uma regio esparsa, este raio de vizinhana
tende a ser maior em relao ao anterior. Empiricamente, as redes kNN com valores de k pequenos cumprem satisfatoriamente seus papis (Chapelle et al., 2006).
Redes -radius: conectam-se xi e x j se xi x j , onde representa o tamanho
da vizinhana desejado. As arestas podem ser tanto sem peso ou com peso. No
ltimo caso, geralmente, utiliza-se a prpria similaridade entre os dois dados. Se
xi e x j no estiverem conectados, ento wij = 0. Nota-se, nesta composio, que
um pequeno aumento em pode surtir uma grande elevao do grau mdio da
rede, dado que a rede no apresenta muitos dados dispersados. Em contraste,
para uma rede dispersa, um alto valor de ser necessrio, ou incorre-se o risco
da rede ter muitos componentes separados (Alpaydin, 2004).
De uma forma geral, os mtodos baseados em redes podem ser caracterizados como
tcnicas transdutivas (Zhu, 2005a), isto , o algoritmo visa a obter um valor para cada
vrtice no rotulado sem a necessidade de gerar (induzir) uma funo global de mapeamento entrada-sada para os dados. Dentre as principais vantagens destas tcnicas,
podem ser citadas (Chapelle et al., 2006; Zhu, 2005a):
Representam agrupamentos com formas variadas;
No dependem explicitamente de uma funo de distncia;
Facilitam a representao de bases com mltiplas classes;
Alguns problemas so originalmente representados por redes, por exemplo: dados de conexes entre sites, redes de interaes de protenas, etc;
Dentre outras.
A seguir, sero resumidas algumas tcnicas representativas de aprendizado semissupervisionado baseado em redes.

3.3 - Abordagens de Aprendizado Semissupervisionado

37

Classificador de Regularizao Local e Global

Nesta seo, ser analisado o classificador de Regularizao Local e Global (Zhou


et al., 2003), pioneiro na rea e um dos responsveis por alavancar as pesquisas no ramo
de aprendizado semissupervisionado baseado em redes. Tal classificador considera
o problema geral de aprendizado de dados rotulados e no rotulados por meio da
construo de uma funo de classificao que suficientemente suave com respeito
estrutura intrnseca que revelada pelos dados rotulados e no rotulados.
Antes de adentrar nos conceitos especficos da tcnica supracitada, vlido registrar alguns pontos fundamentais que esta tcnica tem em comum com outros mtodos
baseados em minimizao de energia. Em termos gerais, tais tcnicas objetivam a minimizao de uma expresso de custo, constituda essencialmente por duas funes
que modelam aspectos distintos do conjunto de dados em anlise, quais sejam: (i)
funo de perda: objetiva penalizar o algoritmo para decises em que os dados j prrotulados tem seus rtulos modificados ao longo do processo de propagao. Em termos prticos, para minimizar este termo, basta evitar a mudana de rtulos de vrtices
pr-rotulados; e (ii) funo regularizadora: responsvel por modelar o custo de propagar rtulos a dados ainda no previamente rotulados. Tendo em vista a suposio de
suavidade, tal funo deve ser suave em regies densas da rede.
Vistos estes pontos em comum, o Classificador de Regularizao Local e Global agora apropriadamente explanado. Vale notar que esta seo foi baseada
em sua maior parte em Zhou et al. (2003). Dado um conjunto de pontos X =
{ x1 , . . . , xl , xl +1 , . . . , xn } Rm e um conjunto de rtulos L = {1, . . . , c}, os primeiros l pontos xi (i l) so previamente rotulados como yi L, enquanto que os pontos
remanescentes xu (l + 1 u n) no esto rotulados. A meta rotular este segundo
conjunto de vrtices com base em alguma funo de classificao.
Considere que denote o conjunto de matrizes de dimenses n c, todas com entradas no negativas. Uma matriz F = [ F1T , . . . , FnT ] T corresponde a uma classificao dos itens de dados X, de tal forma que, a cada dado no rotulado xi , designado
um rtulo a partir da expresso yi = arg max Fij . Pode-se entender F como sendo uma
Rc

jc

funo vetorial F : X
que atribui um vetor Fi para cada dado xi , isto , para cada
dado, o algoritmo mantm o nvel de pertinncia para cada rtulo possvel, sendo que,
este dado recebe, ao fim das iteraes, aquele rtulo cujo nvel de pertinncia o maior.
Defina tambm uma matriz Y de dimenses n c com Yij = 1 se xi estiver rotulado
como yi = j e atribua Yij = 0, caso contrrio. Claramente, Y consistente com os rtulos iniciais, uma vez que isto manualmente feito pelo algoritmo na primeira iterao
e cada rtulo fornecido pelo usurio. O algoritmo procede da seguinte forma (Zhou
et al., 2003):
1. Crie a matriz de afinidade W, a qual definida por Wij = exp(

xi x j
22

) se i = j e

38

Captulo 3 - Aprendizado Semissupervisionado

Wii = 0, caso contrrio.


1

2. Construa a matriz S = D 2 WD 2 , na qual D uma matriz diagonal com sua


entrada (i, i ) equivalente soma da i-sima linha de W
3. Itere F (t + 1) = SF (t) + (1 )Y at que convirja, onde representa um parmetro entre (0, 1).
4. Considere que F denote o limite da sequncia { F (t)}. Ento, rotule cada dado
xi seguindo a frmula: yi = arg max Fij .
jc

Em Zhou et al. (2003) foi demonstrado que tal sequncia { F (t)} converge e que
tambm a soluo do problema de propagao de rtulos assume uma frmula fechada
dada por:
F = lim F (t) = ( I S)1 Y.

(3.4)

Com a Equao (3.4), fica vivel encontrar a soluo tima F sem nenhuma iterao, bastando apenas realizar a inverso matricial. Alm disso, esta equao mostra
que o resultado final da iterao, depois de convergido, no depende das condies
iniciais do problema (Smola e Kondor, 2003). importante notar tambm que este
algoritmo, com o propsito de obter a soluo tima, deve realizar uma tarefa de inverso de matrizes, incorrendo, portanto, em uma complexidade temporal custosa,
O(V 3 ). Assim, para redes de grande escala, esta tcnica no vivel.
De acordo ainda com Zhou et al. (2003), esses realizaram uma deduo de um framework de regularizao motivados pelo algoritmo supracitado. Este framework visa
minimizao de uma funo de custo que, na esfera fsica, pode ser entendida como
uma funo de energia. Tal funo, denotada aqui por F, definida como:

C( F) =

1
1
Wij Fi

2 i,j=1
Dii

1
Fj
D jj

+ Fi Yi 2 ,

(3.5)

i =1

onde > 0 o parmetro regularizador. Neste caso, a funo de classificao fica:


F = arg min C ( F ).
F

(3.6)

O primeiro termo da Equao (3.5) traduz-se como uma restrio de suavidade,


significando que uma boa funo classificadora no deve mudar muito de valor entre
dados prximos. exatamente a definio de uma funo regularizadora. J o segundo
termo simboliza uma restrio de ajuste, relatando que uma boa funo classificadora
tambm no deve mudar muito os rtulos dos vrtices inicialmente rotulados. Neste

3.3 - Abordagens de Aprendizado Semissupervisionado

39

caso, tal termo encaixa-se perfeitamente na descrio de uma funo de perda. O contrapeso entre estas duas quantidades conflitantes indicado pelo parmetro positivo .
Observe que a restrio de ajuste contm tanto dados rotulados quanto no rotulados
(Zhou et al., 2003).
Matematicamente falando, fica fcil evidenciar a restrio de suavidade da Equao
(3.5), bastando notar que um grande valor de Wij , que acontece quando os dados so
2

bem similares, deve ser nulificado ou minimizado por uma norma

1 Fi
Dii

1D Fj
jj

reduzida; e, para conseguir tal fato, as entradas Fi e Fj devem ser prximas, ou seja,
necessitam ter os mesmos rtulos dominantes. Quanto ao segundo termo, com o intuito de minimiz-lo, fica claro que no constitui uma boa mudana, a priori, trocar
os rtulos dos vrtices que foram inicialmente rotulados, incorrendo no risco, caso os
troquem, de uma penalidade indicada por uma aumento desta funo de custo, j que,
neste caso, Fi = Yi .
Regularizador por Manifolds

A tcnica proposta por Belkin et al. (2006) baseia-se em uma famlia de algoritmos
de aprendizado fundamentados em uma nova forma de regularizao, que permite a
explorao da geometria da distribuio marginal dos dados. Em especfico, a principal contribuio do trabalho em comento a unificao de trs conceitos, antes tratados
independentemente, em um framework genrico. Tais conceitos so listados abaixo.
O primeiro deles se remete teoria espectral de grafos (Chung, 1997) que j foi
aplicada em uma ampla gama de tarefas de classificao e agrupamento. Tais
mtodos, tipicamente, reduzem-se anlise dos autovalores do laplaciano do
grafo.
O segundo conceito origina-se do ponto de vista geomtrico dos dados. Tal abordagem toma como hiptese a existncia de manifolds nos dados. Esses mtodos
tentam usar a distribuio de probabilidades gerada por essa geometria para a
construo de manifolds de Riemann (Weinberger e Saul, 2006).
O terceiro conceito embasa-se no conjunto de ideias que norteiam regularizadores em espaos de Hilbert (Smola e Kondor, 2003). Isto leva a uma classe de
algoritmos baseados em kernels para classificao e regresso.
Tecnicamente, os frameworks, at ento propostos, aliceravam-se apenas sobre dois
termos, em relao composio da funo de energia, quais sejam: a funo de perda
e a funo regularizadora (como, por exemplo, a tcnica que foi vista anteriormente).
J o framework em Belkin et al. (2006) inaugura um terceiro termo, o qual responsvel

40

Captulo 3 - Aprendizado Semissupervisionado

pelo aprendizado baseado em manifolds. Manifold definido como um espao topolgico de dimenso menor que o espao original dos dados, cuja transformao feita
preservando as caractersticas locais dos dados. Matematicamente, a funo de energia
expressa por (Belkin et al., 2006):

1 l
V ( xi , yi , f ) + A f
f HK l i =1

f = arg min

2
K

+ I f

2
I,

(3.7)

onde f 2I um termo penalizador que reflete a estrutura geomtrica da distribuio


marginal dos dados. Intuitivamente, f 2I um penalizador suave correspondendo a
distribuio probabilstica dos dados. Por exemplo, se for possvel a reduo da distribuio probabilstica para um manifold, ento f 2I poder penalizar f neste novo espao. A controla a complexidade da funo classificadora no espao ambiente (espao
original dos dados), enquanto que I controla a complexidade da funo classificadora
perante a geometria dos dados oriunda da probabilidade marginal dos mesmos. Em
termos sucintos, o primeiro termo a funo de perda, a qual penaliza modificaes
de rtulos de dados j pr-rotulados; o segundo termo um regularizador, o qual penaliza rotulaes no suaves entre dados prximos no espao original dos dados; e o
terceiro termo um outro regularizador, o qual penaliza rotulaes no suaves em um
espao de menor dimenso dos dados (manifold), gerado a partir da distribuio marginal. Os coeficientes A e I so incumbidos de dar maior ou menor importncia aos
dois ltimos termos regularizadores, dependendo de suas magnitudes.
Embora a tcnica seja uma framework genrico dependente dos dados, pode ser observado que ela sofre de alguns inconvenientes, quais sejam: (i) erro de generalizao
e convergncia: o problema crucial de anlise do erro de generalizao como uma funo dos dados rotulados e no rotulados no foi apresentado; (ii) a seleo do modelo
envolve a escolha de muitos parmetros, alguns dos quais altamente dependentes dos
dados em anlise; (iii) o framework proposto tem ordem de complexidade cbica em
funo do nmero de exemplos. Escalabilidade e aplicaes em problemas reais so,
portanto, limitadas.

Classificador Semissupervisionado Guiado pela Medida de Modularidade

Nesta seo, ser discutida uma tcnica recentemente proposta em Silva e Zhao
(2011). A principal ideia desse mtodo consiste em uma modificao estrutural do
algoritmo de otimizao de modularidade para o paradigma de aprendizado semissupervisionado, algoritmo o qual foi originalmente proposto para o aprendizado no
supervisionado (Clauset, 2005; Newman, 2006). Em termos gerais, o algoritmo cria
uma rede utilizando o conjunto de dados de entrada e, a partir de modificaes re-

3.3 - Abordagens de Aprendizado Semissupervisionado

41

alizadas no prprio processo de otimizao de modularidade, realiza a classificao


semissupervisionada por meio da propagao de rtulos artificiais.
Inicialmente, dada uma breve descrio do algoritmo cuja tcnica em apreo obteve inspirao: o mtodo de deteco de comunidades via otimizao da modularidade (Clauset, 2005; Newman, 2006). Sumariamente, a medida de modularidade
quantifica a qualidade de um particionamento da rede. Pequenos valores representam
redes totalmente aleatrias, enquanto que valores altos indicam a presena de comunidades na rede em anlise. Matematicamente, ela calculada a partir da expresso:

Q=

ki k j
1
ei,j

2m i,j
2m

( c i , c j ),

(3.8)

onde m representa o nmero total de arestas na rede; k i o grau do vrtice i; ( x, y) a


funo Delta de Kronecker, que produz 1 se x = y e 0, caso contrrio; eij caracteriza a
frao de arestas que une as comunidades i e j. Em adio a isso, a matriz responsvel
por quantificar o potencial incremento de duas comunidades i e j, caso sejam fundidas
em uma nica comunidade, dada por (Clauset et al., 2004):

Qij =

1
2m

0,

ki k j
,
(2m)2

se i e j estiverem conectadas
caso contrrio

(3.9)

No algoritmo original proposto em Clauset (2005), a cada iterao, duas comunidades, diga-se i e j, so fundidas, de tal forma que ocorra o maior incremento (ou menor
decremento) da modularidade da rede. Na sua configurao inicial, cada vrtice uma
comunidade. Uma propriedade interessante do processo de otimizao que, uma vez
que todas as entradas da matriz Q sejam negativas, fuses subsequentes sempre geraro novas matrizes Q com todas as entradas negativas. Neste processo de otimizao,
nenhuma restrio quanto s comunidades a serem fundidas estabelecido.
De forma a adaptar o algoritmo de otimizao de modularidade para o contexto de
aprendizado semissupervisionado, sero realizadas as seguintes modificaes:
Passo I Inicialmente, existem | L| vrtices rotulados na rede. A tarefa consiste em propagar esses rtulos para vrtices no rotulados. Uma vez que um vrtice no
rotulado recebe um rtulo, este no pode ser mais mudado.
Passo II A cada passo, sero fundidas as comunidades (no comeo, cada comunidade
engloba apenas um vrtice) de tal forma que a modularidade maximizada. Entretanto, tal fuso sujeita a algumas restries: com o intuito de imitar a propagao de rtulos na rede, uma fuso apenas ocorrer se pelo menos uma das

42

Captulo 3 - Aprendizado Semissupervisionado

comunidades a serem fundidas j foi rotulada anteriormente. Suponha que as comunidades ci e c j foram selecionadas para serem fundidas no passo atual, cada
qual carregando os rtulos cil e clj (considere que denote uma classe sem rtulos), ento um dos quatro casos a seguir deve acontecer:
Caso 1 A fuso no ocorre se cil = clj , desde que cil = e clj = . Este caso representa um confronto entre os limites de duas comunidades diferentes que
foram anteriormente rotuladas.
Caso 2 A fuso ocorre se cil = e clj = , ou cil = e clj = . Este caso representa
a propagao de rtulos tradicional de uma comunidade rotulada a outra
comunidade sem rtulo. clj recebe o rtulo de cil no primeiro caso, e cil recebe
o rtulo de clj no segundo caso.
Caso 3 A fuso ocorre se cil = clj , desde que cil = e clj = . Neste caso, o processo
de fuso apenas coloca duas comunidades da mesma classe juntas, maximizando a modularidade.
Caso 4 A fuso no ocorre se cil = e clj = , uma vez que nenhum rtulo est
sendo propagado.
Se a fuso no ocorrer, ento as prximas duas comunidades que oferecerem o
segundo maior incremento de modularidade so selecionadas para serem potencialmente fundidas, i.e., o Passo II realizado novamente, e assim sucessivamente, at
que uma fuso vlida ocorra.
Tendo em vista que o coeficiente de modularidade tenta maximizar o nmero de
arestas entre vrtices da mesma comunidade, enquanto que, concomitantemente, tenta
minimizar esta quantidade entre diferentes comunidades, tal dinmica propagar os
rtulos de tal forma a manter a caracterstica supracitada. Aqui, estabelecido como
hiptese a suposio de clusters, a qual premedita que uma classe naturalmente um
cluster. Desta forma, o algoritmo modificado de otimizao de modularidade executa
o trabalho de propagar os rtulos de uma forma otimizada, i.e., as fuses e propagaes de rtulos ocorrem de forma que uma classe ou comunidade fique fortemente
conectada e classes ou comunidades diferentes fiquem esparsamente conectadas.
O algoritmo finaliza quando todos os vrtices no rotulados forem devidamente
rotulados, desconsiderando, para todos os efeitos, o valor da modularidade da rede
atual, j que no buscada uma boa diviso da rede, mas sim uma forma ordenada de
rotulao de vrtices, a qual satisfeita naturalmente pelo mecanismo de otimizao
da modularidade. Uma anlise da convergncia foi conduzida em Silva e Zhao (2011)
e foi provado que o algoritmo sempre converge. Em termos tcnicos, o algoritmo apresentado no paramtrico, o que uma vantagem sobre a maioria dos mtodos propostos na literatura. Mais ainda, simulaes foram conduzidas e foi demonstrado, de

3.3 - Abordagens de Aprendizado Semissupervisionado

43

forma positiva, a capacidade do modelo frente a dados de bases de dados reais. Por
fim, alm do classificador semissupervisionado guiado pela otimizao da modularidade, os autores em Silva e Zhao (2011) propuseram um esquema de reduo da rede,
de forma que o algoritmo possa ser aplicvel a redes de larga escala.
D-Walks

Uma outra tcnica que pertence ao aprendizado semissupervisionado intitulada


pelos autores criadores de D-Walks, que recentemente foi proposta por Callut et al.
(2008), ser objeto de estudo detalhado nesta seo. Uma vez que esta tcnica embasase na teoria das cadeias de Markov, vlido defini-las formalmente a seguir.
Definio 1. Cadeias de Markov de Tempo Discreto: Uma cadeia de Markov de Tempo
Discreto definida como um processo estocstico { Xt |t N}, onde a varivel aleatria X
toma um valor especfico para cada tempo discreto t em um conjunto contvel pr-definido ,
denominado espao de estados, de tal forma que:
P [ X t = q | X t 1 , X t 2 , . . . , X0 ] = P [ X t = q | X t 1 ] .

(3.10)

Heuristicamente, o aspecto crtico de um modelo de Markov que tal processo, conforme avana no tempo, o mesmo esquece sobre seus estados passados, com exceo
do imediatamente anterior.
Uma caminhada aleatria em uma cadeia de Markov pode ser definida da seguinte
forma: um caminhante aleatrio inicia em um estado q, de acordo com uma distribuio p0 conhecida. Logo aps, ele se move para algum estado q , respeitando a
matriz probabilstica de transio P. Repetindo esta ltima operao k vezes, resultase em uma caminhada aleatria de k passos. Em termos matemticos, a matriz que
representa a matriz de transio de k-passos representada por Pk , caso a caminhada
seja homognea (Szummer e Jaakkola, 2001). O conjunto destes passos no decorrer do
tempo em um processo estocstico denomina-se realizao do processo (Meyn e Tweedie, 2009). Em uma cadeia de Markov, um estado q dito ser absorvente se existe a
probabilidade de valor 1 de ir de q para ele mesmo. Em outras palavras, uma vez que o
estado absorvente seja atingido em uma caminhada aleatria, o caminhante no mais
sair daquele estado pelo resto dos passos subsequentes. Uma cadeia de Markov a qual
possui probabilidade 1 em terminar em um estado absorvente classificada como uma
cadeia de Markov absorvedora. Em tal modelo, o conjunto de estados pode ser dividido
em um conjunto de estados absorventes, denotado por A e seu conjunto complementar, denominado conjunto de estados transientes, denotado por T = \ A . A
funo tempo de passagem, medida de suma importncia nesta tcnica, conta o nmero de vezes que um dado vrtice foi visitado em uma caminhada aleatria (Callut
et al., 2008). Matematicamente, ela definida por:

44

Captulo 3 - Aprendizado Semissupervisionado

Definio 2. Tempo de Passagem: Dada uma cadeia de Markov, M = , P, p0 , o tempo


de passagem uma funo pt : N, tal que pt(q) o nmero de vezes que o processo
atinge o estado q em uma realizao.
O tempo de passagem mdio denota a esperana do tempo de passagem, ou seja,
E[ pt(q)]. O tempo de passagem mdio, pois, claramente infinito para estados absorventes, j que uma vez atingido ele nunca mais sai do mesmo. Para estados transientes,
o tempo de passagem mdio pode ser obtido a partir da matriz fundamental, dada por
N = ( I PT )1 , onde I representa a matriz identidade | XT | | XT | (inlar, 1975). A
entrada nq q contm o tempo mdio de passagem do estado q T durante caminhadas aleatrias comeando no estado q . Desta forma, E[ pt(q)] = [ p0T N ]q , onde p0T a
transposta do vetor de probabilidades inicial reduzido apenas para os estados transientes . Mister se faz registrar que a esperana calculada sobre todas as caminhadas
aleatrias de qualquer tamanho (positivo).
A D-Walk, em termos gerais, definida como uma caminhada aleatria que comea
em um vrtice rotulado e termina em um vrtice cuja classe igual ao do primeiro vrtice em que se iniciou a caminhada. Tal ideia rigorosamente fornecida na Definio
3.
Definio 3. D-Walk: Dada uma cadeia de Markov definida no conjunto de estados e uma
classe y Y, uma D-Walk uma sequncia de estados q0 , q1 , . . . , ql tal que yq0 = yql = y e
yqt = y para todo 0 < t < l.
A notao D y refere-se ao conjunto de todas as D-Walks que comeam e terminam
em um vrtice da classe y. A funo betweenness B(q, y) mede quantas vezes um vrtice
q U se localiza entre os vrtices da classe y Y. O betweenness B(q, y) formalmente
definido como o nmero esperado de vezes que um vrtice q encontrado durante
D y -walks, conforme pode ser observado na Definio 4.
Definio 4. Betweenness de uma D-Walk: Dado um vrtice no rotulado q U e uma
classe y Y, a funo de betweenness para D-Walks U Y R+ definida como:
B(q, y) E[ pt(q)| D y ].

(3.11)

Agora, apresentam-se duas motivaes para limitar as D-Walks: (i) complexidade


algortmica: fcil verificar que o tempo para o clculo do betweenness exato da ordem
de O(n3 ), em virtude da realizao da tarefa de inverso de matrizes, especificamente
para encontrar a matriz fundamental N, a qual essencial no clculo. (ii) A segunda
motivao cumpre papel precpuo na anlise e reside no fato de que se for prolongado
muito uma D-Walk, o caminhante acabaria por sair da regio de interesse, isto , da
regio em que os vrtices da sua prpria classe esto localizados, e comearia a influenciar no betweenness de vrtices mais longnquos, degenerando a taxa de classificao
correta. A Definio 5 mostra precisamente a definio de D-Walks limitadas.

3.3 - Abordagens de Aprendizado Semissupervisionado

45

Definio 5. Betweenness de D-Walks limitadas: Dado um vrtice no rotulado q U e


uma classe y Y, a funo de betweenness para D-Walks limitadas U Y R+ definida
como:
y

B(q, y) E[ pt(q) | D L ],

(3.12)

onde D L representa todas as D-Walks limitadas at o tamanho L. A restrio de limitar o tamanho da caminhada introduz dois grandes benefcios, como j discutidos
anteriormente: (i) melhores resultados de classificao so sistematicamente obtidos
no que tange a caminhadas de tamanhos quaisquer (at o infinito), (ii) a medida de
betweenness pode ser calculada de maneira eficiente. O betweenness com caminhadas
sem limites de tamanho pode ser aproximado para um de caminhadas limitadas de
tamanho, considerando grandes, mas finitos, valores de L. Mais precisamente, podese provar que o betweenness de caminhadas limitadas no tamanho converge em tempo
geomtrico no que diz respeito ao parmetro L para o seu valor exato, ou seja, aquele
cujas caminhadas no possuem restries de tamanho (Callut et al., 2008).
A tcnica aplicada a todos os pares de vrtices da rede pr-rotulados. O clculo
do betweenness em D-Walks limitadas pode ser realizado utilizando variveis forward e
backward, similares quelas propostas pelo algoritmo de Baum-Welch (Zhai, 2006). Uma
vez calculados todos os betweenness dos vrtices no rotulados, estes so classificados
seguindo uma regra de deciso de maximizao da a priori do betweenness de cada
classe. Neste caso, a distribuio a priori P[y] utilizada ser a proporo estimada de
vrtices da classe y. Portanto, o rtulo de um vrtice q U classificado utilizando a
seguinte equao:

y q = arg max P [q|y] P[y].


y Y

(3.13)

Os autores em Callut et al. (2008) realizaram vrias simulaes com bases de dados
reconhecidas na comunidade, tais como IMDb, CORA, WebKB e obtiveram, de maneira
geral, resultados de classificao superiores aos algoritmos clssicos da rea, como o
Regularized Laplacian (Zhu et al., 2003), Net Kit (Macskassy e Provost, 2005) e de Zhou
et. Al (Zhou e Schlkopf, 2004), para vrias propores iniciais de vrtices rotulados.
No entanto, verifica-se no trabalho original que o clculo do timo L feito apenas
empiricamente por meio de fora bruta, o que acaba por aumentar a complexidade
temporal do mtodo. Uma anlise terica do L timo ainda constitui um problema
interessante em aberto.

46

Captulo 3 - Aprendizado Semissupervisionado

Caminhadas Aleatrias Markovianas sem Restrio

Os autores em Szummer e Jaakkola (2001) propuseram uma tcnica de classificao semissupervisionada baseada puramente em caminhadas aleatrias sem restries.
Neste contexto, a caminhada aleatria baseada em uma mtrica local apropriada.
Usualmente, tal mtrica faz uso da informao topolgica da rede, no caso, a vizinhana local do item de dado, aqui concebido como um vrtice. A partir dessa mtrica,
a matriz de transio probabilstica montada a partir da seguinte expresso:

P(i, j) =

ai,j
,
V
u=0 ai,u

(3.14)

onde P(i, j) denota a probabilidade de o caminhante realizar uma transio do vrtice i


para o j; ai,j indica a similaridade atribuda, a partir da mtrica escolhida, aos vrtices i
e j. No trabalho original, a mtrica utilizada o kernel Gaussiano (Chapelle et al., 2006).
A matriz construda com base na Equao (3.14) para (i, j) V V configurase como a matriz de transio de 1 passo no processo Markoviano. Tal matriz aqui
denotada por P. A tcnica desenvolvida em Szummer e Jaakkola (2001) se fundamenta
na anlise da distribuio dos dados no rotulados por meio da utilizao da matriz
de transio genrica de t passos. Desta forma, a probabilidade de iniciar do vrtice i
e terminar em um vrtice j depois de t passos matematicamente expresso por:

Pt (i, j) = [Pt ]ij .

(3.15)

Na iterao inicial, assumido que a caminhada aleatria pode se inicializar de


qualquer vrtice da rede, i.e., segue uma distribuio uniforme P(i ) = 1/N . As probabilidades condicionais Pt (i, j) definem a representao dos itens de dados. Em outras
palavras, cada item de dado k associado com um vetor de probabilidades condicionais Pt (i, j), i = 1, . . . , V. Os itens de dados nesta representao estaro prximos caso
os mesmos demonstrem uma distribuio semelhante em relao aos estados inicias.
Esta representao crucialmente afetada pelo tamanho do passo t. Quando t ,
todos os itens de dados se tornam indistinguveis, j que a distribuio de todos os vrtices se aproxima da distribuio invariante, dado que o grafo aperidico e ergdico
(inlar, 1975). Valores pequenos de t, por outro lado, aglomeram os itens de dados
em pequenos clusters. Por conseguinte, nesta representao, o parmetro t controla a
resoluo na qual os dados so analisados.
O modelo de classificao assume que cada item de dado possui uma distribuio
P(y | i ) sobre todos os rtulos y de classe presentes no problema. Essas distribuies
so desconhecidas a priori e representam os parmetros a serem apropriadamente es-

3.3 - Abordagens de Aprendizado Semissupervisionado

47

timados. Com isto em mente, dado um item de dado k, o qual pode figurar como um
dado rotulado ou no, este interpretado como uma realizao de uma caminhada
aleatria Markoviana de t passos. Assim, a probabilidade a posteriori do rtulo y ser do
item de dado k dado por:

Ppost (y|k) =

P(y | i) Pt (i, k).

(3.16)

i =0

Com o propsito de classificar este item de dado k, o classificador escolhe a classe


que maximiza esta a posteriori:

ck = arg max Ppost (y = c | k ).

(3.17)

No entanto, P(y | i ) geralmente desconhecido para itens de dados no rotulados.


Com o intuito de estimar tal distribuio, os autores em Szummer e Jaakkola (2001) utilizaram a tcnica Expectation-Maximization (EM) de estimao paramtrica. O critrio
fixado dado pela seguinte expresso dos dados rotulados:

k =1

k =1

i =1

log( P(yk | k) = log P(yk | i) Pt (i, k).

(3.18)

Um grande problema dessa tcnica reside na definio exata da resoluo t. Em


base de dados simples, normalmente um t baixo j consegue realizar a classificao
de forma satisfatria. No entanto, conforme a complexidade das classes cresce, um t
maior necessrio. Em contrapartida, um t muito grande faz com que a classificao
degenere, uma vez que todas as distribuies de qualquer item de dado ser igual a
distribuio invariante do grafo, sob certas condies. Em suma, o parmetro t muito
sensvel qualidade de classificao do algoritmo e deve ser calibrado de acordo com
a base de dados em anlise.

3.4

Consideraes Finais

Neste captulo, foi explorados os conceitos de aprendizado semissupervisionado,


explicitando onde o mesmo se localiza em funo da macrorea de Inteligncia Artificial e da rea de Aprendizado de Mquina. Foram elencadas as principais motivaes
que contriburam para o nascimento desta rea, sendo a principal delas o aumento exponencial dos dados e o alto custo de rotulao. Esta rea permitiu solucionar este tipo
de problema, apenas se embasando nos poucos exemplos j rotulados e, a partir da, fa-

48

Captulo 3 - Aprendizado Semissupervisionado

zendo a predio dos dados remanescentes. Alm disso, foram mostradas as principais
abordagens tomadas no aprendizado semissupervisionado, com uma nfase maior nos
mtodos baseados em grafos, suas limitaes e vantagens sobre as abordagens generativas e de baixa densidade. Estas limitaes incorrem devido aos altos custos de
inverso matricial e de otimizao das funes quadrticas de custos. Motivados por
esta razo, mtodos alternativos foram propostos, na tentativa de se desvencilharem
dessas operaes custosas. Especificamente, foram visto em detalhes cinco mtodos
de aprendizado semissupervisionado baseado em redes, quais sejam: classificador de
regularizao local e global, regularizador por manifolds, classificador semissupervisionado guiado pela medida de modularidade, D-Walks e caminhadas aleatrias sem restrio. Os dois primeiros se fundamentam na minimizao de um funo de energia;
o terceiro embasa-se no processo de otimizao da medida de modularidade, originalmente proposta para deteco de comunidades; e o quarto e quinto se aliceram sobre
a teoria de caminhadas aleatrias.

C APTULO

4
Resultados Obtidos

Nesta seo, sero descritos os resultados obtidos, quais sejam: (i) modelagem do
sistema de competio de partculas para o modo de aprendizado semissupervisionado via sistema dinmico estocstico; (ii) anlise matemtica do modelo proposto; e
(iii) simulaes computacionais. As sees seguintes seguem didaticamente estes tpicos. Vale ressaltar que todos os resultados obtidos nesta seo baseiam-se no artigo ?,
o qual encontra-se em processo de reviso.

4.1

Modelagem do Sistema de Competio de Partculas


via Sistema Dinmico Estocstico

Nesta seo, ser discorrido sobre a formalizao do sistema de competio de partculas. Especificamente, na Subseo 4.1.1, fornecida uma viso geral do modelo
competitivo; na Subseo 4.1.2, a matriz competitiva de transio demonstrada; na
Subseo 4.1.3, o sistema dinmico estocstico exibido; na Subseo 4.1.4, um conjunto de condies iniciais pertencente ao sistema dinmico elucidado; na Subseo
4.1.5, o algoritmo de competio de partculas discutido; e, finalmente, na Subseo
4.1.6, a anlise de complexidade computacional do mtodo proposto estudada.

4.1.1

Viso Geral do Modelo

Considere que seja fornecido um grafo G = V , E , onde V = {v1 , . . . , vV } denote


o conjunto de vrtices, enquanto que E = {e1 , . . . , e L } V V , o conjunto de arestas.
No modelo de aprendizado competitivo, um conjunto de partculas K = {1, . . . , K }
49

50

Captulo 4 - Resultados Obtidos

inserido nos vrtices da rede de forma aleatria. Cada partcula pode ser considerada
como portadora de uma bandeira e seu objetivo precpuo resume-se em conquistar novos territrios - aqui representados pelos vrtices -, enquanto que, simultaneamente,
tambm defende seus territrios previamente conquistados. Observe que, como o territrio nesse modelo possui o papel de recurso escasso, um processo competitivo ir
se estabelecer naturalmente entre as partculas participantes. Quando uma partcula
visita um vrtice arbitrrio, ela fortalece seu nvel de dominao sobre aquele vrtice
e, concomitantemente, enfraquece todos os nveis de dominao das partculas rivais
sobre aquele mesmo vrtice, de tal maneira a imitar a competio por recursos que
ocorre em muitos processos sociais e naturais. De forma a se obter uma ideia concreta
do processo competitivo, ser considerado o problema de classificao semissupervisionada em redes complexas. esperado que este modelo, em um amplo perodo de
tempo, acabe por encontrando as classes na rede, de tal forma que cada partcula, ou
um time de partculas, domine inteiramente uma classe.
Nesse modelo, uma partcula pode estar em um dos seguintes estados: ativo ou
exausto. Quando a partcula estiver no estado ativo, ela navega pela rede segundo
uma poltica de movimentao que mescla comportamentos aleatrio e preferencial,
enquanto que, quando estiver no estado exausto, a partcula substitui esta mescla de
comportamentos por uma nova poltica de movimentao que a obriga a regressar
para seu territrio previamente conquistado, com o propsito de ser recarregada (e,
portanto, voltar a ficar ativa). O termo de movimentao aleatria responsvel pelo
comportamento aventureiro da partcula, i.e., ela visitar vrtices vizinhos sem se preocupar com os nveis de dominao impostos por outras partculas rivais. Por outro
lado, o termo de movimentao preferencial incumbido do comportamento defensivo da partcula, i.e., ela preferir reforar seu territrio j conquistado, ao invs de
visitar algum vrtice que ainda no esteja dominado por ela. De forma que estas propriedades possam ser materialmente realizadas, cada partcula carrega consigo um
nvel de energia que, quantitativamente, indica a capacidade exploratria da mesma.
Esta energia aumenta quando uma partcula est visitando um vrtice cuja proprietria a prpria partcula visitante, e decresce quando a mesma visita um vrtice que
est sendo dominado por outra partcula rival. Se esta energia atingir um patamar
mnimo pr-estabelecido, a partcula se torna exausta naquela iterao e, consequentemente, transportada de volta para territrio seguro, i.e., um dos vrtices dominados
por aquela partcula ora exausta. Nos prximos passos, a partcula possivelmente ser
recarregada por meio de visitas aos seus vrtices j conquistados. Com este mecanismo de confinamento artificial, espera-se que a regio de atuao de cada partcula
seja restringida, reduzindo, portanto, muitas visitas a vrtices longnquos da rede, aparentemente sem qualquer relao com aquela partcula.
No esquema semissupervisionado, um conjunto de vrtices pr-rotulados forne-

4.1 - Modelagem do Sistema de Competio de Partculas via Sistema Dinmico Estocstico

51

cido. Cada partcula representa um vrtice rotulado, que, por sua vez, associado a
uma determinada classe. As partculas so portadoras dos rtulos daqueles vrtices
os quais representam. Essas partculas representativas navegam pelos vrtices com o
propsito de propagar esse rtulo, utilizando apenas a topologia local da rede. No
permitida a troca de rtulos de vrtices pr-rotulados. O processo cooperativo
considerado na classificao da seguinte forma: cada vrtice mantm os nveis de dominao impostos por todas as partculas presentes na rede. No ato de classificao
de um vrtice no rotulado, calculado o nvel de dominao imposto por cada time
de partculas. O nvel de dominao do time sobre aquele vrtice dado pela soma
dos nveis de dominao impostos por cada membro pertencente quele time de partculas. Por fim, a classe de um vrtice no rotulado decidida pelo time que impor o
maior nvel de dominao sobre o mesmo.
Por convenincia, a Tabela 4.1 traz uma breve descrio de toda notao relevante
usada neste trabalho.
Tabela 4.1: Breve descrio das notaes mais relevantes utilizadas neste trabalho.

Notao
t
i, j
k
aij
(k)

Ni (t)
p(k) ( t )
E(k) ( t )
S(k) ( t )
min
max

(k)
Ptrans (t)
Paleat
(k)
Ppref (t)
(k)

Prean (t)

V
E
K
C
L
S
I
M

Descrio
ndice denotador do tempo.
ndices caracterizadores de vrtices na rede.
ndice indicador de uma partcula na rede.
O peso da aresta interligando os vrtices i e j.
Nmero de visitas realizado pela partcula k ao vrtice i.
Localizao da k-sima partcula na rede no instante t.
Energia da partcula k no instante t.
Indicator do estado da k-sima partcula no instante t: ativa ou exausta.
Energia mnima permitida a uma partcula.
Energia mxima permitida a uma partcula.
Frao de energia ganha/perdida de uma partcula.
Matriz de transio da partcula k no instante t.
Matriz de movimentao aleatria da partcula k (invariante no tempo).
Matriz de movimentao preferencial da partcula k.
Matriz de reanimao da partcula k
Contrabalanceador da quantidade de movimentao aleatria e preferencial.
Conjunto de vrtices da rede.
Conjunto de arestas da rede.
Conjunto de partculas inseridas na rede.
Conjunto de rtulos (classes).
Conjunto de vrtices pr-rotulados e seus correspondentes rtulos.
Conjunto correspondendo ao espao gerado por V K.
Conjunto contendo todas os elementos que satisfazem ao Lema 3.
Conjunto de todos N (t) cujas entradas esto em I .

52

4.1.2

Captulo 4 - Resultados Obtidos

Derivao da Matriz de Transio Competitiva

Quanto poltica de movimentao de uma partcula k K, como j explanado


em oportunidade prvia, esta basicamente composta por dois tipos distintos de mo(k)
vimentao: (i) um termo de movimentao aleatria modelado pela matriz Paleat , o
qual permite que a partcula se aventure na rede, sem se responsabilizar pela defesa
de seus vrtices previamente dominados; e (ii) um termo de movimentao preferen(k)
cial modelado pela matriz Ppref , o qual responsvel por induzir a partcula a reforar
os vrtices os quais possuem como dono a prpria partcula. Com o intuito de modelar tal dinmica, considere o vetor estocstico p(t) = [ p(1) (t), p(2) (t), . . . , p(K ) (t)],
o qual denota a localizao do conjunto de K partculas apresentadas rede, onde a
k-sima entrada, p(k) (t), indica a localizao da partcula k na rede no instante t, i.e.,
p(k) (t) V , k K. Neste modelo, desejado encontrar a matriz de transio que governa a distribuio de probabilidade da movimentao das partculas para um estado
futuro subsequente, p(t + 1) = [ p(1) (t + 1), p(2) (t + 1), . . . , p(K ) (t + 1)].
Com o intuito de modelar os estados possveis de cada partcula inserida na rede,
ser introduzido o seguinte vetor estocstico S(t) = [S(1) (t), . . . , S(K ) (t)], onde a ksima entrada, S(k) (t) {0, 1}, indica se a partcula k est ativa ou exausta no tempo
t. Especificamente, se S(k) (t) = 1, ento a partcula k dita estar exausta no tempo
t. Analogamente, quando S(k) (t) = 0, a partcula dita estar ativa no tempo t. Logo,
se S(k) (t) = 0, a partcula navega na rede segundo uma mistura de comportamentos
aleatrio e preferencial. Entretanto, caso S(k) (t) = 1, a partcula modifica sua poltica
(k)
de movimentao para uma nova regra, a qual modelada pela matriz Prean (t). Tal
matriz responsvel por compelir a partcula a regressar ao seu territrio previamente
conquistado, com a meta de reanimar a correspondente partcula por meio da revitalizao de sua energia. Este fenmeno intitulado processo de reanimao. Uma vez
que a partcula esteja revitalizada, a mesma, novamente, poder executar a sua movimentao aleatrio-preferencial na rede. Em suma, S(t) age como uma chave, a qual
determina a poltica de movimentao de todas as partculas no instante t.
Diante das informaes supracitadas, pode-se definir a matriz de transio competitiva associada partcula k como:

(k)

Ptrans (t)

(k)

(k)

(k)

(1 S(k) (t)) Ppref (t) + (1 )Paleat + S(k) (t)Prean (t),

(4.1)

onde [0, 1] simboliza a frao desejada de movimentao preferencial que todas as


partculas na rede realizaro. de extrema valia salientar que a Equao (4.1) uma
combinao convexa de matrizes de transio (o primeiro termo, por sua vez, tambm
o ), uma vez que a soma dos coeficientes unitria; logo, a matriz resultante garantida ser outra matriz de transio. Restam-se definir as trs matrizes que compem a

4.1 - Modelagem do Sistema de Competio de Partculas via Sistema Dinmico Estocstico

53

Equao (4.1) de modo detalhado.


Os passos necessrios para derivar a matriz de movimentao aleatria so diretos,
uma vez que essa matriz depende diretamente da matriz de adjacncia do grafo, a
(k)
qual conhecida a priori. Em face disto, cada entrada (i, j) V V da matriz Paleat
expressa como:

Paleat (i, j)

ai,j
V
u=1 ai,u

(4.2)

onde ai,j denota a (i, j)-sima entrada da matriz de adjacncia A do grafo. Observe
que a Equao (4.2) se assemelha com a matriz Markoviana tradicional para um nico
caminhante aleatrio, aqui simbolizado por uma partcula (inlar, 1975). Cumpre reforar tambm que a matriz Paleat invariante no tempo e idntica para todas as
partculas na rede. Em termos sucintos, caso a partcula esteja no vrtice i, a probabilidade de um vizinho adjacente j ser visitado, segundo esta poltica de movimentao,
proporcional ao peso da aresta que interliga os vrtices i e j.
Com o propsito de auxiliar no clculo da segunda matriz da Equao (4.1),
ser introduzido o seguinte vetor estocstico:

(k)
Ppref (t),

Ni (t)

(1)

(2)

(K )

[ Ni (t), Ni (t), . . . , Ni

(t)],

(4.3)

onde dim( Ni (t)) = 1 K e Ni (t) representa o nmero de visitas que o vrtice i rece(k)
beu de todas as partculas at o tempo t. Especificamente, a k-sima entrada, Ni (t),
fornece o nmero de visitas feito pela partcula k ao vrtice i at o tempo t. Agora,
essa noo estendida para todos os vrtices da rede por meio da definio da matriz
global que mantm o nmero de visitas realizado por todas as partculas a cada vrtice
da rede como:

N (t)

[ N1 (t), N2 (t), . . . , NV (t)]T ,

(4.4)

onde dim( N (t)) = V K. Formalmente, tambm define-se o vetor de nvel de domi i (t), de acordo com o seguinte vetor estocstico:
nao do vrtice i, N

i (t)
N

(1)
(2)
(K )
[ N i (t), N i (t), . . . , N i (t)],

(4.5)

i (t)) = 1 K e N
i (t) retrata a frequncia relativa de visitas de todas as paronde dim( N
( k ) ( t ),
tculas na rede ao vrtice i at o instante t. Particularmente, a k-sima entrada, N
i

54

Captulo 4 - Resultados Obtidos

indica a frequncia relativa de visitas feita pela partcula k ao vrtice i at o instante t.


Similarmente ao caso anterior, essa noo estendida a todos os vrtices constituintes
da rede por intermdio da definio da matriz global de nvel de dominao, a qual
responsvel por registrar todos os nveis de dominao impostos por cada partcula a
todos os vrtices na rede, a partir da seguinte expresso:

(t)
N

[ N 1 (t), N 2 (t), . . . , N V (t)]T ,

(4.6)

(t)) = V K. Matematicamente, pode-se calcular a entrada N


(k) (t) de tal
onde dim( N
i
matriz a partir da seguinte frmula:

(k) ( t )
N
i

(k)

Ni (t)
(u)

uK=1 Ni

(t)

(4.7)

(k)

luz dessas explanaes, pode-se definir Ppref (i, j, t), quantidade a qual caracteriza a probabilidade de uma nica partcula k realizar a transio do vrtice i ao j no
instante t, usando exclusivamente o termo de movimentao preferencial. Matematicamente, tem-se:

(k)
Ppref (i, j, t)

(k) ( t )
ai,j N
j
(k)
V
u=1 ai,u Nu ( t )

(4.8)

Claramente, a partir da Equao (4.8), observa-se que cada partcula possui uma
matriz de transio associada a sua movimentao preferencial, matriz a qual difere
de partcula para partcula. Mais ainda, ao contrrio da matriz relativa movimentao aleatria, a matriz em apreo variante no tempo com dependncia direta nos
(t)). vlido nonveis de dominao de todos os vrtices da rede no instante t ( N
tar que a abordagem aqui tomada para caracterizar a movimentao preferencial das
partculas a frequncia de visitas que cada partcula executa em cada vrtice, de tal
forma que, quanto mais visitas uma partcula especfica realiza em um vrtice arbitrrio, maior ser a chance da mesma repetidamente retornar ao mesmo vrtice. Como
ltimo ponto a ser destacado desse tipo de movimentao, importante verificar que
a Equao (4.8) produz duas caractersticas presentes em um modelo de competio
natural, quais sejam: (i) o fortalecimento do nvel de dominao que a partcula visitante impe ao vrtice o qual visita; e (ii) o consequente enfraquecimento do nvel
de dominao de todas as outras partculas rivais sobre aquele mesmo vrtice. Este
comportamento inerentemente representado em funo da abordagem frequencial.

4.1 - Modelagem do Sistema de Competio de Partculas via Sistema Dinmico Estocstico

55

Agora, por questes didticas, um exemplo simples que sumariza os pontos-chave at


ento introduzidos estudado.

Figura 4.1: Uma tpica situao em que a partcula vermelha, presentemente localizada no vrtice v1 , tem de selecionar o prximo vizinho a visitar. Neste exemplo, h 2 partculas, vermelha
e azul (a partcula azul no mostrada). A cor bege denota os vrtices que ainda no foram
dominados por quaisquer partculas at o instante t.

Exemplo 1. Considere a rede de 4 vrtices mostrada na Figura 4.1, em que existem duas partculas: a primeira indicada pela cor vermelha e a segunda, azul. Para fins ilustrativos, apenas
a localizao da partcula vermelha explicitada, a qual, no momento, visita o vrtice v1 . Neste
exemplo, ser claramente explanado o papel que o nvel de dominao possui no que tange
determinao da matriz de transio. Ainda na figura, didaticamente indicado o vetor nvel de
dominao de cada vrtice na rede no instante t. Observe que o proprietrio de um vrtice (na figura, marcado pela cor do vrtice) decidido de acordo com a partcula que est impondo o maior
nvel de dominao quele vrtice especfico. Por exemplo, no vrtice v1 , a partcula vermelha
impe uma dominao de 60%, enquanto que, a partcula azul, apenas 40%. A meta aqui derivar a matriz de transio da partcula vermelha, segundo as regras da Equao (4.1). Suponha
que, no tempo t, a partcula vermelha esteja ativa; logo, S(vermelha) (t) = 0 e, consequentemente, o segundo termo da combinao convexa na Equao (4.1) nulo. Arbitrariamente,
fixa-se = 0.8 para este exemplo. Com base na Equao (4.2), a matriz de movimentao
aleatria da partcula vermelha dada por:

(vermelha)
Paleat

0
1
1
1

1/3

1/3

1/3

0
0
0

0
0
0

0
0
0

(4.9)

e a matriz de movimentao preferencial , em consonncia com a Equao (4.8), expressa por:

56

Captulo 4 - Resultados Obtidos

(vermelha)
Ppref
(t)

0 0.57 0.07 0.36

1 0
0
0
.
1 0
0
0

1 0
0
0

(4.10)

Finalmente, a matriz de transio associada partcula vermelha determinada por uma


combinao ponderada entre a matriz aleatria (invariante no tempo) e a matriz preferencial
no tempo t, j que a partcula, por hiptese, est ativa. Essa ponderao influenciada pelo
parmetro . Numericamente, aplicando a Equao (4.1) tem-se:

(vermelha)
Ptrans
(t)

= 0.2

0
1
1
1

1/3

1/3

1/3

0
0
0

0
0
0

0
0
0

+ 0.8

0 0.52 0.12 0.36

1 0
0
0
.
1 0
0
0

1 0
0
0

0 0.57 0.07 0.36

1 0
0
0

1 0
0
0

1 0
0
0

(4.11)

Portanto, a partcula vermelha ter uma maior chance de visitar o vrtice v2 (52% de chance)
do que os outros vrtices na vizinhana. Este comportamento pode ser controlado por meio da
variao do parmetro . Um alto valor induz a partcula exclusivamente a realizar movimentos segundo o termo preferencial, i.e., continuar sempre visitando vrtices cuja proprietria
a prpria partcula. Em contraste, um valor baixo assegura um maior peso para o termo de movimentao aleatria, fazendo com que a partcula se assemelhe a um caminhante Markoviano
tradicional quando 0 (inlar, 1975). No caso extremo, i.e., = 0, o mecanismo de competio desligado e o modelo reduz-se a mltiplas caminhadas aleatrias sem interao entre
os caminhantes. Com isto em mente, o modelo aqui estudado generaliza a teoria de mltiplas
caminhadas aleatrias, dependendo da escolha do parmetro .

(k)

Agora, ser definida cada entrada de Prean (t). Tal matriz responsvel por transportar uma partcula exausta k K de volta ao seu territrio j conquistado, com o
propsito de revitalizar a energia da partcula (processo de reanimao). Suponha que
a partcula exausta k esteja visitando o vrtice i quando sua energia completamente
esgotada. Nesta situao, a partcula deve regressar para um vrtice arbitrrio j de seu
domnio no instante t, em acordo com a seguinte expresso:

4.1 - Modelagem do Sistema de Competio de Partculas via Sistema Dinmico Estocstico

1
(k)
Prean (i, j, t)

arg max
mK

V
u =1 1

(m) (t ) = k
N
j

57

(4.12)

u(m) (t) =k
N

arg max
mK

onde arg max(.) retorna o ndice m que maximiza o argumento e 1{.} a funo indimK

cadora que produz 1 se o argumento for logicamente verdadeiro e 0, caso contrrio.


De fato, uma anlise cuidadosa da Equao (4.12) revela que a probabilidade da partcula k retornar a um vrtice arbitrrio j, j dominado pela mesma partcula, segue
uma distribuio de probabilidade uniforme. Alm disso, todas as linhas dessa matriz so iguais, mostrando que essa movimentao no depende do vrtice o qual uma
partcula est visitando. Desta forma, uma forma compacta de computacionalmente
representar essa estrutura pode ser empregada. Com isto em mente, a Equao (4.12)
apenas resulta em probabilidades no nulas para vrtices j que esto sendo dominados pela partcula k no instante t, no importando a existncia de uma conexo entre
i e j na matriz de adjacncia. Em essncia, uma vez que a partcula esteja exausta, a
chave S(k) (t) ativada, que, por sua vez, obriga a partcula k a retornar ao seu territrio previamente dominado, de tal forma a recarreg-la. No modelo proposto, sempre
existir pelo menos um vrtice dominado por cada partcula, como ser explicado em
oportunidade vindoura.
Agora, o desenvolvimento da poltica de atualizao de energia das partculas ser discutido. Primariamente, til introduzir o vetor estocstico E(t) =
[ E(1) (t), . . . , E(K) (t)], onde a k-sima entrada, E(k) (t) [min , max ], max min ,
denota o nvel de energia que a partcula k possui no tempo t. Matematicamente, a
poltica de atualizao de energia das partculas dada por:

E(k) ( t ) =

min(

max , E

max(

onde proprietario(k, t) =

( k ) ( t 1) + ),

(k)
min , E ( t 1) ),

se proprietario(k, t)
se

)
(m
(t) = k
arg max N
(k)
mK

(t)

proprietario(k, t)

(4.13)

uma expresso lgica que es-

sencialmente resulta em verdadeiro se o vrtice em que a partcula k esteja visitando


no tempo t (i.e., o vrtice p(k) (t)) seja dominado pela mesma partcula, e falso, caso
contrrio; dim( E(t)) = 1 K; > 0 simboliza o incremento ou decremento de energia
que a partcula receber em um instante t qualquer. Ademais, a primeira expresso
na Equao (4.13) representa o incremento da energia da partcula e ocorre quando
a partcula k visita um vrtice p(k) (t), no tempo t, cuja proprietria seja ela mesma,
)
(m
(t) = k. Similarmente, a segunda expresso na Equao (4.13)
i.e., arg max N
(k)
mK

(t)

58

Captulo 4 - Resultados Obtidos

aponta o decremento de energia da partcula e acontece quando a partcula k visita


um vrtice p(k) (t) que no dominado pela mesma, i.e., existe um nvel de dominao
maior imposto quele vrtice por uma partcula rival. Em derradeiro, neste modelo, as
partculas sero penalizadas caso estiverem caminhando em territrio das partculas
rivais. Isso feito no intuito de minimizar caminhadas irrelevantes das partculas na
rede, as quais serviriam apenas para reduzir a velocidade de convergncia do sistema
dinmico. Pelas mesmas razes, espera-se que este comportamento possa melhorar a
acurcia do classificador semissupervisionado.
Avana-se agora a definio da regra de atualizao que rege S(t), vetor o qual
responsvel por determinar a poltica de movimentao de cada partcula. Como j
fora mencionado anteriormente, uma partcula k arbitrria ser transportada de volta
ao seu domnio se sua energia atingir um patamar mnimo, quantificado por min .
Ora, natural que cada entrada S(k) (t), portanto, necessite monitorar a energia corrente da sua partcula correspondente k, i.e., se esta energia, por alguma razo, atingir
o patamar mnimo, ento a chave S(k) (t) necessita ser ligada. Analogamente, se a partcula ainda possui energia maior que esse patamar mnimo, ento a chave manter-se-
desligada. Matematicamente, a k-sima entrada de S(t) pode ser precisamente escrita
como:

S(k) (t) = 1{E(k) (t)=min } ,

(4.14)

onde dim(S(t)) = 1 K. Especificamente, S(k) (t) = 1 se E(k) (t) = min e 0, caso


contrrio. Como h um limite superior para a varivel aleatria E(k) (t), claro que
se a partcula k frequentemente visitar vrtices que estejam dominados por partculas
rivais, a sua energia decrescer de tal forma que poder atingir min e, logo, se tornar exausta. O limite superior, max , foi estabelecido para prevenir que as partculas
na rede aumentem sua energia para um valor muito alto (por meio da constante visita a vrtices dominados por essa partcula), e, uma vez esta energia esteja grande o
bastante, a partcula poderia navegar para territrios muito longnquos, visitando, assim, um nmero substancial de vrtices pertencentes a outras partculas at que sua
energia fique completamente esgotada. Desta forma, a taxa de classificao do sistema
dinmico seria consideravelmente reduzida. No prximo exemplo, sero resumidos
os principais conceitos introduzidos at o momento.
Exemplo 2. Considere a rede de 20 vrtices retratada na Figura 4.2. Suponha que existam 2
partculas, a vermelha e azul, localizadas nos vrtices v17 e v1 , respectivamente. Como ambas as
partculas esto visitando vrtices cujas proprietrias so partculas rivais, a energia daquelas
partculas ser reduzida. Considere, tambm, que as partculas vermelha e azul tenham atingido
o patamar mnimo de energia, i.e., min , no tempo t. Portanto, de acordo com a Equao (4.14),

4.1 - Modelagem do Sistema de Competio de Partculas via Sistema Dinmico Estocstico

59

Figura 4.2: Ilustrao do procedimento de reanimao. H duas partculas, a vermelha e azul,


localizadas nos vrtices v17 e v1 no instante t, respectivamente, as quais se tornaram exaustas.
A rede engloba 20 vrtices. A cor do vrtice representa qual partcula est impondo o maior
nvel de dominao no tempo t.

essas partculas se tornaro exaustas. Consequentemente, S(vermelha) (t) = 1 e S(azul) (t) = 1,


e a matriz de transio associada a cada partcula somente possuir o segundo termo no nulo
da combinao convexa indicada na Equao (4.1). Em consonncia s regras do sistema dinmico, estas partculas sero transportadas de volta ao seu territrio. Esse transporte acontecer
segundo a Equao (4.12). Em vista desse cenrio, a matriz de transio para a partcula vermelha, no instante t, ser:

1
(i, j, t) = , i V , j {v1 , v2 , . . . , v9 },
9
(vermelha)
Ptrans
(i, j, t) = 0, i V , j V \ {v1 , v2 , . . . , v9 },
(vermelha)

Ptrans

(4.15)
(4.16)

e a matriz de transio associada a partcula azul, no mesmo instante de tempo, ser:

1
(azul)
Ptrans (i, j, t) = , i V , j {v13 , v14 , . . . , v20 },
8
(azul)
Ptrans (i, j, t) = 0, i V , j V \ {v13 , v14 , . . . , v20 }.

(4.17)
(4.18)

Pode-se verificar que, dado que a partcula esteja exausta, no importa o lugar onde a partcula se encontre, ela ser transportada de volta para seu territrio (conjunto de vrtices cuja
proprietria essa partcula). A determinao de qual dos vrtices desse subconjunto que ser
visitado segue uma distribuio uniforme, i.e., cada vrtice j dominado possui chances iguais
de ser visitado pela partcula ora exausta.
Uma vez definida cada matriz associada a cada partcula no modelo, neste momento, agrupam-se todas essas matrizes em uma matriz de transio representativa
que engloba todas as partculas, intitulada aqui Ptrans (t), usando o seguinte fato:

60

Captulo 4 - Resultados Obtidos

quando uma partcula est ativa, sua movimentao independente de todas as partculas rivais, dado que se tenha conhecimento do estado presente. Em virtude disso, a
localizao das outras partculas no influencia na ao de escolher o prximo vrtice a
ser visitado pela partcula em apreo, j que todo o estado presente sabido e a matriz
de transio unicamente depende dele. A mesma ideia pode ser aplicada quando a
partcula est exausta. Em funo dessa propriedade, a matriz global de transio que
indica a transio do vetor estocstico p(t) para p(t + 1) pode ser descrita:

(1)

(K )

Ptrans (t) = Ptrans (t) . . . Ptrans (t),

(4.19)

onde denota o operador produto tensor de Kronecker. Assim, a Equao (4.19) completamente especifica a matriz de transio de todas as partculas na rede.
Essencialmente, p(t + 1) visto como um processo estocstico discreto, cuja distribuio de probabilidade dada pela linha indicada pela forma escalar de p(t) (a ser
definida) da matriz Ptrans (t). Com o intuito de tornar este processo vivel, enumeramse os estados do vetor que guarda a localizao das partculas p(t), de tal forma a ser
possvel a sua utilizao com a matriz de transio global. Isto decorre do fato que,
para K 2, p(t) ser um vetor e no seria possvel convencionalmente definir a linha
p(t) da matriz Ptrans (t). Esta enumerao do vetor p(t) para sua forma escalar feita
respeitando ordem natural das tuplas, i.e., p(t) = [1, 1, . . . , 1, 1] (todas as partculas
no vrtice 1) denota o primeiro estado; p(t) = [1, 1, . . . , 1, 2] (todas as partculas no
vrtice 1, exceto a ltima partcula, a qual localiza-se no vrtice 2) o segundo estado;
e assim sucessivamente, at o estado escalar V K .

Observao 1. A matriz Ptrans (t) na Equao (4.19) possui dimenses V K V K , as quais


so indesejadamente altas. Na tentativa de economizar espao, em todas as simulaes, ser
utilizada a coleo de K matrizes mostradas na Equao (4.1). A matriz global de todas as
partculas ser bastante til, como ser visto, nas derivaes apresentadas na seo de anlise
matemtica.

4.1.3

O Modelo de Aprendizado Competitivo Semissupervisionado

Em vista das consideraes tomadas na seo anterior, o sistema dinmico estocstico proposto para modelar este comportamento competitivo entre as partculas ser
analisado aqui. Primeiramente, o estado interno do sistema dinmico dado por:

4.1 - Modelagem do Sistema de Competio de Partculas via Sistema Dinmico Estocstico

X (t) =

N (t)
p(t)
E(t)
S(t)

61

(4.20)

e o sistema dinmico competitivo dado por:

(k)
(k)

Ni (t + 1) = Ni (t) + 1{ p(k) (t+1)=i}

min( , E(k) (t) + ), se proprietario(k, t)


max
:
E ( k ) ( t + 1) =

max( , E(k) (t) ), se proprietario(k, t)

min

S ( k ) ( t + 1) = 1
{ E(k) (t+1)=min }

(4.21)

onde, conforme j estudado, dim( N (t)) = V K, dim( p(t)) = 1 K, dim( E(t)) =


(k)
1 K e dim(S(t)) = 1 K, resultando que dim( X (t)) = (V + 3) K, com Ni (t)
[1, ), (i, k) S , onde S o espao gerado por V K. Observe que o vetor estocstico p(t + 1) no possui uma frmula fechada, uma vez que qualificado como uma
distribuio dependente de p(t) e N (t); logo, sua aquisio meramente por gerao
de nmeros aleatrios. Sucintamente, o estado interno do sistema, como mostrado na
Equao (4.20), carrega: (i) o nmero total de visitas feito por cada partcula a cada
vrtice da rede, (ii) a localizao das partculas na rede, (iii) a energia das partculas e
(iv) o vetor de chaves, que indica se as partculas esto ativas ou exaustas.
Alm disso, verifica-se que o sistema no linear, em virtude da funo indicadora. A primeira equao do sistema responsvel pela atualizao do nmero de
visitas do vrtice i pela partcula k at o tempo t; a segunda equao usada para manter o nvel de energia atual de todas as partculas inseridas na rede; e a terceira equao
utilizada para chavear as partculas entre ativas ou exaustas. de extrema valia salientar que, para que o estado interno do sistema X (t) seja completamente construdo,
a primeira expresso do sistema deve ser usada para todo (i, j) S e a segunda e
terceira expresses necessitam ser avaliadas por todo k K. Uma outra importante
caracterstica do sistema , a qual ser extensivamente utilizada nas prximas sees,
sua propriedade Markoviana (verificar Proposio 1). Finalmente, note que o sistema
tambm pode ser escrito de forma matricial:

N ( t + 1)
:
E ( t + 1)

S ( t + 1)

= f N ( N (t), p(t + 1))


= f E ( N (t + 1), p(t + 1)) ,
= f S ( E(t + 1))

(4.22)

62

Captulo 4 - Resultados Obtidos

onde f N (.), f E (.) e f S (.) so funes matriciais, em que cada entrada dessa matriz
definida pelos termos escalares que aparecem na Equao (4.21). Esta forma alternativa
matricial ser utilizada para simplificar os clculos nas sees futuras.

4.1.4

As Condies Iniciais do Sistema Competitivo

Com o objetivo de iterar o sistema , um conjunto de condies iniciais preciso.


Primeiramente, a posio inicial das partculas p(0) controlvel pelo usurio. A posio inicial das partculas no afeta o processo de classificao, devido ao procedimento de reanimao. Usualmente, as partculas so colocadas nos vrtices os quais
representam. Secundariamente, deve-se inicializar N (0) seguindo algumas restries.
No caso semissupervisionado, fornecido um conjunto de vrtices pr-rotulados e a
meta propagar tais rtulos aos vrtices ainda no rotulados. Para esses vrtices inicialmente rotulados, fixa-se seu proprietrio como sendo a partcula que foi gerada para
represent-lo da seguinte forma: como a propriedade de um vrtice representada
pelo mximo nvel de dominao imposto quele vrtice, pode-se simplesmente forar
que o nmero de visitas que essa partcula representante possua para aquele vrtice
pr-rotulado seja desde o incio; logo, impossibilitando qualquer mudana de proprietrio sobre esse vrtice pr-rotulado. Normalmente, mais de uma partcula (time)
gerada para representar um subconjunto de vrtices pr-rotulados, todos da mesma
classe. Cada partcula tenta dominar vrtices na rede independentemente. A cooperao entre as partculas de um mesmo time ocorre no final do processo. De forma
a realizar isso, para cada vrtice, somam-se os nveis de dominao de partculas do
mesmo time para obter o nvel de dominao agregado daquele time sobre aquela partcula.
Com isso em mente, considere um conjunto de classes C e um conjunto de exemplos
pr-rotulados VL V . Seja L o conjunto em que cada elemento armazena o par: vrtice
pr-rotulado e sua classe correspondente, i.e., L = {(v1 , c1 ), . . . , (v|VL | , c|VL | )}, onde
vi VL e ci C , 0 i |L| = |VL |. Ento, cada entrada de N (0) fixada como:

(k)

Ni (0) =

,
1 + 1

se a partcula k representa o vrtice i


{ p(k) (0)=i } ,

(4.23)

caso contrrio

em que aplica-se a Equao (4.23) para todo (i, k ) S . Note que o escalar 1 introduzido na segunda expresso da Equao (4.23) com o fim de vrtices no visitados e no
inicialmente rotulados no tempo t tenham seu clculo bem definido, de acordo com a
Equao (4.7), j que o denominador no pode resultar em 0. Em relao s condies
iniciais de E(0), deseja-se uma competio justa entre as partculas, assim, seus valores
de energia iniciais so fixados como uma mesma constante, da seguinte forma:

4.1 - Modelagem do Sistema de Competio de Partculas via Sistema Dinmico Estocstico

E(k) (0) = min +

max min
K

63

(4.24)

Finalmente, a varivel estocstica que incumbida de indicar se a partcula k est


ativa ou exausta no tempo inicial t = 0, S(k) (0), k K, dada por:

S(k) (0) = 0,

(4.25)

i.e., inicialmente, todas as partculas esto ativas no processo competitivo.

Figura 4.3: Diagrama de fluxo que indica, em alto nvel, como o sistema dinmico evolui no
tempo.

4.1.5

O Algoritmo

Com o intuito de facilitar o entendimento de como o sistema dinmico estocstico


proposto evolui no tempo, a Figura 4.3 mostra um diagrama de fluxo com as principais tarefas que devem ser processadas. No primeiro bloco, Configurar Condies
Iniciais, inicializa-se o estado interno do sistema X (0), o qual composto por N (0),
p(0), E(0) e S(0). Depois disso, o sistema comea a iterar e o comando lgico Critrio de Parada checado a cada iterao. Para uma iterao especfica, cada partcula

64

Captulo 4 - Resultados Obtidos

precisa se locomover para um outro vrtice, segundo a matriz de transio no instante


atual. Isso precisamente realizado pelo lao interno comeando da condio lgica
k > K. Dentro desse lao, gera-se a matriz de transio variante no tempo associada
a partcula k (bloco Calcular Matriz de Transio da Partcula k) e faz-se a transio
da partcula para um prximo vrtice em consonncia com essa matriz (bloco Partcula k Visita Outro Vrtice). Quando todas as partculas tiverem, apropriadamente,
realizado suas movimentaes, o lao interno cessa e atualizam-se as variveis internas
remanescentes do sistema, i.e., N (t), E(t) e S(t), para um t 1 arbitrrio (bloco Atualiza Variveis Restantes do Sistema). Logo aps calcular estas variveis restantes, o
sistema pode evoluir no tempo mais uma iterao ou, ao invs disso, caso a condio
(t) ao usurio (bloco Retornar Matriz de Domide parada seja satisfeita, retornar N
nao). Neste caso, cada vrtice no rotulado tem sua classe definida pelo time de
partculas que impor o maior nvel de dominao sobre aquele vrtice.
O Algoritmo 1 sumariza todos os passos, de forma detalhada, para iterar o sistema
. Essencialmente, o algoritmo aceita o conjunto de dados (dados) e um conjunto de
dados pr-rotulados (L), bem como trs parmetros definidos pelo usurio: a frao de
energia ganha/perdida pelas partculas no modelo (), a frao desejada de movimentao preferencial () e um fator de parada ( ). Usualmente, bons resultados podem ser
obtidos por intermdio da seleo de um valor arbitrrio entre 0.05 e 0.4 para , e 0.5
at 0.8 para (veja a Subseo 4.3.1). pode ser fixado como um valor arbitrariamente
pequeno. K o nmero de dados rotulados e tambm o nmero de partculas inseridas no modelo. Observe que o critrio de parada tambm pode ser definido como um
certo nmero de iteraes.

4.1.6

Anlise de Complexidade Algortmica

Na lista a seguir, ser discutida sobre a anlise de complexidade de todos os comandos relevantes apresentados no Algoritmo 1.
Passo 2: A cardinalidade do conjunto pode ser avaliada por uma nica passagem
pelo conjunto. Assim, a complexidade temporal O(K );
Passo 3: Construo da rede a partir do conjunto de dados de entrada. Este processo
possui complexidade temporal de O(V 2 ), uma vez que a matriz de distncia deve
ser calculada;
Passo 4: Gerao das K partculas na rede. Esse passo tem complexidade temporal
de O(K );
Passo 5: Neste passo, deve-se visitar todas as arestas da rede. Logo, esta operao
tem complexidade temporal de O( L), onde L denota o nmero de arestas na rede;

4.1 - Modelagem do Sistema de Competio de Partculas via Sistema Dinmico Estocstico

65

Algoritmo 1: Algoritmo de competio de partculas semissupervisionado.

1
2
3
4
5
6
7
8
9
10
11
12
13

Entrada: dados - conjunto de dados de entrada.


L - conjunto de dados pr-rotulados.
- frao de energia ganha/perdida de qualquer partcula.
- frao de movimentao preferencial.
- critrio de parada.
incio
K | L |;
A strrdados;
p(0) rrPrts A, L;
Paleat rtrtr A: Usar (4.2);
N (0) r p(0), L: Usar (4.23);
(0) rrr N (0): Usar (4.7);
N
E(0) rK: Usar (4.24);
S(0) r: Usar (4.25);
t 0;
repita
para todo k K faa
(k)
Ppref (t) rtrPrr N (t), p(t): Usar (4.8);
(k)

14

Prean (t) rtr N (t), p(t): Usar (4.12);

15

Ptrans (t) rtrrs, Paleat ,Ppref (t),Prean (t): Usar (4.1);

(k)

(k)

(k)

p(k) (t + 1) srPrrt Ptrans (t),p(k) (t);


fim para todo
N (t + 1) tr N (t), p(t + 1): Usar primeira eq. em (4.21);
(t + 1) rrr N (t + 1): Usar (4.7);
N
(t + 1), p(t + 1): Usar segunda eq. em (4.21);
E(t + 1) trE(t), N
S(t + 1) trE(t + 1): Usar terceira eq. em (4.21);
t t+1
(t) N
( t 1)
at N
< ;
(t)
retorna N

16
17
18
19
20
21
22
23
24
25

(k)

fim

Passos 6 e 7: Uma simples operao deve ser feita para cada uma das K V entradas
(0), respectivamente. Portanto, estes passos caracterizam-se
das matrizes N (0) e N
como tendo complexidade temporal de O(KV );
Passos 8 e 9: Outra simples operao realizada para cada uma das K entradas de
E(0) e S(0). Desta forma, a complexidade temporal O(K );
Passo 13: Suponha que k seja o grau mdio da rede. Ento, segue que este passo
pode ser completado em O( k );
Passo 14: Mantm-se uma hashtable para armazenar os vrtices que esto sendo dominados por cada partcula. Assim, consegue-se encontrar um vrtice dominado
por uma partcula exausta em tempo constante, i.e., O(1);
Passo 15: Multiplicao de escalares pelo nmero de vizinhos do vrtice que a partcula k est visitando. Isto concludo em O( k );
Passo 16: A partcula k escolhe o prximo vrtice a visitar. Utiliza-se uma funo
de probabilidade cumulativa seguindo a distribuio de probabilidade calculada no
Passo 15 e, a partir da gerao de um nmero aleatrio, realiza-se a transio da
partcula a um outro vrtice adjacente. Logo, tendo em vista que a matriz de tran-

66

Captulo 4 - Resultados Obtidos

sio possui distribuio de probabilidade arbitrria, este passo tem complexidade


temporal O( k );
(t). Considerando que, no mximo,
Passos 18 e 19: Atualizao das matrizes N (t) e N
K vrtices distintos sero visitados em qualquer iterao, garantido, portanto, que,
mudaro. Por conseguinte, essa atualino mximo, K linhas das matrizes N and N
zao pode ser realizada em O(K2 ), em virtude de cada uma das K linhas possuir K
entradas;
Passos 20 e 21: Completados em O(K ).
Tendo em vista que os Passos 13 a 16 repetem K vezes, segue que este bloco possui
complexidade temporal O(K k ). A complexidade temporal do prximo bloco, definido pelos Passos 18 a 22, determinado pelos Passos 18 e 19, i.e., O(K2 ). Diante
desses fatos, o algoritmo de classificao semissupervisionada, sem considerar o lao
repita, possui complexidade temporal O(K k + K2 ).
A seguir, ser estimado o nmero de iteraes do lao repita (Passos 11 a 23).
Considere uma rede com classes completamente separadas, e suponha que cada classe
tenha uma nica partcula. Neste cenrio, cada vrtice pode ser dominado por apenas
uma visita da partcula; logo, o nmero de iteraes do lao principal certamente
O(V ) = c1 V, onde c1 uma constante positiva proporcional frao de movimentao aleatria realizada pelas partculas. Agora, caso as classes estejam conectadas de
uma maneira bem definida (i.e., poucas conexes interclasses), cada vrtice pode ter
sua propriedade definida a partir de um pequeno nmero de visitas. Ento, com o
objetivo de ter todos os V vrtices dominados pelas partculas, o nmero de iteraes
novamente O(V ) = c2 V, onde c2 uma constante positiva satisfazendo c2 > c1 . Seguindo o mesmo raciocnio, pode-se inferir que o nmero de iteraes requeridas para
que todos os vrtices sejam completamente dominados pelas partculas O(V ) = cV,
onde c uma constante cuja magnitude aumenta com o aumento da poro de arestas
interclasses. Portanto, a partir dessa anlise, estima-se que o lao principal repita por
cV vezes.
Em suma, o algoritmo de classificao semissupervisionada baseado em competio de partculas possui complexidade temporal O(V 2 + K k V + K2 V ). Alguns casos
particulares podem ser discutidos:
Se a rede esparsa, i.e., k
V, o algoritmo de classificao reduz-se para uma
complexidade temporal O(V 2 ). Note que o algoritmo, sem a fase de construo de
rede, rodaria em O(V );
Se o grau mdio da rede k for proporcional a V (uma rede altamente interconnectada), ento o algoritmo de classificao semissupervisionada tem complexidade
computacional O(KV 2 );

4.1 - Modelagem do Sistema de Competio de Partculas via Sistema Dinmico Estocstico

67

Uma vez que a quantidade de partculas inseridas na rede usualmente baixa e


o grau mdio da rede pode ser controlado pelo usurio de forma a ser um valor
pequeno, i.e., K
Ve k
V, razovel assumir que o algoritmo de classificao
semissupervisionada tem complexidade temporal O(V 2 ) na maioria dos casos, em
virtude da construo da rede. Nesse caso, o algoritmo rodaria em complexidade
O(V ) se no fosse considerada a fase de construo de rede.
A seguir, a complexidade temporal do modelo proposto ser observada empiricamente. Nestas simulaes, o Passo 3 no realizado, ou seja, a rede j dada. Sem
considerar tal passo, utiliza-se k = 16
V, em que espera-se que o algoritmo rode
em tempo linear (O(V )). Para a construo das redes, sero utilizadas as redes aleatrias clusterizadas, cujo mtodo de construo foi apresentado no Captulo 2 (Subseo
2.2.4). Tais redes sero geradas com tamanhos cada vez maiores, seguindo o padro
V = {1000, 2000, . . . , 10000}. Cada rede sempre possuir 4 clusters com tamanhos
iguais. Os clusters gerados nestas redes sero considerados as classes do problema.
Para todas as simulaes, rotulam-se 2 vrtices de cada classe. Quanto configurao
do algoritmo proposto, utilizam-se K = 8 partculas, = 0.6, = 0.07, min = 0 e
max = 1. Todas as partculas so inicialmente colocadas nos vrtices que representam. O algoritmo proposto executado nesta redes e o tempo necessrio para atingir
(t), tal que suas entradas passem a ser insignificantes, inspecionado.
um estado N
O tempo quantificado em um processador Intel Core 2 CPU 6700 com 4GB of RAM.
Os resultados so mostrados na Figura 4.4. Uma anlise de tal figura revela que o
tempo cresce linearmente com o aumento do tamanho das redes geradas, confirmando
a anlise terica realizada anteriormente.

4.2

Anlise Matemtica do Modelo Competitivo

Nesta seo, sero fornecidos: (i) uma anlise matemtica detalhada do modelo
proposto, (ii) um exemplo numrico mostrando o uso prtico dessa anlise, e (iii) uma
validao dos resultados tericos obtidos. Para todos os efeitos, considera-se a anlise
de grafos no direcionados.

4.2.1

Resultados Tericos

Primeiramente, de extrema valia determinar a funo probabilstica de transio


do sistema , i.e., P( X (t + 1) | X (t)), antes que qualquer anlise rigorosa seja conduzida. Por questes de clareza, ser simplificada a notao do estado interno sistema,
observando que P( X (t)) = P( N (t), p(t), E(t), S(t)). De fato, a derivao algbrica
detalhada da probabilidade de transio P( X (t + 1) | X (t)) dada a seguir:

68

Captulo 4 - Resultados Obtidos

Tempo de Processamento [s]

250
225
200
175
150
125
200
150
100
50
0

2000

4000

6000

8000

10000

Tamanho da Rede [V]

(t) se estabilize. Cada ponto na curva uma mdia


Figura 4.4: Tempo consumido para que N
de 10 realizaes independentes. As barras verticais de erro representam o maior e menor
tempos de processamento.

P( X (t + 1) | X (t)) = P( N (t + 1), p(t + 1), E(t + 1), S(t + 1) | N (t), p(t), E(t), S(t))

= P(S(t + 1) | N (t + 1), p(t + 1), E(t + 1), N (t), p(t), E(t), S(t))
P( N (t + 1), p(t + 1), E(t + 1) | N (t), p(t), E(t), S(t))
= PS(t+1) P( E(t + 1) | N (t + 1), p(t + 1), N (t), p(t), E(t), S(t))
P( N (t + 1), p(t + 1) | N (t), p(t), E(t), S(t))

(4.26)

= PS(t+1) PE(t+1) P( N (t + 1) | p(t + 1), N (t), p(t), E(t), S(t))


P( p(t + 1) | N (t), p(t), E(t), S(t))
= PS(t+1) PE(t+1) PN (t+1) Pp(t+1) ,

onde PS(t+1) = P(S(t + 1) | N (t + 1), p(t + 1), E(t + 1), X (t)), PE(t+1) = P( E(t + 1) |
N (t + 1), p(t + 1), X (t)), PN (t+1) = P( N (t + 1) | p(t + 1), X (t)) e Pp(t+1) = P( p(t + 1) |
X (t)). Agora, vital proceder para a determinao dos quatro termos que aparecem
ao fim da Equao (4.26).
Como primeiro termo a analisar, toma-se Pp(t+1) . Notando que, para ganhar conhecimento sobre p(t + 1), apenas necessrio o conhecimento de p(t) e N (t), e estas
duas ltimas quantidades fazem parte de X (t) que, por hiptese, dado, vlido concluir que a funo de transio do conjunto de partculas para um estado futuro da
rede, denotado, por Pp(t+1) , de fato a matriz de transio indicada na Equao (4.1).
Matematicamente, a seguinte equivalncia vale:

4.2 - Anlise Matemtica do Modelo Competitivo

69

Pp(t+1) = P( p(t + 1) | X (t)) = Ptrans ( N (t), p(t)).

(4.27)

Neste momento, foi utilizada a notao Ptrans ( N (t), p(t)) para enfatizar a dependncia que a matriz de transio tem, no ato de sua construo, de N (t) e, no ato de
sua manipulao, de p(t) na sua forma escalar.
Procede-se, agora, para a avaliao de PN (t+1) . Neste caso, tem-se uma informao
adicional em relao ao caso anterior, a qual , alm do estado anterior do sistema X (t),
o conhecimento sobre p(t + 1). Uma rpida anlise da regra de atualizao de N (t),
que revelada pela primeira expresso do sistema , mostra que possvel completamente determinar N (t + 1), uma vez que p(t + 1) e N (t) so conhecidos por hiptese.
Em funo disso, a seguinte equao vale:

PN (t+1) = P( N (t + 1) | p(t + 1), X (t))

(4.28)

= 1{ N (t+1)= N (t)+Q N ( p(t+1))} ,

onde Q N ( p(t + 1)) uma matriz com dim( Q N ) = V K e com dependncia em p(t +
1), cuja expresso dada por:

1 (1)
1{ p(K) (t+1)=1}
{ p (t+1)=1}
1 (1)
{ p (t+1)=2} 1{ p(K) (t+1)=2}
Q N ( p(t + 1)) =
..
..
..

.
.
.

1{ p(1) (t+1)=V } 1{ p(K) (t+1)=V }

(4.29)

O argumento na funo indicadora mostrado na Equao (4.28) , essencialmente, a


primeira expresso do sistema , mas em uma notao matricial. Em termos sucintos,
a Equao (4.28) resultar em 1 se o cmputo de N (t + 1) estiver correto, dados p(t + 1)
e N (t), i.e., a matriz N (t + 1) resultante est em consonncia com as regras do sistema
dinmico; e 0, caso contrrio.
Para o terceiro termo, PE(t+1) , tem-se conhecimento sobre o estado anterior do sistema, X (t), bem como de p(t + 1) e N (t + 1). Por intermdio da Equao (4.7), verifica (t + 1) pode ser diretamente calculado de N (t + 1), i.e., tendo conhecimento
se que N
(t + 1) de forma determinstica. Em termos prode N (t + 1) permite a obteno de N
(t + 1) considerada como informao dada. luz
babilsticos, portanto, a matriz N
disso, e analisando a Equao (4.13), averigua-se que E(t + 1) pode ser calculado se
(t + 1), quantidades as quais so, de fato,
existir informao sobre E(t), p(t + 1) e N
conhecidas. Em razo disso, PE(t+1) pode ser completamente determinado e, analoga-

70

Captulo 4 - Resultados Obtidos

mente ao clculo de PN (t+1) , dado por:

PE(t+1) = P( E(t + 1) | N (t + 1), p(t + 1), X (t))

= 1{E(t+1)=E(t)+QE ( p(t+1),N (t+1))} ,

(4.30)

onde Q E ( p(t + 1), N (t + 1)) uma matriz com dim( Q E ) = 1 K e com dependncia
em N (t + 1) e p(t + 1). A k-sima entrada, k K, de tal matriz expressa por:

(k)

Q E ( p(t + 1), N (t + 1)) = 1{proprietario(k,t+1)} 1{

proprietario(k,t+1)} .

(4.31)

Observe que o argumento na funo indicadora na Equao (4.31) , essencialmente, a Equao (4.13) em uma forma compacta matricial. Foram utilizadas funes
indicadoras para descrever os dois comportamentos que essa varivel aleatria pode
mostrar: incremento ou decremento, de acordo com o proprietrio do vrtice que uma
partcula especfica est visitando. Supondo que a partcula k K esteja visitando um
vrtice cuja proprietria a mesma partcula, ento apenas a primeira funo indica(k)
dora da Equao (4.31) ativada, produzindo Q E ( p(t + 1), N (t + 1)) = 1. Similarmente, se a partcula k est visitando um vrtice de propriedade de partcula adversa,
(k)
ento a segunda funo indicadora ser ativada, resultando Q E ( p(t + 1), N (t + 1)) =
1. Esse comportamento, em conjunto com a Equao (4.30), exatamente a expresso
dada pela Equao (4.13), porm em forma matricial.
Em derradeiro, para o quarto e ltimo termo, PS(t+1) , existem mais informaes
dadas em relao aos trs termos anteriores. Especificamente, neste caso, E(t + 1),
N (t + 1), p(t + 1), e o estado anterior do sistema, X (t), so dados. Avaliando a Equao (4.14), verifica-se que o clculo da k-sima entrada de S(t + 1) completamente
caracterizado uma vez que seja conhecido o vetor estocstico E(t + 1). Logo, pode-se
completamente determinar PS(t+1) , similarmente aos dois casos anteriores. Matematicamente, tem-se que:

PS(t+1) = P(S(t + 1) | E(t + 1), N (t + 1), p(t + 1), X (t))

= 1{S(t+1)=QS (E(t+1))} ,

(4.32)

onde QS ( E(t + 1)) uma matriz com dim( QS ) = 1 K e com dependncia em E(t + 1).
A k-sima entrada, k K, de tal matriz calculada a partir da seguinte equao:

(k)

QS ( E(t + 1)) = 1{E(k) (t+1)=min } .

(4.33)

4.2 - Anlise Matemtica do Modelo Competitivo

71

Substituindo as Equaes (4.27), (4.28), (4.30) e (4.32) na Equao (4.26), encontra-se


a funo probabilstica de transio do sistema dinmico competitivo adaptado para o
aprendizado semissupervisionado dada por:

P( X (t + 1) | X (t)) = 1{ N (t+1)= N (t)+Q N ( p(t+1))} 1{S(t+1)=QS (E(t+1))}

1{E(t+1)=E(t)+QE ( p(t+1),N (t+1))} Ptrans ( N (t), p(t))

(4.34)

= 1{Conformidade(t)} Ptrans ( N (t), p(t)),


onde Conformidade(t) uma expresso lgica dada por:

Conformidade(t) = [ N (t + 1) = N (t) + Q N ( p(t + 1))]

[S(t + 1) = QS ( E(t + 1))] [ E(t + 1) =

(4.35)

E(t) + Q E ( p(t + 1), N (t + 1))] ,


i.e., Conformidade(t) engloba todas as regras que devem ser satisfeitas para que cada
uma das funes indicadores na Equao (4.34) sejam ativadas, i.e., resultem em 1.
Se todos os valores fornecidos Equao (4.34) estiverem em conformidade com a
dinmica do sistema, ento Conformidade(t) = verdadeiro; caso contrrio, se houver
pelo menos uma medida que no segue as regras do sistema, ento, a partir da Equao
(4.35), a cadeia de E lgicos produzir falso, logo, Conformidade(t) = falso e a
funo indicadora 1{Conformidade(t)} na Equao (4.34) fornecer 0, resultando em uma
probabilidade de transio nula.
Com o intuito de obter N (t) quando t , o clculo da distribuio conjunta de
todos os estados do sistema, X (0), . . . , X (t) ser til. Essa distribuio conjunta dada
por:

P( X (0), . . . , X (t)) = P( X (t) | X (0), . . . , X (t 1)) P( X (0), . . . , X (t 1)),

(4.36)

Aplicando o teorema de Bayes sucessivas vezes, como mostrado apenas uma vez
na Equao (4.36), chega-se a:

P( X (0), . . . , X (t)) = P( X (t) | X (0), . . . , X (t 1))

P( X (t 1) | X (0), . . . , X (t 2))

(4.37)

. . . P( X (1) | X (0)) P( X (0)),


A seguir, mostrada uma prova que o sistema Markoviano. Esta prova ser

72

Captulo 4 - Resultados Obtidos

utilizada para simplificar a Equao (4.37).


Proposio 1. { X (t) : t 0} um processo Markoviano.
Demonstrao. Nesta prova, procura-se concluir que o sistema completamente caracterizado por apenas o conhecimento do estado presente do sistema dinmico, i.e.,
tal sistema independe de todos os estados passados (inlar, 1975). Com isto em mente,
a expresso probabilstica para realizar uma transio a um evento especfico Xt+1 (um
conjunto possvel de vrtices a ser visitado na prxima iterao) no tempo t + 1, dada
toda a histria da trajetria do sistema, satisfaz:

P ( X (t + 1) Xt+1 | X (t), . . . , X (0)) =

f N ( N ( t ), p t +1 )

: f E ( N ( t + 1 ), p t +1 ) X t +1 | X ( t ), . . . , X (0 ) .

P p t +1

(4.38)

f S ( E(t + 1))

Uma vez estabelecido o valor de pt+1 , o qual deve respeitar a distribuio probabilstica dada pela linha correspondente a forma escalar de p(t) da matriz que comporta todas as partculas, Ptrans ( N (t)), possvel determinar N (t + 1), o qual, por sua
vez, permite calcular E(t + 1). Essa informao, por ltimo, suficiente para calcular
S(t + 1). Logo, note que o clculo do estado presente no pode ser obtido de forma
concorrente. Desta forma, este clculo deve ser realizado de forma ordenada at a obteno do estado interno inteiro, X (t). Mais ainda, como j foi estudado anteriormente,
pt+1 independente do passado, em virtude de apenas necessitar de N (t) e p(t) para,
de forma probabilstica, determinar a distribuio para o estado subsequente imediato.
Usando esse fato, tem-se que:

P p t +1

f N ( N ( t ), p t +1 )

: f E ( N ( t + 1 ), p t +1 ) X t +1
f S ( E(t + 1))

f N ( N ( t ), p t +1 )

P p t +1 : f E ( N ( t + 1 ), p t +1 )
f S ( E(t + 1))

| X ( t ), . . . , X (0) =

X t +1 | X ( t ) =

P ( X (t + 1) Xt+1 | X (t)) .

(4.39)

Finalmente, em vista da Equao (4.39), { X (t) : t 0} um processo Markoviano,


uma vez que apenas depende do estado presente para completamente especificar o
prximo estado.

4.2 - Anlise Matemtica do Modelo Competitivo

73

Aplicando o fato provado na Proposio 1 Equao (4.37), tem-se:

P( X (0), . . . , X (t)) = P( X (t) | X (t 1)) P( X (t 1) | X (t 2))

. . . P( X (1) | X (0)) P( X (0)).

(4.40)

Utilizando a funo probabilstica de transio que rege o sistema , tal como indicada na Equao (4.34), a cada termo deslocado na Equao (4.40), obtm-se:

t 1

P( X (0), . . . , X (t)) = P( X (0)) 1{Conformidade(u)} Ptrans ( N (u), p(u)) ,

(4.41)

u =1

onde P( X (0)) = P( N (0), p(0), E(0), S(0)). Porm, o principal interesse dessa anlise de obter a distribuio marginal N (t) quando t . Tal quantidade pode
ser recuperada a partir da distribuio conjunta calculada na Equao (4.41), fazendo
a soma de todas as variveis aleatrias sem relevncia em todo o seu domnio, i.e.,
N (t 1), . . . , N (0), p(t), . . . , p(0), E(t), . . . , E(0), S(t), . . . , S(0). Seguindo essa estratgia para obter N (t), essencial estudar os limites inferior e superior de N (t) para um t
arbitrrio, uma vez que o domnio de cada entrada da matriz N (t) [1, ). Com esse
estudo, espera-se encontrar limites superiores atingveis para um determinado tempo
t. Desta forma, valores que excedam esses limites so garantidos de ocorrerem com
probabilidade nula; logo, tal anlise ser responsvel por podar uma grande quantidade de valores impraticveis. Mais importante, a somatria sobre todos os valores
indesejados N (0), . . . , N (t 1) ser matematicamente assegurada de sempre existir,
tendo em vista que existiro um nmero finito de termos na somatria, todos os quais
limitados por um majorante finito, como ser visto. Esse majorante definido pelo
Lema 1, portanto, a convergncia garantida. Tal Lema provado a seguir.
(k)

Lema 1. O maior valor que uma entrada arbitrria de N (t) pode tomar, diga-se Ni (t), dado
que i representa um vrtice no rotulado, expresso por:

(k)
Nimax (t)

t +1
2

+ 1, se t > 0 e aii = 0

t + 2,

se t > 0 e aii > 0

(4.42)

Demonstrao. necessrio descrever a trajetria da partcula k que oferece o maior


(k)
aumento de Ni (t). Ora, para tanto, supe-se que a partcula k prontamente gerada
no vrtice i, caso contrrio, o valor mximo terico no seria atingido. Por questes de
clareza, considere dois casos especficos: (i) redes sem autolaos (self-loops) e (ii) redes

74

Captulo 4 - Resultados Obtidos

Figura 4.5: Uma rede construda para ilustrar a trajetria que uma partcula deve percorrer
para aumentar uma entrada arbitrria de N (t) o mais rpido possvel. (a) Rede sem autolaos;
(b) rede com autolaos.

com autolaos.
Para o primeiro caso, tem-se que i V : aii = 0. Por hiptese, a partcula k comea
no vrtice i no tempo 0 (como ilustrao, considere o vrtice 1 na Figura 4.5a). A forma
(k)
mais rpida de aumentar Ni (t) ocorre quando a partcula k visita um vizinho do
vrtice i, e.g., vrtices 2 ou 3 na Figura 4.5a, e imediatamente retorna para o vrtice i
(vrtice 1 na Figura 4.5a). Repetindo-se esta trajetria at o instante t, espera-se que
(k)
o maior valor de Ni (t) seja exatamente o exposto na primeira expresso da Equao
(4.42).
Para o segundo caso, i V : aii > 0. Considere que a partcula k comece exata(k)
mente nesse vrtice i com autolao. Fica claro que a forma de aumentar Ni (t) mais
rapidamente sempre revisitar i pela aresta de autolao (veja a Figura 4.5b). Em vista
(k)
disso, o maior valor que Ni (t), para um t arbitrrio, pode tomar exatamente aquele
mostrado na segunda expresso da Equao (4.42). O fator +2 ocorre em razo da
partcula inicialmente ser gerada no vrtice i, de acordo com a segunda expresso na
Equao (4.23).

O Lema 1 no fornece informao sobre o limite mximo no caso de o vrtice ser


pr-rotulado. No entanto, esta informao pode ser trivialmente obtida pelas condies iniciais do sistema. Considere que i seja um vrtice pr-rotulado e k seja a sua
partcula representante, ento, com o auxlio da primeira expresso na Equao (4.23),
(k)
verifica-se que Ni (t) = , t 0. Por conseguinte, esse valor permanece fixo durante toda a evoluo do sistema dinmico. Assim, tais vrtices simplesmente so
fixados para um valor , ou seja, so considerados constantes j que este valor sempre
ocorre com probabilidade 1 no ato do cmputo da distribuio marginal N (t).
Em relao ao limite superior de uma entrada arbitrria de E(t), por exemplo,
E(k) (t), sabe-se que existe um limite superior finito, no caso, E(k) (t)max = max . Logo,
desde que max < , o limite superior da entrada E(k) (t) sempre bem definido. Entretanto, esta entrada no aceita apenas valores inteiros entre o intervalo [min , max ].

4.2 - Anlise Matemtica do Modelo Competitivo

75

Portanto, tal anlise matemtica sobre essa varivel deve ser feita com cuidado. O
Lema 2 fornece um resultado para auxiliar na resoluo deste detalhe.
Lema 2. O domnio atingvel por uma entrada arbitrria de E(t), diga-se E(k) (t), t N,
denotado aqui por D E , dado por:

DE

onde ni =

max min
+ n, n = { ni , . . . , nm }
K
max min
min + n, n = 1, 2, . . . ,

max min
,
max n, n = 1, 2, . . . ,

min +

max min
K

0 e nm =

max min

1
K

(4.43)

0.

Demonstrao. Esta prova dividida em trs partes, as quais so definidas pelos trs
conjuntos que aparecem na expresso do caput desse Lema.
O primeiro conjunto responsvel por fornecer os valores que so mltiplos de
min
tendo como offset a condio inicial de E(k) (0), i.e., E(k) (0) = min + max
,
K
(
k
)
tal como a Equao (4.24) revela. O mnimo valor atingvel de E (0) dado quando
n = ni , o qual calculado por:

ni =

min +

max min
K

min

max min
,
K

(4.44)

enquanto que o maior valor atingvel ocorre quando n = nm satisfeito, i.e.:

max min +
nm =

max min
K

max min

1
K

(4.45)

Depois de transcorrido um tempo, a partcula k poder atingir um dos dois possveis extremos de energia permitidos: min or max . Em razo do operador max(.) na
Equao (4.13), necessrio listar tambm todos os nmeros mltiplos de partindose desses dois offsets: min or max . O segundo conjunto no caput desse lema precisamente fornece estes mltiplos quando o offset tomado a partir de min e o terceiro
conjunto, quando tomado max . Uma vez atingido um desses dois ltimos conjuntos, a partcula no mais sai deles, i.e., o primeiro conjunto fica inatingvel. Portanto,
todos os valores de E(k) (t) foram apropriadamente mapeados.
Por ltimo, o limite superior de uma entrada arbitrria S(t) 1, j que os valores
que esta varivel pode tomar so {0, 1}. luz das anlises realizadas at ento, a

76

Captulo 4 - Resultados Obtidos

distribuio marginal de P( N (t)) dada por:

P( N (t)) =

p(1) (0)=1 p(2) (0)=1

(1)
N1 (0)=1

(2)
N1 (0)=1

...

...

i(2) (0)D

S(1) (0)=0 S(2) (0)=0

g(t1,V )

(K )
NV (t1)=1

i(K ) (t)DE

...

S(K ) (0)=0

...

i(K ) (0)D

...

(K )
NV (0)=1

p(K ) (t)=1

g(0,V )

g(0,1)

i(1) (0)D

...

p(K ) (0)=1

g(0,1)

...

...

E(K ) (t)=0

t 1

P( X (0)) 1{Conformidade(u)} Ptrans ( N (u), p(u))

(4.46)

u =1

onde g(t, i ) uma funo por partes que indica o valor mximo de N (t) no instante t
para um vrtice i qualquer. Sua definio diretamente feita por intermdio do Lema
1:

g(t, i ) =

t +1
2

+ 1,

t + 2,

se aii = 0
se aii > 0

(4.47)

Os somatrios na primeira linha da Equao (4.46) so responsveis por passar por


todos os valores possveis dos vetores estocsticos p(0), . . . , p(t). Os somatrios da segunda linha, por sua vez, passam por todos os valores atingveis de N (0), . . . , N (t 1).
Cumpre relembrar que os ndices das partculas representativas aos seus respectivos
vrtices que representam devem ser fixados em , i.e., so tratados como constantes
e, portanto, no aparecem no somatrio. A terceira linha fornece os somatrios que
passam por todos os valores possveis de E(0), . . . , E(t), vetores estocsticos os quais
constituem um caso especial em relao aos demais, uma vez que os valores tomados por estes podem ser no inteiros. Com o propsito de corretamente quantificar
essas variveis, utiliza-se o conjunto DE definido no caput do Lema 2. Por ltimo, a
quarta linha indica os somatrios responsveis por varrer todos os valores possveis
de S(0), . . . , S(t). Observe que a expresso lgica Conformidade(u) e a matriz de transio dentro do produtrio so construdas a partir de todos esses ndices anteriores.
Adicionalmente, sabe-se que P( X (0)) = P( N (0), p(0), E(0), S(0)), de tal forma que a
condio inicial do sistema poderia ser uma distribuio tambm, i.e., o modelo matemtico apresentado tambm suporta incerteza sobre a distribuio inicial das partculas.

4.2 - Anlise Matemtica do Modelo Competitivo

77

Uma anlise rpida e imprecisa poderia indevidamente levar a concluso que o


(t)) direto, uma vez que todos os P( N (t)) sejam calculados a partir
clculo de P( N
da Equao (4.46), i.e., poderia-se aplicar a Equao (4.5) diretamente para resolver
(t). Esta hiptese est incorreta pela simples razo que,
o mapeamento N (t) N
geralmente, h mais de 1 distinta matriz N (t) que pode levar ao mesmo valor da ma (t). Por exemplo, considere hipoteticamente um problema com 3 partculas e
triz N
2 vrtices. Suponha que, no instante t, existam duas configuraes, geradas por dois
processos distintos, para a matriz N (t), a seguir:

N (t) =

1 1 1
1 2 3

N (t) =

2 2 2
2 4 6

(4.48)

Ento, as configuraes mostradas na Equao (4.48), em conjunto com a Equao


(t) dado por:
(4.7), levariam concluso que as duas matrizes produzem o mesmo N

(t) =
N

1/3

1/3

1/3

1/6

1/3

1/2

(4.49)

(t) no injetivo e, portanto, no inversEm vista disso, o mapeamento N (t) N


vel. O resultado derivado do cenrio anterior sugere que mltiplos inteiros positivos
(t). De fato, exatamente isto que ocorre. Antes de conde N (t) compem o mesmo N
(t)) a partir P( N (t)), o Lema a seguir apresenta
tinuar a deduo do clculo de P( N
alguns resultados importantes.
Lema 3. Dado qualquer vrtice i no rotulado, as seguintes asseres valem para o tempo t:
(t) pode atingir, diga-se N
(k) (t), sa(a) O mnimo valor que uma entrada arbitrria de N
i
tisfaz:
(k) ( t ) =
N
imin

(4.50)

1 + uK \ {k} g(t, u)
(k)

(t) pode atingir, diga-se N


(t), satisfaz:
(b) O maior valor que uma entrada arbitrria de N
i
(k) ( t ) =
N
imax

g(t, i )
g(t, i ) + (K 1)

(4.51)

Demonstrao. (a) Por hiptese, o vrtice i no rotulado. O menor valor, segundo a


Equao (4.7), ocorre quando trs condies so satisfeitas: (i) a partcula k no inicialmente gerada no vrtice i; (ii) a partcula k nunca visita o vrtice i; e (iii) todas as

78

Captulo 4 - Resultados Obtidos

outras K 1 partculas u K \ {k} visitam o vrtice i da maneira mais rpida possvel, i.e., seguindo o Lema 1. Assim, tal vrtice ser visitado uK \ {k} g(t, u) vezes
pelas outras partculas. Porm, tendo em vista a inicializao de N (0) mostrada na segunda expresso da Equao (4.23), deve-se adicionar 1 ao total de visitas, em funo
da existncia da partcula k. Em virtude disso, esperado que o total de visitas seja
1 + uK \ {k} g(t, u). Como a partcula k s visitou uma vez o vrtice i, em consonncia Equao (4.7), chega-se Equao (4.50).
(b) Por hiptese, o vrtice i no rotulado. O maior valor ocorre quando as seguintes condies so satisfeitas: (i) a partcula k gerada no vrtice i; (ii) a partcula
k visita i do jeito mais rpido possvel, i.e., seguindo a expresso no Lema 1; e (iii) as
outras partculas u K \ {k } nunca visitam o vrtice i. Desta forma, espera-se que
g(t, i ) + (K 1) visitas sejam feitas ao vrtice i, sendo que o segundo termo devido
inicializao de N (0) conforme a segunda expresso indicada na Equao (4.23) para
as K 1 partculas restantes. Esta informao, em conjunto com a Equao (4.7), implica a Equao (4.51).

Observao 2. Se o grafo no contiver autolaos, a Equao (4.50) reduz-se a:

(k) ( t ) =
N
i
min

1
.
1 + (K 1) g(t, i )

(4.52)

O Lema seguinte fornece subsdios para determinar todos os elementos que inte (t), entre os limites assegurados pelo Lema 3.
gram as entradas da matriz N
Lema 4. Considere as fraes irredutveis denotadas da seguinte forma num/den. O domnio
(t), diga-se N
(k) (t), denotado por I . Tal conjunto contm
atingvel de qualquer entrada de N
i
todos os valores que so satisfeitos pelas seguintes condies:
(i) Em relao aos vrtices no rotulados:
(a) A menor frao irredutvel dada pela expresso na Equao (4.50).
(b) A maior frao irredutvel dada pela expresso na Equao (4.51).
(c) As fraes irredutveis no intervalo satisfazendo aos itens (a) e (b) no caput desse Lema
tm a forma:
I. num, den N .
II. num g(t, i )
III. den uK g(t, u)
(ii) Em relao aos vrtices pr-rotulados:

4.2 - Anlise Matemtica do Modelo Competitivo

79

(a) Sempre ser 0, caso a partcula k no represente o vrtice i.


(b) Sempre ser 1, caso a partcula k represente o vrtice i.
Demonstrao. A primeira parte dessa prova relativa ao item (i) do caput.
(a) e (b) Diretos a partir do Lema 3.
(k)
(c) Para o inciso I, lembrando que a entrada Ni (t) admite apenas valores inteiros
(k) (t) calculado a partir da Equao (4.7), i.e., uma razo
e, tendo em vista que N
i
de nmeros inteiros, segue que o numerador e denominador das fraes irredutveis
sempre sero inteiros, logo o inciso I est demonstrado. Para o inciso I I, vale lembrar
que o maior nmero de visitas que um vrtice pode receber dado de acordo com o
Lema 1. Com isso em mente e vendo que o numerador da frao irredutvel, conforme
indicado na Equao (4.7), s contabiliza o nmero de visitas feita por uma partcula
a um vrtice, segue que o majorante do numerador dado por g(t, i ) e o inciso I I
est provado. Para o inciso I I I, aplica-se a mesma ideia que a anterior, porm deve
ser levado em considerao que no denominador aparece a soma de visitas feitas por
todas as partculas ao vrtice i no instante t, conforme a Equao (4.7) mostra. Assim,
o majorante do denominador est demonstrado.
A segunda parte relativa ao item (ii) do caput.
(a) Por hiptese, a partcula k no representante do vrtice i. Como o vrtice i
(u)
rotulado, u K : Ni (t) = . Em vista das Equaes (4.7) e (4.23), obtm-se
(k) (t) = 0.
N
i
(b) Por hiptese, a partcula k representante do vrtice i. Ora, pelas Equaes (4.7)
(k) (t) = 1.
e (4.23), obtm-se N
i
Uma outra caracterstica interessante do conjunto I dada no Lema a seguir.
Lema 5. Dado um instante t , o conjunto I indicado no Lema 4 sempre finito.
Demonstrao. Para mostrar esse lema, basta verificar que cada item apresentado no
caput do Lema 4 finito.
Quanto ao item (i): (a) e (b) so escalares, logo, trata-se de conjuntos de um elemento, que, por definio, so sempre finitos. (c) O inciso I indica um nfimo tanto
para o numerador quanto para o denominador. Os incisos I I e I I I revelam um majorante para o numerador e denominador, respectivamente. Tambm pelo inciso I,
verifica-se que o intervalo entre o nfimo e majorante discreto. Segue, portanto, que,
com certeza, o nmero de fraes irredutveis construdas a partir desses valores tambm ser discreto.
Quanto ao item (ii): (a) e (b) so escalares, logo constituem um conjunto finito.
Como todos os itens acima analisados tm um nmero finito elementos, e tendo em
vista que I a unio de todos estes conjuntos, segue que o mesmo finito.

80

Captulo 4 - Resultados Obtidos

( t ),
O Lema 4 fornece o domnio atingvel de I para um entrada especfica de N
(k) (t). A seguir, essa ideia simplesmente estendida para o espao gerado
diga-se N
i
(t), i.e., restringe-se cada entrada da matriz em apreo a pertencer a I .
pelas matrizes N
Matematicamente, o conjunto de valores gerados nesse espao ser denominado M,
i.e.:

(k)
{ N : N i I , (i, k) S}.

(4.53)

(t) para um t arbitrrio


Em funo das consideraes anteriores, a distribuio N
dada por:

(t) = U : U M =
P N

L = uN (t) : L = U ,

(4.54)

u =1

onde o limite superior do somatrio mostrado na Equao (4.54) tomado usando


uma abordagem conservativa. De fato, a probabilidade que eventos, tais como qualquer entrada N (t) superar g(t, i ), ocorram nula. Em virtude disso, plausvel parar
o somatrio to logo que qualquer entrada da matriz uN (t) exceda esse mximo atingvel, para um u > 0. Esta observao foi omitida da Equao (4.54) por questes de
clareza.
Conforme t , esperado que a Equao (4.54) revele as classes de cada vrtice, a partir do nvel de dominao aplicado pelas partculas de uma maneira fuzzy.
Tal classificao feita verificando o rtulo da partcula que impe o maior nvel de
dominao a cada um dos vrtices no rotulados.

4.2.2

Um Exemplo Numrico

Para fins de clareza, nesta seo, ser aplicado os resultados tericos derivados na
seo anterior a uma rede simples. Com propsito ilustrativo, apenas uma iterao
do sistema ser analisada, especificamente, a transio de t = 0 para t = 1. Considere o simples exemplo composto por uma rede regular de 3 vrtices, idntica quela
mostrada na Figura 4.5a. Nesta rede, considere que o vrtice v1 seja pr-rotulado como
sendo pertencente classe 1 e o vrtice v2 , classe 2, i.e., V = {v1 , v2 , v3 }, VL = {v1 , v2 }
e C = {1, 2}. Claramente, o vrtice v3 possui caractersticas de sobreposio entre as
classes 1 e 2. Agora, ser teoricamente mostrado este comportamento nesta seo. Suponha a seguinte configurao arbitrria: K = 2 partculas so inseridas na rede, i.e.,
K = {1, 2}, em que a partcula 1 representa o vrtice v1 (i.e., ela propagar o rtulo do
vrtice v1 ) e a partcula 2, o vrtice v2 , i.e., L = {(v1 , 1), (v2 , 2)}. Considere tambm
que exista certeza sobre a localizao das partculas no instante t = 0, cuja distribuio

4.2 - Anlise Matemtica do Modelo Competitivo

81

satisfaz expresso:

P N (0) = 1 , p(0) = [v1 v2 ] , E(0), S(0) = 1,


1 1

(4.55)

i.e., existe 100% de certeza que as partculas 1 e 2 sero geradas nos vrtices v1 e v2 ,
respectivamente, no tempo t = 0. Observe que N (0), E(0) e S(0) foram escolhidos com
o fim de satisfazer s Equaes (4.23), (4.24) e (4.25), respectivamente; caso contrrio, a
probabilidade valeria 0, em vista da Equao (4.34).
A partir da Figura 4.5a, fcil deduzir a matriz de adjacncia A do grafo e, portanto, determinar a matriz associada movimentao aleatria para uma partcula
(lembrando que essa matriz idntica a todas as partculas). Ento, aplicando a Equao (4.2) matriz de adjacncia A, resulta em:

Paleat

0 0.50 0.50

= 0.50 0 0.50 .
0.50 0.50 0

(4.56)

(0) por intermDado N (0), pode-se prontamente estabelecer o valor da matriz N


dio da Equao (4.7):

1
0

(0) =
N
1 .
0
0.50 0.50

(4.57)

Usando a Equao (4.8), pode-se calcular as matrizes associadas movimentao


preferencial das partculas a seguir:

0 0 1

(1)
Ppref (0) = 0.67 0 0.33
1 0 0

0 0.67 0.33

(2)
Ppref (0) = 0 0
1
0 1
0

(4.58)

(4.59)

Com o propsito de simplificar os clculos, seja = 1, de tal forma que a Equao


(1)
(2)
(4.1) reduz-se a Ptrans (0) = Ppref (0) Ppref (0), pois as partculas esto ativas. Tal ma-

82

Captulo 4 - Resultados Obtidos

triz possui dimenses 9 9. Ao invs de construir esta matriz, utiliza-se a Observao


1 para montar p(1) com uma coleo de 2 matrizes 3 3, tais como mostradas nas
Equaes (4.58) e (4.59). Observe que, no caso especial em que = 1, a matriz de transio das partculas simplifica-se para somente a matriz de movimentao preferencial
de cada partcula, dado que as partculas estejam ativas. Para a primeira partcula,
verifica-se com o auxlio da Equao (4.58) que, comeando do vrtice v1 (linha 1), somente existe um vrtice possvel para a partcula visitar, no caso, o vrtice v3 . Para a
segunda partcula, o mesmo raciocnio pode ser utilizado para chegar concluso que
o vrtice v3 tambm o nico possvel de ser visitado. Com isto em mente,

P N (1) = 1 , p(1) = [v3 v3 ] , E(1), S(1) | X (0) = 1,


2 2

(4.60)

onde X (0) dado pela Equao (4.55). Alm disso, como foi fixado = 1, esperado
que a transio das partculas seja altamente dependente em relao aos nveis de dominao impostos sobre os vrtices da rede. Logo, dado que os vrtices pr-rotulados
constituem foras extremamente repulsivas que agem contra partculas rivais, o comportamento preferencial dessas partculas no ir se aventurar sobre estes tipos de vrtices. Isto serve como uma explicao natural de o estado p(1) = [v3 v3 ] ser o nico
estado atingvel na prxima iterao do sistema competitivo.
Antes de realizar o cmputo da distribuio marginal P( N (1)), necessrio fixar
um limite superior para um entrada arbitrria de um vrtice no rotulado da matriz
N (1). Tal quantidade pode ser prontamente avaliada a partir da Equao (4.42). Apli(k)
cando a referida equao, obtm-se g(1, i ) = Nimax (1) = 2, i V , implicando que s
necessrio tomar as combinaes numricas da matriz N (1) tal que cada entrada da
mesma deve figurar entre os valores {1, 2}, uma vez que, segundo o Lema 1, valores
maiores ocorrem com probabilidade nula. Adicionalmente, deve-se iterar o sistema
sobre os valores atingveis de E(0) e E(1). Para tanto, fixa-se, para efeitos didticos,
= 0.25, min = 0 e max = 1. Com isso, possvel utilizar o Lema 2, produzindo
E(t) {0, 0.25, 0.5, 0.75, 1}. Os limites das variveis do sistema remanescentes, i.e.,
S(0) e S(1), so triviais. Nas condies presentes, e tendo em vista os clculos anteriores, tem-se informao suficiente para calcular a distribuio marginal P( N (1)), em
consonncia com a Equao (4.46):

P N (1) = 1 = 1 1 = 1.
2 2

(4.61)

4.2 - Anlise Matemtica do Modelo Competitivo

83

(1)). Segundo os
Como ltimo objetivo, a tarefa determinar a distribuio P( N
passos especificados na seo anterior, preciso encontrar todos os elementos ating (1). Tais elementos comporo o conjunto I . Isto
veis para um entrada arbitrria de N
(t) que contenham
significa que apenas necessrio considerar entradas da matriz N
(t) so inatingveis e, porelementos do conjunto I ; os valores remanescentes de N
tanto, ocorrem com probabilidade nula. Em vista das restries anteriormente listadas,
para calcular I , utilizam-se o Lema 3 e a Observao 2:

1
1
1
=
= ,
1 + (K 1) g(t, i )
1 + (2 1)2
3
2
2
g(t, i )
(k) ( t ) =
N
=
= .
imax
g(t, i ) + (K 1)
2 + (2 1)
3
(k) ( t ) =
N
imin

(4.62)
(4.63)

Assim, pelo Lema 4, tem-se I = {0, 1/3, 1/2, 2/3, 1}. de extrema valia notar que
os nicos valores que os vrtices 1 e 2 (pr-rotulados) podem tomar so {0, 1} I ,
como foi visto anteriormente. Observando que h conhecimento sobre a distribuio
(1)) a seguir:
completa de N (1), ento aplica-se a Equao (4.54) para encontrar P( N

1
0

P N
(1) = 0
1 = 1.
0.5 0.5

(4.64)

(t) no bijetivo. Neste


Perceba que o mapeamento entre as distribuies N (t) e N
exemplo especial elaborado para estudo, no houve N (t) distintos que gerassem o
(t). Mas, conforme t progride no tempo, isto comea a ocorrer com mais
mesmo N
frequncia. Este processo mostrado nesta seo repetido at um t suficientemente
grande. Uma anlise detalhada do comportamento do sistema que foi derivado sugere
que a Equao (4.64) vale para todo t 1 e as partculas 1 e 2 visitaro o vrtice v3
com perodo 2. Logo, isto prova que o vrtice v3 pode pertencer a mais de uma classe
(sobreposio).

4.2.3

Validao dos Resultados Tericos

Nessa seo, ser demonstrado que os resultados tericos apresentados na seo


anterior aproximam o comportamento emprico do modelo competitivo estocstico,
quando executa-se o algoritmo um grande nmero de vezes independentemente. Baseado nisso, ser utilizada a rede mostrada na Figura 4.2, i.e., V = {v1 , . . . , v20 }. Arbitrariamente, rotulam-se dois vrtices, no caso, v6 com um rtulo vermelho e v18 com
um rtulo azul. Colocam-se duas partculas K = {1, 2} na rede, onde a partcula 1

84

Captulo 4 - Resultados Obtidos

inicialmente fixada no vrtice v6 e ser responsvel por propagar o rtulo vermelho, e


a partcula 2 posta no vrtice v18 , sendo incumbida de propagar o rtulo azul. Para
ambas comparaes terica e emprica, convencionam-se = 0.6, = 0.07, min = 0
e max = 1.
Para a avaliao emprica, uma vez que o modelo competitivo estocstico, existe
( t ).
a necessidade de estimar o nvel de dominao emprico, traduzido pela matriz N
Para tanto, o algoritmo ser executado 10000 vezes independentemente. Para cada
execuo, o sistema dinmico iterado at t = 1000 e a matriz de nvel de dominao
(1000). Agora, uma vez calculadas as 10000 matrizes de nvel de
armazenada, i.e., N
dominao, so construdos V K histogramas, com cada histograma representando
(1000), a qual possui V K entradas. Cada histograma
uma entrada da matriz N
(k) (1000),(i, k) S atingido em cada execuo do algopopulado segundo o valor N
i
ritmo. Por exemplo, colocam-se todos os nveis de dominao impostos pela partcula
(vermelha) (1000), em um nico histograma para todas as
vermelha no vrtice v1 , i.e., N
1
10000 execues do algoritmo. Uma vez que o nvel de dominao contnuo no intervalo [0 1], tal intervalo discretizado usando cestas com largura de 0.01, i.e., 100
cestas. No fim, para obteno de uma distribuio probabilstica estimada, cada histograma normalizado.
Em relao ao clculo terico do nvel de dominao para a rede na Figura 4.2,
(1000). Uma vez que no
utiliza-se diretamente a Equao (4.54) para calcular N
possvel plotar a distribuio probabilstica dessa matriz, j que ela est no espao
V K + 1, tal distribuio marginalizada em trs vrtices especficos, de tal forma
que seja possvel graficamente demonstrar a distribuio resultante. Este processo
realizado nos vrtices v4 (membro da classe vermelha), v11 (vrtice na borda das duas
classes) e v16 (membro da classe azul). A Figura 4.6 mostra a distribuio de probabi (1000) nestes
lidade estimada empiricamente (curva azul) da matriz de dominao N
trs vrtices vrtices, bem como a mesma informao para a distribuio terica obtida
(curva vermelha). O grfico emprico foi interpolado para uma curva contnua para
efeitos ilustrativos. Como pode ser visto a partir da Figura 4.6a, o vrtice v4 quase
integralmente dominado pela partcula vermelha, uma vez que o nvel de dominao
imposto por esta partcula aproxima de 1 (e, consequentemente, o nvel de dominao
imposto pela partcula neste mesmo vrtice decai para 0). A Figura 4.6b confirma a
natureza de sobreposio entre duas classes para o vrtice v11 , j que os nveis de dominao das duas partculas so quase os mesmos. A Figura 4.6c indica que a partcula
vermelha tem pouca dominao sobre o vrtice v16 . Estas curvas devem ser interpretadas da seguinte maneira: toma-se a Figura 4.6a por exemplo. Existe 34% de chance que
o nvel de dominao que a partcula vermelha impor ao vrtice v4 esteja nas redondezas do valor 0.88 (a redondeza definida pelo tamanho da cesta que, no caso, vale
0.01) se o sistema competitivo foi iniciado em t = 0 e parado em t = 1000. Outros valo-

4.2 - Anlise Matemtica do Modelo Competitivo

85

res so possveis, mas ocorrem mais raramente. Como pode-se visualmente verificar,
os resultados tericos modelam, mesmo que de forma aproximada, o comportamento
emprico das simulaes, confirmando, desta forma, a anlise terica conduzida na
seo anterior.

0.5

0.4

0.4

Distribuio Terica
Distribuio Emprica
Distribuio Terica
Distribuio Emprica

0.4

0.24

0.16

0
0

0.3

0.2

0.1

0.08

0.2

0.4

0.6

(vermelha) (1000)
N
4

(a)

0.8

0
0

Distribuio Terica
Distribuio Emprica

0.32

Probabilidade

Probabilidade

Probabilidade

0.32

0.24

0.16

0.08

0.2

0.4

0.6

(vermelha) (1000)
N
11

(b)

0.8

0
0

0.2

0.4

0.6

0.8

(vermelha) (1000)
N
16

(c)

Figura 4.6: Comparao entre as distribuies terica e emprica para trs vrtices distintos: v4 ,
v11 e v16 em relao ao nvel de dominao imposto pela partcula vermelha. Pode-se verificar
que o nvel de dominao mais provvel que a partcula vermelha impor ao vrtice v4 ser
aproximadamente de 0.88 com 34% de chance, ao vrtice v11 ser 0.53 com 47% de chance, e ao
vrtice v16 ser 0.14 com 33% chance.

4.3

Simulaes Computacionais

Nesta seo, resultados experimentais sero conduzidos com o intuito de avaliar a


eficcia e qualidade do modelo competitivo proposto. Especificamente, na Subseo
4.3.1, ser estudada a sensibilidade dos parmetros do modelo; na Subseo 4.3.2, ser
examinado o comportamento do sistema dinmico por meio de uma simples rede
artificial; e na Subseo 4.3.3, resultados em bases de dados reais so mostrados. No
caso, utiliza-se o benchmark de Chapelle et al. (2006) e vrias tcnicas representativas
semissupervisionadas para efeitos de comparao.

4.3.1

Anlise Emprica da Sensibilidade dos Parmetros do Modelo

Primeiramente, ser estudado o comportamento do modelo frente a variaes do


parmetro , o qual responsvel por contrabalancear a proporo de caminhadas
aleatria e preferencial realizadas por todas as partculas no modelo. Para tanto, sero
utilizadas redes clusterizadas aleatrias, cujo mtodo de construo j foi explicado
anteriormente. A Figura 4.7 mostra como a acurcia de classificao do modelo se
comporta como uma funo de de 0 (caminhadas puramente aleatrias) at 1 (caminhadas puramente preferenciais). Como pode ser observado pela figura, este parmetro sensvel ao resultado final do modelo. Usualmente, a acurcia tima atingida pelo

86

Captulo 4 - Resultados Obtidos

modelo ocorre quando uma mistura de caminhadas aleatria e preferencial escolhida.


Especificamente, para 0.5 0.8, o modelo gera bons resultados preditivos.

0.8

Acurcia

0.7

0.6

0.5

0.4

0.3

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Figura 4.7: Acurcia de classificao vs. . Nestas simulaes, N = 1000, h 4 comunidades


de mesmo tamanho, k = 16, zout/ k = 0.4 e = 0.07. Cada ponto na curva a mdia de 100
realizaes. As barras verticais indicam o desvio padro.

Outro parmetro importante que precisa ser estudado , o qual entra em cena no
ato de atualizao da energia das partculas. Novamente, redes aleatrias clusterizadas sero empregadas para anlisar o comportamento desse parmetro. A Figura 4.8
retrata a acurcia de classificao atingida pelo algoritmo em funo de . Pode-se verificar que, para valores intermedirios de , no caso, 0.05 < < 0.4, o modelo no
muito sensvel a este parmetro. Entretanto, conforme fica maior, o desempenho do
algoritmo comea a ser prejudicado. Isto ocorre porque, para um max , fica extremamente difcil de uma partcula mudar o proprietrio de um vrtice anteriormente
dominado por outra partcula rival. A razo decorrente disso que, to logo uma partcula visite um vrtice no dominado por ela, sua energia atingir o patamar mnimo
instantaneamente, fazendo com que ela se torna exausta e volte ao seu territrio de
origem. Pode-se entender esse processo com um hard labeling artificial. Por outro
lado, para um min , as partculas estaro livres para viajar na rede sem quaisquer
penalidades sobre suas correspondentes energias. Assim, elas raramente se tornaro
exaustas. Em vista disso, todos os vrtices da rede estaro em constante competio e
as bordas das classes no sero estabelecidas.
Cumpre ressaltar que min e max no precisam ser analisados, j que apenas definem um intervalo. A anlise de j incorpora, de forma indireta, a anlise desses
dois parmetros. Por exemplo, suponha que = 0.25, min = 0 e max = 1. Caso
fosse desejado que a partcula se tornasse exausta duas vezes mais rapidamente, apenas dobraria-se para 0.5, ao invs de diminuir pela metade max . Em suma, diante

4.3 - Simulaes Computacionais

87

da anlise realizada, pode-se concluir que no um parmetro muito sensvel, uma


vez que o intervalo que apresenta bons resultados bem amplo. Tendo em vista essas anlises, em todas simulaes seguintes, os seguintes parmetros sero utilizados:
= 0.07, min = 0 e max = 1.

0.76
0.74

Acurcia

0.72
0.7
0.68
0.66
0.64
0.62
0.6
0

0.2

0.4

0.6

0.8

Figura 4.8: Acurcia de classificao vs. . Nestas simulaes, N = 1000, h 4 comunidades


de mesmo tamanho, k = 16, zout/ k = 0.4 e = 0.6. Cada ponto na curva a mdia de 100
realizaes. As barras verticais indicam o desvio padro.

4.3.2

Simulaes com Bases de Dados Artificiais

Com a inteno de facilitar o entendimento de como a tcnica aqui estudada funciona, sero projetadas bases de dados artificiais com apenas duas classes, cada qual
com 50 vrtices. K = 2 partculas so inseridas na rede, cada qual representando uma
classe. Com essa base de dados artificial, ser observado o comportamento evolucional das partculas proprietrias de cada vrtice. A Figura 4.9a indica a configurao
inicial da rede, onde os crculos coloridos simbolizam vrtices rotulados. Os dados
escuros denotam dados ainda no dominados por nenhuma partcula. A propriedade
de cada vrtice dada pela partcula que impe o maior nvel de dominao sobre
o mesmo e ser didaticamente indicada pelas cores dos vrtices (azul ou vermelho).
Para esta simulao, ser utilizado = 0.6. De acordo com a Equao (4.23), os vrtices pr-rotulados tm sua propriedade fixada como sendo a partcula a qual o representa. Conforme o sistema dinmico evolui, as partculas visitam os vrtices da rede
em consonncia com a funo probabilstica de transio dada na matriz Ptrans (t). A
Figura 4.9b mostra como os vrtices esto dominados para t = 100, a Figura 4.9c, para
t = 200, e a Figura 4.9d revela as partculas proprietrias dos vrtices no estado em
que j no h mais mudana de dominao entre os vrtices, o qual atingido quando

88

Captulo 4 - Resultados Obtidos

t = 300. Ainda para a mesma rede, ser verificado como o nvel de dominao mdio
dos vrtices de uma classe se comporta para as duas partculas no modelo. A Figura
4.10a indica o nvel de dominao mdio imposto pela partcula representando o vrtice pr-rotulado azul nos vrtices v1 ao v50 (classe azul) e v51 ao v100 (classe vermelha),
enquanto que a Figura 4.10b exibe a mesma informao para a partcula representando
o vrtice pr-rotulado vermelho. Claramente, conforme o tempo progride, pode-se verificar que as duas classes so, de maneira inequvoca, separadas pelo sistema competitivo.

0.75

0.75

0.5

0.5

0.25

0.25

0.25

0.5

0.75

0.25

(a)

0.75

0.75

0.5

0.5

0.25

0.25

0.25

0.5

(c)

0.75

0.75

(b)

0.5

0.75

0.25

0.5

(d)

Figura 4.9: Ilustrao de um processo de classificao semissupervisionada via competio


de partculas. As redes possuem 100 vrtices. Vrtices escuros ainda no foram dominados
por nenhuma partcula. As cores nos vrtices representam a partcula que o est dominando.
Retrato da rede quando: (a) t = 0; (b) t = 100; (c) t = 200; e (d) t = 300.

Seguindo com os exemplos artificiais, agora, a tcnica de competio de partcula


ser aplicada em classes de dados com distribuies arbitrrias. Para tanto, ser utili-

4.3 - Simulaes Computacionais

89

0.9
0.8

0.9

Vertices 1 ao 50
Vertices 51 ao 100

(2)(t)
N
.

0.6

0.6

0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

Vertices 1 ao 50
Vertices 51 ao 100

0.7

(1)(t)
N
.

0.7

0.8

300 600 900 1200 1500 1800 2100 2400 2700 3000

300 600 900 1200 1500 1800 2100 2400 2700 3000

tempo

tempo

(a)

(b)

Figura 4.10: Comportamento evolucional do nvel de dominao mdio imposto pelas partculas no modelo. (a) Nvel mdio de dominao imposto pela partcula 1; e (b) Mesma informao
para a partcula 2.

zado o pacote PRTools (?) que automaticamente gera distribuies no triviais e bem
conhecidas na literatura para problemas de classificao. Para todas as simulaes
realizadas com estes tipos de classe, h a necessidade de construo da rede a partir
do conjunto de dados de entrada. Neste caso, cada item de dado representado por
um vrtice. Arbitrariamente, ser escolhida a tcnica k-vizinhos mais prximos com
k = 5, i.e., cada vrtice conectado com os seus 5 vizinhos mais prximos segundo
uma medida de similaridade, a qual aqui tomada como sendo a Euclidiana. Para
cada 50 vrtices gerados, escolhe-se aleatoriamente um entre eles e o pr-rotula. Para
cada vrtice rotulado, uma partcula representante gerada. Note que, neste caso, haver cooperao entre partculas oriundas do mesmo time. Conforme j visto, para
obter o nvel de dominao agregado de um time de partculas sobre um vrtice, apenas somam-se os nveis de dominao de cada partcula constituinte do time sobre o
mesmo vrtice. O primeiro conjunto de dados, como mostrado na Figura 4.11a, consiste em 600 exemplos igualmente divididos em duas classes com formatos de banana.
O resultado exibido na Figura 4.11b. A segunda base de dados, a qual pode ser vista
na Figura 4.11c, composta de 600 exemplos igualmente divididos em duas classes
Highleyman. O resultado correspondente fornecido na Figura 4.11d. A terceira base
de dados, como retratada na Figura 4.11e, engloba 550 exemplos divididos em duas
classes Lithuanian. O resultado dado na Figura 4.11f. A quarta base de dados, como
pode ser visualizada na Figura 4.11g, construda a partir de 800 exemplos igualmente
dividos em quatro classes seguindo distribuies Gaussianas. O resultado indicado
na Figura 4.11h. Enfim, segundo os dados de entrada, todos os resultados obtidos
so visualmente satisfatrios, reforando o argumento de robustez da tcnica frente a

90

Captulo 4 - Resultados Obtidos

dados de distribuies arbitrrias.

4.3.3

Simulaes em Bases de Dados Reais

Nesta seo, o desempenho do modelo proposto ser avaliado a partir de bases de


dados reais. Para tanto, os experimentos sero conduzidos em 7 conjuntos de dados
semissupervisionados que compem o benchmark de Chapelle et al. (2006). Um breve
descrio dos metadados de tais bases de dados fornecida na Tabela 4.2. Cada base de
dado neste benchmark, especialmente as construdas artificialmente (primeiras 3 bases
da tabela), foi projetada no propsito de criar situaes que correspondem a hipteses
que a maioria dos algoritmos semissupervisionados se baseiam, quais sejam: suavidade, cluster e manifold. As outras 4 bases de dados so construdas a partir de dados
de aplicaes reais.
Tabela 4.2: Metadados do benchmark de Chapelle et al. (2006)

Base de Dados
g241c
g241d
Digit1
USPS
COIL
BCI
Text

Classes

Dimenso

Nmero de Exemplos

Tipo

2
2
2
2
6
2
2

241
241
241
241
241
117
11960

1500
1500
1500
1500
1500
400
1500

artificial
artificial
artificial
no balanceada
dados esparsos

O benchmark de Chapelle et al. (2006) utilizado da seguinte forma: para cada base
de dados citada na Tabela 4.2, dois tipos de experimentos sero realizados: 10 e 100
vrtices inicialmente pr-rotulados. A escolha dos vrtices pr-rotulados realizada de
tal forma a assegurar que exista pelo menos 1 vrtice pr-rotulado de cada classe para
cada configurao. Assim, para cada base de dados e configurao inicial de vrtices
pr-rotulados (10 ou 100), o benchmark fornece 12 conjuntos diferentes de vrtices prrotulados. Para cada um desses conjuntos, o modelo competitivo rodado 100 vezes
independentemente. Finalmente, o erro do conjunto de teste para cada base de dados
calculado tomando-se a mdia dessas 12 100 = 1200 execues do algoritmo.
Para fins de comparao, so tambm conduzidos experimentos com tcnicas representativas de classificao semissupervisionada. Os resultados obtidos para essas
tcnicas foram extrados de Chapelle et al. (2006), exceto para as tcnicas LGC, LP, and
LNP. Por questes de clareza, uma breve descrio de cada uma dessas tcnicas dada
na Tabela 4.3. A configurao paramtrica dos algoritmos pode ser consultada diretamente na descrio minuciosa em (Chapelle et al., 2006) e nas referncias mostradas
na tabela em comento. Em relao s tcnicas LGC, LP, and LNP, os seguintes par-

4.3 - Simulaes Computacionais

91

0.75

0.75

0.5

0.5

0.25

0.25

0.25

0.5

0.75

0.25

(a)
1

0.75

0.75

0.5

0.5

0.25

0.25

0.25

0.5

0.75

0.25

(c)
1

0.75

0.75

0.5

0.5

0.25

0.25

0.25

0.5

0.75

0.25

(e)
1

0.75

0.75

0.5

0.5

0.25

0.25

0.25

0.5

(g)

0.5

0.75

0.5

0.75

0.75

(f)

(d)

0.75

(b)

0.5

0.75

0.25

0.5

(h)

Figura 4.11: Classificao de dados semissupervisionada. A cor do vrtice indica a partcula


que o est dominando. Os pontos escuros so vrtices ainda no dominados. (a) e (b) Duas
classes com formatos de banana; (c) e (d) Duas classes, cada qual seguindo uma distribuio
Highleyman; (e) e (f) Duas classes, cada qual seguindo uma distribuio Lithuanian; (g) e (h)
Quatro classes, cada qual seguindo uma distribuio Gaussiana.

92

Captulo 4 - Resultados Obtidos

metros foram utilizados: (i) LGC: como sugerido pelos autores em (?), = 0.99 e
escolhido como o valor que resulta na melhor acurcia de classificao no intervalo
discretizado {0, 1, . . . , 100}; (ii) LP: o timo determinado da mesma forma que
na tcnica anterior no intervalo discretizado {0, 1, . . . , 100}; (iii) como sugerido pelos autores em (?), = 0.99 e k escolhido da mesma forma no intervalo discretizado
k {1, 2, . . . , 100}.
Quanto ao algoritmo competitivo, uma vez que ele baseado em redes, necessitase de uma tcnica de formao de redes. No caso, foi escolhida a tcnica k-vizinhos
mais prximos e o valor de k otimizado no intervalo discretizado k {1, 2, . . . , 10}.
Quanto aos parmetros internos do sistema dinmico, otimizado no intervalo discretizado {0.5, 0.51, . . . , 0.8}. O nmero de partculas inserido na rede igual ao
nmero de dados rotulados. A posio inicial das partculas fixada como o vrtice o
qual a mesma representante. Os valores obtidos pelo modelo so extrados da mdia
atingida pelo algoritmo em 100 realizaes em cada uma das 12 configuraes acima
explicadas. Os resultados obtidos para essas tcnicas, para o caso de apenas 10 vrtices pr-rotulados, so reportados na Tabela 4.4, enquanto que os resultados atingidos
pelos mesmos algoritmos em apreo, no caso de 100 vrtices pr-rotulados, so fornecidos na Tabela 4.5. Em ambas as tabelas, tambm indicada a posio mdia de
cada algoritmo, medida a qual calculada da seguinte forma: (i) para cada base de
dados, os algoritmos so ordenados segundo seu desempenho em relao ao erro cometido no conjunto de testes, i.e., o melhor algoritmo ordenado em primeiro lugar, o
segundo melhor, em segundo lugar, e assim sucessivamente; e (ii) para cada algoritmo,
a posio mdia dada pela mdia das posies atingidas em cada base de dados.
Uma anlise atenta das Tabelas 4.4 e 4.5 revela que a tcnica baseada em competio de partculas obteve resultados satisfatrios em relao aos outros mtodos. Especificamente, para o caso de poucos vrtices pr-rotulados (10 vrtices), a tcnica em
apreo atingiu melhores resultados em relao ao seu desempenho com 100 vrtices
inicialmente pr-rotulados. Isto uma caracterstica interessante, uma vez que a tarefa de rotulao de vrtices geralmente onerosa e propensa a erros, j que envolve a
participao de especialistas humanos.
De forma a analisar os resultados obtidos nas Tabelas 4.4 e 4.5 e verificar se o algoritmo proposto realmente apresenta relevncia estatstica, ser aplicado uma mtodo
estatstico conforme proposto em ? e ?. A tcnica descrita nos artigos ora citados utiliza
a informao da posio (rank) atingida por cada algoritmo para cada base de dados,
i.e., a posio mdia, j apresentada anteriormente. Essas posies mdias de cada
algoritmo so avaliadas segundo o Teste de Skillings-Mack (reduz-se ao Teste de Friedman quando no existem valores ausentes na tabela). Tal teste estatstico indicado
para verificar se as posies mdias dos algoritmos diferem da esperana da posio.
A hiptese nula que todos os algoritmos so idnticos, logo, suas posies mdias

4.3 - Simulaes Computacionais

93

so iguais. Doravante, para todos os testes futuros, fixado um nvel de significncia


de 10%. Para os experimentos nas Tabelas 4.4 e 4.5, segundo ? e ?, tem-se que N = 7 e
k = 17, resultando em um valor crtico igual a F (16, 96) 1, 55, onde os dois argumentos da funo F derivam dos graus de liberdade definidos como k 1 e ( N 1)(k 1),
respectivamente. Em relao Tabela 4.4, obtm-se o valor FF 1.58 que superior
que o valor crtico. Portanto, a hiptese nula rejeitada com um nvel de significncia
de 10%. Por outro lado, com respeito Tabela 4.5, obtm-se o valor FF 0.17, que
inferior ao valor crtico. Logo, no h possibilidade de rejeitar a hiptese nula para o
nvel de significncia fixado.
Como a hiptese nula foi rejeitada para os dados presentes na Tabela 4.4 (apenas
10 exemplos rotulados), possvel prosseguir para testes estatsticos post-hoc, os quais
objetivam verificar o desempenho de um algoritmo especfico frente aos demais. Para
esta tarefa, opta-se por usar o Teste de Bonferroni-Dunn com o algoritmo-controle (referncia) fixado como a tcnica de competio de partculas aqui estudada. De acordo
com ?, no factvel realizar comparaes entre pares de algoritmos distintos, quando
a principal meta apenas verificar se um algoritmo melhor que os demais. Basicamente, o Teste de Bonferroni-Dunn quantifica se o desempenho de um algoritmo
arbitrrio e a referncia significantemente diferente. Isto feito averiguando se as
posies mdias desses dois algoritmos diferem, pelo menos, de um valor crtico, aqui
denominado diferena crtica (DC). Se os algoritmos diferem mais do que DC, ento dito que o algoritmo com melhor posio mdia entre os dois estatisticamente
superior ao com a pior posio mdia. Caso no apresentem diferena de tamanha
magnitude, tais algoritmos no apresentam diferena significativa. Logo, calculandose o valor de DC para a Tabela 4.4, obtm-se DC = 4, 86. A posio mdia do algoritmo
referncia (tcnica de competio de partculas) 5, 29. Em virtude disso, se alguma
posio mdia de outro algoritmo pertencer ao intervalo 5.29 4.86, a referncia e este
algoritmo so estatisticamente iguais para o conjunto de dados em anlise. De fato,
pode-se concluir que o algoritmo de competio de partcula superior s tcnicas
SVM, Regularizador Discreto, TSVM e Cluster-Kernel para o benchmark de Chapelle
et al. (2006). Entretanto, a comparao com as posies mdias dos outros algoritmos
no ultrapassa tal intervalo, levando a concluso que so estatisticamente equivalentes
para o benchmark de Chapelle et al. (2006). De qualquer forma, a tcnica de competio
de partculas apresentou o melhor desempenho (melhor posio mdia) em relao aos
outros algoritmos para o caso de apenas 10 vrtices pr-rotulados.

94

Captulo 4 - Resultados Obtidos

Tabela 4.3: Tcnicas selecionadas para comparao no benchmark de Chapelle et al. (2006).

Abreviao

Tcnicas

Ref(s).

MVU + 1-NN

Maximum Variance Unfolding

(Weinberger e Saul, 2006; ?)

LEM + 1-NN

Laplacian Eigenmaps

(Belkin e Niyogi, 2003)

QC + CMR

Quadratic Criterion and Class Mass Regularization

(Belkin et al., 2004; ?)

Discrete Reg.

Discrete Regularization

(?)

TSVM

Transductive Support Vector Machines

(??)

SGT

Spectral Graph Transducer

(?)

Cluster-Kernel

Cluster Kernels

(?)

Data-Dep. Reg.

Data-Dependent Regularization

(?)

LDS

Low-Density Separation

(?)

Laplacian RLS

Laplacian Regularized Least Squares

(?)

CHM (normed)

Conditional Harmonic Mixing

(?)

LGC

Local and Global Consistency

(?)

LP

Label Propagation

(?)

LNP

Linear Neighborhood Propagation

(?)

Tabela 4.4: Erros preditivos no conjunto de teste (%) com 10 vrtices rotulados no conjunto de
treinamento.

1-NN
SVM
MVU + 1-NN
LEM + 1-NN
QC + CMR
Discrete Reg.
TSVM
SGT
Cluster-Kernel
Data-Dep. Reg.
LDS
Laplacian RLS
CHM (normed)
LGC
LP
LNP
Mtodo Proposto

g241c g241d Digit1 USPS COIL

BCI

Text

Pos. Mdia

47,88
47,32
47,15
44,05
39,96
49,59
24,71
22,76
48,28
41,25
28,85
43,95
39,03
45,82
42,61
47,82
43,89

49,00
49,85
47,95
48,74
50,36
49,51
49,15
49,59
48,31
50,21
49,27
48,97
46,90
47,09
46,37
47,65
48,00

38,12
45,37
45,32
39,44
40,79
40,37
31,21
29,02
42,72
27,15
33,68
45,50
49,53
41,06
34,84

9,86
14,14
9,86
10,00
7,86
10,86
10,86
6,50
10,86
9,83
8,43
6,14
7,20
7,29
5,57
7,43
5,29

46,72
46,66
45,56
43,22
46,55
49,05
50,08
18,64
42,05
45,89
50,63
45,68
43,01
44,09
41,93
46,24
46,47

13,65
30,60
14,42
23,47
9,80
12,64
17,77
8,92
18,73
12,49
15,63
5,44
14,86
9,89
11,31
8,58
8,10

16,66
20,03
23,34
19,82
13,61
16,07
25,20
25,36
19,41
17,96
17,57
18,99
20,53
9,03
14,83
17,87
15,69

63,36
68,36
62,62
65,91
59,63
63,38
67,50
67,32
63,65
61,90
54,54
63,45
55,82
55,50
54,18

4.3 - Simulaes Computacionais

95

Tabela 4.5: Erros preditivos no conjunto de teste (%) com 100 vrtices rotulados no conjunto de
treinamento.

1-NN
SVM
MVU + 1-NN
LEM + 1-NN
QC + CMR
Discrete Reg.
TSVM
SGT
Cluster-Kernel
Data-Dep. Reg.
LDS
Laplacian RLS
CHM (normed)
LGC
LP
LNP
Mtodo Proposto

g241c g241d Digit1 USPS COIL

BCI

Text

Pos. Mdia

43,93
23,11
43,01
40,28
22,05
43,65
18,46
17,41
13,49
20,31
18,04
24,36
24,82
41,64
30,39
44,13
24,92

48,67
34,31
47,89
44,83
46,22
47,67
33,25
45,03
35,17
47,47
43,97
31,36
36,03
43,50
42,69
46,22
41,57

30,11
26,45
32,83
30,77
25,71
24,00
24,52
23,09
24,38
23,15
23,57
46,83
40,79
38,48
27,92

9,00
9,14
11,86
12,14
7,50
8,21
8,71
4,67
6,79
7,17
6,00
4,93
9,10
10,00
9,29
12,50
7,00

42,45
24,64
38,20
37,49
28,20
41,65
22,42
9,11
4,95
32,82
23,74
26,46
25,67
40,08
29,22
38,30
29,11

3,89
5,53
2,83
6,12
3,15
2,77
6,15
2,61
3,79
2,44
3,46
2,92
3,79
2,72
3,05
3,27
3,11

5,81
9,75
6,50
7,64
6,36
4,68
9,77
6,80
9,68
5,10
4,96
4,68
7,65
3,68
6,98
17,22
4,82

17,35
22,93
28,71
23,27
10,03
9,61
25,80
21,99
11,46
13,72
11,92
45,55
11,14
11,01
10,94

Como ltimo experimento, ser utilizada uma base de dados de larga escala, no
caso, a base de dados Letter Recognition disponvel no repositrio UCI. Esse conjunto
de dados compreende 20.000 exemplos de 26 letras maisculas do alfabeto, com cada
exemplo apresentando fonte diferentes e distores aleatrias. Na sua configurao
original, as imagens dos exemplos so convertidas em 16 descritores escalares. Sero
aplicadas duas tcnicas representativas baseadas em redes (LP e LNP), bem como a tcnica de competio de partculas. Todas as tcnicas seguem as mesmas configuraes
paramtricas discutidas em oportunidade anterior. Cada algoritmo executado utilizando 3 subconjuntos de dados pr-rotulados escolhidos aleatoriamente, cada qual
com tamanho 1%, 5%, and 10% do conjunto de dados. Cada algoritmo executado 10
vezes na base de dados em apreo e a mdia dessas 10 execues disponibilizada.
A Tabela 4.6 reporta os erros de predio no conjunto de teste para essas trs tcnicas.
Novamente, verifica-se que o mtodo de competio obteve bons resultados.
Tabela 4.6: Erros preditivos no conjunto de teste (%) obtidos para o conjunto de dados Letter
Recognition.

LP
LNP
Mtodo Proposto

10% Rotulados

5% Rotulados

1% Rotulado

10,94
24,22
12,09

18,99
34,08
15,51

46,94
54,61
38,24

96

4.3.4

Captulo 4 - Resultados Obtidos

Consideraes Finais

Neste trabalho, foi proposto um novo modelo matemtico para competio de partculas em redes complexas, biologicamente inspirado pelo processo competitivo que
ocorre em muitos sistemas naturais e sociais. Neste modelo, vrias partculas, cada
uma representando uma classe, navegam na rede para explorar novos territrios e, ao
mesmo tempo, tentam defender seus vrtices j dominados contra partculas rivais. Se
vrias partculas propagam o mesmo rtulo, ento um time formado, e um processo
cooperativo entre partculas do mesmo time verificado. Um mecanismo de confinamento foi proposto com o intuito de prevenir partculas de navegarem na rede sem
quaisquer penalidades, possivelmente prejudicando a acurcia do algoritmo. Consequentemente, o algoritmo de competio propaga os rtulos de uma maneira local, ao
invs do que ocorre em diversas tcnicas tradicionais semissupervisionadas de classificao, em que os rtulos so propagados de forma global.
O modelo proposto no linear e estocstico. Em virtude disso, uma anlise matemtica alternativa foi elaborada para descrever e predizer o comportamento do modelo
conforme o tempo progride. Expresses fechadas para descrever a distribuio probabilstica da matriz de nvel de dominao foram apresentadas. Com esta ferramenta,
possvel verificar como ser o comportamento do modelo frente a uma rede qualquer.
Para fins de clareza, um exemplo numrico foi introduzido. Ainda, uma validao dos
resultados tericos foi demonstrada, confirmando as predies estudadas na seo de
anlise matemtica.
Simulaes computacionais foram realizadas com o propsito de quantificar a robustez do mtodo proposto em conjuntos de dados reais e artificiais. Uma anlise
detalhada do comportamento evolucional da matriz de dominao revela que o modelo funciona bem em ambas situaes. Mais importante, este trabalho uma tentativa
de fornecer uma forma alternativa para o estudo de aprendizado competitivo.
Como trabalhos futuros, sero investigadas e propostas novas medidas para quantificar a natureza de sobreposio de vrtices ou sub-grafos na rede. Outro tpico de
suma importncia que ser estudado a propagao de rtulos errados. Neste cenrio,
ser utilizado o prprio processo competitivo para prevenir que esses rtulos errados
se propaguem pela rede. Com isso, espera-se aumentar a confiabilidade do resultado
final produzido pelo modelo. Tendo em vista que a tarefa de rotulao usualmente
envolve esforos humanos, os quais, por sua vez, so suscetveis a introduo de erros,
este um tpico importante para ser futuramennte estudado pelo modelo proposto.

C APTULO

5
Proposta de Pesquisa

Neste captulo, sero delineadas as atividades que sero desenvolvidas no transcorrer do projeto. Especificamente, na Seo 5.1, apresentado como cada objetivo do
projeto ser analisado e cumprido; na Seo 5.2, o cronograma de atividades fornecido; na Seo 5.3, indicado os recursos infra-estruturais disponveis e a metodologia
de pesquisa utilizada; e, finalmente, na Seo 5.4, a forma de anlise dos resultados
explicitada.

5.1

Estratgia de Desenvolvimento

Nesta seo, o contedo tcnico que o plano de pesquisa abrange ser detalhado.
Especificamente, na Subseo 5.1.1, discorrido sobre a modelagem do sistema competitivo semissupervisionado; na Subseo 5.1.2, a modelagem matemtica do sistema
desenvolvido na etapa anterior discutida; na Subseo 5.1.3, dada uma ideia inicial sobre a extenso do modelo competitivo semissupervisionado para o campo no
supervisionado, bem como uma estratgia para estimar o nmero de clusters e comunidades em uma base de dados; na Subseo 5.1.4, fornecido, em carter inicial,
um mtodo para detectar vrtices e comunidades sobrepostos; e, finalmente, na Subseo 5.1.5, apresentado o assunto de confiabilidade dos dados, crucial para alguns
sistemas de dados, tpico o qual possui razes ligadas aos processos inerentes de propagao de erros em razo de rotulaes erradas.
97

98

Captulo 5 - Proposta de Pesquisa

5.1.1

Modelagem da Tcnica de Competio de Partculas para


Aprendizado Semissupervisionado

Esta etapa de pesquisa j foi desenvolvida, conforme foi visto no captulo de Resultados Obtidos (Seo 4.1). Vale destacar alguns pontos importantes que foram realizados, a partir desta modelagem:
Foi desenvolvida uma descrio rigorosa do modelo competitivo por meio da
utilizao de um sistema dinmico estocstico no linear. Tal caracterstica indita, dado que, no trabalho original proposto por Quiles et al. (2008), apenas um
procedimento, sem qualquer rigor matemtico, introduzido.
Generalizao da teoria de caminhada aleatria simples para um modelo de mltiplas caminhadas aleatrias com interao por meio de competio. A generalizao ocorre a partir da escolha do parmetro do modelo, o qual responsvel por contrabalancear a proporo de caminhadas aleatrias e preferenciais.
Quando = 0, o modelo reduz-se a mltiplas caminhadas aleatrias sem interao. No entanto, quando > 0, o modelo descreve mltiplas caminhadas
aleatrias com interao, via competio de partculas.
Ao contrrio do modelo procedimental proposto em Quiles et al. (2008), em que
partcula somente permitido ora fazer uma movimentao aleatria, ora preferencial; no modelo proposto, uma combinao estocstica entre as duas movimentaes implementada, conforme a Equao (4.1) revela. Simulaes realizadas, conforme informadas na Seo 4.3, exibem a robustez e eficcia do modelo.

5.1.2

Anlise Matemtica do Modelo de Competio Semissupervisionado

Esta etapa tambm j foi completada e foi discutida no captulo de Resultados Obtidos (Seo 4.2). A lista abaixo discorre, resumidamente, sobre os pontos importantes
dessa anlise:
Expresses probabilsticas foram deduzidas a partir do sistema dinmico estocstico. Isto permite prever o comportamento do sistema competitivo para um
tempo arbitrariamente alto.
Uma validao das equaes tericas obtidas, contra o resultado emprico do modelo, foi conduzida. Resultados mostram que, de forma aproximada, a predio
terica aproxima o comportamento emprico do modelo.
O modelo competitivo, bem como a anlise matemtica, aqui descritos baseiamse no artigo ?, o qual est em processo de reviso.

5.1 - Estratgia de Desenvolvimento

5.1.3

99

Extenso do Modelo Competitivo ao Aprendizado No Supervisionado

O modelo competitivo desenvolvido para aprendizado semissupervisionado por


intermdio de um sistema dinmico estocstico ser estendido para o campo no supervisionado. A ideia inicial modificar as condies iniciais do sistema dinmico.
No modelo semissupervisionado, as entradas da matriz N (t), a qual responsvel por
armazenar o nmero de visitas feito por cada partcula a cada vrtice na rede, que indicam vrtices pr-rotulados so fixadas no valor . Desta maneira, no possvel
que outra partcula venha a domin-la, seno a partcula representante daquele vrtice
pr-rotulado. No modelo no supervisionado, sugere-se utilizar a seguinte condio
inicial para esta matriz:

(k)

Ni (0) =

2,

se a partcula k gerada no vrtice i

1,

caso contrrio

(5.1)

Outro ponto importante que ser analisado, ainda no campo no supervisionado,


a estimao do nmero de clusters ou comunidades em uma base de dados. Tal
determinao um importante tpico em agrupamento de dados (Wang et al., 2009;
?). A ideia inicial para realizar tal estimao utilizar um avaliador externo, o qual
monitora a informao gerada pelo prprio processo competitivo. A medida de rede
que ser monitorada, aqui, denominada de mdia do mximo nvel de dominao,
R(t) [0, 1], calculada utilizando a seguinte expresso:

R(t) =

1
V

max
mK

u(m) (t) ,
N

(5.2)

u =1

u(m) (t) indica o nvel de dominao que a partcula m est impondo no vrtice
onde N
u(m) (t) resulta no nvel de dominao mximo imposto no
u no instante t e max N
mK

vrtice u no instante t. Para uma rede que apresenta algumas comunidades, diga-se K
comunidades, por exemplo, se forem inseridas K partculas, espera-se que cada uma
domine uma comunidade distinta. Logo, uma partcula no interferir na regio de
atuao das outras partculas. Consequentemente, R(t) ser alto. No caso extremo,
cada vrtice completamente dominado por apenas uma partcula, da R(t) atinge
1. Entretanto, se forem colocadas mais de K partculas, inevitavelmente, ocorrer que
mais de uma partcula compartilhar a mesma comunidade. Neste caso, elas disputaro o mesmo grupo de vrtices. Em virtude disso, uma partcula ir diminuir o nvel
de dominao das outras partculas, e vice-versa. Como resultado, R(t) ser baixo.

100

Captulo 5 - Proposta de Pesquisa

A contrario sensus, se for introduzida na rede uma quantidade de partculas inferior


ao nmero de comunidades (K), uma competio acirrada tambm ir ocorrer entre
as partculas. Neste caso, elas tentaro dominar mais de uma comunidade ao mesmo
tempo. Novamente, R(t) ser baixo. Logo, esses cenrios sugerem que o nmero correto de clusters ou comunidades pode ser determinado checando o maior valor R(t)
atingido.
Se, por hiptese, for aplicado este avaliador externo para determinar o nmero
de comunidades ou clusters que um conjunto de dados possui, necessrio rodar o
sistema dinmico estocstico vrias vezes. Em termos prticos, o nmero de partculas
deve variar de 2 at K , onde K um valor um pouco maior que K, aqui denotando o
nmero real de comunidades ou clusters no conjunto de dados. Tendo em vista que o
nmero de clusters pequeno, i.e., bem menor que o nmero de dados (K
V), este
processo de estimao pode no alterar a ordem de complexidade do modelo.
Agora, ser informada a forma de validao do mtodo de competio de partculas no supervisionado e do procedimento de estimao de comunidades ou clusters.
Especificamente, para o caso de deteco de comunidades, sero utilizados benchmarks
amplamente aceitos na rea (Danon et al., 2005; Fortunato, 2010), bem como redes artificiais e reais. J para o caso de agrupamento de dados, sero utilizadas bases de
dados disponveis no repositrio UCI (Frank e Asuncion, 2010) e tambm a base de
dados MNIST de dgitos manuscritos (LeCun et al., 1998).

5.1.4

Deteco de Vrtices e Comunidades Sobrepostos

O modelo competitivo analisado neste projeto carrega uma gama rica de informao, informao esta gerada pelo prprio processo competitivo. Por intermdio dela,
ser derivada uma medida para detectar comunidades ou vrtices sobrepostos em uma
(t) pode ser utirede. Para tanto, cumpre notar que a matriz de nvel de dominao N
lizada para indicar quais vrtices so membros de uma ou vrias comunidades, da
seguinte forma: se o nvel de dominao mximo imposto por uma partcula arbitrria
k em um vrtice i muito maior que o segundo maior nvel de dominao imposto ao
mesmo vrtice, ento pode-se concluir que este vrtice est sendo fortemente dominado pela partcula k. Por outro lado, quando estas duas quantidades so similares,
pode-se deduzir que o vrtice i apresenta caractersticas que o qualificam como membro de mais de uma comunidade. luz dessas consideraes, pode-se matematicamente modelar este comportamento a seguir: seja Mi ( x, t) o x-simo maior nvel de
dominao imposto ao vrtice i no instante t. Desta forma, o ndice de sobreposio
para o vrtice i, Oi (t) [0, 1], dado por:

5.1 - Estratgia de Desenvolvimento

Oi (t) = 1 ( Mi (1, t) Mi (2, t)) ,

101

(5.3)

i.e., o ndice de sobreposio Oi (t) mensura o intervalo entre os dois maiores nveis
de dominao impostos por quaisquer pares de partculas ao vrtice i. Sucintamente,
quando este intervalo grande, uma forte dominao est ocorrendo sobre o vrtice i;
logo, Oi (t) produz um valor pequeno. Por outro lado, quando uma competio est
ocorrendo de forma intensa entre duas ou mais partculas em relao ao vrtice i, alguns desses nveis de dominao so esperados de serem semelhantes, em termos de
magnitude. Consequentemente, o intervalo entre os dois maiores nveis de dominao provavelmente ser pequeno, produzindo, assim, um valor alto para o ndice de
sobreposio Oi (t).
Para validar a medida proposta, simulaes em bases de dados conhecidas na literatura sero conduzidas, tais como rede de karat de Zachary (Zacharys karate club
network) (Zachary, 1977), rede social de golfinhos (dolphin social network) (Lusseau,
2003), rede da novela Les Misrables (Les Misrables network) (Knuth, 1993), rede representando uma liga de futebol americano (American college football network) (Girvan e
Newman, 2002) e rede de colaborao cientfica (scientific collaboration network) (Newman, 2006).

5.1.5

Tratamento da Confiabilidade dos Dados no Processo de Aprendizado Semissupervisionado

Na prxima fase, ser tratado do assunto de confiabilidade dos dados no aprendizado semissupervisionado. Especificamente, a tcnica a ser desenvolvida gozar das
seguintes caractersticas:
I. Gerao de Nvel de Pertinncia para Cada Vrtice: A tcnica a ser desenvolvida
ser capaz de oferecer nvel de pertinncia de cada item de dado a cada classe
(soft-label), ao invs de s oferecer rtulo de classe (hard-label).
II. Deteco de Outliers: A tcnica a ser desenvolvida ser capaz de detectar outliers
e consequentemente tentar impedir sua propagao. Outliers referem-se a itens
de dados de uma determinada classe localizados em regies de outras classes.
No modelo de cooperao/competio de partculas, uma partcula, cujo vrtice
representado um outlier, tem dificuldade de defender seus vizinhos, pois ela
est longe de suas colegas do time e consequentemente recebe menos ajuda do
time. Desta forma, uma partcula, cujo vrtice de casa um outlier, pode eventualmente abandonar sua casa e migrar para uma vizinhana de partculas do

102

Captulo 5 - Proposta de Pesquisa

mesmo time. Portanto, neste modelo, um outlier pode ser identificado via medida de distncia mdia de uma partcula ao seu vrtice representado ao longo
do tempo.
Alm disso, sero conduzidos estudos e anlises de propagao de erros (dados erroneamente rotulados) junto propagao de rtulos em redes. Ou seja, certa percentagem de erros introduzida antes do processo de propagao de rtulos. Pretende-se
identificar, com isso, o ponto crtico de percentagem de erros introduzidos, o que leva
a uma preciso de classificao drasticamente decada. Esse tipo de estudo muito
importante no s para obter uma classificao segura, mas tambm para um entendimento melhor de conjunto de dados em processamento.

5.2

Atividades e Cronograma

A seguir esto descritas as atividades programadas para o perodo de realizao do


curso de doutorado. A Tabela 5.1 mostra o cronograma em sequncia temporal.
I. Assistncia a Disciplinas: completar os 84 crditos necessrios em disciplinas
do Programa de Doutorado do ICMC-USP, dos quais 36 crditos devem ser integralizados a partir de disciplinas do ncleo bsico.
II. Pesquisa Bibliogrfica: buscar e estudar bibliografia sobre aprendizado de mquinas, classificao de dados, tcnicas de deteco de comunidades, redes complexas, sistemas dinmicos e aplicaes.
III. Exame de Qualificao: elaborar o documento escrito e realizar a prova de exame
de qualificao atendendo exigncia do Programa de Doutorado do ICMC-USP.
IV. Desenvolvimento Terico: modelagem do sistema dinmico competitivo no
campo de aprendizado semissupervisionado, anlise matemtica do modelo semissupervisionado, extenso do modelo competitivo ao campo no supervisionado, criao de medidas para deteco de vrtices sobrepostos e estudo de
confiabilidade de dados.
V. Testes e Simulaes: implementar modelos existentes e os modelos a serem desenvolvidos e realizar comparaes a partir de testes com simulaes em dados
artificiais e dados reais.
VI. Aplicaes: aplicar os modelos desenvolvidos em bases de dados do repositrio
UCI e MNIST.
VII. Gerao de Artigos: preparar e submeter artigos com os desenvolvimentos realizados para revistas cientficas e para congressos.

Proposta de Pesquisa

103

VIII. Elaborao de relatrios: elaborar e submeter relatrios de acompanhamento


para a FAPESP.
IX. Defesa de Tese: elaborar e defender a tese de concluso.
Tabela 5.1: Cronograma das atividades.

Atividade

Semestre

II

III

IV

VI

VII

VIII

IX

1S/2010
2S/2010
1S/2011
2S/2011
1S/2012
2S/2012
1S/2013
2S/2013

5.3

Materiais e Recursos Disponveis

Este projeto envolve o estudo terico como a reviso de artigos e a elaborao de


modelos matemticos e algoritmos, bem como a realizao de simulaes computacionais. Para tanto, sero utilizados os recursos disponveis para a comunidade da
Universidade de So Paulo como consultas a bases internacionais de publicaes, teses e livros a partir das bibliotecas da universidade. As simulaes computacionais,
quando for necessria a utilizao de maiores recursos, sero realizadas no Laboratrio de Computao Bioinspirada (BioCom) ICMC-USP, em So Carlos, o qual dispe
de um cluster de processamento.

5.4

Forma de Anlise dos Resultados

Os resultados das investigaes sero analisados a partir de comparaes da preciso, complexidade e eficincia da aplicao dos algoritmos e tcnicas desenvolvidas
com outros semelhantes. Os modelos matemticos sero avaliados quanto preciso
na previso dos processos descritos. Alm disso, mtodos estatsticos devem ser envolvidos para medir e validar o desempenho das tcnicas a serem desenvolvidas.

104

Proposta de Pesquisa

Referncias Bibliogrficas

Albert et al.(1999) Reka Albert, Hawoong Jeong, e Albert-Laszlo Barabasi. The diameter of the world wide web. Nature, 401:130131. Citado na pg. 3, 13
Albert et al.(2004) Rka Albert, Istvn Albert, e Gary L. Nakarado. Structural vulnerability of the north american power grid. Physical Review E, 69(2):025103. Citado na pg. 3,
12, 13
Alpaydin(2004) Ethem Alpaydin. Introduction to Machine Learning (Adaptive Computation and Machine Learning). The MIT Press. Citado na pg. 33, 36
Amorim et al.(2007) D. G. Amorim, M. F. Delgado, e S. B. Ameneiro. Polytope ARTMAP: Pattern classification without vigilance based on general geometry categories.
IEEE Trans. Neural Networks, 18(5):13061325. Citado na pg. 2
Arenas et al.(2006) Alex Arenas, Albert D. Guilera, e Conrad J. Prez Vicente. Synchronization reveals topological scales in complex networks. Physical Review Letters, 96
(11):114102. Citado na pg. 20
Athinarayanan et al.(2002) R. Athinarayanan, M. R. Sayeh, e D. A. Wood. Adaptive
competitive self-organizing associative memory. IEEE Trans. Systems, Man and Cybernetics , Part A, 32(4):461471. Citado na pg. 2
Bacciu e Starita(2008) D. Bacciu e A. Starita. Competitive repetition suppression (core)
clustering: A biologically inspired learning model with application to robust clustering. IEEE Trans. Neural Networks, 19(11):19221940. Citado na pg. 2
Barabasi e Albert(1999) Albert-Laszlo Barabasi e Reka Albert. Emergence of scaling in
random networks. Science - New York, 286(5439):509512. Citado na pg. xi, 3, 12, 17, 18
Belkin et al.(2005) M. Belkin, Niyogi P., e V. Sindhwani. On manifold regularization.
Em Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics (AISTAT 2005), pginas 1724, New Jersey. Society for Artificial Intelligence and
Statistics. Citado na pg. 29
Belkin e Niyogi(2003) Mikhail Belkin e Partha Niyogi. Laplacian eigenmaps for dimensionality reduction and data representation. Neural Comp., 15(6):13731396. Citado
na pg. 8, 94
105

106

Referncias Bibliogrficas

Belkin et al.(2004) Mikhail Belkin, Irina Matveeva, e Partha Niyogi. Regularization and
semi-supervised learning on large graphs. Em In COLT, pginas 624638. Springer.
Citado na pg. 8, 29, 94
Belkin et al.(2006) Mikhail Belkin, Partha Niyogi, e Vikas Sindhwani. Manifold regularization: A geometric framework for learning from labeled and unlabeled examples.
Journal of Machine Learning Research, 7:23992434. Citado na pg. 29, 39, 40
Bishop(2007) Christopher M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer, segunda edio. Citado na pg. 1
Blum e Mitchell(1998) Avrim Blum e Tom Mitchell. Combining labeled and unlabeled
data with co-training. Em Proceedings of the 11th Annual Conference on Computational
Learning Theory, pginas 92100. Citado na pg. 32
Boccaletti et al.(2007) Stefano Boccaletti, Mikhail V. Ivanchenko, Vito Latora, Alessandro. Pluchino, e Andrea Rapisarda. Detecting complex network modularity by dynamical clustering. Physical Review E, 75(4):045102. Citado na pg. 4, 7
Bornholdt e Schuster(2003) Stefan Bornholdt e Heinz G. Schuster. Handbook of Graphs
and Networks: From the Genome to the Internet. Wiley-VCH. Citado na pg. 3, 12
Breve et al.(2010) Fabrcio Breve, Liang Zhao, Marcos G. Quiles, Witold Pedrycz, e
Jiming Liu. Particle competition and cooperation in networks for semi-supervised
learning. IEEE Transaction on Data and Knowledge Engineering. Citado na pg. 29
Callut et al.(2008) Jrme Callut, Kevin Franoise, Marco Saerens, e Pierre Duppont.
Semi-supervised classification from discriminative random walks. European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, LNAI 5211:162177. Citado na pg. 29, 43, 45
Carpenter e Grossberg(1987) G. A. Carpenter e S. Grossberg. Self-organization of stable category recognition codes for analog input patterns. Applied Optics, 26(23):4919
4930. Citado na pg. 2
Chapelle et al.(2006) Olivier Chapelle, Bernhard Schlkopf, e Alexander Zien. SemiSupervised Learning. The MIT Press. Citado na pg. 2, 25, 26, 28, 29, 30, 31, 32, 33, 34, 36,
46, 85, 90, 93, 94
Chen et al.(2005) M. Chen, A. A. Ghorbani, e V. C. Bhavsar. Incremental communication
for adaptive resonance theory networks. IEEE Trans. Neural Networks, 16(1):132144.
Citado na pg. 2
Chung(1997) Fan R. K. Chung. Spectral Graph Theory (CBMS Regional Conference Series
in Mathematics, No. 92). American Mathematical Society. Citado na pg. 39
inlar(1975) E. inlar. Introduction to Stochastic Processes. Prentice-Hall, Englewood
Cliffs, N. J. Citado na pg. 44, 46, 53, 56, 72
Clauset et al.(2004) A. Clauset, M. E. J. Newman, e C. Moore. Finding community structure in very large networks. Physical Review E, pginas 16. doi: 10.1103/PhysRevE.
70.066111. Citado na pg. 41

Referncias Bibliogrficas

107

Clauset(2005) Aaron Clauset. Finding local community structure in networks. Physical


Review E, 72(2):026132. Citado na pg. 4, 40, 41
Cook e Holder(2000) Diane J. Cook e Lawrence B. Holder. Graph-based data mining.
IEEE Intelligent Systems, 15:3241. Citado na pg. 4
Cortes e Vapnik(1995) Corinna Cortes e Vladimir Vapnik. Support-vector networks.
Machine Learning, pginas 273297. Citado na pg. 31, 33
Costa et al.(2007) Luciano da F. Costa, Francisco A. Rodrigues, Gonzalo Travieso, e
Paulino R. Villas Boas. Characterization of complex networks: A survey of measurements. Advances in Physics, 56(1):167242. Citado na pg. xi, 13, 14, 15, 16
Danon et al.(2005) Leon Danon, Albert Daz-Guilera, Jordi Duch, e Alex Arenas. Comparing community structure identification. Journal of Statistical Mechanics: Theory and
Experiment, 2005(09):P09008. Citado na pg. 6, 8, 19, 20, 100
Danon et al.(2007) Leon Danon, Jordi Duch, Alex Arenas, e Daz-Guilera. Community
structure identification in large scale structure and dynamics of complex networks:
From information technology to finance and natural science. World Scientific Publishing Co., pginas 93113. Citado na pg. 4, 7
De Bie e Cristianini(2004) Tijl De Bie e Nello Cristianini. Convex methods for transduction. Em Sebastian Thrun, Lawrence Saul, e Bernhard Schlkopf, editors, Advances in Neural Information Processing Systems 16. MIT Press, Cambridge, MA. Citado na pg.
33
Deboeck e Kohonen(2010) G. Deboeck e T. Kohonen. Visual Explorations in Finance:
with Self-Organizing Maps. Springer. Citado na pg. 2
Dempster et al.(1977) Arthur P. Dempster, Nan M. Laird, e Donald B. Rubin. Maximum
likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical
Society. Series B (Methodological), 39(1):138. Citado na pg. 29
do Rgo et al.(2010) R. L. M. Ernesto do Rgo, A. F. R. Arajo, e F. B. de Lima Neto.
Growing self-reconstruction maps. IEEE Trans. Neural Networks, 21(2):211223. Citado
na pg. 2
Dorogovtsev e Mendes(2003) Sergey N. Dorogovtsev e Jos F. F. Mendes. Evolution of
Networks: From Biological Nets to the Internet and WWW (Physics). Oxford University
Press, USA. Citado na pg. 13
Duda et al.(2000) Richard O. Duda, Peter E. Hart, e David G. Stork. Pattern Classification.
Wiley-Interscience, segunda edio. Citado na pg. 1, 5, 35
Erds e Rnyi(1959) Paul Erds e Alfrd Rnyi. On random graphs I. Publicationes
Mathematicae (Debrecen), 6:290297. Citado na pg. 3, 12, 13
Evans e Lambiotte(2009) T. S. Evans e R. Lambiotte. Line graphs, link partitions, and
overlapping communities. Phys. Rev. E, 80(1):016105. Citado na pg. 20, 21

108

Referncias Bibliogrficas

Faloutsos et al.(1999) Michalis Faloutsos, Petros Faloutsos, e Christos Faloutsos. On


power-law relationships of the internet topology. Em SIGCOMM 99: Proceedings
of the conference on Applications, technologies, architectures, and protocols for computer
communication, volume 29, pginas 251262, New York, NY, USA. ACM. Citado na pg.
3, 13
Fortunato(2010) S. Fortunato. Community detection in graphs. Physics Reports, 486:
75174. Citado na pg. 6, 8, 20, 100
Fortunato et al.(2004) S. Fortunato, V. Latora, e M. Marchiori. Method to find community structures based on information centrality. Phys. Rev. E, 70(5):056104. Citado na pg.
20
Frank e Asuncion(2010) A. Frank e A. Asuncion. UCI machine learning repository.
Citado na pg. 6, 100
Grtner(2008) Thomas Grtner. Kernels for Structured Data, volume 72. World Scientific
Publishing Co., primeira edio. Citado na pg. 33
Girvan e Newman(2002) Michelle Girvan e Mark E. J. Newman. Community structure
in social and biological networks. Proceedings of the National Academy of Sciences of the
United States of America, 99(12):78217826. Citado na pg. xi, 4, 6, 18, 25, 101
Goldman e Zhou(2000) Sally Goldman e Yan Zhou. Enhancing supervised learning
with unlabeled data. Em Proc. 17th International Conf. on Machine Learning, pginas
327334. Morgan Kaufmann, San Francisco, CA. Citado na pg. 32
Gori et al.(2005) M. Gori, M. Maggini, e L. Sarti. Exact and approximate graph matching using random walks. IEEE Trans. Pattern Analysis and Machine Intelligence, 27
(7):167256. Citado na pg. 2
Grady(2006) L. Grady. Random walks for image segmentation. IEEE Trans. Pattern
Analysis and Machine Intelligence, 28(11):17681783. Citado na pg. 2
Grossberg(1987) S. Grossberg. Competitive learning: From interactive activation to
adaptive resonance. Cognitive Science, 11:2363. Citado na pg. 2
Jain et al.(1999) Anil K. Jain, M. Narasimha Murty, e Patrick J. Flynn. Data clustering:
A review. ACM Computing Survey, 31(3):264323. Citado na pg. 5
Jain et al.(2010) L. C. Jain, B. Lazzerini, e U. Halici. Innovations in ART Neural Networks
(Studies in Fuzziness and Soft Computing). Physica-Verlag, Heidelberg. Citado na pg. 2
Jeong et al.(2000) H. Jeong, B. Tombor, R. Albert, Z. N. Oltvai, e A. L. Barabsi. The
large-scale organization of metabolic networks. Nature, 407(6804):651654. Citado na
pg. 3, 13
Jiang e Wang(2000) D. Jiang e J. Wang. On-line learning of dynamical systems in the
presence of model mismatch and disturbances. IEEE Trans. Neural Networks, 11(6):
12721283. Citado na pg. 2
Karypis et al.(1999) G. Karypis, Eui-Hong Han, e V. Kumar. Chameleon: hierarchical
clustering using dynamic modeling. Computer, 32(8):6875. Citado na pg. 4, 25, 34

Referncias Bibliogrficas

109

Kaylani et al.(2010) A. Kaylani, M. Georgiopoulos, M. Mollaghasemi, G. C. Anagnostopoulos, C. Sentelle, e M. Zhong. An adaptive multiobjective approach to evolving
ART architectures. IEEE Trans. Neural Networks, 21(4):529550. Citado na pg. 2
Kiss et al.(1973) G. R. Kiss, C. Armstrong, R. Milroy, e J. Piper. An associative thesaurus
of English and its computer analysis. Em The computer and literary studies. University
Press. Citado na pg. 8, 20
Knuth(1993) Donald E. Knuth. The Stanford GraphBase: a platform for combinatorial computing. ACM, New York, NY, USA. Citado na pg. 6, 101
Kohonen(1990) T. Kohonen. The self-organizing map. Proceedings of the IEEE, 78(9):
14641480. Citado na pg. 2
Kosko(1991) B. Kosko. Stochastic competitive learning. IEEE Trans. Neural Networks, 2
(5):522529. Citado na pg. 2
Lancichinetti et al.(2009) Andrea Lancichinetti, Santo Fortunato, e Jnos Kertsz. Detecting the overlapping and hierarchical community structure in complex networks.
New Journal of Physics, 11(3):033015. Citado na pg. 20, 21
LeCun et al.(1998) Y. LeCun, L. Bottou, Y. Bengio, e P. Haffner. Gradient-based learning
applied to document recognition. Proceedings of the IEEE, 86(11):22782324. Citado na
pg. 6, 100
Liang et al.(2009) J. Liang, Z. Wang, e X. Liu. State estimation for coupled uncertain stochastic networks with missing measurements and time-varying delays: The discretetime case. IEEE Trans. Neural Networks, 20(5):781793. Citado na pg. 2
Lim e Park(2009) Gaksoo Lim e Cheong Hee Park. Semi-supervised dimension reduction using graph-based discriminant analysis. Em CIT 1, pginas 913. IEEE
Computer Society. Citado na pg. 25, 26
Liu et al.(2008) D. Liu, Z. Pang, e S. R. Lloyd. A neural network method for detection
of obstructive sleep apnea and narcolepsy based on pupil size and EEG. IEEE Trans.
Neural Networks, 19(2):308318. Citado na pg. 2
Liu et al.(2004) H. Liu, S. Shah, e W. Jiang. On-line outlier detection and data cleaning.
28th Computers and Chemical Engineering, pginas 16351647. Citado na pg. 25, 26
Lu et al.(2003) Chang-Tien Lu, Dechang Chen, e Yufeng Kou. Algorithms for spatial outlier detection. Em Proceedings of the 3rd IEEE International Conference on Data Mining
(ICDM 2003). IEEE Computer Society. Citado na pg. 25
Lu e Ip(2009) Z. Lu e H. H. S. Ip. Generalized competitive learning of gaussian mixture
models. IEEE Trans. Systems, Man and Cybernetics , Part B, 39(4):901909. Citado na pg. 2
Lusseau(2003) D. Lusseau. The emergent properties of a dolphin social network. Proc
Biol Sci, 270 Suppl 2:S186S188. Citado na pg. 6, 101
Lpez-Rubio et al.(2009) E. Lpez-Rubio, J. M. Ortiz de Lazcano-Lobato, e D. LpezRodrguez. Probabilistic PCA self-organizing maps. IEEE Trans. Neural Networks, 20
(9):14741489. Citado na pg. 2

110

Referncias Bibliogrficas

Macskassy e Provost(2005) Sofus A. Macskassy e Foster Provost. Netkit-srl: A toolkit


for network learning and inference and its use for classification of networked data.
Em Proc. Ann. Conf. North. American Assoc. Computational Social and Organizational
Science. Citado na pg. 45
Meyer-Bse e Thmmler(2008) A. Meyer-Bse e V. Thmmler. Local and global stability analysis of an unsupervised competitive neural network. IEEE Trans. Neural
Networks, 19(2):346351. Citado na pg. 2
Meyn e Tweedie(2009) S. Meyn e R. Tweedie. Markov Chains and Stochastic Stability.
Cambridge University Press, segunda edio. Citado na pg. 15, 43
Milgram(1967) Stanley Milgram. The small world problem. Psychology Today, 2:6067.
Citado na pg. 12
Mitchell(1997) Tom M. Mitchell.
Machine Learning.
ence/Engineering/Math, primeira edio. Citado na pg. 1, 25

McGraw-Hill Sci-

Mizruchi(1982) M.S. Mizruchi. The american corporate network. Sage, 2:19041974.


Citado na pg. 3, 13
Montoya e Sol(2002) J. M. Montoya e R. V. Sol. Small world patterns in food webs.
Journal of Theoretical Biololgy, 214:405412. Citado na pg. 3, 13
N. Allinson e Slack(2001) L. Allinson N. Allinson, H. Yin e J. Slack. Advances in Self
Organising Maps. Springer. Citado na pg. 2
Newman(2003) M. E. J. Newman. The Structure and Function of Complex Networks.
SIAM Review, 45(2):167256. Citado na pg. 3, 11, 13, 15
Newman(2006) M. E. J. Newman. Modularity and community structure in networks.
Proceedings of the National Academy of Sciences, 103(23):85778582. Citado na pg. 6, 20, 25,
40, 41, 101
Newman e Girvan(2004) M. E. J. Newman e M. Girvan. Finding and evaluating community structure in networks. Physical Review Letters, (69):026113. Citado na pg. 4, 7
Newman(2004a) M.E.J. Newman. Finding and evaluating community structure in
networks. Phys. Rev. E, 69(2):026113. Citado na pg. 20
Newman(2004b) M.E.J. Newman. Fast algorithm for detecting community structure
in networks. Phys. Rev. E, 69(6):066133. Citado na pg. 20
Nicosia et al.(2009) V. Nicosia, G. Mangioni, V. Carchiolo, e M. Malgeri. Extending the
definition of modularity to directed graphs with overlapping communities. Journal
of Statistical Mechanics: Theory and Experiment, 2009(03):03024. Citado na pg. 21
Nigam et al.(2000) Kamal Nigam, Andrew K. McCallum, Sebastian Thrun, e Tom Mitchell. Text classification from labeled and unlabeled documents using EM. Machine
Learning, 39(2-3):103134. Citado na pg. 31
Noh e Rieger(2004) J. D. Noh e H. Rieger. Random walks on complex networks. Phys.
Rev. Letts., 92:118701. Citado na pg. 2

Referncias Bibliogrficas

111

Palla et al.(2005) Gergely Palla, Imre Derenyi, Illes Farkas, e Tamas Vicsek. Uncovering
the overlapping community structure of complex networks in nature and society.
Nature, 435(7043):814818. Citado na pg. 8, 20, 21
Papadopoulos et al.(2009) Symeon Papadopoulos, Andre Skusa, Athena Vakali, Yiannis Kompatsiaris, e Nadine Wagner. Bridge bounding: A local approach for efficient
community discovery in complex networks. Relatrio tcnico. Citado na pg. xi, 19
Piatetsky-Shapiro(1991) G. Piatetsky-Shapiro. Discovery, Analysis, and Presentation of
Strong Rules. AAAI/MIT Press, Cambridge, MA. Citado na pg. 25, 26
Principe e Miikkulainen(2009) J. C. Principe e Risto Miikkulainen. Advances in SelfOrganizing Maps - 7th International Workshop, WSOM 2009, Lecture Notes in Computer
Science, Vol. 5629. Springer. Citado na pg. 2
Quiles et al.(2008) M. G. Quiles, L. Zhao, R. L. Alonso, e R. A. F. Romero. Particle
competition for complex network community detection. Chaos, 18(3):033107. Citado na
pg. 4, 7, 20, 21, 23, 98
Ratsaby e Venkatesht(1995) Joel Ratsaby e Santosh S. Venkatesht. Learning from a
mixture of labeled and unlabeled examples. Em Proc. 33rd Allerton Conference on
Communication Control and Computing, pginas 412417. ACM Press. Citado na pg. 32
Reichardt e Bornholdt(2004) Jrg Reichardt e Stefan Bornholdt. Detecting fuzzy community structures in complex networks with a potts model. Physical Review Letters,
93(21):218701(14). Citado na pg. 4, 7, 20
Schaeffer(2007) S. Schaeffer. Graph clustering. Computer Science Review, 1(1):2764.
Citado na pg. 4
Scott(2000) John P. Scott. Social Network Analysis: A Handbook. SAGE Publications. Citado
na pg. 3, 13
Shahshahani e Landgrebe(1994) B. Shahshahani e D. Landgrebe. The effect of unlabeled samples in reducing the small sample size problem and mitigating the hughes
phenomenon. IEEE Transactions on Geoscience and Remote Sensing, 32(5):10871095.
Citado na pg. 32
Shen et al.(2009) Huawei Shen, Xueqi Cheng, Kai Cai, e Mao-Bin Hu. Detect overlapping and hierarchical community structure in networks. Physica A: Statistical Mechanics and its Applications, 388(8):1706 1712. Citado na pg. 21
Silva e Zhao(2011) Thiago Christiano Silva e Liang Zhao. Semi-supervised learning
guided by the modularity measure in complex networks. Neurocomputing, aceito.
Citado na pg. 40, 42, 43
Singh et al.(2008) Aarti Singh, Robert D. Nowak, e Xiaojin Zhu. Unlabeled data: Now
it helps, now it doesnt. Em NIPS, pginas 15131520. Citado na pg. 29
Smola e Kondor(2003) Alexander J. Smola e Risi Kondor. Kernels and regularization
on graphs. Learning Theory and Kernel Machines. Citado na pg. 38, 39

112

Referncias Bibliogrficas

Sporns(2002) Olaf Sporns. Networks analysis, complexity, and brain function. Complexity, 8(1):5660. Citado na pg. 3, 13
Strogatz(2001) S. H. Strogatz. Exploring complex networks. Nature, 410(6825):268276.
Citado na pg. 3, 13
Sun et al.(2011) Peng Gang Sun, Lin Gao, e Shan Shan Han. Identification of overlapping and non-overlapping community structure by fuzzy clustering in complex
networks. Inf. Sci., 181:10601071. Citado na pg. 21
Szummer e Jaakkola(2001) Martin Szummer e Tommi Jaakkola. Partially labeled classification with markov random walks. Em Advances in Neural Information Processing
Systems, volume 14. Citado na pg. 43, 46, 47
Tan et al.(2008) A.-H. Tan, N. Lu, e D. Xiao. Integrating temporal difference methods
and self-organizing neural networks for reinforcement learning with delayed evaluative feedback. IEEE Trans. Neural Networks, 19(2):230244. Citado na pg. 2
Vapnik(1999) Vladimir Vapnik. The Nature of Statistical Learning Theory (Information
Science and Statistics). Springer-Verlag, segunda edio. Citado na pg. 31
Vapnik(1998) Vladimir N. Vapnik. Statistical Learning Theory. Wiley-Interscience. Citado
na pg. 28, 31, 33
Wagsta et al.(2001) Kiri Wagsta, Claire Cardie, Seth Rogers, e Stefan Schroedl. Constrained k-means clustering with background knowledge. Em Proceedings of 18th International Conference on Machine Learning (ICML-01), pginas 577584. Citado na pg. 31
Wang et al.(2009) C.-H. Wang, C.-N. Lee, e C.-H. Hsieh. Variants of Self-Organizing Maps:
Applications in Image Quantization and Compression. Lambert Academic Publishing.
Citado na pg. 2, 99
Watts(2003) Duncan J. Watts. Small Worlds: The Dynamics of Networks between Order and
Randomness (Princeton Studies in Complexity). Princeton University Press, primeira
edio. Citado na pg. 15, 16
Watts e Strogatz(1998) Duncan J. Watts e Steven H. Strogatz. Collective dynamics of
small-world networks. Nature, 393(6684):440442. Citado na pg. xi, 3, 12, 15, 16
Weinberger e Saul(2006) Kilian Q. Weinberger e Lawrence K. Saul. Unsupervised
learning of image manifolds by semidefinite programming. Int. J. Comput. Vision, 70:
7790. ISSN 0920-5691. Citado na pg. 39, 94
West et al.(1999) G. B. West, J. H. Brown, e B. J. Enquist. A general model for the
structure, and algometry of plant vascular systems. Nature, 400:122126. Citado na pg.
3, 13
Xu e II(2005) R. Xu e D. Wunsch II. Survey of clustering algorithms. IEEE Trans. Neural
Networks, 16(3):645678. Citado na pg. 2
Yarowsky(1995) David Yarowsky. Unsupervised word sense disambiguation rivaling
supervised methods. Em Meeting of the Association for Computational Linguistics, pginas 189196. Citado na pg. 28, 29

Referncias Bibliogrficas

113

Zachary(1977) W. W. Zachary. An information flow model for conflict and fission in


small groups. Journal of Anthropological Research, 33:452473. Citado na pg. 6, 101
Zeng et al.(2010) Y. Zeng, J. Cao, S. Zhang, S. Guo, e L. Xie. Random-walk based
approach to detect clone attacks in wireless sensor networks. IEEE Journal on Selected
Areas in Communications, 28(5):677691. Citado na pg. 3
Zhai(2006) Mingyue Zhai. On power lines communications channels characteristics of
markov. Parallel and Distributed Computing Applications and Technologies, International
Conference on, 0:3337. Citado na pg. 45
Zhang et al.(2007) S. Zhang, R. Wang, e X. Zhang. Identification of overlapping community structure in complex networks using fuzzy cc-means clustering. Physica A:
Statistical Mechanics and its Applications, 374(1):483490. Citado na pg. 21
Zhao et al.(2004) L. Zhao, K. Park, e Y.-C. Lai. Attack vulnerability of scale-free
networks due to cascading breakdown. Physical Review E, 70:035101(14). Citado na
pg. 3, 13
Zhao et al.(2005) L. Zhao, K. Park, e Y.-C. Lai. Tolerance of scale-free networks against
attack-induced cascades. Physical Review E (Rapid Communication), 72(2):025104(R)1
4. Citado na pg. 3, 13
Zhao et al.(2007) L. Zhao, T. H. Cupertino, K. Park, Y.-C. Lai, e X. Jin. Optimal structure of complex networks for minimizing traffic congestion. Chaos (Woodbury), 17(4):
043103(15). Citado na pg. 3, 13
Zhong et al.(2008) M. Zhong, K. Shen, e J. Seiferas. The convergence-guaranteed random walk and its applications in peer-to-peer networks. IEEE Trans. Computers, 57
(5):619633. Citado na pg. 3
Zhou e Schlkopf(2004) Dengyong Zhou e Bernhard Schlkopf. Learning from labeled
and unlabeled data using random walks. Em Pattern Recognition, Proceedings of the
26th DAGM Symposium, volume 3175, pginas 237244. Springer, Heidelberg. Citado na
pg. 35, 45
Zhou et al.(2003) Dengyong Zhou, Olivier Bousquet, Thomas N. Lal, Jason Weston,
Bernhard Schlkopf, e Bernhard S. Olkopf. Learning with local and global consistency. Em Advances in Neural Information Processing Systems 16, volume 16, pginas
321328. Citado na pg. xi, 8, 34, 37, 38, 39
Zhou(2003a) H. Zhou. Distance, dissimilarity index, and network community structure. Phys. Rev. E, 67(6):061901. Citado na pg. 2, 20
Zhou(2003b) Haijun Zhou. Network landscape from a brownian particles perspective.
Physical Review E, 67(4):041908. Citado na pg. 4, 7
Zhu(2005a) X. Zhu. Semi-supervised learning with graphs. Tese de Doutorado - Carnegie
Mellon University. CMU-LTI-05-192. Citado na pg. 31, 32, 36
Zhu e Goldberg(2009) X. Zhu e A. B. Goldberg. Introduction to Semi-Supervised Learning.
Morgan and Claypool Publishers, Synthesis Lectures on Artificial Intelligence and
Machine Learning. Citado na pg. 32, 33

114

Referncias Bibliogrficas

Zhu(2005b) Xiaojin Zhu. Semi-supervised learning literature survey. Relatrio Tcnico


1530, Computer Sciences, University of Wisconsin-Madison. Citado na pg. 31, 34
Zhu et al.(2003) Xiaojin Zhu, Zoubin Ghahramani, e John Lafferty. Semi-supervised
learning using gaussian fields and harmonic functions. Em In ICML, pginas 912
919. Citado na pg. 45

Você também pode gostar