Escolar Documentos
Profissional Documentos
Cultura Documentos
f(a, b) =
_
f(t)
a,b
(t)dt (3.1)
a,b
(t) =
1
_
t b
a
_
(3.2)
Dependendo da escolha de a funo transformada permite extrair as descontinui-
3.2 Transformada Wavelet 21
dades ou bordas de f, para a tarefa de classicao de padres. O parmetro b permite
deslocar a funo no eixo do tempo t. O parmetro de dilatao a determina o tamanho
da funo janela
_
b
a
_
: para valores pequenos de a a TW aumenta a resoluo de um
pequeno detalhe do sinal f. O tamanho do detalhe relacionado a uma faixa especca da
freqncia; por exemplo, variando a, a funo f examinada em diferentes freqncias.
Por esta razo, a tambm chamado de parmetro de freqncia ou parmetro de escala.
Com esta breve informao da transformada 1-d possvel reconhecer algumas das
mais importantes propriedades da transformada wavelet para aplicaes em processa-
mento de imagens. Em aplicaes de compresso de dados, a escolha da wavelets apropri-
ada permite a investigao localizada de f em tempo e freqncia, bem como a variao
do parmetro a, que permite a anlise do sinal em diferentes freqncias. Em aplica-
es de deteco de borda, atravs da derivada da TW em direes especcas permite
o reconhecimento de padres invariante rotao. No reconhecimento de padres, a
adaptao da funo como uma aproximao do padro permite o uso de wavelets em
problemas de classicao do tipo de melhor casamento ou correlao cruzada em anlises
simultneas em todas as freqncias de banda (CASTELLI; BERGMAN, 2001).
Porm, no so todas as funes que so usuais para a transformada 2-d. A con-
dio admissvel para uso que a funo tenha mdia zero, decaimento abrupto e esteja
localizada tanto no espao de tempo como no de freqncia.
3.2.1 Anlise em Multi-Resoluo
A Anlise em Multi-Resoluo (AMR) uma tcnica alternativa de extrao de caracters-
ticas, na qual wavelets uma alternativa (MALLAT, 1989), (CASTELLI; BERGMAN, 2001).
A anlise AMR decompe a imagem em nveis (n), dentro de conjuntos de coecientes:
cA
n
representa as baixas freqncias da imagem; cD
h
n
(coecientes horizontais), cD
v
n
(co-
ecientes verticais), cD
d
n
(coecientes diagonais), que representam as altas freqncias da
imagem. Para o prximo nvel, n+1, o cA
n
usado para a decomposio. A Figura 3.3
ilustra a anlise AMR.
3.2 Transformada Wavelet 22
Figura 3.3: Modelo esquemtico da AMR.
3.2 Transformada Wavelet 23
Na decomposio usada uma famlia de wavelets. Existe uma grande variedade
de wavelets-me, incluindo Daubechies, Haar, Mexican Hat e Morlet, como mostrado na
Figura 3.4.
Figura 3.4: Alguns exemplos de wavelets-me.
Para cada aplicao, uma determinada famlia de wavelets mais apropriada, como
j comentado. Neste trabalho investiga-se o uso da wavelet Haar, pela simplicidade de
implementao e por ela manter a morfologia da imagem original em escala reduzida. Um
exemplo da aplicao da anlise AMR usando wavelet Haar em uma imagem de resso-
nncia magntica apresentado na Figura 3.5. Nesta, a AMR aplicada na imagem de
ressonncia magntica de dimenso 256 256 (Figura 3.5a), em 3 nveis de decomposi-
o (n = 3) (veja Figura 3.5b) e, por m, so mostradas as imagens resultantes de cada
decomposio (Figura 3.5c).
Em aplicaes mdicas, comum as imagens terem problemas de contraste, rotao,
escala e translao. Antes de se aplicar a transformada wavelet, as imagens devem ser
normalizadas pela maior intensidade. A transformada wavelets, pelas suas propriedades
matemtica, garante invarincia escala e translao. Estudos iniciais sero apresenta-
dos para denir as propriedades do modelo da mquina classicadora quanto robustez
para estas invarincias.
No contexto de classicador automtico e CBIR, a extrao de caractersticas por
3.2 Transformada Wavelet 24
wavelets Haar pouco utilizada. Vrias outras tcnicas como transformada do cosseno,
textura e estrutura de forma tm sido investigadas e seus resultados esto resumidos no
trabalho de Lehmann e outros (LEHMANN et al., 2005). Neste mesmo trabalho, o melhor
resultado alcanado foi utilizando uma imagem redimensionada (Figura 3.2). A imagem
redimensionada e a imagem decomposta por Haar so semelhantes, exceto que neste l-
timo, a imagem sofre um processo de ltragem que permite realar a forma e a textura da
imagem original. Porm, neste estudo, o conjunto de coecientes que apresentar melhor
resultado de classicao ser o mais indicado para ser usado como vetor de caractersti-
cas, mas os outros conjuntos preservam outras informaes em outros nveis de detalhes.
Para no descart-los integralmente, pensou-se em combinar uma segunda tcnica que
resumisse esses conjuntos, mas sem aumentar demasiadamente a dimenso do vetor de
caractersticas, e que mantivesse a invarincia rotao. Nesta busca pela melhor tcnica,
estudou-se a anlise de momentos, discutida a seguir.
Figura 3.5: Exemplo de AMR usando funo Haar em imagem de ressonncia
magntica. A dimenso original da imagem 256 256. No exemplo, os coecientes cA
3
tm a dimenso de 32 32.
3.3 Anlise de Momentos 25
3.3 Anlise de Momentos
Anlise de Momentos uma tcnica alternativa para extrao de caractersticas que, como
wavelets, no necessita que a imagem seja previamente segmentada. As principais tcnicas
de extrao de momentos so Zernike (KHOTANZAD; HONG, 1999) e Hu (HU, 1961). Em
ambas as tcnicas, necessita-se do clculo dos momentos centrais, feito como mostrado na
Equao 3.3:
m
pq
=
_
+
_
+
x
p
y
q
f(x, y)dxdy (3.3)
onde p e q so ndices para designar o nmero do pixel da imagem.
Para garantir invarincia translao e escala, os momentos de Zernike devem
ser normalizados e o clculo de polinmios complexos feitos (para mais detalhes, veja
(KHOTANZAD; HONG, 1999)). Por outro lado, Hu (HU, 1961) baseado nos momentos
centrais, props outros momentos que garantem invarincia translao e escala.
pq
=
_
(x x)
p
(y y)
q
f(x, y)dxdy (3.4)
onde
x =
m
10
m
00
e
y =
m
01
m
00
Para uma imagem digital, a equao 3.4 torna-se:
pq
=
y
(x x)
p
(y y)
q
f(x, y) (3.5)
Os momentos centrais de ordem 3 permitem encontrar os eixos principais de inrcia,
3.3 Anlise de Momentos 26
os prolongamentos e as orientaes de forma. Esses momentos centrais so (GONZALEZ;
WOODS, 2007):
10
=
y
(x x)
1
(y y)
0
f(x, y)
= m
10
m
10
m
00
(m
00
)
= 0
11
=
y
(x x)
1
(y y)
1
f(x, y)
= m
11
m
10
m
01
m
00
20
=
y
(x x)
2
(y y)
0
f(x, y)
= m
20
2m
2
10
m
00
+
m
2
10
m
00
= m
20
m
2
10
m
00
02
=
y
(x x)
0
(y y)
2
f(x, y)
= m
02
m
2
01
m
00
30
=
y
(x x)
3
(y y)
0
f(x, y)
= m
30
3xm
20
+ 2x
2
m
10
12
=
y
(x x)
1
(y y)
2
f(x, y)
= m
12
2ym
11
xm
02
+ 2y
2
m
10
21
=
y
(x x)
2
(y y)
1
f(x, y)
= m
21
2xm
11
ym
20
+ 2x
2
m
01
03
=
y
(x x)
0
(y y)
3
f(x, y)
= m
03
3ym
02
+ 2y
2
m
01
Os momentos centrais normalizados, denotados
pq
, so denidos como (GONZALEZ;
WOODS, 2007):
3.3 Anlise de Momentos 27
pq
=
pq
00
(3.6)
onde
=
p +q
2
+ 1 (3.7)
para p +q = 2, 3, ...
Os sete momentos invariantes de Hu, denotados nesta tese por
1
at
7
, que podem
ser derivados dos segundos e terceiros momentos centrais normalizados so:
1
=
20
+
02
(3.8)
2
= (
20
02
)
2
+ (2
11
)
2
(3.9)
3
= (
30
3
12
)
2
+ (3
21
03
)
2
(3.10)
4
= (
30
+
12
)
2
+ (
21
+
03
)
2
(3.11)
5
= (
30
3
12
)(
30
+
12
)[(
30
+
12
)
2
3(
21
+
03
)
2
]+ (3.12)
(3
21
03
)(
21
+
03
)[3(
30
+
12
)
2
(
21
+
03
)
2
] (3.13)
6
= (
20
02
)[(
30
+
12
)
2
(
21
+
03
)
2
] + 4
11
(
30
+
12
)(
21
+
03
) (3.14)
7
= (3
21
03
)(
30
+
12
)[(
30
+
12
)
2
3(
21
+
03
)
2
] (3.15)
(
30
3
12
)(
21
+
03
)[3(
30
+
12
)
2
(
21
+
03
)
2
]. (3.16)
Os momentos de 1 a 6 caracterizam a forma geomtrica do objeto da imagem, man-
tendo robustez translao, escala e rotao. O stimo momento caracteriza a dis-
toro e o espelhamento da imagem.
Na Figura 3.6 uma imagem de ressonncia magntica do crnio processada para
ter rotao em diversos ngulos. Os 7 momentos de Hu so calculados como forma de
mostrar a invarincia e os resultados esto resumidos na Tabela 3.1. Com este exemplo,
pode-se ver a robustez dos momentos de Hu em relao rotao (GONZALEZ; WOODS,
3.3 Anlise de Momentos 28
2007).
a - Imagens de ressonncia magntica rotacionadas de 10
o
a 60
o
com passo de 10
o
.
b - Imagens de ressonncia magntica rotacionadas de 300
o
a 350
o
com passo de 10
o
.
Figura 3.6: Imagens de ressonncia magntica rotacionadas para experimentos de
momentos de Hu.
O uso de momentos de Hu est restrito classicao de problemas especcos como,
por exemplo, no reconhecimento de letras (CONSEIL; BOURENNANE; MARTIN, 2007). Nesta
tese, o seu uso ocorre na tentativa de sintetizar os conjuntos de coecientes wavelets. Como
discutido na seo anterior, haver uma escolha pelo conjunto de coecientes com melhor
resultado de classicao. Os conjuntos com desempenho de classicao inferior ao esco-
3.3 Anlise de Momentos 29
lhido deveriam ser descartados. Mas, estes conjuntos descartados carregam caractersticas
da imagem que talvez fossem importantes para a discriminao de classes. A combinao
de todos os conjuntos de coecientes em um nico vetor de caractersticas causaria um
grande aumento no vetor de caractersticas. Conseqentemente, a tarefa de treinamento e
classicao acaba sendo prejudicada com este aumento, pois ser necessrio mais tempo
computacional. Os momentos de Hu esto limitados a um vetor de caractersticas com
dimenso 7. A proposta sumarizar os conjuntos de coecientes descartados na forma
de momentos de Hu e, desta forma, a dimenso do vetor de caractersticas no sofre
um aumento grande e, ainda assim, possvel agregar caractersticas que poderiam ser
importantes na classicao.
Tabela 3.1: Apresentao dos 7 momentos de Hu calculados para cada imagem da
Figura 3.6.
No Captulo 6, ser mostrada a diferena nos resultados de classicao usando apenas
o conjunto de coecientes que melhor representa a imagem (avaliado segundo alguns
indicadores qualitativos) e usando este mesmo conjunto combinado com os coecientes
que seriam descartados na forma de momentos Hu. Uma explicao mais detalhada dessa
combinao ser feita a seguir, na Seo 3.5.
Na procura por tcnicas de extrao de caractersticas que garantam boas taxas de
classicao, Deselauers (DESELAERS et al., 2006) apresenta uma nova proposta para ex-
trao chamada de Histogramas Esparsos, baseados em Patches. De todas as tentativas
de extrao de caractersticas at sua proposta, os Histogramas Esparsos baseados em
3.4 Histogramas Esparsos baseados em Patches 30
Patches apresentam melhores resultados de classicao. Por essa razo, na Seo 3.4,
este mtodo de extrao de caractersticas ser brevemente explicado e sero feitas consi-
deraes de sua aplicabilidade.
3.4 Histogramas Esparsos baseados em Patches
Modelos baseados em patches vm se tornando de interesse em viso computacional pelas
vantagens como robustez ocluso e invarincia translao, pois as partes da imagem
podem ser modeladas de forma quase independente e, assim, um objeto que est par-
cialmente ocludo pode ser classicado corretamente enquanto a parte visvel puder ser
reconhecida.
Nem todas as propostas de extrao de caractersticas consideram apenas um sub-
conjunto da imagem, pois h perda de informao e, conseqentemente, as taxas de
reconhecimentos so reduzidas, principalmente em aplicaes de imagens mdicas. A pro-
posta apresentada por Deselaers et. al. (DESELAERS et al., 2006) considera a extrao de
caractersticas de todas as posies da imagem. Neste mtodo, os patches ou subimagens
so extrados da imagem. Os patches que compem o vetor de caractersticas so deriva-
dos da reduo de dimensionalidade por PCA. Estas caractersticas so armazenadas em
uma estrutura especial de histograma que permite armazenar vetores em alta-dimenso e
usadas por vrios mtodos de classicao.
Um patch uma parte da imagem extrada para cada pixel. O tamanho da janela do
patch (l,c) um parmetro denido experimentalmente. Nos experimentos com imagens
mdicas descritos em (DESELAERS et al., 2006), l,c foram denidos sendo 15, 15. Aps
a extrao dos patches de todas as imagens de treinamento calculada a transforma-
o por anlise de componentes principais (PCA). Usando esta transformao, todos os
patches tm sua dimenso reduzida. Ao patch reduzido para as 6 componentes princi-
pais, adicionou-se a informao da posio do pixel (l(i),c(j)). O esquema completo deste
modelo est ilustrado na Figura 3.7 para uma imagem de ressonncia magntica.
Este um mtodo que combina tcnicas estatsticas (PCA e histogramas) para carac-
3.5 Combinao de tcnicas para a extrao de caractersticas: Transformada Wavelet e Momentos de Hu31
Figura 3.7: Esquema de extrao dos Histogramas Esparsos baseados em Patches para
uma imagem de ressonncia magntica.
terizar imagens. O patch extrado de cada pixel aumenta a correlao de regies prximas
imagem, mas provoca um grande aumento de dimenso do vetor de caractersticas. Para
se ter idia da dimenso do vetor de caractersticas, em uma imagem de 256 256 pi-
xels so gerados 65536 patches de dimenso 1515. Para uma base de dados com 9.000
imagens de treino, o vetor resultar em uma dimenso da ordem de 65536 (1515)
9000 (DESELAERS et al., 2006). Essa nova matriz ser usada para o clculo da PCA. Aps
este clculo, cada vetor de caractersticas ter a dimenso de 4
8
8. Embora este mtodo
apresente boas taxas de acerto de classicao, suas desvantagens so o alto custo compu-
tacional para seu clculo e a necessidade de um vetor de caractersticas de alta dimenso.
A falta de referncia na literatura e a no existncia de tcnicas implementadas tambm
dicultam a reproduo do mtodo.
3.5 Combinao de tcnicas para a extrao de caracte-
rsticas: Transformada Wavelet e Momentos de Hu
Este trabalho explora o uso da transformada wavelet para a extrao de caractersticas. A
escolha da melhor famlia wavelet, nvel de decomposio e conjunto de coecientes um
assunto pouco discutido na literatura, no havendo uma metodologia consolidada para
estas escolhas. Aqui, ser proposta uma metodologia na qual se aplica a transformada
3.5 Combinao de tcnicas para a extrao de caractersticas: Transformada Wavelet e Momentos de Hu32
wavelet em vrios nveis e, com o uso de algumas medidas qualitativas, o melhor nvel
de decomposio ser denido. Aps esta denio, algumas famlias wavelets sero
escolhidas e, usando-se algumas medidas qualitativas (as mesmas usadas para a escolha
do nvel de decomposio), ser selecionada a famlia com melhores resultados. Por m,
com as denies do nvel de decomposio e da famlia wavelet, dene-se o conjunto de
coecientes, usando as medidas qualitativas das escolhas anteriores, que compor o vetor
de caractersticas. Detalhes desta metodologia sero mais bem discutidos no Captulo 5.
Para os experimentos iniciais, esta abordagem para a composio do vetor de ca-
ractersticas ser feita para efeito de comparao com o mtodo mais convencional da
literatura, Imagem Redimensionada, brevemente discutida anteriormente. Porm, ao se
escolher um conjunto de coecientes e descartar os demais conjuntos, alguns detalhes
da imagem podero ser desprezados e, conseqentemente, a taxa de classicao pode
ser reduzida. Contudo, ao se considerar todos os coecientes, a dimenso do vetor de
caractersticas ser aumentada, o que pode ser uma desvantagem para esta abordagem
de classicao. Para ns ilustrativos, pode-se tomar o exemplo anterior da Figura 3.5.
Considerando que, pelo mtodo experimental aqui adotado, conclui-se que o melhor nvel
de decomposio n = 3 e o melhor conjunto o cA
3
. A dimenso desse vetor de 1.024.
Caso sejam considerados os outros coecientes, cD
h
3
, cD
v
3
, cD
d
3
, a dimenso aumentada
em trs vezes, ou seja, para 4.096 (1.024+1.024+1.024+1.024).
Como proposta deste trabalho, os coecientes desprezados sero resumidos em mo-
mentos de Hu. Desta maneira, ao invs de consider-los totalmente, por exemplo cD
h
3
(di-
menso de 1.024), eles sero resumidos pelos momentos de Hu denominados por m(cD
h
3
)
(dimenso de 7). Com esta sintetizao, os coecientes podem ser considerados, mas de
forma resumida. Alm dos coecientes do mesmo nvel, os dos nveis anteriores tambm
podem ser considerados pois, mesmo assim, a dimenso no muito grande. Ainda com
base no exemplo anterior, considerando os coecientes dos nveis anteriores, a composio
do vetor de caractersticas v a seguinte:
v = [cA
3
, m(cD
h
3
), m(cD
v
3
), m(cD
d
3
), m(cD
h
2
), m(cD
v
2
), m(cD
d
2
), m(cD
h
1
), m(cD
v
1
), m(cD
d
1
)]
3.6 Consideraes Finais 33
resultando em uma dimenso de 1087.
Este mtodo uma proposta do trabalho e ser experimentalmente comparado com
os Histogramas Esparsos baseados em Patches no Captulo 6.
3.6 Consideraes Finais
Neste Captulo discutiu-se a extrao de caractersticas, desde o conceito do assunto at
as principais tcnicas estudadas na literatura. Discutiram-se aquelas que apresentam
melhores resultados na classicao de imagens, Imagem Redimensionada e Histogramas
Esparsos baseados em Patches, bem como uma introduo sobre a Transformada Wavelet.
Discutiu-se tambm sobre o uso de momentos na extrao de caractersticas, princi-
palmente os de Hu. As vantagens desse mtodo, como invarincia rotao e vetor de
caractersticas de baixa dimenso, foram experimentalmente mostradas.
Apresentou-se uma proposta de extrao de caractersticas globais da imagem, a qual
combina Transformada Wavelets e momentos de Hu. Esta combinao feita com o
clculo dos momentos de Hu sobre os coecientes de wavelets descartados, segundo a
metodologia que ser apresentada com mais detalhes no Captulos 5. Este mtodo
uma maneira de considerar os detalhes desprezados da imagem de forma resumida, sem
prejudicar a dimenso do vetor de caractersticas.
No captulo seguinte ser discutido o uso de Mapas Auto-Organizveis ou simples-
mente SOM como classicador (na categorizao de imagens). Esta uma arquitetura de
Redes Neurais Articiais amplamente utilizada em minerao de dados e CBIR (KOIKKA-
LAINEN; OJA, 1990), (ZHANG; ZHONG, 1995), (OH; KANEKO; MAKINOUCHI, 1999), (KOS-
KELA, 2003), (WU; RAHMAN; CHOW, 2005). Neste trabalho, o seu uso ocorre em catego-
rizao de imagens.
34
4 O Mapa Auto-Organizvel e suas
Potencialidades na Categorizao
de Imagens
Neste captulo apresenta-se o Mapa Auto-Organizvel SOM (KOHONEN, 2001), bem como
sua estrutura, algoritmo de aprendizado e mtricas para avaliao de desempenho. Estas
descries tericas so fundamentais para o entendimento da proposta de aplicao do
mapa SOM na categorizao de imagens mdicas.
4.1 Classicadores Automticos
Existe uma diversidade de classicadores automticos, sejam estatsticos, como o no-
paramtrico Knn (DUDA; HART; STORK, 2000) ou que envolvam algum tipo de aprendi-
zado (redes neurais articiais ou aprendizado de mquina) (HAYKIN, 1999). Em grande
parte dos trabalhos que focam a categorizao de imagens mdicas, o classicador usado
o Knn (PIETKA; HUANG, 1992),(BOONE; SESHAGIRI; STEINER, 1992), (PINHAS; GREENS-
PAN, 2003),(KEYSERS et al., 2003),(LEHMANN et al., 2005).
H trs razes para o freqente uso deste classicador em problemas de categorizao
de imagens: os trabalhos estarem focados em recuperao de imagens por contedo (CBIR
- Content-Based Image Retrieval ), a simplicidade de implementao e por ele no ser
paramtrico.
O uso do Knn possibilita classicar as imagens com base nas mais prximas. Em sua
aplicao como classicador, ao apresentar uma imagem de teste, a comparao com toda
a base de dados feita e a resposta dada por uma lista de imagens mais semelhantes
4.1 Classicadores Automticos 35
ordenada pelas imagens mais prximas. Assim, possvel se ter idia do desempenho deste
classicador em um sistema CBIR. Por conta disto, Lehmann (LEHMANN et al., 2005) e
outros avaliam o resultado de classicao no apenas com base no vizinho mais prximo,
mas tambm analisando os prximos vizinhos at o dcimo mais prximo, k=1 at k=10,
onde o desempenho medido com base nos acertos nesta faixa de k. Porm, este tipo
de classicador no envolve um aprendizado. Em outras palavras, a cada nova imagem
necessria a comparao desta com toda a base de dados, o que torna a tcnica difcil
de ser aplicada na prtica, mas permite a comparao por ser uma tcnica que apresenta
bons resultados (benchmark). Por outro lado, o trabalho de Rahmann e colaboradores
(RAHMAN; BHATTACHARYA; DESAI, 2007) usou classicador automtico com aprendizado
de mquina, fuzzy c-mean e Suport Vector Machine (SV M) (EAKINS, 2003). O uso de
redes neurais articiais (RNA) neste contexto de aplicao, classicao, ainda pouco
explorado.
Em aplicao CBIR, a rede neural SOM a arquitetura neural articial mais uti-
lizada (ZHANG; ZHONG, 1995), (EAKINS, 2003), (KOIKKALAINEN; OJA, 1990), (ZHANG;
ZHONG, 1995), (OH; KANEKO; MAKINOUCHI, 1999), (KOSKELA, 2003), (WU; RAHMAN;
CHOW, 2005). As principais vantagens no uso do SOM so a capacidade de aprendizado
no-supervisionado, agrupamento e busca por explorao browsing.
Oh e colaboradores (OH; KANEKO; MAKINOUCHI, 1999) propuseram um arcabouo
chamado de tabela de ndice por similaridade, que usado para indexar e recuperar
imagens a partir de caractersticas de cor e textura extradas com o uso da tcnica wavelets.
Diversas aplicaes usando SOM foram propostas, principalmente para reduzir o n-
mero de imagens candidatas antes de uma exaustiva medida de similaridade ser aplicada,
e para propsitos de visualizao de dados (KOSKELA, 2003).
Outras aplicaes usando SOM estendido foram propostas para acelerar o tempo de
processamento do mapa SOM tradicional e tambm para implementar a relevncia da
resposta, como TS-SOMs (Tree Structured Self-Organizing Map) (KOIKKALAINEN; OJA,
1990), PicSOM (Picture Self-Organizing Map) (KOIKKALAINEN et al., 2000) e GHSOQM
4.2 Mapa Auto-Organizvel 36
(Growing Hirerachical Self-Organizing Quadtree Map) (WU; RAHMAN; CHOW, 2005).
Contudo, o uso do SOM como classicador de imagens assunto pouco explorado na
literatura. Antes de continuar este assunto, a seguir ser brevemente exposto SOM em
termos de arquitetura, algoritmo, medidas de desempenho e aplicao.
4.2 Mapa Auto-Organizvel
O Mapa Auto-Organizvel (Self-Organizing Map), tambm conhecido como rede de Koho-
nen ou simplesmente SOM, uma arquitetura de rede neural articial com aprendizado do
tipo no-supervisionado (HAYKIN, 1999),(KOHONEN, 2001). As principais aplicaes de
SOM esto nas tarefas de agrupamento (BOSCARIOLI; SILVA; DEL-MORAL-HERNANDEZ,
2006b),(BOSCARIOLI; SILVA; DEL-MORAL-HERNANDEZ, 2006a), classicao (SILVA et al.,
2006),(SASSI; SILVA; DEL-MORAL-HERNANDEZ, 2006),(SILVA et al., 2007) e visualizao
de dados (VESANTO; ALHONIEMI, 2000),(BOSCARIOLI; SILVA; DEL-MORAL-HERNANDEZ,
2008). SOM faz uma projeo no-linear de dados de alta dimenso em um mapa dis-
creto usualmente de duas dimenses, preservando a topologia dos dados de entrada to
elmente quanto possvel. Assim, padres de entrada similares sero mapeados em regies
espacialmente prximas do mapa de sada. Como conseqncia, a relao entre dados de
entrada espelhada em termos de distncia das respectivas representaes no espao de
sada. Desta forma, SOM uma ferramenta adequada para visualizao e explorao de
dados em alta dimenso.
4.3 Arquitetura
SOM uma rede em duas camadas, entrada (vetores de caractersticas) e sada (mapa de
neurnios), como ilustrado na Figura 4.1.
Na gura, o vetor de entrada representado por vetores d-dimensionais x
i
d
, por
exemplo, x
i
= (x
i1
, x
i2
, . . . , x
id
) so descritos por d caractersticas no espao de entrada.
O conjunto de vetores de caractersticas x
i
para o SOM ser denotado como X. Ao
4.4 Algoritmo de Aprendizado 37
apresentar um padro na camada de entrada do SOM, este ser propagado em paralelo
para o mapa de neurnios (ou unidades) na camada de sada, a qual deve ser organizada
em uma malha retangular ou hexagonal, como ilustrado na Figura 4.2.
Uma unidade u associada a um vetor de pesos w
u
= (w
u1
, w
u2
, . . . , w
ud
), que
de dimensionalidade d, como o padro de entrada. Estes vetores de pesos devem ser
inicializados aleatoriamente, com escolhas randmicas no domnio dos padres de entrada
ou por outros mtodos mais sosticados como proposto em (KOHONEN, 2001).
x
i1
x
i2
x
i3
x
id
vetor de
pesos
w
u1
w
u2
w
u3
w
ud
u
1 2
3
16
.
. . . .
. .
. . . .
Camada de Sada
Mapa SOM - 2D
vetor de caractersticas
Camada de Entrada
Figura 4.1: Exemplo de arquitetura SOM com 16 neurnios na camada de sada (mapa
4 4).
4.4 Algoritmo de Aprendizado
Nas prximas equaes ser usada a notao de tempo discreto, com t denotando a ite-
rao de treinamento atual. O treinamento se inicia com a seleo aleatria de um vetor
de caractersticas do conjunto de treinamento, x
i
. Cada unidade u com a menor distn-
cia entre seu vetor de pesos w
u
e x
i
no espao euclidiano , ento, selecionada como a
unidade com melhor casamento (ou simplesmente BMU de best-matching unit), chamada
4.4 Algoritmo de Aprendizado 38
N
1
N
2
N
3
N
1
N
2
N
3
a) Hexagonal b) Retangular
Figura 4.2: Exemplos de vizinhanas no mapa SOM. A relao entre os neurnios
dene a vizinhana que pode ser retangular (4 neurnios) ou hexagonal (6 neurnios).
de neurnio vencedor e denotada como c, de acordo com a Equao 4.1. A distncia
euclidiana denotada como ..
c = argmin
u
(x
i
w
u
) (4.1)
Em outras palavras, a unidade c o melhor representante de x
i
. Para aumentar
a probabilidade de esta unidade ser escolhida como vencedora, caso o mesmo vetor de
caractersticas seja selecionado nas interaes subseqentes do treinamento, a diferena
entre o vetor de pesos da unidade vencedora w
c
e x
i
ser diminuda. Esta adaptao
gradual do vetor de pesos controlada pelo parmetro de taxa de aprendizado (t) [0, 1].
Usualmente, este parmetro diminui em funo do tempo com lim
t
(t) = 0. Assim,
o vetor de pesos ser adaptado mais fortemente no incio do treinamento. Valores baixos
de (t) no nal do processo de treinamento denem a fase de ajuste no.
Para garantir a preservao topolgica do mapeamento, ou seja, preservar as relaes
de similaridade entre os vetores de caractersticas e as unidades do mapa, no apenas
o vetor de pesos do neurnio vencedor c ser atualizado, mas tambm os vetores de
pesos das unidades vizinhas. Quando uma relao de vizinhana denida, as unidades
vizinhas so tambm denidas. Na Figura 4.2, as linhas tracejadas e os diferentes tons
de cinza indicam a relao entre o neurnio vencedor e seus vizinhos. Desta forma, os
4.4 Algoritmo de Aprendizado 39
neurnios que fazem vizinhana ao neurnio vencedor tambm so atualizados. Assim,
na prxima iterao (t+1), vetores de caractersticas semelhantes a x
i
sero mapeados
em regies vizinhas do mapa SOM. A fora da adaptao das unidades vizinhas, h
ci
(t)
determinada pela distncia de grade entre a unidade c e os neurnios do mapa. Esta uma
funo decrementada com o tempo, como mostra a Equao 4.2 (funo de vizinhana
gaussiana).
h
ci
(t) = exp
r
c
r
i
2
2
2
(t)
(4.2)
onde r
c
a coordenada do neurnio vencedor c, r
i
a coordenada de um neurnio vizinho
i no mapa de sada. O parmetro (t) dene o tamanho do raio da vizinhana e um
fator dependente do tempo. Pode-se perceber na Equao 4.2 que unidades prximas ao
vencedor so atualizadas mais fortemente que as unidades mais distantes do vencedor. Um
valor alto de h
ci
para um grande volume de vizinhos no incio do processo de treinamento
levar os vetores de pesos das unidades a uma organizao global. Assim, unidades
vizinhas tero vetores de pesos similares. Com o decremento da funo de vizinhana
sucessivamente em funo do tempo, as adaptaes se tornaro mais locais.
Uma funo de vizinhana mais simples pode ser implementada, denindo um con-
junto de unidades N
c
(t) (janela de vizinhana) ao redor do vencedor c no tempo t. Desta
maneira, apenas os vetores de pesos das unidades vizinhas, dentro da janela de vizinhana,
so adaptados. Com este mtodo, o tempo computacional reduzido, pois apenas um
subconjunto de unidades requer a adaptao do vetor de pesos, visto que, com a funo
gaussiana (Equao 4.2), todos os vetores de pesos das unidades so atualizados em cada
iterao.
Denida a taxa de aprendizado (t) e a funo de vizinhana h
ci
(t), o vetor de pesos
w
u
(t + 1) da unidade u adaptado pela adio de uma parcela (t).h
ci
(t) do vetor dife-
rena [x
i
(t) w
u
(t)] ao w
u
(t), de acordo com a Equao 4.3. O x
i
(t) denota o vetor de
caractersticas corrente no tempo t, pertencente ao conjunto de padres de treinamento,
x
i
X.
w
u
(t + 1) = w
u
(t) +(t)h
ci
(t) x
i
w
u
(4.3)
4.4 Algoritmo de Aprendizado 40
Como conseqncia da Equao 4.3, o vetor de pesos do neurnio vencedor e os pesos
das unidades vizinhas so movidos em direo ao vetor de caractersticas corrente, de
forma que, o vetor de caractersticas e os padres semelhantes tendem a ser mapeados
dentro de regies muito prximas do mapa nas prximas iteraes do aprendizado.
A Figura 4.3 ilustra um mapa SOM com uma representao grca da funo de
vizinhana gaussiana. esquerda, apresentado o espao de entrada
d
, o vetor de pesos
do neurnio vencedor w
c
(t) no tempo t e o atual vetor de caractersticas x
i
no espao
de entrada. Observa-se que o vetor de pesos do neurnio vencedor w
c
(t + 1), depois da
adaptao no tempo t + 1, se aproxima do vetor de caractersticas x
i
. O movimento
representado pela seta slida.
Figura 4.3: A intensidade de adaptao das unidades individuais indicada pelos
diferentes crculos em tons de cinza e pelas gaussianas na horizontal e na vertical.
Adaptado de (WU; RAHMAN; CHOW, 2005).
No lado direito da Figura 4.3, o SOM representado por uma seqncia de crculos
pontilhados. A seta pontilhada mostra a relao entre a unidade vencedora c e seu vetor de
pesos no espao de entrada. Os diferentes tamanhos de crculos representam as diferentes
adaptaes, de acordo com a distncia do neurnio vencedor. A unidade mais escura ter
a maior adaptao.
De forma resumida, uma iterao do algoritmo de aprendizado SOM pode ser descrita
4.4 Algoritmo de Aprendizado 41
como:
1. seleo aleatria de um vetor de caractersticas x
i
do conjunto de treinamento;
2. busca pela unidade vencedora (Equao 4.1);
3. adaptao do vetor de pesos do vencedor e de seus vizinhos (Equao 4.3);
4. modicao da taxa de aprendizado e da faixa de vizinhana.
Em seguida ao nal de cada iterao, o processo de treinamento continuado com a
seleo aleatria do prximo vetor de caractersticas, a ser considerado na nova iterao de
treinamento. O processo continua at um nmero pr-denido de iteraes ou at que um
critrio de parada adequadamente escolhido seja alcanado. Por exemplo, um treinamento
poderia ser interrompido se uma organizao estvel dos vetores de caractersticas do
conjunto de treinamento dentro da grade de duas dimenses fosse alcanada.
Na Figura 4.4, mostrada uma base de dados articialmente gerada, os vetores de
pesos depois do treinamento (Figura 4.4a) e o mapa SOM 2D aps o treinamento (Figura
4.4b). Neste exemplo, o que se pretende destacar a dimensionalidade dos vetores de
caractersticas e dos vetores de pesos (3D), e a representao destes no mapa SOM (2D).
Neste exemplo, possvel tambm vericar a manuteno topolgica de um mapa SOM,
ou seja, a relao da vizinhana no espao de caractersticas (Figura 4.4a) preservada
no espao do mapa (Figura 4.4b). As letras so as classes dos vetores de caractersticas
que tiveram um dado neurnio como melhor casamento (neurnio vencedor) e, o valor
em parnteses, o nmero de vetores de caractersticas que esto sendo representados pelo
neurnio (histograma).
Em aplicaes de data mining, o resultado nal a visualizao dos dados multidimen-
sionais (dimenso muito maior que 4). Neste exemplo, pode ser vericada a potencialidade
do uso do mapa SOM na visualizao de dados multidimensionais. Esta propriedade do
SOM considerada por alguns pesquisadores como uma generalizao do PCA (HAYKIN,
1999) e que pode ser melhorada com a construo 3D do mapa (COSTA; ANDRADE-NETTO,
4.5 Medidas de Desempenho do Mapa Auto-Organizvel 42
2007) ou explorao do mapa em volume (globo) (MATSUMOTO; UMANO; INUIGUCHI,
2008).
Na Seo seguinte, sero apresentadas as medidas de desempenho usualmente aplica-
das a um mapa SOM para averiguar a qualidade do mapeamento obtido.
4.5 Medidas de Desempenho do Mapa Auto-Organizvel
As medidas usadas para calcular o desempenho do SOM so: erro mdio de quantizao
(mqe), erro mdio nal de quantizao (MQE) e erro topogrco (TE) (KIVILUOTO, 1995).
O erro mdio de quantizao (mqe) mede a distncia mdia entre os vetores de ca-
ractersticas com seu respectivo vetor de pesos com melhor casamento w
c
. O clculo dessa
medida :
mqe
c
=
1
n
x
i
X
x
i
w
c
(4.4)
onde n o nmero de x
i
que teve o neurnio c como vencedor.
O erro mdio nal de quantizao (MQE) do mapa calculado a partir dos mqe de
cada neurnio vencedor (BMU):
MQE =
1
U
u
c=1
mqe
c
(4.5)
sendo U o nmero total de neurnios do mapa.
A segunda medida de qualidade o erro topogrco (TE) que quantica a capacidade
do mapa em representar a topologia dos vetores de caractersticas de entrada. Para cada
x
i
calcula-se o primeiro BMU, w
c
e o segundo BMU, w
d
, e ento calculado o TE,
Equao 4.6, denida por (KIVILUOTO, 1995):
TE =
1
U
X
i=1
u(x
i
) (4.6)
onde u(x
i
)=1, caso w
c
e w
d
no sejam adjacentes e u(x
i
)=0, caso w
c
e w
d
sejam adja-
centes.
4.5 Medidas de Desempenho do Mapa Auto-Organizvel 43
a - Base de dados com vetores de caractersticas gerados articialmente
com os vetores de pesos j treinados.
b - Mapa do SOM rotulado.
Figura 4.4: A partir da base de dados articial (a) treina-se o SOM, o qual organiza os
dados da base em um mapa rotulado (b).
4.6 Aplicao do Mapa SOM em Problemas de Categorizao 44
4.6 Aplicao do Mapa SOM em Problemas de Cate-
gorizao
Aps o treinamento do mapa SOM, todas as imagens envolvidas no treinamento e suas
respectivas categorias so associadas aos respectivos neurnios vencedores, como ilustra a
Figura 4.5, a partir do clculo da distncia Euclidiana entre os vetores de caractersticas
das imagens de treinamento da base de dados e os vetores de pesos do mapa. Isto denir
os melhores casamentos - neurnios vencedores, ou simplesmente BMU (de Best Match
Unit) para cada vetor de caractersticas - que podem ser ordenados crescentemente (1
o
(1BMU), 2
o
(2BMU) . . . ltimo (UBMU)).
e
x
t
r
a
t
o
r
...
...
...
.
...
m
n
A
B
C
Figura 4.5: As imagens de entrada de diferentes classes (A,B e C) passam pelo
extrator e os vetores de caractersticas assim produzidos so usados para gerar o mapa
(treinamento SOM).
Se os vetores de caractersticas, os x
i
de uma base de treinamento, esto organizados
em uma tabela, com as denies dos neurnios vencedores possvel acrescentar colunas
em tal base de treinamento, com os dados dos neurnios vencedores, como est represen-
tado na Figura 4.6. Caso o neurnio do mapa SOM esteja rotulado, como discutido acima
na Figura 4.4, tambm possvel acrescentar esta informao em colunas.
As estratgias para se fazer rotulao no mapa SOM tambm podem ser observadas
na Figura 4.4b, onde cada neurnio est rotulado com a classe e o nmero de vetores
4.6 Aplicao do Mapa SOM em Problemas de Categorizao 45
Figura 4.6: Ilustrao esquemtica de como caria a tabela com os vetores de
caractersticas da base de treinamento com os neurnios vencedores.
de caractersticas desta classe (histograma), mas poderia estar rotulado apenas com a
classe de maior freqncia (votao mxima). No Captulo 6, a discusso ser retomada,
apresentando estes conceitos em funo de resultados experimentais.
A classicao usando diferentes estratgias de SOM um assunto pouco discutido
na literatura. A seguir, sero apresentadas quatro diferentes estratgias para uso de SOM
na classicao.
O primeiro processo na tarefa de classicao que ao receber uma imagem de teste
o seu vetor de caractersticas extrado, como na Figura 4.7. A maneira mais simples
de usar o mapa SOM na classicao associar o vetor extrado da imagem ao neurnio
vencedor. O rtulo do neurnio, em termos de histograma ou de mxima votao, pode
ser usado para classicar uma imagem.
Uma outra abordagem, explorada nesta tese, usar o neurnio vencedor para se
denir a regio onde as imagens com caractersticas semelhantes esto concentradas e,
depois, procurar pelas imagens mais prximas para a classicao. Enquanto nas duas
abordagens de classicao, histograma ou mxima votao, no se podia ter a liberdade
de denir um nmero de imagens para comparao, agora, com tal abordagem, possvel
deixar para o mdico-usurio ou para o estudante-usurio a denio deste parmetro.
Com o parmetro para a escolha do nmero de imagens a serem comparadas, pode
acontecer de o neurnio vencedor no representar esta quantidade de imagens. Como dis-
cutido em pargrafos acima, o SOM tem como uma das suas caractersticas a manuteno
topolgica dos dados, ou seja, neurnios vizinhos tendem a representar padres semelhan-
4.6 Aplicao do Mapa SOM em Problemas de Categorizao 46
tes. Esta propriedade do SOM pode ser usada para compor a quantidade de imagens, caso
o nmero delas no seja garantido apenas pelo neurnio vencedor. Assim, no momento
da associao da imagem nova ao mapa, alm do neurnio vencedor importante saber
tambm quais so o 2
o
,3
o
e etc neurnios vencedores, como ilustrado na Figura 4.8.
1BMU
A A(2)
2BMU
A A(10)
3BMU B A(2), B(6)
Vencedor
Rtulo do neurnio
por mxima votao
Rtulo do neurnio
por histograma
Imagem
de teste
Vetor de
caractersticas
Mapa SOM
(4 x 4)
Figura 4.7: Esquema da metodologia de classicao considerando a mxima
freqncia de categorias em cada neurnio vencedor (BMU) ou o histograma de classes.
Alm de no permitir a liberdade no nmero de imagens a ser comparada, a proposta
de classicao usando o rtulo atribudo ao neurnio pode dar uma falsa classicao,
uma vez que ele representa uma coleo de imagens. Este problema ainda maior se o
vetor de pesos do neurnio estiver em uma regio de classes diferentes (regio de fronteira).
Por outro lado, se o vetor de pesos do neurnio vencedor considerado como um indicador
da regio onde h imagens semelhantes, a comparao permitir uma melhor classicao.
Outra abordagem que poderia ser interessante, quarta maneira considerada aqui de
usar o SOM na classicao, produzir uma resposta em termos de graus de pertinncia,
4.7 Consideraes Finais 47
como forma de entregar ao mdico-usurio ou estudante-usurio mais informaes para
a tomada de deciso. Para tanto, o FuzzyKNN, que um mtodo de calcular graus de
pertinncia com base em um repertrio dos k padres comparados, poderia ser empregado
(KELLER; GRAY; GIVENS, 1995).
2
o
BMU 1
o
BMU
3
o
BMU
...
...
?
extrator de
caractersticas
w
1,1
w
1,2
w
u,d
...
A A A A A A A C
Figura 4.8: Ao apresentar uma imagem para a classicao, o vetor de caractersticas
extrado e ento comparado com os vetores de pesos. De acordo com a similaridade, as
imagens do neurnio vencedor so recuperadas.
4.7 Consideraes Finais
Neste captulo foi feita uma reviso geral sobre os mtodos de classicao usados na
literatura e sobre as diferentes formas de utilizar SOM estruturado para aplicaes em
CBIR. O algoritmo de treinamento do mapa SOM foi apresentado de forma introdutria,
como tambm as suas caractersticas de quantizao vetorial e manuteno topolgica e
as principais medidas de desempenho.
Apresentaram-se, tambm, as quatro formas de uso do mapa SOM como classicador.
As duas primeiras tcnicas convencionais (votao mxima e histograma) foram usando o
rtulo do mapa para classicao e as outras, propostas no trabalho, atravs do vetor de
4.7 Consideraes Finais 48
pesos como ndice da regio com imagens semelhantes; cuja classicao se obteve pelo
rtulo do vetor de caractersticas com maior freqncia, ou ainda, usando o rtulo dos
vetores de caractersticas, mas com respostas em grau de pertinncia. As duas ltimas
formas de classicao, apesar de apresentarem resultados mais conveis porque evitam
problema de regio de fronteira, ainda carecem de algumas adaptaes para seu uso. No
Captulo seguinte, sero discutidos os problemas envolvidos nessa forma de classicao
e uma proposta de como resolv-los.
49
5 Proposta para uso do SOM na
categorizao de imagens
Neste captulo ser discutida a proposta do presente trabalho para classicao que usa os
vetores de pesos para indicar a regio do mapa SOM com imagens semelhantes quelas que
se deseja categorizar. Aps o treinamento do mapa SOM, os vetores de pesos dos neurnios
vencedores representaro os vetores de caractersticas da base de treinamento, conforme
discutido no captulo anterior. Porm, dois problemas podem ocorrer: o neurnio vencedor
pode representar padres de classes diferentes (fronteira) ou a posio nal do neurnio
vencedor pode no permitir a comparao com as imagens mais parecidas. Ser usada
uma base com dados articialmente gerados para auxiliar o entendimento e a explicao
da proposta de soluo.
Discute-se, tambm, sobre as duas bases de dados que sero usadas nos experimentos
de explorao e de validao e a metodologia experimental adotada.
5.1 Categorizando imagens com Mapa SOM
Para uma melhor discusso da metodologia proposta em problemas de categorizao
usando o mapa SOM, ser gerada articialmente uma base de dados com 90 padres,
distribudos em trs grupos de diferentes classes e com 30 padres para cada classe.
Um mapa SOM de tamanho 5 5 ser utilizado. A base de dados e os resultados em
diferentes pocas do treinamento do SOM esto ilustrados na Figura 5.1, na qual pode-se
perceber que inicialmente (em t=0) os vetores de pesos de cada neurnio esto todos
desorganizados, mas com o processo iterativo de atualizao (treinamento), eles vo se
5.1 Categorizando imagens com Mapa SOM 50
0 1 2 3 4
0
1
2
3
4
x
1
x
2
Padres de Treinamento
0 1 2 3 4
0
1
2
3
4
x
1
x
2
Pesos iniciais (t=0)
0 1 2 3 4
0
1
2
3
4
x
1
x
2
Fase de ordenao (t=50)
0 1 2 3 4
0
1
2
3
4
x
1
x
2
Fase de convergncia (t=80)
Figura 5.1: Resultados de treino em diferentes pocas (t = 0, t = 50 e t = 80) para
uma base de dados gerada articialmente.
organizando e ordenando-se (t=50) e, no nal do processo (t=80), os vetores de pesos que
foram vencedores (BMUs), aps o treinamento, se tornam representantes dos padres de
entrada, estimando a densidade de probabilidade dos grupos.
Abstraindo que os vetores de entrada sejam vetores de caractersticas em uma tarefa
de classicao usando o conhecido Knn, ao se apresentar um novo vetor de caracters-
ticas (uma imagem nova), a comparao deste novo vetor com todos os vetores de pesos
denir uma relao de similaridade, da menor maior distncia euclidiana, podendo
tal informao ser usada para a classicao, tanto considerando o valor de K igual a 1
como deixando esta escolha como um parmetro livre. No caso do classicador SOM, se a
relao entre a imagem original e o respectivo vetor de caractersticas mantida na base
5.1 Categorizando imagens com Mapa SOM 51
de dados de treinamento ou mesmo em uma tabela, como ilustrada na Figura 4.6, em
uma tarefa de classicao, feito o clculo para a denio dos neurnios vendedores
aps a extrao do vetor de caractersticas da imagem que est sendo classicada.
O nmero de comparaes feitas entre o vetor de caractersticas e os vetores de pe-
sos pelo SOM menor que o nmero de comparaes entre o vetor de caractersticas da
imagem a ser classicada e os vetores de caractersticas das imagens de treinamento pelo
Knn. No exemplo acima, o nmero de comparaes feito pelo Knn foi de 90 vezes, en-
quanto o nmero de comparaes feito pelo classicador SOM foi de 21 vezes (tamanho do
mapa SOM menos o nmero de neurnios que no representam vetores de caractersticas
da base de treinamento, 55 ou 25 - 4).
O pr-processamento se inicia com a associao dos vetores de caractersticas aos
neurnios do mapa. Cada neurnio do mapa pode ser identicado com um rtulo que,
nesta proposta, no , necessariamente, a classe da imagem de treinamento, mas outro
qualquer, o qual, neste caso, foi denido como sendo A, B, C, ..., Z. O rtulo gerado para
cada neurnio do mapa ser atribudo ao vetor de caractersticas. Na Figura 5.2 est
ilustrado o mapa SOM, onde cada cruzamento do reticulado um neurnio, identicado
com o rtulo gerado e com a freqncia com que ele foi vencedor.
O resultado da associao dos vetores de caractersticas com os rtulos do mapa est
ilustrado na Figura 5.3. Nela ca claro que, denindo a associao com os vetores de
pesos, o acesso aos vetores de caractersticas imediato, isto , dado um novo vetor
de caractersticas e estabelecendo qual seu neurnio vencedor, a busca pelos vetores de
caractersticas mais semelhantes seria feita procurando, na coluna de 1BMU, quais os
outros vetores de caractersticas que tambm tiveram o mesmo neurnio como vencedor,
como explicado na Figura 4.6 do captulo anterior.
Analisando este experimento, podem ser feitas as seguintes consideraes:
1. O nmero de vetores de caractersticas que cada neurnio representa no o mesmo,
5.1 Categorizando imagens com Mapa SOM 52
#1 #2 #3 #4 #5
#5
#4
#3
#2
#1
U
P
K
F
A
V
Q
L
G
B
X
R
M
H
C
W
S
N
I
D
Z
T
O
J
E
Figura 5.2: Mapa com histograma de vencimentos.
como visto no mapa de histograma (Figura 5.2). Isto afeta a classicao porque
considerar os rtulos individuais dos vetores de caractersticas no garantir, para
cada neurnio, a deciso por um nmero mnimo de padres, representados por
cada neurnio vencedor do mapa SOM, como um parmetro pr-estabelecido pelo
usurio. Concluso: desta maneira no se pode permitir que o nmero de padres
comparados para a deciso possa ser parametrizado pelo usurio.
2. Os vetores de pesos nem sempre so os centros dos vetores de entrada. Neste sentido,
caso o novo vetor de caractersticas esteja em uma regio de fronteira, no se pode
garantir que as imagens comparadas na classicao sejam as mais parecidas ou,
ainda, no se pode garantir que o resultado de classicao foi decidido pelos padres
de caractersticas mais prximos. Uma mostra deste problema contemplada no
exemplo da Figura 5.4, que uma ampliao localizada da Figura 5.3. Nele, o
novo padro de caractersticas no espao euclidiano est mais prximo do neurnio
C, que representa padres mais distantes do neurnio B ou mesmo do neurnio H.
Concluso: a deciso de classicao baseada nos vetores de caractersticas mais
prximos acaba sendo feita em funo da posio dos neurnios de seus vetores de
5.2 Resolvendo os problemas de fronteira para a classicao 53
pesos e no dos padres de caractersticas mais prximos.
0 0.5 1 1.5 2 2.5 3 3.5
0.5
1
1.5
2
2.5
3
3.5
4
V
U
P
U
K
X
Q
P
K
U
U
K
P
U
P
U
V
U
U
P
K
X
Q
V
K
V
U
U
P
P
O
O
Z
S
T
Z
Z
W
T
T
T
O
W
Z
N
T
Z
N
W
T
Z
O
Z
W S
T
W
O
T
N
H
D
E
B
E
B
G
I
H
C
C
G
A
C
G
C
C
B
D
B
M
D
B
D
C
A
D
E
E
G
x
1
x
2
U
P
K
A
V
Q
G
B
X
M
H
C
W
S
N
I
D
Z
T
O
E
Figura 5.3: Padres de entrada e neurnios vencedores com rtulos atribudos a cada
unidade do mapa e a cada padro de entrada.
Ser discutida a seguir, a proposta de soluo para garantir que a classicao seja
feita considerando os vetores de caractersticas ser discutida a seguir.
5.2 Resolvendo os problemas de fronteira para a clas-
sicao
Considerando o exemplo da Seo 5.1, os neurnios B, C, H so vizinhos no mapa (veja a
Figura 5.2) e tambm so vizinhos no espao de caractersticas, veja Figura 5.3 ou Figura
5.4, o que indica a manuteno topolgica do mapa SOM, onde neurnios vizinhos tendem
a representar padres semelhantes, assunto discutido no Captulo 4.
5.2 Resolvendo os problemas de fronteira para a classicao 54
Isto signica que a ordem de similaridade entre o novo vetor de caractersticas e os
vetores de pesos (Figura 5.4) traz como mais prximo C, B e H, respectivamente. Esta
a ordem dos melhores casamentos, ou a ordem dos neurnios vencedores (1BMU, 2BMU
e 3BMU). Desta maneira, caso o usurio pea que a deciso seja tomada com um nmero
de imagens maior que aquelas que o neurnio vencedor representa, os prximos neur-
nios vencedores podem ser consultados para garantir o nmero escolhido pelo usurio.
Entretanto, isso ainda no resolve completamente o problema dos padres novos na re-
gio de fronteira. Ainda com uso o auxlio do exemplo anterior, Figura 5.4, caso o usurio
requeresse a deciso com base em trs padres semelhantes, o neurnio C representa seis
padres, ou seja, os outros vetores de caractersticas que so mais similares a este novo
vetor de caractersticas no seriam comparados.
Figura 5.4: Ampliao de uma parte da Figura 5.3, considerando a apresentao de
um novo padro de entrada para ser classicado.
Para resolver o problema de parametrizao do nmero de imagens escolhido pelo
usurio e tambm o de padres na regio de fronteira ser feita uma investigao para sa-
ber o maior nmero de padres que um nico neurnio representa e, assim, ser denido,
experimentalmente, o nmero de padres a serem comparados de forma que a consulta aos
neurnios vizinhos sempre seja necessria, independente da escolha do usurio. Assim, a
parametrizao feita de forma que, para qualquer classicao, pelo menos os neurnios
5.2 Resolvendo os problemas de fronteira para a classicao 55
vizinhos sejam consultados, independentemente de o primeiro neurnio vencedor repre-
sentar um nmero de padres previamente denido pelo usurio. O algoritmo para a
seleo das imagens que o neurnio vencedor representa e das imagens que os neurnios
vizinhos representam o seguinte:
Algoritmo 1: Seleo das imagens representadas pelo neurnio vencedor e pelo
seus vizinhos.
Entrada:
D
treino
sendo as imagens do conjunto de treinamento.
L
treino
sendo as classes das D
treino
.
BMUs
treino
sendo os BMUs das D
treino
BMUs
teste
sendo os BMUs da imagem de teste
NminImagens nmero mnimo de imagens que force a visita aos vizinhos do
neurnio vencedor
Resultado:
Img
comparacao
Cla
comparacao
incio
para u 1 at U faa
bmu BMUs
teste
(u)
posicoes procura(bmu == BMUs
treino
)
Qdade
imagens
= tamanho(D
treino
(posicoes))
se Qdade
imagens
>= NminImagens ento
Img
comparacao
D
treino
(posicoes)
Cla
comparacao
L
treino
(posicoes)
m
Para validar a proposta do uso do mapa SOM na categorizao de imagens sero uti-
lizadas duas bases de imagens mdicas, uma para conrmao de viabilidade do mtodo,
em que sero discutidas todas as denies do modelo proposto e apresentados os resul-
tados de classicao. Ainda com a utilizao desta base de dados, sero apresentados
experimentos para investigar a propriedade do modelo em funo da sensibilidade de ro-
tao, translao ou rotao e translao. A segunda base de dados pblica e disponvel
para teste de modelos de classicao e de recuperao de imagens mdicas, a qual j
foi usada com outros modelos de classicao e recuperao de imagens (LEHMANN et al.,
2005), (DESELAERS et al., 2006). Nesta base, o modelo ser validado e comparado com
o melhor resultado j conseguido com seu uso. Sero discutidos, nas sees seguintes, as
informaes como modalidade de imagens mdicas, quantidade de imagens, nmero de
5.3 Bases de dados para os experimentos de categorizao 56
classes e mtodo de avaliar a classicao.
5.3 Bases de dados para os experimentos de categori-
zao
Para anlise experimental da metodologia proposta e conrmao de viabilidade na cate-
gorizao de imagens, utilizaram-se as duas bases de dados reais, brevemente introduzidas
na seo anterior. As bases sero separadas de acordo com seus detalhes e diculdade
de classicao. A primeira base, que ser chamada de explorao, tem imagens em for-
mato DICOM e foi retirada da rotina do Instituto do Corao (InCor), hospital-escola
da Faculdade de Medicina da Universidade de So Paulo. Os experimentos com a base
de explorao sero chamados de exploratrios, pois tratam de casos reais, porm, com
nmero de imagens e de categorias reduzido. As imagens so de ressonncia magntica
(RM) categorizadas pela vista da aquisio e todas em formato DICOM. Um total de 397
imagens foi selecionado conforme a vista de aquisio e esto distribudas em 125 imagens
de vista transversal (MR1), 120 imagens de vista sagital (MR2), 121 imagens de vista
coronal (MR3) e 31 imagens de vista coronal com profundidade diferente (MR4). Uma
amostra de cada conjunto de imagens pode ser vista na Figura 5.5. As categorias (MR1 -
MR4) no seguem uma padronizao por vocabulrio mdico, apenas foram assim deni-
das para ns de conrmao de viabilidade do modelo. Esta base tem algumas qualidades
importantes para avaliao do mapa SOM como classicador. Uma delas que como a
caracterstica principal das classes a forma, o mapa SOM indicar a proximidade topo-
lgica desta caracterstica, alocando em regies vizinhas do mapa as imagens com forma
similar. Outra caracterstica interessante a similaridade entre MR3 e MR4. Elas tm
forma parecida, mas se diferenciam na textura. Esta diferena permitir a vericao
da sensibilidade do extrator de caractersticas usando o mapa SOM para visualizar se as
classes esto sendo separadas.
No segundo experimento, chamado validatrio, sero testadas imagens disponveis
para ns acadmicos (CLOUGH; MLLER; SANDERSON, 2004), tambm usadas por outro
5.3 Bases de dados para os experimentos de categorizao 57
MR1 MR2
MR3 MR4
Figura 5.5: Amostra de cada categoria da base de imagens.
grupo de pesquisa (LEHMANN et al., 2005), (DESELAERS et al., 2006). Esta base, que ser
chamada de validao, permite a comparao dos resultados alcanados neste trabalho aos
melhores resultados apresentados na literatura. Nesta base de dados, o nmero de imagens
e o nmero de categorias so maiores em relao base de explorao e a categoria de cada
imagem segue a codicao IRMA (Image Retrieval in Medical Applications) (LEHMANN
et al., 2005).
Os quatro eixos que compem o cdigo IRMA so: a tcnica de imagem e modalidade
(T-eixo, quatro nveis de detalhes), a posio relativa entre o equipamento de imagem e o
paciente (D-eixo, trs nveis de detalhes) e o sistema biolgico que est sendo investigado
(B-eixo, trs nveis de detalhes). Assim, cada imagem codicada tem a forma TTTT-
5.3 Bases de dados para os experimentos de categorizao 58
DDD-AAA-BBB, com 797 categorias nicas disponveis nos quatro eixos.
Atualmente, 10000 imagens so selecionadas da rotina clnica da Universidade de Me-
dicina de Aachen, Aachen, Alemanha e manualmente codicadas com o IRMA, resultando
em mais de 400 cdigos utilizados.
A categorizao das imagens foi feita por radiologistas experientes. Pela diculdade
de se reunir radiologistas para categorizar um nmero extenso de imagens, as catego-
rias foram organizadas em 2,1,2 e 1 nvel de detalhes em T-,D-,A- e B-eixos respecti-
vamente, ao invs de TTTT-DDD-AAA-BBB. Isto possvel porque o cdigo IRMA
mono-hierrquico, ou seja, sem ciclos, o que permite formar subgrupos nicos. Assim, o
nmero de cdigos IRMA nicos utilizados de 135 dentro do esquema TT**-D*-AA*-B*.
Adicionalmente, um limiar pode ser aplicado para nmeros mnimos de imagens em cada
categoria e todas as imagens de categoria abaixo do limiar so descartadas. Isto resulta
em 10000 imagens de 116 categorias usando um mnimo de cinco imagens por categoria.
Um exemplo do cdigo IRMA est ilustrado na Tabela 5.1.
As imagens esto separadas em 2 conjuntos, 9.000 para treinamento e 1.000 para teste.
Os histogramas de imagens por classe para o conjunto de treinamento e para o conjunto
de teste esto ilustrados na Figura 5.6. Por estes histogramas, percebe-se que no h uma
uniformidade no nmero de imagens por classe, o que diculta o processo de classicao,
principalmente quando se utilizam classicadores com aprendizado.
ndice da Categoria Cdigo IRMA
1 11**-1**-50*-0**
2 11**-2**-50*-0**
3 11**-1**-41*-7**
... ****-***-***-***
116 11**-2**-45*-7**
Tabela 5.1: Exemplos de categoria das imagens usadas nos experimentos. O cdigo
IRMA est explicado na Tabela 5.2
Alm da distribuio de imagens por classe no ser uniforme, outra diculdade do uso
desta base de dados est na variabilidade intra-classe e inter-classe. A aparncia visual de
imagens em algumas categorias varia signicantemente. Isto ocorre tambm para imagens
5.3 Bases de dados para os experimentos de categorizao 59
Tcnica
11** Radiograa plana
12** Fluoroscopia
13** Angiograa
14** Tomograa Computadorizada
31** Ressonncia Magntica
Direo
1** Coronal
2** Sagita l
3** Axial
4** Outra
Anatomia
20* Crnio, no especicado
21* Crnio facial
22* Crnio base
23* Crnio neural
30* Espinha, no especicada
31* Espinha cervical
32* Espinha torcica
33* Espinha lombar
41* Mo
42* Juno radiocarpal
43* Antebrao
44* Cotovelo
45* Brao
46* Ombro
50* Peito, no especicado
51* Peito, osso
52* Pulmo
53* Hilo
61* Mama direita
62* Mama esquerda
70* Abdome, no especicado
71* Abdome superior,
72* Abdome meio
73* Abdome inferior
80* Plvis, no especicado
91* P
92* Articulao do tornozelo
93* Perna
94* Joelho
95* Coxa
96* Anca
Biosistema
0** No especicado
1** Sistema crebro-espinhal
2** Sistema cardiovascular
3** Sistema respiratrio
4** Sistema gastrointestinal
5** Sistema uropoietic
6** Sistema reprodutivo
7** Sistema muscular
Tabela 5.2: Detalhamento dos cdigos IRMA.
5.3 Bases de dados para os experimentos de categorizao 60
0 20 40 60 80 100 120
0
200
400
600
800
1000
1200
1400
1600
1800
Classe (entre 1 e 116)
N
m
e
r
o
d
e
i
m
a
g
e
n
s
imagens de treinamento
0 20 40 60 80 100 120
0
20
40
60
80
100
120
140
160
180
200
Classe (entre 1 e 116)
N
m
e
r
o
d
e
i
m
a
g
e
n
s
imagens de teste
Figura 5.6: Histograma da base de validao.
5.3 Bases de dados para os experimentos de categorizao 61
com o mesmo cdigo. Por exemplo, a Figura 5.7. Todas as radiograas so identicamente
codicadas (IRMA 1121-120-800-700). As categorias com agrupamentos esparsos dentro
de um mesmo grupo comprometem a tarefa de classicao. Outra situao que diculta
a extrao de caractersticas e, conseqentemente, a classicao quando as imagens
tm cdigos IRMA diferentes, mas com similar aparncia visual. A Figura 5.8 ilustra este
problema para imagens de mamograa que foram adquiridas em orientao craniocaudal
e oblqua.
Figura 5.7: Variabilidade Intra-classe. Todas as radiograas tm a mesma codicao
(IRMA 1121-120-800-700). Adaptado de (LEHMANN et al., 2005).
Figura 5.8: Similaridade Inter-Classe. Todas as mamograas em vista
axial/craniocaudal so codicadas como 11**-3**-61*-6** (linha superior), enquanto em
outras orientaes tm codicaes 11**-4**-61*-6** (linha inferior). Adaptado de
(LEHMANN et al., 2005).
A seguir, um maior detalhamento sobre os experimentos realizados ser conduzido.
5.4 Mtodos Experimentais para validao da proposta de categorizao 62
5.4 Mtodos Experimentais para validao da proposta
de categorizao
Abaixo, ser discutida, em detalhes, a metodologia envolvida nos experimentos do tra-
balho. A discusso ser feita tanto para a fase de extrao de coecientes quanto para
a fase de classicao. Ressaltando que no existe uma metodologia consolidada para
denio da melhor famlia wavelet, nvel de decomposio e conjunto de coecientes a
ser utilizada. Apresenta-se aqui uma metodologia para tais denies que pode no ser
necessariamente a melhor, mas permite justicar as escolhas.
5.4.1 Metodologia para Extrao dos Coecientes Wavelets mais
Representativos
Como j destacado desde o Captulo 1, a proposta do trabalho uma mquina classi-
cadora para categorizar imagens mdicas, a qual envolve um extrator de caractersticas
e um classicador, sendo estes transformada wavelet e mapas auto-organizveis, respecti-
vamente.
Para a extrao de caractersticas, discutiu-se no Captulo 3 que no uso da AMR
(Anlise em Multi-Resoluo), da qual wavelets um tipo, uma imagem decomposta
para cada nvel de decomposio, em quatro diferentes conjuntos de coecientes como
est representado na Figura 5.9.
Primeiramente, preciso denir o nvel de decomposio; em seguida, necessrio
denir o tipo de wavelet me e, por m, qual conjunto de coecientes utilizar.
Para todas as denies, a avaliao ser feita usando as medidas MQE, TE, IDB
e Taxa de Acerto com base no resultado de classicao por SOM de tamanho 10 10.
Para as caracterizaes do extrator de caractersticas, o tamanho do mapa foi xo, mas
para os experimentos de classicao sero feitas investigaes com outros tamanhos do
mapa. As medidas MQE (Equao 4.5) e TE (Equao 4.6) so usuais na avaliao do
SOM e foram denidas no Captulo 4. A medida IDB (ndice de Davies-Bouldin)
bem conhecida na avaliao de tcnicas de agrupamento de dados, pois mede a relao
5.4 Mtodos Experimentais para validao da proposta de categorizao 63
cA
n
cA
h
n
cA
v
n
cA
h
1
cA
v
1
cA
d
n
cA
d
1
Figura 5.9: Esquema de decomposio por AMR (Anlise em Multi-Resoluo).
inter-grupo e intra-grupo. Mais detalhes sobre esta mtrica podem ser encontrados no
Apndice A. Contudo, ela explorada aqui com uma medida alternativa s usualmente
utilizadas.
Para a denio do nmero de decomposies, utilizou-se a metodologia ilustrada no
esquema da Figura 5.10, na qual para cada nvel de decomposio, com incio em n=2,
o conjunto de coecientes de aproximao, cA
n
, das imagens para treinamento do mapa
SOM e das imagens para testes do mapa SOM extrado e so calculadas as medidas
MQE, TE, IDB e Taxa de Acerto.
Como o experimento para denio da decomposio, usou-se apenas a wavelet
Haar. Ao denir o nvel de decomposio, so conduzidos experimentos usando outras
duas wavelets me, que satisfaam as condies admissveis - a funo ter mdia zero,
decaimento abrupto e estar localizada tanto no espao de tempo como no de freqncia -
denidas no Captulo 3, como Daubechies (DB) e Reverse biorthogonal wavelets (RBIO).
Aps a denio do nmero de coecientes e do tipo de wavelet me, as caractersticas
das imagens de treinamento so extradas para o treinamento do classicador.
5.4 Mtodos Experimentais para validao da proposta de categorizao 64
n<=5 Imagem n=2 FIM
AMR
n=n+1
SIM
NO
Calcula-se
- MQE
- TE
- IDB
- TaxadeAcerto
Figura 5.10: Esquema de avaliao do conjunto de coecientes cA
n
, onde n o nvel
de decomposio.
5.4.2 Metodologia para Categorizao
Antes dos experimentos de classicao preciso denir o tamanho do mapa do SOM.
Para tanto, usam-se as mesmas medidas utilizadas na denio de caractersticas MQE,
TE, IDB e Taxa de Acerto para diferentes tamanhos de mapa (44, 66, 88, 1010,
12 12).
As medidas MQE e TE so bastante usuais para medida de qualidade do mapa SOM.
No entanto, neste trabalho proposto o uso de outra medida, empregada para qualidade
de agrupamento e apresentada anteriormente: o ndice de Davies-Bouldin (IDB) (DA-
VIES; BOULDIN, 1979). Para tanto, o mapa SOM deve estar segmentado em grupos. Para
a segmentao, ser adaptada a metodologia de Vesanto e Alhoniemi (VESANTO; ALHO-
NIEMI, 2000) para descobrir o nmero de grupos em uma base de dados, a qual utiliza
o classicador K-mdias para agrupar os vetores de pesos do mapa e o IDB para medir
a qualidade do agrupamento. Em (VESANTO; ALHONIEMI, 2000), o valor de K inicial
2 (k = 2) e o menor valor de IDB para os diferentes valores deste parmetro indicar
o nmero de grupos existentes em uma base de dados. Como nesta tese o nmero de
classes sempre conhecido, no necessrio variar o valor de K. Logo, o IDB apenas
calculado para um nico valor de K. No Anexo B, a metodologia de Vesanto e Alhoni-
emi (VESANTO; ALHONIEMI, 2000) discutida em detalhes. Com esta maneira de medir o
IDB, consegue-se vericar a formao de bordas do mapa sobre as classes. Entretanto, as
medidas MQE, TE, IDB so bem empregadas para medir a qualidade do mapa. Como
5.4 Mtodos Experimentais para validao da proposta de categorizao 65
o foco do trabalho a classicao, a taxa de acerto ter uma importncia maior por
quanticar o uso do mapa.
Para os experimentos exploratrios, o mtodo de classicao empregado o leave-
one-out (DUDA; HART; STORK, 2000). Como a prpria traduo do nome do mtodo
sugere, deixe um de fora, este mtodo usado para separar o conjunto de treinamento e
o conjunto de teste em diversas combinaes, das quais, a cada passo, tira-se um padro
para us-lo como teste e o restante dos padres usado para o treinamento. Um exemplo
esquemtico deste mtodo est ilustrado na Figura 5.11.
Conjunto Treinamento:
99 imagens
Conjunto Teste:
imagem #1
Conjunto Treinamento:
99 imagens
Conjunto Teste:
imagem #2
Conjunto Treinamento:
99 imagens
Conjunto Teste:
imagem #100
...
.
.
.
Figura 5.11: Esquema de uso do mtodo leave-one-out para uma base de dados com
100 imagens.
A cada passo do processo, contabiliza-se o acerto ou o erro do classicador e, ao nal,
computada a porcentagem de acertos que o classicador atingiu.
A segunda base de dados tem seu prprio conjunto de teste. Para ns de comparao,
o teste do classicador ser feito com o uso do conjunto de teste.
Por m, as caractersticas das imagens sero representadas pelos coecientes que
resultaram nas melhores medidas (MQE, TE, IDB e Taxa de Acerto) e com a melhor
famlia wavelet. O mapa SOM que apresenta melhores medidas qualitativas ser treinado
com as caractersticas das imagens.
Para avaliar a sensibilidade do modelo, extrator de caractersticas e classicador,
quanto rotao e translao, sero geradas 200 novas imagens, 50 de cada classe. A
gerao proceder da seguinte forma:
5.5 Consideraes Finais 66
escolhem-se 5 imagens aleatoriamente para cada classe das imagens de treinamento.
a cada imagem aplicam-se diferentes escalas de rotao, translao, e rotao e
translao.
a escala varia de 10 a 35. No caso de translao, a unidade da escala pixel, deslo-
cado para cima, direita, baixo e esquerda. Na rotao, a escala graus: positivo.
5.5 Consideraes Finais
A classicao em SOM pode ser feita a partir dos rtulos dos neurnios, denidos por
votao ou frequncia. Uma maneira alternativa de se fazer a classicao, proposta neste
trabalho, usar o neurnio como uma referncia para a regio do espao de caractersticas
com padres mais semelhantes.
Discutiram-se os problemas com este mtodo para classicao e, conseqentemente,
para a recuperao de imagens para o caso em que o usurio dena livremente o parmetro
nmero de padres a serem comparados. A proposta de soluo pode no ser tima, mas
fora um mnimo de neurnios a ser consultado, ou seja, amplia a rea da regio a ser
explorada. Com isto, o resultado pode ser exato (crisp), ou ento pode ser estendido em
termos de pertinncia (fuzzy) (KELLER; GRAY; GIVENS, 1995).
Apresentaram-se tambm, as duas bases de dados utilizadas nos experimentos. A
primeira delas trata de uma base real, mas com poucos casos e com categorias denidas
para explorao do modelo de classicao proposto, a m de investigar seus resultados
de comparao com outro de melhor resultado da literatura, bem como explorar suas
propriedades quando utilizada em imagens reais, as quais apresentam invarincia de ro-
tao, translao e ambos. Por m, apresentou-se uma segunda base de dados usada
nos experimentos realizados, com imagens da rotina de um hospital que est disponvel
publicamente para ns de pesquisa e j foi utilizada em outros estudos.
Para avaliao dos resultados usando a base de explorao, discutiu-se sobre o uso do
mtodo leave-one-out. Por outro lado, para a base de validao, discutiu-se sobre o uso
5.5 Consideraes Finais 67
da base de teste para ns de comparao de resultados.
No Captulo seguinte, sero abordados os resultados experimentais.
68
6 Avaliao experimental do
categorizador de imagens
Este captulo apresenta os resultados experimentais da proposta. Todos os experimentos
foram feitos com o uso do software MATLAB usando o pacote SOMToolbox (SOMTool-
box, 2007), com alteraes para os experimentos especcos da tese. O SOMToolbox
um pacote desenvolvido pelo grupo de pesquisa do Teuvo Kohonen (KOHONEN, 2001) e
largamente usado pela comunidade cientca que aplica SOM em suas pesquisas (KASKI,
1998), (OJA; KASKI; KOHONEN, 2003).
O computador utilizado foi um PC desktop com processador Athlon XP 2.2 GHz,
com 1GByte de memria RAM.
6.1 Experimentos de denies usando a base de ex-
plorao
Os resultados apresentados a seguir sero da base de explorao, discutida no captulo
anterior, para preparao do modelo. Os objetivos destes experimentos so:
denio dos nveis de decomposio wavelets;
denio da melhor famlia de wavelets;
denio do melhor conjunto de coecientes (de aproximao ou de detalhamentos);
validao do modelo quanto sensibilidade a rotao, translao, e rotao e trans-
lao;
6.1 Experimentos de denies usando a base de explorao 69
comparao do modelo obtido com aquele proposto de Lehmann et. al. (LEHMANN
et al., 2005).
Entre os experimentos apresentados a seguir para caraterizar a mquina classicadora,
o primeiro foi realizado para a denio dos nveis de decomposio (na anlise wavelets).
Os resultados obtidos esto sintetizados na Tabela 6.1. Para estes experimentos, as 397
imagens foram decompostas, por anlise wavelets, em 4 diferentes nveis, iniciando com
n=2 at com n=5 (cA
2
at cA
5
). A cada nvel, o coeciente de aproximao, cA
n
, foi
extrado, um SOM de tamanho 10 10 foi treinado e as medidas MQE (erro mdio nal
de quantizao), TE (erro topogrco), IDB e taxa de acerto foram calculados. O tempo
de treinamento tambm foi medido.
cA
2
cA
3
cA
4
cA
5
MQE 16,63 13,87 10,79 8,07
TE 0,02 0,03 0,03 0,04
IDB 1,08 1,01 1,05 1,07
Taxa de Acerto (%) 91 95 92 90
Tempo de Treinamento 129 29 6 1
Tabela 6.1: Resultados experimentais usando o coeciente de aproximao em
diferentes nveis de decomposio wavelets.
Os resultados das medidas para a escolha dos nveis de decomposio indicam que
o nvel a ser utilizado 3, (cA
3
). Em relao medida MQE, o resultado apresentado
no garante qualidade e percebe-se que a medida sensvel mudana de dimenso do
vetor de caractersticas (dimenso para cA
2
muito maior que para cA
5
, os resultados
de MQE foram respectivamente 16,53 e 8,07). Por outro lado, TE indica o quanto o
mapa consegue representar a topologia das imagens, que se manteve estvel para todos os
conjuntos (0,03). O IDB tambm foi menor para cA
3
, 1,01, melhor resultado conrmado
pela Taxa de Acerto, 95%. O tempo de treinamento em cA
3
, 29 segundos, aceitvel para
esta aplicao.
Com o uso do conjunto de coecientes cA
3
, trs diferentes famlias wavelets foram
comparadas (Haar, Db2 e RBIO) em termos de Taxa de acerto. Os resultados esto
resumidos na Tabela 6.2.
6.1 Experimentos de denies usando a base de explorao 70
Haar DB2 RBIO
Acerto 95% 66% 95%
Tabela 6.2: Resultados de classicao do SOM usando diferentes famlias wavelets.
Duas famlias tiveram taxa de 95% de acerto. A escolha se deu pela Haar por manter
a morfologia da imagem original, o que permite sua utilizao como cone e permite a
busca browser no SOM, mostrado a seguir.
Por m, experimentos para denir o conjunto de coecientes como vetor de caracte-
rsticas das imagens foram conduzidos e sintetizados na Tabela 6.3.
cA
3
cD
h
3
cD
v
3
cD
d
3
MQE 13,87 5,56 5,85 3,64
TE 0,03 0,03 0,03 0,00
IDB 1,05 1,59 1,54 1,88
Taxa de Acerto (%) 95 66 72 40
Tabela 6.3: Resultados experimentais usando o coeente de aproximao e os
coecientes de detalhamento com nvel 3 de decomposio.
Estes experimentos possibilitam algumas anlises importantes relativas qual medida
de desempenho utilizar. Como j dito, sero utilizadas as medidas, MQE, TE, IDB e
Taxa de Acerto. Cada uma mede, respectivamente, quantizao do mapa, representao
topolgica, qualidade de agrupamento e taxa de acerto. O interesse para o trabalho
maximizar a taxa de acerto e, por isso, esta medida ter um peso maior na deciso
de qual conjunto de coecientes escolher. Sendo assim, as medidas que acompanham
a taxa de acerto devero tambm ter uma relevncia maior. Neste sentido, o IDB dos
resultados experimentais, Tabela 6.3, converge para a melhor medida de taxa. O conjunto
de coeciente que apresentou melhor taxa tambm apresentou o menor IDB. Por outro
lado, o TE se manteve quase sempre constante. O MQE se mostrou uma medida sensvel
intensidade dos coecientes (valores de cA
3
so mais altos que os valores de cD
h
3
, cD
v
3
e cD
d
3
). Diante desses aspectos, dene-se que o conjunto cA
3
a melhor escolha, uma
vez que sua taxa de acerto melhor que a dos demais, bem como o seu IDB. Uma outra
observao interessante em relao ao CD
h
3
que produziu erros pequenos de MQE e
6.1 Experimentos de denies usando a base de explorao 71
IDB. Zuchini (ZUCHINI, 2003) mostrou experimentalmente que, se as medidas MQE e
TE derem resultados baixos, signica que o mapa tem baixa capacidade de generalizao.
Isto tambm pode ser vericado nos resultados dos experimentos aqui apresentados, dado
que a taxa de acerto foi muito baixa.
Aps a denio do nvel de decomposio e do conjunto de coecientes a ser utilizado
preciso, agora, considerar os experimentos para a escolha do tamanho do mapa. A Tabela
6.4 mostra os diferentes tamanhos de mapa a ser escolhido, os respectivos resultados
MQE, TE, IDB e o tempo gasto no treinamento (em segundos).
Foi considerado o uso das medidas MQE, TE e IDB porque havia uma hiptese de
que seria possvel estabelecer alguma correlao entre elas. Desde que o MQE quantica a
resoluo do mapa ou quantos neurnios so necessrios para representar os dados, mas, ao
mesmo tempo, no uma medida apropriada para a escolha do tamanho do mapa porque
ao, aumentar o nmero de neurnios, o MQE automaticamente reduzido (h aumento
do nmero de vetores de pesos para quantizao), porm comea-se a perder a capacidade
de representao topolgica. Este efeito detectado pelo resultado da medida TE, que
indica a capacidade do mapa representar a topologia dos dados. Por outro lado, a medida
IDB verica a qualidade de agrupamento, avaliando quatro grupos sendo formados no
mapa. Como est mostrado na Tabela 6.4, no h uma clareza com respeito ao uso
destas medidas em relao escolha do melhor tamanho do mapa. Por esta razo, os
experimentos de classicao so conduzidos para os trs diferentes tamanhos de mapa.
Com este resultado de classicao, as medidas realizadas anteriormente MQE, TE e
IDB servem agora como apoio escolha de qual tamanho do mapa deve ser usado.
Tamanho do mapa 6x6 10x10 12x12
MQE 15,25 13,87 13,39
TE 0,04 0,03 0,02
IDB 0,91 1,01 1,12
Taxa de Acerto (%) 92 95 91
Tempo de treinamento (s) 90 100 110
Tabela 6.4: Resultados experimentais que comparam as diferentes medidas de
desempenho para os diferentes tamanhos de mapa SOM.
6.1 Experimentos de denies usando a base de explorao 72
Analisando a Tabela 6.4 pelo processo da quantizao, proporo que o mapa au-
menta a medida MQE sempre melhora, como era de se esperar. O TE praticamente o
mesmo nos 3 diferentes mapas, variando em um ponto na terceira casa decimal. O IDB,
que se mostrou robusto para os outros experimentos de denio de caractersticas, no
manteve esta propriedade para a variao do tamanho do mapa. Isso ocorre porque, a
cada clculo do IDB, o tamanho do mapa maior, o nmero de vetores de pesos au-
menta e, conseqentemente, o valor do IDB ser maior. Contudo, a nica medida vlida
para a escolha do tamanho do mapa, segundo os critrios aqui propostos, a taxa de
acerto e, por este critrio, o mapa de tamanho 10 10 o escolhido para os experimentos
exploratrios.
Para esta base de dados, ou outra com as caractersticas semelhantes, tem-se uma
mquina classicadora, congurada com um extrator de caractersticas baseado em trans-
formada discreta wavelets com a funo de base Haar para extrair os coecientes de apro-
ximao para trs nveis de decomposio. O classicador treinado o SOM, congurado
com 100 neurnios em um mapa de 1010. Este modelo ser agora testado com detalhes
para se saber quais as suas propriedades de desempenho. O ensaio da mquina classica-
dora ser feito quanto rotao, translao ou rotao e translao. Os resultados esto
resumidos na Figura 6.1.
Este experimento demonstra que o modelo bastante robusto quando as variaes
so aplicadas separadamente, rotao e translao, com variao at de 35 graus (para
rotao) e 35 pixels (para translao), pois a taxa de acertos ainda se mantm em 90%.
Entretanto, na aplicao conjunta de rotao e translao, a taxa de acerto de at 90%
mantida quando a variao at 25 (graus e pixels). fato que estas taxas por variaes
podem mudar quando as caractersticas da base de dados so alteradas (modalidade,
nmero de classes e etc).
Como forma de legitimar a qualidade das caractersticas extradas por wavelets, cA
3
,
se fez uma comparao com o melhor extrator de caractersticas usado por Lehmann et.
al. (LEHMANN et al., 2005), Imagem Redimensionada (IR). A base de dados a ser utilizada
6.1 Experimentos de denies usando a base de explorao 73
a de validao. A comparao ser feita usando dois diferentes classicadores, SOM e
Knn.
10 20 30
70
75
80
85
90
95
100
Valor de variabilidade (rotao em graus e translao em pixels)
T
a
x
a
d
e
a
c
e
r
t
o
(
%
)
rotao
translao
rotao e translao
Figura 6.1: Experimentos de Robustez
Aps os experimentos de denio do tamanho do mapa, o classicador SOM com
tamanho 10 10 comparado ao classicador Knn. Para isto, o classicador SOM
treinado com cA
3
e com IR, assim como o classicador Knn. Os resultados desta
comparao esto resumidos na Tabela 6.5.
cA
3
IR
SOM 95,0% 91,0%
Knn 95,2% 93,8%
Tabela 6.5: Resultado do classicador SOM treinado com o coeciente de aproximao
no terceiro nvel de decomposio, cA
3
, e com a Imagem Redimensionada, IR, e
resultado do classicador Knn para um vizinho mais prximo com cA
3
e com IR.
Os resultados desta tabela indicam dois pontos importantes: O primeiro que os
resultados de classicao usando cA
3
foram superiores aos resultaos obtidos usando IR.
O segundo ponto que os resultados apresentados pelo classicador SOM so competitivos
6.2 Experimentos usando a base de validao 74
aos resultados apresentados pelo classicador Knn.
Como j visto no Captulo 5, a classicao com SOM feita em termos do padro mais
semelhante, vizinho direto mais prximo. Contudo, discutiram-se as diferentes formas de
rotulao do mapa, histograma e mxima votao. Aproveitou-se dos experimentos de
validao para ilustrar estas duas formas de rotulao, com o uso de um dos mapas gerados
no treinamento. Os resultados do mapa rotulado esto ilustrados na Figura 6.2, tanto
por histograma como por mxima votao. Estes mapas poderiam ser usados para inferir
a classe de uma nova imagem.
Existem outras formas de rotular o mapa, o que permite sua busca por padres mais
semelhantes, atravs da explorao do mapa (browsing). Uma delas a partir da rotu-
lao de cada neurnio com a imagem que possui a caracterstica (cA
3
) mais semelhante
ao neurnio vencedor, Figura 6.3a. Outra a transformao do vetor de pesos de cada
neurnio em uma matriz. O resultado uma imagem suavizada, mas que mantm as ca-
ractersticas principais da imagem original, como na Figura 6.3b. Entretanto, esta ltima
forma de visualizao s possvel se o vetor de caractersticas mantiver a morfologia
da imagem, ou seja, ela no seria possvel no caso do uso dos coecientes decompostos
usando uma outra famlia wavalets como caractersticas da imagem. As regies sem ima-
gens so de neurnios que no representam vetores de caractersticas ou, simplesmente,
so de neurnios que no foram vencedores.
6.2 Experimentos usando a base de validao
Para os resultados a seguir, utilizou-se a base de dados de validao, cujos detalhes foram
descritos no captulo anterior. Para vericar se as denies anteriores so vlidas para
esta base, repetiram-se os experimentos de denies, usando para isso a metodologia
apresentada no esquema da Figura 5.10. Os resultados conrmaram aquelas melhores
escolhas. Assim, considerou-se para a extrao de caractersticas a famlia wavelet Haar,
o nvel de decomposio igual a 3 e coecientes de aproximao.
Para no descartar totalmente os coecientes de detalhamento, em um segundo ex-
6.2 Experimentos usando a base de validao 75
MR1(9)
MR1(2)
MR1(2)
MR3(9)
MR3(2)
MR3(10)
MR3(8)
MR3(6)
MR3(8)
MR1(1)
MR1(3)
MR1(2)
MR1(3)
MR1(1)
MR3(1)
MR3(4)
MR3(2)
MR3(7)
MR3(1)
MR3(6)
MR1(10)
MR1(1)
MR1(5)
MR1(1)
MR3(1)
MR3(1)
MR3(2)
MR3(9)
MR1(6)
MR1(5)
MR1(3)
MR1(1)
MR3(4)
MR3(5)
MR3(5)
MR3(3)
MR3(3)
MR3(2)
MR4(1)
MR1(10)
MR1(1)
MR1(2)
MR1(2)
MR3(2)
MR2(1)
MR3(1)
MR3(4)
MR3(2)
MR4(1)
MR3(3)
MR4(1)
MR4(2)
MR3(1)
MR1(7)
MR1(5)
MR1(3)
MR1(5)
MR2(1)
MR2(1)
MR3(2)
MR2(3)
MR3(3)
MR4(2)
MR1(7)
MR1(3)
MR1(3)
MR2(1)
MR4(2)
MR2(7)
MR2(3)
MR2(4)
MR1(8)
MR1(2)
MR1(1)
MR2(6)
MR2(2)
MR2(2)
MR2(4)
MR2(5)
MR2(12)
MR1(5)
MR1(1)
MR3(1)
MR2(2)
MR3(2)
MR2(6)
MR3(1)
MR2(4)
MR2(4)
MR2(3)
MR2(9)
MR1(5)
MR4(5)
MR4(17)
MR2(1)
MR2(2)
MR2(11)
MR2(7)
MR3(1)
MR2(5)
MR2(13)
a - Mapa rotulado por histograma.
MR1
MR1
MR1
MR3
MR3
MR3
MR3
MR3
MR3
MR1
MR1
MR1
MR1
MR3
MR3
MR3
MR3
MR3
MR3
MR1
MR1
MR1
MR1
MR3
MR3
MR3
MR3
MR1
MR1
MR1
MR1
MR3
MR3
MR3
MR3
MR3
MR3
MR1
MR1
MR1
MR1
MR3
MR3
MR3
MR3
MR3
MR4
MR1
MR1
MR1
MR1
MR2
MR2
MR3
MR2
MR1
MR1
MR1
MR2
MR4
MR2
MR2
MR2
MR1
MR1
MR1
MR2
MR2
MR2
MR2
MR2
MR2
MR1
MR1
MR3
MR2
MR2
MR2
MR2
MR2
MR2
MR1
MR4
MR4
MR2
MR2
MR2
MR2
MR2
MR2
b - Mapa rotulado por mxima votao.
Figura 6.2: Exemplo de rotulao do mapa SOM por histograma e por mxima
votao.
6.2 Experimentos usando a base de validao 76
a - Mapa SOM rotulado com a imagem mais prxima do neurnio vencedor (melhor representante).
b - Visualizao dos vetores de pesos em forma de matriz. Pode ser usado para busca por explorao (browsing)
Figura 6.3: Explorao do mapa SOM para visualizao das imagens cujos vetores de
caractersticas so os mais prximos dos respectivos vetores de pesos e visualizao dos
vetores de pesos.
6.2 Experimentos usando a base de validao 77
perimento, estes sero representados na forma de momentos de Hu e sero combinados
aos coecientes de aproximao. Para denir o melhor tamanho do mapa, foram feitos
experimentos considerando alguns tamanhos, mas calculando apenas a taxa de acerto e
tempo de processamento, uma vez que as medidas MQE, TE e IDB no foram robustas
para estas escolhas, de acordo com os experimentos anteriores. Foram considerados 3
diferentes tamanhos de mapa, 20 20, 40 40 e 60 60, pois o nmero de classes e
o nmero de imagens so maiores que os da base de explorao. Para a classicao,
considerou-se que, no mnimo, os quatro neurnios vencedores fossem consultados ou que,
ao mnimo, 50 imagens fossem comparadas. A categorizao ser feita considerando a
classe da imagem mais prxima. Os resultados esto na Tabela 6.6. O mapa 60 60 foi
utilizado nos experimentos porque apresentou a melhor taxa de acerto.
Tamanho do mapa 20x20 40x40 60x60
Taxa de Acerto (%) 58,3 65,1 72,3
Tempo de treinamento (s) x 10
3
90 155 180
Tabela 6.6: Resultado de classicao e tempo de treinamento para os diferentes
tamanhos de mapa SOM usando a base de dados de validao.
Com as caractersticas extradas das imagens e o tamanho de mapa congurado,
experimentos de classicao foram feitos comparando o combinado de caractersticas
(wavelets e momentos de Hu) e classicador SOM com o combinado de caractersticas e
o classicador vizinho mais prximo - Knn.
Para efeitos de comparao dos resultados apresentados nesta tese, a Tabela 6.7 traz
os melhores resultados para o problema em questo, que foram obtidos usando imagens
redimensionadas (IR) e o conceito recente proposto por Deselaer et. al. (DESELAERS et
al., 2006), chamado de Histogramas Esparsos baseados em Patches (brevemente discutido
no Captulo 3). Pelas caractersticas da base de dados, imagens da rotina clnica, grande
variabilidade de imagens da mesma classe e distribuio de imagens por classe no-linear,
o resultado de 83,8 de acerto bastante otimista.
Os resultados apresentados na Tabela 6.8 so os obtidos nesta tese. Usando o cA
3
como caractersticas e o SOM como classicador, obtiveram-se resultados melhores do que
6.2 Experimentos usando a base de validao 78
Knn
IR 67,9
Patch-based 83,8
Tabela 6.7: Resultados de classicao usando o classicador Knn com IR e
Patch-based apresentados por Deselaers et. al. (DESELAERS et al., 2006).
com IR e Knn, mas no melhores do que quando comparados a Histogramas Esparsos
baseados em Patches e Knn. Contudo, quando se faz a decomposio em wavelets,
apenas as componentes de alta-frequncia so consideradas, descartando as componentes
de baixa-frequncia, como j discutido no Captulo 3. Agora, estes coecientes descartados
sero resumidos em momentos de Hu e sero combinados com o cA
3
, como explicado no
Captulo 3. Com essa combinao, cA
3
e Hu, os resultados so bem prximos aos 83,8
obtidos por Deselaers et al., com diferena de 1.5% para o Knn e de 2% para o SOM.
A grande diferena dos resultados aqui alcanados est no baixo custo computacional
para a extrao das caractersticas e na simplicidade de implementao das tcnicas aqui
abordadas (assuntos facilmente encontrados na literatura). No captulo seguinte, ser
feita uma discusso completa dos resultados.
Knn SOM
cA
3
72,5 72,3
cA
3
e Hu 83,1 82,8
Tabela 6.8: Resultados de classicao com o classicador Knn e com o classicador
SOM considerando como vetores de caractersticas cA
3
e cA
3
combinado com os
coecientes descartados sumarizados na forma de momentos Hu.
Knn um classicador de referncia, que apresenta melhor resultado, mas o custo
para seu uso algo a ser questionado. Por essa razo, experimentos considerando, imagem
de teste, acerto ou erro e tempo de resposta foram feitos comparando o Knn e o SOM,
Figura 6.4 e Figura 6.5, respectivamente.
A grandeza de tempo do Knn, Figura 6.4a e do SOM, Figura 6.5a, est em minutos.
Enquanto o Knn usa em mdia 1,8 minutos, o SOM gasta em mdia 0,018 minutos, apro-
ximadamente 1 segundo. Por outro lado, a taxa de acertos usando o Knn, considerando
um vizinho mais prximo (1nn), foi de 83,1%, Figura 6.4b, e o SOM com taxa de acerto
6.3 Categorizador de imagens mdicas: CATIMME e RECIMME 79
de 82,8%, Figura 6.5b, uma diferena de 0,3%, ou seja, menos de 1%. Vale ressaltar que
em um hospital, centenas de imagens so produzidas diariamente, isto , para uso prtico
SOM uma proposta bastante competitiva, dado que o tempo para classicao muito
menor que o apresentado pelo Knn e a taxa de acerto entre eles praticamente a mesma.
Para um melhor conhecimento dos resultados e para avaliar a potencialidade da pro-
posta, considerou-se, alm da taxa de acerto em termos do vizinho mais prximo, a
classicao at o dcimo mais prximo (K=1 at K=10) com intervalo de 1, veja Figura
6.4a e Figura 6.5b. Em ambos, Knn e SOM, as taxas de acerto mostraram variaes
equivalentes, visto que, at o quarto vizinho mais prximo, ambos ainda mantiveram a
taxa na casa dos 80% e, para os 10 vizinhos mais prximo, a taxa de ambos se manteve
na casa dos 75%.
Aps os experimentos de caracterizao da mquina classicadora, foram apresenta-
dos experimentos de comparao envolvendo os principais resultados da literatura e os
resultados da combinao do cA
3
com momentos de Hu e SOM. A seguir, sero apre-
sentados dois prottipos, Categorizador de Imagens Mdicas (CATIME) e Recuperador
de Imagens Mdicas (RECIMME), que usam a mquina classicadora abordada nesta
proposta em duas diferentes interfaces.
6.3 Categorizador de imagens mdicas: CATIMME e
RECIMME
Pensando que esta metodologia possa se tornar uma ferramenta para o ensino, no qual
o mdico estudante dever treinar sua capacidade de diagnstico; uma ferramenta para
o auxlio ao diagnstico, para o qual o mdico ter casos anteriores como referncia para
tomar uma deciso, ou mesmo, uma ferramenta que auxilia na categorizao automtica
de exames da rotina clnica, foram desenvolvidas duas interfaces que implementam a
mquina classicadora proposta nesta tese.
A primeira interface, chamada de CATIME (Categorizador de Imagens Mdicas) foi
desenvolvida no MatLab, Figura 6.6 e contempla as duas bases de dados, de explorao
6.3 Categorizador de imagens mdicas: CATIMME e RECIMME 80
0
200
400
600
800
1000
0
1
1.6
1.8
2
2.2
2.4
2.6
Nmero da Imagem de Teste
Acerto (1) ou Erro (0)
T
e
m
p
o
a - Anlise de tempo de classicao e acerto ou erro para cada imagem de teste usando o classicador Knn.
2 4 6 8 10
74
76
78
80
82
84
Valor de K
T
a
x
a
d
e
A
c
e
r
t
o
b - Anlise de taxas de acerto em classicao para diferentes nmeros de K.
Figura 6.4: Anlises de tempo de classicao (a) e acerto de classicao (b) para o
classicador Knn.
6.3 Categorizador de imagens mdicas: CATIMME e RECIMME 81
0
200
400
600
800
1000
0
1
0
0.05
0.1
0.15
0.2
Nmero da Imagem de Teste
Acerto (1) ou Erro (0)
T
e
m
p
o
a - Anlise de tempo de classicao e acerto ou erro para cada imagem de teste usando o classicador SOM.
2 4 6 8 10
74
76
78
80
82
84
Valor de K
T
a
x
a
d
e
A
c
e
r
t
o
b - Anlise de taxas de acerto em classicao para diferentes nmeros de K.
Figura 6.5: Anlises de tempo de classicao (a) e acerto de classicao (b) para o
classicador SOM.
6.3 Categorizador de imagens mdicas: CATIMME e RECIMME 82
e de validao. Ela permite abrir novas imagens em qualquer formato (DICOM e PNG),
permite escolher o classicador (h possibilidade de inserir outros classicadores) e tem,
como resultado, as 10 imagens mais semelhantes, a taxa de acerto do classicador e o
tempo para processar. Mais detalhes sobre a interface esto descritos no Apndice B. Por
coincidncia, na tela escolhida para ilustrao, possvel vericar a diculdade de um
classicador automtico fazer inferncias. Note-se que a terceira imagem de resposta tem
aparncia muito parecida com a imagem de teste, porm, de outra classe.
Figura 6.6: Interface do CATIME (Categorizador de Imagens Mdicas).
Na segunda interface, chamada de RECIMME (Recuperador de Imagens Mdicas ),
Figura 6.7, alm de estar visvel na web, junto s imagens mais parecidas so exibidas
tambm algumas informaes do paciente, como sexo, idade, peso, descrio, etc, o que
pode ser interessante na tomada de deciso. Maiores detalhes esto discutidos no Anexo
B.
6.3 Categorizador de imagens mdicas: CATIMME e RECIMME 83
Figura 6.7: Interface do RECIMME (Recuperador de Imagens Mdicas).
Para vericar a viabilidade de uso das duas interfaces como uma ferramenta de apoio
ao ensino, na tomada de deciso ou na categorizao automtica, foram realizados expe-
rimentos para avaliar se os mtodos propostos respondiam frente a uma nova imagem de
teste e, dentre as 10 mais semelhantes, para ao menos uma imagem da mesma classe.
Vericou que, da seleo de 10 imagens mineradas de uma base de dados com 9.000
imagens, pelo menos uma delas pertence mesma classe da imagem consultada. Os
resultados do SOM para a classicao, que antes tinham como taxa de acerto 82,8%,
passam agora para 94,1% (Tabela 6.9), vericando-se se, em um conjunto de 10 imagens,
pelo menos uma da mesma classe. Esta nova taxa apresentada pelo SOM foi melhor
que a apresentada pelo Knn 93,4%, usando a mesma estratgia de classicao que o do
SOM, ou seja, quase 1% melhor (0,7%). Estes resultados podem ser interessantes para
treinamento de especialistas, por exemplo, podendo servir como uma forma de sortear
as respostas em um teste para estudantes. Contudo, podem teis tambm no auxlio ao
diagnstico, pois, de 10 referncias, pelo menos uma relevante.
Por m, vale destacar tambm uma forma de ajudar no armazenamento categorizado
das imagens, como usar as imagens mais parecidas como opes para classicao e deixar
o especialista decidir pela classe mais adequada. No caso de trabalhos de extenso para
6.4 Consideraes Finais 84
usar o CATIME ou o RECIMME em CBIR, o resultado apresentado tambm interes-
sante, pois uma imagem semelhante pode ser usada para o renamento de buscas futuras
(termo conhecido como relevance feedback, leia mais em (S.DEB; Y.ZHANG, 2004)).
Tamanho do mapa Knn SOM
Taxa de Acerto (%) 93,4 94,1
Tabela 6.9: Resultados de classicao considerando como acerto ao menos uma
imagem da mesma classe para um conjunto de dez mais parecidas.
6.4 Consideraes Finais
Apresentaram-se neste captulo os resultados experimentais obtidos nesta pesquisa. Apre-
sentou-se, tambm, a aplicao da metodologia para a denio do nvel de decomposio
wavelets, para a escolha da famlia wavelet e o melhor conjunto de vetor de caracterstica
como sendo 3 nvel de decomposio, Haar e cA
3
, respectivamente. Ainda com a base de
explorao, a metologia aqui proposta para a escolha do tamanho do mapa foi aplicada,
na denio do tamanho do mapa para ser 10 10.
Aps as denies anteriores, o modelo de mquina classicadora proposto foi explo-
rado para avaliar a robustez quanto a variaes de rotao, translao, e rotao e transla-
o. Avaliou-se tambm a comparao do extrator de caractersticas por anlise wavelets
com outro extrator de caractersticas apresentado na literatura, IR. O classicador SOM
tambm foi comparado ao classicador Knn. Os resultados destes experimentos iniciais
foram satisfatrios e encorajadores para continuidade de outro experimento, usando agora
a base de validao que mais complexa que a anterior, nmero de classes e tamanho da
base de imagens maiores.
Usando esta outra base de imagens, repetiu-se a metodologia para escolha da fa-
mlia wavelet, do melhor nvel de decomposio, do conjunto de coecientes e denio
do tamanho do mapa SOM, pois a modalidade da imagem outra (raio-x) e o nmero
de classes aumentou bruscamente (de 4 para 116 classes). Aps denir o tamanho do
mapa, experimentos de classicao foram conduzidos e comparados ao principal resul-
6.4 Consideraes Finais 85
tado apresentado na literatura. Neste experimento, observou-se que usando apenas o
melhor conjunto de coeciente como caractersticas da imagem, os resultados deste tra-
balho no eram competitivos frente aos resultados da literatura. Porm, este conjunto de
coeciente de aproximao combinado aos demais coecientes na forma de momentos de
Hu, os resultados passaram a ser melhores que os anteriores e prximos aos da literatura.
E, ainda com a base de validao, comparou-se o classicador SOM ao classicador Knn,
e os resultados de taxas de acerto foram equivalentes, porm, o tempo de recurso compu-
tacional bastante favorvel ao SOM. Uma segunda comparao entre os classicadores
foi feita investigando o seu desempenho ao retornar, de um conjunto de dez imagens, ao
menos uma da mesma classe, com resultado bastante positivo ao classicador SOM.
De maneira geral, os resultados alcanados com a proposta so satisfatrios diante
dos experimentos realizados e frente a outros resultados apresentados na literatura. Uma
discusso mais ampla dos resultados e um balano da metodologia proposta so feitos no
captulo seguinte.
86
7 Discusso e Concluso
O trabalho apresentou uma proposta de categorizao de imagens mdicas para recupera-
o de imagens por contedo (CBIR) e tambm para minerao de dados. A categorizao
automtica, ou simplesmente categorizao como preferido neste trabalho, envolve uma
primeira etapa fundamental para a extrao de caractersticas. Para tanto, usou-se a
anlise de multi-resoluo, da qual wavelets um tipo, para trs nveis de decomposio,
considerando os coecientes de aproximao como vetores de caractersticas. Para esta
escolha, apresentou-se uma proposta de metodologia que auxilia na denio da famlia
wavelet, nvel de decomposio e conjunto de coecientes. Nesta metodologia, utilizaram-
se medidas de qualidade SOM e medidas de qualidade usadas em tcnicas de agrupamento
de dados para avaliao da qualidade de agrupamento. Para denir a sensibilidade de cada
uma destas medidas, foi utilizada a taxa de acerto do classicador. Concluiu-se que as
medidas tradicionais de qualidade do SOM no so aplicveis na denio do nvel de
decomposio wavelets mais adequado e do conjunto de coecientes. Por outro lado, a
medida de qualidade para tcnicas de agrupamento (IDB) se mostrou interessante nessas
escolhas.
Aps as denies referentes anlise por wavelets, foram realizados experimentos de
classicao usando uma base de dados do Instituto do Corao (InCor), com 397 imagens
distribudas em 4 classes. Chamados de exploratrios, os experimentos apresentaram bons
resultados quando submetidos a testes de robustez invarincia (rotao, translao e
rotao e translao) e quando comparados a outro mtodo da literatura.
Uma segunda etapa de experimentos foi feita quando se conseguiu ter acesso mesma
base de dados utilizadas pelos outros grupos tomados como principais referncias (LEHMANN
6 Discusso e Concluso 87
et al., 2005), (DESELAERS et al., 2006). A base da Universidade de Medicina de Aachen,
Aachen, Alemanha composta por 10.000 imagens distribudas em 116 classes do cdigo
IRMA. O resultado apresentado usando a metodologia proposta foi inferior aos resultados
apresentados pelos outros grupos.
Porm, o vetor de caractersticas utilizado no modelo proposto era composto pelos
coecientes de aproximao (cA
3
). Para aumentar o desempenho da taxa de classicao,
tentou-se combinar outra tcnica de processamento de imagens.
Na aplicao de wavelets, a cada nvel de decomposio a imagem passa por um
conjunto de ltros (passa-alta e passa-baixa) e sofre um rescalamento para reduo do
nmero de colunas e de linhas da imagem pela metade.
Com a escolha dos coecientes de aproximao (cA
3
), detalhes da imagem so des-
cartados (cD
h
n
, cD
v
n
e cD
d
n
). Pairava ento, a dvida se estes detalhes no faziam falta
no processo de discriminao. Porm, se eles fossem incorporados, a dimenso do ve-
tor de caractersticas aumentaria muito. Para consider-los, pensou-se em contabiliz-los
resumidamente na forma de momentos de Hu. Assim, cada conjunto de coecientes de
detalhes foi representado por um vetor de dimenso 7 (momentos), onde os momentos de
1 a 6 visam manter a representao da forma, robusta variao da imagem, e o stimo
momento visa garantir a distoro e o espelhamento da imagem.
Com tal combinao, os resultados obtidos tornaram-se bastante competitivos com
relao ao melhor resultado em que se usa a tcnica chamada Histograma Esparsos base-
ados em Patches. A pequena diferena de taxa de classicao entre a tcnica proposta
neste trabalho e a obtida na referncia (DESELAERS et al., 2006) pode ser desprezvel, ao
analisarem-se as diferenas de complexidade de recursos computacionais e de complexi-
dade matemtica entre as duas tcnicas.
Outra comparao que merece ser destacada a facilidade para se encontrar, na lite-
ratura, conceitos sobre wavelets e momentos de Hu (CASTELLI; BERGMAN, 2001),(GON-
ZALEZ; WOODS, 2007), alm de estarem disponveis em rotinas de clculo nas principais
ferramentas de simulao como o MatLab. A forma de combinar estas duas tcnicas foi
6 Discusso e Concluso 88
descrita nesta tese a partir da metodologia para escolher o conjunto de coecientes princi-
pais e a combinao dos coecientes que seriam descartados, que foram contabilizados no
vetor de caractersticas pelos momentos de Hu. Contudo, a metodologia proposta uma
tcnica de simples reproduo e implementao e requer pouco recurso computacional.
Em contraste, a proposta dos Histogramas Esparsos baseados em Patches uma tcnica
ainda pouco explorada na literatura, o que diculta a sua reprodutibilidade e exige maior
recurso computacional para seu uso.
Para a fase de categorizao, foi denido o classicador baseado em mapas auto-
organizveis (SOM). Esforos para o uso do mapa SOM como classicador foram condu-
zidos, pois ele trabalha bem como organizador de dados, o que justica seu extenso uso
em CBIR. Esta caracterstica de ordenao pode ser comprovada com os resultados expe-
rimentais aqui apresentados. Outra vasta aplicao de SOM est em minerao de dados
(SASSI; SILVA; DEL-MORAL-HERNANDEZ, 2007), (SASSI; SILVA; DEL-MORAL-HERNANDEZ,
2008). SOM usado em visualizao de dados de alta dimenso a partir do mapa bidi-
mensional (VESANTO; ALHONIEMI, 2000),(SASSI; SILVA; DEL-MORAL-HERNANDEZ, 2007),
(BOSCARIOLI; SILVA; DEL-MORAL-HERNANDEZ, 2008), como mostrado no Captulo 4, Fi-
gura 4.4.
Vale ressaltar que a classicao usando SOM nesta abordagem de categorizao de
imagens mdicas um trabalho desbravador. Uma possvel explicao para seu uso pouco
freqente a forma de empreg-lo neste tipo de tarefa. Nesta tese, apresentaram-se quatro
facetas diferentes de sua utilizao na classicao (a partir dos rtulos dos neurnios,
denidos por votao ou frequncia e a partir do neurnio como uma referncia para a
regio do espao de caractersticas com padres mais semelhantes, classicando pelo rtulo
do padro mais prximo ou estendido em termos de pertinncia). Discutiu-se tambm
que, dependendo da forma como utilizado, o resultado em termos de taxa de acerto pode
ser baixo, principalmente em aplicaes em que as fronteiras de deciso no so bem
denidas, grande desao aqui enfrentado.
Por esta razo, foi proposto um mtodo alternativo de usar SOM como classicador,
6 Discusso e Concluso 89
no qual foram exploradas: 1 - sua capacidade de quantizao vetorial, segundo a qual
cada neurnio representa um conjunto de vetores; e 2 - sua capacidade de manuteno
topolgica, segundo a qual neurnios vizinhos tendem a representar vetores ou padres
semelhantes. Com isto, o neurnio passa a trabalhar como um pr-processador, pois o
nmero de neurnios do mapa ser sempre menor que o nmero de imagens do conjunto
de treinamento ou padres de treinamento, o que reduz o nmero de comparaes ordem
do tamanho do mapa.
A escolha do tamanho do mapa tambm foi assunto explorado na presente pesquisa.
No existe na literatura um consenso para o nmero de neurnios a ser usado em um
mapa SOM. Tentou-se aqui adotar uma metodologia usando medidas de qualidade do
SOM e medidas de qualidade de tcnicas de agrupamento. Porm, nenhuma delas foi
sucientemente robusta s variaes do tamanho do mapa, o que mostra a diculdade de
tal denio. Por isto, a taxa de classicao foi usada para denir o tamanho do mapa.
Aps a denio de tamanho, aplicou-se SOM nos experimentos de classicao. Os
resultados de taxa de acerto foram comparados com os resultados do classicador Knn.
Enquanto o resultado de taxa de acerto para o Knn, 83,1%, foi ligeiramente melhor que
para o SOM, 82,8%, o tempo gasto para a classicao com o Knn de 1,8 segundos,
enquanto o tempo gasto para a classicao com o SOM de 0,02 segundos. Porm,
quando os experimentos foram feitos para avaliar se os mtodos propostos respondiam
frente a uma nova imagem de teste e, dentre as 10 mais semelhantes, para ao menos
uma imagem da mesma classe, o classicador Knn obteve a taxa de acertos de 93,4% e o
classicador SOM a taxa de acertos de 94,1%.
A combinao de coecientes wavelets e momentos de Hu com o mapa SOM, chamada
aqui de mquina classicadora, com exploraes na literatura em alguns de seus aspectos,
foi exaustivamente experimentada, para vericar sua robustez em trabalhar com imagens
rotacionadas, transladadas e com ambas as variaes. Tambm foram feitas comparaes
com outras abordagens, sempre se tomando por base os melhores resultados da literatura.
Como concluso, pode-se dizer que os resultados so encorajadores para implementar
7.1 Contribuies apresentadas na tese 90
a proposta desta tese em outras aplicaes reais, alm das j ilustradas aqui, e explorar o
uso de SOM como classicador e tcnica para recuperao de imagens por contedo.
Embora todo o estudo feito no trabalho tenha mostrado a potencialidade do cate-
gorizador em imagens mdicas, ele pode ser extensvel a outros tipos de imagens. Desta
maneira, outras aplicaes podem ser exploradas baseadas neste estudo. Alguns exemplos
podem ser como uma ferramenta para uso na rea de segurana pblica, geoprocessa-
mento, internet e outros. Na segurana pblica, seria til para encontrar, em uma base
de dados com imagens de todos os detentos e ex-detentos, o suspeito mais semelhante
a partir de um retrato falado ou para, tambm a partir de uma foto, encontrar pessoas
desaparecidas em rodovirias, aeroportos, ruas equipadas com cmeras. Na rea de geo-
processamento, apresentar regies previamente classicadas para o especialista decidir se
uma rea de desmatamento, preservao ou outra categoria que venha a ser criada, a
partir de uma foto de satlite. A aplicao na web poderia ser como uma ferramenta cuja
chave de busca fosse a imagem para encontrar informaes. Com o crescente aumento e
facilidade de armazenar imagens, principalmente com a tecnologia 3G (giga) para celula-
res, a gerao de imagens ser algo bastante corriqueiro. Us-las para encontrar outras
informaes poder ser alternativa aos sistemas de busca tradicionais baseados em texto.
7.1 Contribuies apresentadas na tese
O estudo apresentou uma nova abordagem para categorizao de imagens mdicas, al-
ternativa s outras encontradas na literatura, envolvendo wavelets com momentos de Hu
e mapas auto-organizveis. Esta combinao em uma mquina classicadora se mostrou
bastante promissora quando comparada com a melhor abordagem publicada na literatura
at o presente momento.
A metodologia para denir um vetor de caractersticas usando wavelets um assunto
pouco encontrado na literatura, as raras informaes dizem apenas que se utilizou de um
conjunto especco de coecientes wavelets como caractersticas de imagens. Este estudo
apresentou uma metodologia para tal escolha. Alm desta metodologia, apresentou-se
7.2 Trabalhos Futuros 91
uma abordagem para combinao destes coecientes, de forma que todos sejam apro-
veitados, sem elevar exageradamente a dimenso do vetor. Na abordagem proposta,
utilizaram-se os momentos de Hu para compensao.
Foram apresentados usos alternativos do SOM como classicador e uma alternativa
de classicao, usada e explorada neste estudo com resultados motivadores.
Apresentou-se tambm uma metodologia de escolha do tamanho do mapa SOM. Na
literatura, a maioria dos trabalhos que utiliza SOM determina um tamanho sem o uso
de uma metodologia bem denida e realiza o estudo. Existem algumas heursticas a
respeito, mas nenhuma denio de como o mapa deve ser escolhido. Por m, uma
metodologia para anlise de robustez do modelo, atravs da qual so feitas modicaes
em imagens reais para simular rotao, translao e ambos e para denir as propriedades
do modelo. Este um estudo interessante para aplicaes com imagens mdicas, mas
poderia tambm ser de interesse de pesquisadores que trabalham com reconhecimento de
faces, por exemplo.
7.2 Trabalhos Futuros
Como trabalho futuro ou complementao a esta proposta, podem ser considerados estu-
dos adicionais de seleo de caractersticas. Esta uma linha de pesquisa interessante,
que permite avaliar um vetor de caractersticas e decidir quais os elementos deste vetor
so redundantes para discriminao entre classes. Tal estudo, que no tem sido o foco
das linhas de pesquisa recentes do grupo, pode ser explorado em estudos futuros.
Outro assunto bastante interessante e desaador avaliar a correlao entre imagens
agrupadas com base em vetores de caractersticas e dados textuais do paciente. H a
percepo de que pode haver relao entre imagens do mesmo grupo; por exemplo, sexo,
idade, etnia, classe social, ou outros aspectos dos pacientes. Seu interesse reside tambm
na viabilizao de novas revelaes de determinadas patologias e sua predominncia em
regies especcas, tipo de sexo em que tais patologias aparecem, por exemplo. Evidente
que, para este estudo, necessrio que o hospital onde a pesquisa for desenvolvida tenha
7.2 Trabalhos Futuros 92
um sistema de informao implementado, que permita associar dados do paciente aos
dados textuais.
Combinar informaes textuais a informaes extradas das imagens (caractersticas)
como forma de avaliar o aumento de taxa de acerto de uma classicao ou, ento, au-
mentar a preciso de sistemas de recuperao de imagens por contedo. Contudo, este
um assunto bastante desaador, pois envolve processamento de linguagem natural para
extrao de informao em dados textuais.
Utilizar SOM com dados categorizados ou textuais de diagnstico clnico para encon-
trar relaes de palavras em determinadas patologias outra temtica de interesse. Para
isto, necessrio tambm ter diagnsticos digitais processados por tcnicas de linguagem
natural.
Explorar SOM para recuperao de imagens por contedo. Como o modelo aqui
proposto para classicao tambm poderia ser usado para a recuperao de imagens por
contedo, esse seria tambm um estudo interessante de se fazer, que envolveria estudos
profundos sobre algoritmos de estrutura de dados para construir o SOM em rvore ou
grafo orientado para facilitar a recuperao e tambm o emprego de tcnicas para ltrar
informaes relevantes de acordo com a experincia do usurio (relevance feedback).
Aplicar outros algoritmos de classicao, podendo envolver aprendizado (simblico
ou conexionista ou estatstico) para comparar taxas de acerto. Ou ainda, estender o
modelo para dar respostas em grau de pertinncia (fuzzy), o que seria interessante para
um usurio nal da aplicao.
Uma pesquisa que envolve a aplicao de dinmica rica (caos) em neurnios dos mapas
auto-organizveis j foi iniciada dentro do prprio grupo de pesquisa (SILVA; SANDMANN;
DEL-MORAL-HERNANDEZ, 2008) e pode ser uma alternativa ao SOM, usado nesta tese em
sua mquina classicadora. Este um estudo que tem uma inspirao biolgica, cujos
estudos mostram que o sistema olfatrio do coelho opera em caos quando apresentado
a ele um cheiro desconhecido e opera em perodos estveis quando o cheiro conhecido
(FREEMAN, 1992). Esta caracterstica foi implementada em um modelo do SOM, no
7.2 Trabalhos Futuros 93
qual os neurnios atuam de forma semelhante, ou seja, para padres desconhecidos o
neurnio opera em caos e, para padres conhecidos, eles operam em perodos estveis.
Nesta abordagem, na qual o caos passa a ser o critrio de neurnio vencedor, h um
maior aproveitamento dos neurnios, pois todos os neurnios tm poder de competio e
h um melhor reconhecimento de grupos. Alm destas duas importantes caractersticas,
estudos foram iniciados para analisar sua capacidade em aprendizado continuado (SILVA;
SANDMANN; DEL-MORAL-HERNANDEZ, 2008). Nestes estudos preliminares, foram feitos
experimentos de caracterizao e comparao dessa arquitetura. Pretende-se, em estudos
futuros, analisar e expandir o uso desta abordagem em problemas de data mining.
94
Referncias Bibliogrcas
BHM, C.; BERCHTOLD, S.; KEIM, D. Searching in high-dimensional spaces: Index
structures for improving the performance of multimedia databases. ACM Comput. Surv.,
v. 33, p. 322373, 2001.
BOONE, J. M.; SESHAGIRI, S.; STEINER, R. M. Recognition of chest radiograph
orientation for picture archiving and communications systems display using neural
networks. J Digital Imaging, v. 3, p. 190193, 1992.
BOSCARIOLI, C.; SILVA, L. A. da; DEL-MORAL-HERNANDEZ, E. Anlise de
agrupamentos utilizando mapas auto-organizveis em agricultura de preciso. Congresso
Brasileiro de Agricultura de Preciso - ConBAP 2006, So Pedro, SP, p. 1116, 2006.
BOSCARIOLI, C.; SILVA, L. A. da; DEL-MORAL-HERNANDEZ, E. Clustering de
dados de sensores a partir de mapas auto-organizveis. Proceedings of 5
o
Congresso
Ibero-americano de Sensores - IBERSENSOR 2006, Montevideo, p. 15, 2006.
BOSCARIOLI, C.; SILVA, L. A. da; DEL-MORAL-HERNANDEZ, E. Using self
organizing maps and nearest-neighbor to data clustering. The 2008 International
Conference on Articial Intelligence (ICAI08), Las Vegas, USA, p. 463467, 2008.
CASTANN, C. A. B. Extrao de caractersticas em imagens mdicas utilizando
Wavelets. So Carlos, So Paulo: Universidade de So Paulo, 2003.
CASTELLI, V.; BERGMAN, L. Image Databases- Search and Retrieval of Digital
Imagery. 1a. ed. New York: John Wiley Professio, 2001.
CLOUGH, P.; MLLER, H.; SANDERSON, M. The clef 2004 cross-language image
retrieval track. In Proc. 5
th
Workshop Cross-Language Evaluation Forum, CLEF 2004,
v. 3491, p. 597613, Sep. 15-17 2004.
CONSEIL, S.; BOURENNANE, S.; MARTIN, L. Comparison of fourier descriptors
and hu moments for hand posture recognition. European Signal Processing Conference
(EUSIPCO), v. 1, n. 1, p. 16, 2007.
COSTA, J. A. F.; ANDRADE-NETTO, M. L. de. Segmentao de mapas auto-
organizveis com espaoo de sada 3-d. Sba Controle & Automao Sociedade Brasileira
de Automatica, v. 18, p. 150162, 2007.
DAVIES, D. L.; BOULDIN, D. W. A cluster separation measure. IEEE Trans. Patt.
Anal. Machine Intell., PAMI-1, p. 224227, 1979.
DESELAERS, T.; HEGERATH, A.; KEYSERS, D.; NEY, H. Sparse patch-histograms
for object classication in cluttered images. Springer Berlin Journal of Pattern
Recognition, v. 4174/2006, n. 2, p. 202211, 2006.
Referncias Bibliogrcas 95
DOI, K. Diagnostic imaging over the last 50 years research and development in medical
imaging science and technology. Phys. Med. Biol., v. 51, p. R5R27, 2006.
DUDA, R.; HART, P.; STORK, D. Pattern Classication and Scene Analysis. Wiley,
NY: John Wiley Professio, 2000.
DUNCAN, J. S.; AYACHE, N. Medical image analysis: Progress over two decades and
the chalenges ahead. IEEE PAMI, v. 11,2, p. 85105, 2000.
EAKINS, P. J. Towards intelligent image retrieval. Pattern Recognition, v. 35, p. 314,
2003.
FELIPE, J. C. Desenvolvimento de mtodos para extrao, comparao e anlise de
caractersticas intrnsecas de imagens mdicas, visando recuperao perceptual por
contedo. So Carlos, So Paulo: Tese de Doutorado apresentada a Universidade de So
Paulo, 2005.
FREEMAN, W. J. Tutorial on neurobiology: from single neuron to brain chaos.
International Journal of Bifurcation and Chaos, 1992, v. 2, p. 451482, 1992.
FURUIE, S.; M.S.REBELO; M.A.GUTIERREZ; R.A.MORENO; G.H.M.B.MOTTA;
N.BERTOZZO; F.B.NARDON; J.C.B.FIGUEIREDO; P.P.M.OLIVEIRA;
U.TACHINARDI. Pronturio eletrnico de pacientes: integrando informaes cl-
nicas e imagens mdicas. Revista Brasileira de Engenharia Biomdica, v. 19, p. 103115,
Dezembro 2003.
FURUIE, S. S.; REBELO, M. F. S.; MORENO, R. A.; SANTOS, M.; BERTOZZO,
N.; MOTTAL, G. H. M. B.; GUTIERREZ, M. A. Integrating medical images and
clinical information. Proceedings of Fourth International Conference on Information and
Communication Technology (ICICT 2006), Cairo, v. 2670, p. 555563, 2006.
GONZALEZ, R. C.; WOODS, R. E. Digital Image Processing. Upper Saddle River, NJ:
Prentice Hall, 2007.
GULD, M. O.; KOHONEN, M.; SCHUBERT, H.; WEIN, B. B.; LEHMAN, T. M.
Quality of dicom header information for image categorization. Proceedings SPIE, v. 4685,
p. 280287, 2002.
HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. New York: Morgan
Kaufmann Publishers, 2001.
HAYKIN, S. Neural networks: A comprehensive foundation. Upper Saddle River, NJ:
Prentice Hall, 1999.
HU, M.-K. Visual pattern recognition by moment invariants. TRANSACTIONS ON
INFORMATION THEORY, v. 49, n. 1, p. 179187, 1961.
HUANG, H. K. PACS and imaging informatics: Basic principles and applications. 1. ed.
New York: JOHN WILEY PROFESSIO, 2004.
JAIN, A. K.; DUIN, R. P. W.; MAO, J. Statistical pattern recognition: A review. IEEE
Transactions on Pattern Analysis and Machine Intelligence, v. 22, n. 1, p. 436, 2000.
Referncias Bibliogrcas 96
KASKI, S. Dimensionality reduction by random mapping: Fast similarity method for
clustering. In: (IJCNN98), P. of IEEE International Joint Conference on N. N. (Ed.).
Anchorage, AK, USA.: [s.n.], 1998. v. 1, p. 413418.
KELLER, J. M.; GRAY, M. R.; GIVENS, J. A. A fuzzy k-nearest neighbor algorithm.
IEEE Transaction on Systems, Man and Cybernetics, v. 15, n. 4, p. 580585, 1995.
KEYSERS, D.; DAHMEN, J.; NEY, H.; WEIN, B. B.; LEHMANN, T. M. Statistical
framework for model-based image retrieval in medical applications. J Electronic Imaging,
v. 1, p. 5968, 2003.
KHOTANZAD, A.; HONG, Y. H. Invariant image recognition by zernike moments.
IEEE Transaction on Pattern Analysis and Machine Intelligence, v. 12, n. 5, p. 489497,
1999.
KIVILUOTO, K. Topology preservation in self-organizing map. Finland, 1995.
KOHONEN, T. Self-Organizing Maps. Third extended edition. Berlin, Heidelberg, New
York: Springer, 2001.
KOIKKALAINEN, P.; KOSKELA, M.; LAAKSO, S.; OJA, E. Picsom - content-based
image retrieval with self-organizing maps. Elsevier Science, v. 21, p. 11991207, 2000.
KOIKKALAINEN, P.; OJA, E. Self-organizing hierarchical feature maps. Proceedings of
IEEE International Joint Conference on Neural Networks (IJCNN99), San Diego, CA,
USA, v. 2, p. 279284, 1990.
KOSKELA, M. Interactive image retrieval using self-organizing maps. Dissertao
(Mestrado) Helsinki University of Technology, Espoo, Finland, November 2003.
LEHMANN, T. M.; GLDA, M. O.; DESELAERSB, T.; KEYSERSB, D.; SCHUBERTC,
H.; SPITZERA, K.; NEYB, H.; WEINC, B. B. Automatic categorization of medical
images for content-based retrieval and data mining. Computerized Medical Imaging and
Graphics, v. 29, p. 143155, 2005.
MALLAT, S. Multifrequency channel decompositions of images and wavelet models.
IEEE Transaction on Acoustics, Speech, and Signal Processing, v. 37, n. 12, p. 20912110,
December 1989.
M.A.SANTOS; FURUIE, S. Base de imagens para avaliao de algoritmos de
processamento de imagens. In: . Ribeiro Preto: IX CBIS - Congresso Brasileiro de
Informtica em Sade, 2004.
MATSUMOTO, Y.; UMANO, M.; INUIGUCHI, M. Visualization with voronoi
tessellation and moving output units in self-organizing map of the real-number system.
IEEE World Congress on Computational Intelligence. International Joint Conference on
Neural Network, Hong Kong, China, p. 34283434, 2008.
MEDASANI, S.; KRISHNAPURAM, R. Categorization of image databases for ecient
retrieval using robust mixture decomposition. IEEE Workshop on Content-Based Access
of Image and Video Libraries, p. 5054, 1998.
Referncias Bibliogrcas 97
MLLER, H.; N.MICHOUX; BANDON, D.; GEISSBUHLER, A. A review of
content-based image retrieval systems in medical applications-clinical benes and future
directions. International Journal of Medical Informatic, v. 73, p. 123, 2004.
MORENO, R. A.; FURUIE, S. S. A contextual medical image viewer. IEEE Transactions
on Information Technology in Biomedicine, Las Vegas, p. 583592, 2007.
NG, R.; SEDIGHIAN, A. Evaluating multi-dimensional indexing structures for images
transformed by principal component analysis. SPIE Storage and Retrieval for Image and
Video Databases, San Diego, USA., v. 2670, 1996.
OH, K.; KANEKO, K.; MAKINOUCHI, A. Image classication and retrieval based on
wavelet-som. Proceedings of the 1999 International Symposium on Database Applications
in Non-Traditional Environments, v. 38, p. 164167, 1999.
OJA, M.; KASKI, S.; KOHONEN, T. Bibliography of self-organizing map (som) papers:
1998-2001. v. 3, p. 1156, 2003.
PIETKA, E.; HUANG, H. K. Orientation correction for chest images. J Digital Imaging,
v. 3, p. 185189, 1992.
PINHAS, A.; GREENSPAN, H. A continuous and probabilistic framework for medical
image representation and categorization. Proc SPIE, v. 5371, p. 230238, 2003.
RAHMAN, M. M.; BHATTACHARYA, P.; DESAI, B. C. A framework for medical
image retrieval using machine learning and statistical similarity matching techniques
with relevance feedback. IEEE Transactions on information technology in biomedicine,
v. 11, n. 1, p. 5869, 2007.
SANTOS, M.; FURUIE, S. S. Medical image database for software and algorithm
evaluation. In: . San Diego - CA: SPIE, 2006.
SASSI, R. J.; SILVA, L. A. da; DEL-MORAL-HERNANDEZ, E. Neural networks
and rough sets: a comparative study on data classication. The 2006 International
Conference on Articial Intelligence - ICAI, Las Vegas, p. 34283434, 2006.
SASSI, R. J.; SILVA, L. A. da; DEL-MORAL-HERNANDEZ, E. A hybrid architecture
for the knowledge discovery in databases: Rough sets theory and articial neural nets
self-organizing maps. 4th CONTECSI International Conference on Information Systems
and Technology Management, So Paulo, SP, p. 3444, 2007.
SASSI, R. J.; SILVA, L. A. da; DEL-MORAL-HERNANDEZ, E. Validao do
conhecimento descoberto pela arquitetura hbrida (teoria dos rough sets e rede
self-organizing maps) atravs de uma rede multilayer perceptrons usando uma base
de dados de consumidores. 5th CONTECSI International Conference on Information
Systems and Technology Management, So Paulo, SP, p. 410, 2008.
SAUX, B. L.; BOUJEMAA, N. Unsupervised robust clustering for image database
categorization. IEEE Computer Society, v. 01, p. 259262, 2002.
S.DEB; Y.ZHANG. An overview of content-based image retrieval techniques. Advanced
Information Networking and Applications, v. 1, p. 5964, 2004.
Referncias Bibliogrcas 98
SILBERSCHATZS, A.; KORYH, H.; SUDARSHAN, S. Sistema de Banco de Dados. Rio
de Janeiro, RJ: [s.n.], 2006.
SILVA, L. A. da; DEL-MORAL-HERNANDEZ, E.; RANGAYYAN, R. M. Classication
of breast masses using a committee machine of articial neural networks. Journal of
Electronic Imaging, v. 17, n. 1, p. 1317, 2008.
SILVA, L. A. da; MORENO, R.; DEL-MORAL-HERNANDEZ, E.; FURUIE, S. Mapa de
caractersticas auto-organizvel para sistemas de recuperao de imagens por contedo.
Proceedings of CBEB 2006 - XX Congresso Brasileiro de Engenharia Biomdica, p.
254257, 2006.
SILVA, L. A. da; MORENO, R. A.; FURUIE, S. S.; DEL-MORAL-HERNANDEZ,
E. Medical image categorization based on wavelet transform and self-organizing map.
Seventh International Conference on Intelligent Systems Design and Applications,
ISDA2007, Rio de Janeiro, RJ, p. 353356, 2007.
SILVA, L. A. da; SANDMANN, H.; DEL-MORAL-HERNANDEZ, E. A self-organizing
architecture of recursive elements for continuous learning. IEEE World Congress on
Computational Intelligence. International Joint Conference on Neural Network, Hong
Kong, China, p. 27842791, 2008.
SMEULDERS, A. W. M.; WORRING, M.; SANTINI, S.; GUPTA, A.; JAIN, R.
Content-based image retrieval at the end of the early years. IEEE Transaction Pattern
on Machine Intelligence, v. 12, n. 22, p. 13491380, 2000.
SOMToolbox. SOM Toolbox, a function package for Matlab 5 implementing the
Self-Organizing Map (SOM). Abril 2007. Http://www.cis.hut./projects/somtoolbox/.
TRAINA, A. J. M.; ROSA, N. A.; TRAINA-JR, C. Integrating images to patient
electronic medical records through content-based retrieval techniques. 16th IEEE
Symposium on Computer-based Medical Systems (CBMS2003), New York, USA, p.
163168, 2003.
VESANTO, J.; ALHONIEMI, E. Clustering of the self-organizing map. IEEE
Transaction on Neural Network, v. 11, p. 586600, 2000.
WEBER, R.; SCHEK, H.-J.; BLOTT, S. A quantitative analysis and performance study
for similarity-search methods in high-dimensional spaces. p. 194205.
WHITE, D.; JAIN, R. Similarity indexing: Algorithms and performance. San Diego,
USA, v. 2670, 1996.
WU, S.; RAHMAN, M.; CHOW, T. Content-based image retrieval using hierarchical
self-organizing quadtree map. The journal of Pattern Recognition Society, v. 38, p. 707
722, 2005.
Y.RUI; HUANG, T. Image retrieval: Current techniques,promising directions, and open
issues. Journal of Visual Communication and Image Representation, v. 10, p. 3962,
1999.
Referncias Bibliogrcas 99
ZHANG, D. S.; LU, G. Content-based shape retrieval using dierent shape descriptors:
A comparative study. IEEE International Conference on Multimedia and Expo, p.
317320, 2001.
ZHANG, H. J.; ZHONG, D. Scheme for visual feature-based image indexing. Storage
and Retrieval for Image and Video Databases (SPIE), v. 2420, p. 3646, 1995.
ZUCHINI, M. H. Aplicaes de Mapas Auto-Organizveis em Minerao de Dados e
Recuperao de Informao. Campinas, So Paulo: Universidade Estadual de Campinas,
2003.
100
Apndice A -- ndice de Davies-Boldin
De acordo com o ndice de validao de Davies-Bouldin, o melhor agrupamento minimiza
a eq. A.1:
IDB =
1
C
C
k=1
max
l = k
_
Sc(Q
k
) +Sc(Q
l
)
d
ce
(Q
k
, Ql)
_
(A.1)
onde C o nmero de grupos, Sc a distncia entre as amostras dos grupos Q
k
e Q
l
baseada na distncia para o centride, A.2
Sc(Q
k
) =
_
1
N
k
N
k
j=1
|c
k
x
j
|
p
_
1
p
(A.2)
onde x
j
Q
k
, N
k
o nmero de amostras no agrupamento Q
k
e c
k
=
1
N
k
x
i
Q
k
x
i
A distncia entre grupos d
ce
, tambm baseada em centride, dada por:
d
ce
(Q
k
, Q
l
) =
_
d
k=1
|c
k
x
k
|
p
_
1
p
(A.3)
onde d a dimenso do vetor x
k
Portanto, valores do ndice de Davies-Bouldin menores que um representam agrupa-
mentos separados, enquanto valores maiores que um representam grupos possivelmente
cruzados.
101
Apndice B -- Metodologia para segmentao
do mapa SOM
A proposta para segmentao do mapa SOM feita por Vesanto e Alhoniemi (VESANTO
E ALHONIEMI, 2000) utiliza o k-mdias, mtodo tradicional de agrupamento de dados.
O esquema desta segmentao est ilustrado na Figura B.1.
No esquema da gura est mostrado resumidamente que a rede SOM treinada a
partir de uma base de vetores de caractersticas, gerando os vetores de pesos do Mapa
SOM. Com base nestes vetores de caractersticas, aplica-se o k-mdias, variando o nmero
de k e, a cada variao, o ndice de Davies-Bouldin (IDB) (DAVIES; BOULDIN, 1979)
calculado. O IDB, apresentado no Anexo A, uma medida que considera a relao da
disperso intra-grupo e a disperso inter-grupo. Assim, o menor valor de IDB indica
que o nmero de grupos no vetor de pesos ocorrer quando a disperso inter-grupo for
pequena e a disperso intra-grupo for grande. A partir desta informao, aplicado o
Figura B.1: Esquema para segmentao do mapa SOM (VESANTO; ALHONIEMI, 2000).
Apndice B -- Metodologia para segmentao do mapa SOM 102
k-mdias, sendo o valor de k utilizado aquele que resultou em menor valor de IDB e,
assim, rotula-se o mapa.
Na metodologia anteriormente descrita de segmentao do mapa, o menor ndice in-
dica o nmero de grupos potencial e a segmentao do mapa feita. Neste trabalho,
como se conhece o nmero de grupos, o clculo do IDB feito para um nico valor de k
apenas.
103
Anexo A -- Produo bibliogrca
A seguir, so listadas todas as publicaes obtidas durante o programa de doutorado e
relacionadas tese.
A.1 Publicao em revista
1.Leandro Augusto da Silva, Emilio Del-Moral-Hernandez e Rangaraj Mandaraj
Rangayyan. Classication of breast masses using a committee machine of articial
neural networks. Journal of Electronic Imaging, v. 17, n. 1, p. 13-17, 2008.
A.2 Publicaes em captulos de livro
1.Clodis Boscarioli, Leandro Augusto da Silva e Emilio Del-Moral-Hernandez.
Aplicacin de Redes Neuronales Articiales a la Minera de Datos. Captulo 14
del livro: Metodos de processamento avanzado e Inteligencia Articial en Sistemas
Sensores y Biosensores (pp. 13).
2.Leandro Augusto da Silva, Ramom Alfredo Moreno, Sergio Shiguemi Furuie
e Emilio Del-Moral-Hernandez. Cluster-based Classication using Self-Organizing
Maps for Medical Image Database. Chaper from Intelligent Image Processing Pro-
cessing Book. Published in SCI Springer.
A.3 Publicaes em congressos internacionais
1.Renato Jos Sassi, Leandro Augusto da Silva e Emilio Del-Moral-Hernandez.
Neural Networks and Rough Sets: a Comparative Study on Data Classication. In:
A.3 Publicaes em congressos internacionais 104
The 2006 International Conference on Articial Intelligence - ICAI 06, Las Vegas,
2006.
2.Clodis Boscarioli, Leandro Augusto da Silva e Emilio Del-Moral-Hernandez.
Clustering de dados de sensores a partir de mapas auto-organizveis. Proceedings
of 5
o
Congresso Ibero-americano de Sensores - IBERSENSOR 2006, pp.1-5, Monte-
video.
3.Leandro Augusto da Silva, Ramom Alfredo Moreno, Sergio Shiguemi Furuie
e Emilio Del-Moral-Hernandez. Medical Image Categorization Based on Wavelet
Transform and Self-Organizing Map. ISDA 2007. Seventh International Conference
on Intelligent Systems Design and Applications, pp. 353-356. Rio de Janeiro, 20-24
Oct. 2007.
4.Renato Jos Sassi, Leandro Augusto da Silva e Emilio Del-Moral-Hernandez. A
Hybrid Architecture for the Knowledge Discovery in Databases: Rough Sets The-
ory and articial neural nets Self-Organizing Maps. 4th CONTECSI International
Conference on Information Systems and Technology Management. 30 May-01 June,
2008 USP/So Paulo/SP.
5.Renato Jos Sassi, Leandro Augusto da Silva e Emilio Del-Moral-Hernandez.
Validao do conhecimento descoberto pela Arquitetura Hbrida (Teoria dos Rough
Sets e rede Self-Organizing Maps) atravs de uma rede Multilayer Perceptrons
usando uma base de dados de consumidores. 5th CONTECSI International Con-
ference on Information Systems and Technology Management. 04-06 June, 2008
USP/So Paulo/SP
6.Clodis Boscarioli, Renato Jos Sassi, Leandro Augusto da Silva e Emilio Del-
Moral-Hernandez. A Methodology for Data Mining to Support Customer Rela-
tionship Management. 5th CONTECSI International Conference on Information
Systems and Technology Management. 04-06 June, 2008 USP/So Paulo/SP.
7.Clodis Boscarioli, Leandro Augusto da Silva e Emilio Del-Moral-Hernandez.
A.4 Publicaes em congressos nacionais 105
Using self Organizing Maps and Nearest-Neighbor to Data Clustering. The 2008
International Conference on Articial Intelligence (ICAI08). pp. 463-467. Las
Vegas, USA, July 14-17, 2008.
8.Leandro Augusto da Silva, Humberto Sandmann e Emilio Del-Moral-Hernandez.
A Self-Organizing Architecture of Recursive Elements for Continuous Learning. In-
ternational Joint Conference on Neural Networks (IJCNN 2008). pp. 2784-2791.
June 1-6, 2008. Hong-Kong.
A.4 Publicaes em congressos nacionais
1.Leandro Augusto da Silva, Ramom Alfredo Moreno, Sergio Shiguemi Furuie e
Emilio Del-Moral-Hernandez. Mapa de caractersticas auto-organizvel para siste-
mas de recuperao de imagens por contedo. Proceedings of CBEB 2006 - XX
Congresso Brasileiro de Engenharia Biomdica, pp.254-257, 20006, So Pedro-SP.
2.Clodis Boscarioli, Leandro Augusto da Silva e Emilio Del-Moral-Hernandez.
Anlise de agrupamentos utilizando mapas auto-organizveis em agricultura de pre-
ciso. Congresso Brasileiro de Agricultura de Preciso - ConBAP 2006, So Pedro
- SP.
3.Renato Jos Sassi, Leandro Augusto da Silva e Emilio Del-Moral-Hernandez. A
Methodology using Neural Networks to Cluster Validity Discovered from a Marke-
ting Database. 10th SBRN2008 Brazilian Symposium on Neural Networks. 26-30
October 2008. Salvador, Bahia.
106
Anexo B -- Descrio dos programas para
categorizao de imagens
Foram gerados dois programas com interfaces para exemplicar a utilizao do projeto. O
primeiro foi construdo usando a ferramenta de programao de interface do Matlab (GUI
- Guide User Interface) e o segundo usando conceitos de programao para internet.
O primeiro deles, em MatLab, est ilustrado na Figura B.1.
Cada objeto numerado na interface ilustrada na Figura B.1 est detalhado a seguir:
1.) classe da imagem de teste.
2.) distncia euclidiana entre a imagem de teste e o vetor de pesos do neurnio ven-
cedor.
3.) nmero do neurnio vencedor.
4.) boto para escolha de uma imagem para teste.
5.) classicao pelo rtulo do neurnio vencedor (votao).
6.) classicao pela imagem mais prxima.
7.) classicao pelo rtulo do neurnio vencedor (histograma).
8.) classicao por grau de pertinncia com base no conjunto de imagens que os
quatro neurnios vencedores representam.
9.) nmero de imagens comparadas para a classicao (mximo de 50).
Anexo B -- Descrio dos programas para categorizao de imagens 107
Figura B.1: Interface para classicao automtica desenvolvida no MatLab
Anexo B -- Descrio dos programas para categorizao de imagens 108
10.) tempo gasto para a classicao.
11.) escolha do tipo de classicador (possibilidade de insero de outros classicadores).
12.) escolha da forma de ordenao das imagens mais parecidas (mais prximas
imagem de teste e outra opo pela proximidade com o neurnio vencedor).
13.) boto para fazer a classicao e exibio das 10 imagens mais parecidas.
14.) categoria da imagem de treinamento.
15.) distncia euclidiana entre o vetor de caracterstica da imagem e o vetor de pesos
do neurnio vencedor.
16.) nmero do neurnio vencedor.
17.) nome do arquivo da imagem de treino.
Para operar o programa, primeiro necessrio escolher uma imagem para a classi-
cao (item 4). O programa suporta imagens em formato DICOM ou PNG. Para a
classicao, necessrio selecionar o classicador (item 11) e a ordem em que as 10 ima-
gens semelhantes sero retornadas (item 12). Aps as denies anteriores, a classicao
pode ser iniciada (item 13). Primeiramente, os resultados de classicao (itens 5, 6, 7 e
8) e tempo gasto (item 10) so exibidos ao usurio. Aps os resultados da classicao,
as 10 imagens mais parecidas so exibidas na interface.
A interface aqui apresentada extensvel para desenvolvimentos futuros. Alguns itens
podem ser incorporados e outros podem ser retirados. O item 9 um exemplo de item
que poderia ser retirado, j que a informao contida nele no relevante para o uso nal
da interface.
Em relao s formas de classicao, apesar de pouco discutida a maneira de apre-
sentar respostas em termos de pertinncia (Fuzzy), a interface j foi preparada para esse
resultado. Para exemplicar este tipo de resultado, aproveitou-se o classicador Fuzzy-
Knn disponvel no Matlab.
Anexo B -- Descrio dos programas para categorizao de imagens 109
Uma segunda interface, projetada para estar disponvel na internet, foi desenvolvida
por alunos do segundo ano da Escola Politcnica da Universidade de So Paulo (Alexandre
Luiz Chiua, Joo Renato Molnar, Leandro Makoto Neves Hoshina, Nattan Incio de
Oliveira Lima) Figura B.2. O programa um projeto para exemplicar a aplicao do
categorizador na WEB. A tecnologia envolvida foi programao para internet simples
(HTML, CSS e Java Script). As opes de uso so simples:
1.) escolha da imagem de teste.
2.) ao passar o mouse sobre a imagem de treino, as informaes textuais do paciente
so exibidas e ao clicar o boto direito do mouse, a imagem de treino colocada ao
lado da imagem de teste.
Contudo, apesar da simplicidade no funcionamento, o programa ilustra como as infor-
maes textuais do paciente podem ser combinadas com a respectiva imagem. Para esta
proposta, as informaes do paciente foram estruturadas no formato XML (eXtensible
Markup Language) Figura B.3.
O programa est disponvel para visita no seguinte endereo:
http://www.lsi.usp.br/ leandro/VisualizadorContextual/programa.html.
Anexo B -- Descrio dos programas para categorizao de imagens 110
Figura B.2: Interface para classicao automtica desenvolvida com programao
WEB.
Anexo B -- Descrio dos programas para categorizao de imagens 111
Figura B.3: Exemplo de arquivo XML para estruturao das informaes do paciente.