Escolar Documentos
Profissional Documentos
Cultura Documentos
SO LUS
2014
SO LUS
2014
BANCA EXAMINADORA
Portanto, quer comais, quer bebais ou faais outra coisa qualquer, fazei tudo para a glria de
Deus.
(1 Corntios 10:31)
AGRADECIMENTOS
Primeiramente, agradeo a Deus pelo dom da vida e pela sua graa em minha vida;
Pelo apoio recebido da minha famlia, em especial, da minha me;
Pela orientao e dedicao do meu orientador Geraldo Braz Jnior;
Pela contribuio e ajuda dos meus professores, amigos e colegas de curso nessa jornada
difcil, porm gratificante.
RESUMO
O cncer de mama representa uma das principais causas de morte entre as mulheres no
mundo ocidental. responsvel, tambm no Brasil, por milhares de mortes e novos casos ao
ano. A probabilidade de cura aumenta consideravelmente com o diagnstico precoce, podendo
assim, evitar maiores danos sade da mulher. Com isso, ferramentas computacionais so
desenvolvidas a fim de auxiliar o mdico especialista e se possvel detectar leses com o
padro maligno ainda em estgio inicial que estejam pouco visveis em imagens
mamogrficas. Entretanto, ainda h certa dificuldade em se detectar leses por imagens
devido particularidade da anatomia da mama feminina e tambm em reconhecer se aquela
leso apresenta um padro maligno. Para isso, este trabalho se concentra em fazer um estudo
visando reconhecer padres segundo a forma geomtrica de uma determinada regio da
mama. O objetivo deste trabalho a extrao de caractersticas geomtricas como:
caractersticas geomtricas relacionadas ao comprimento do raio, densidades e momentos da
imagem e classificar os indivduos de acordo com seu grupo. Para classificao massa ou no
massa, os resultados so promissores.
Palavras-chave: Cncer de Mama, Geometria Cncava, Anlise Geomtrica.
ABSTRACT
Breast cancer represents one of the leading causes of death among women in the western
world. It is also responsible in Brazil for thousands of deaths and new cases per year. The
likelihood of cure increases considerably with early diagnosis, and thus, avoid further damage
to women's health. Thus, computational tools are developed to assist the specialist and can
detect lesions with malignant pattern still at an early stage that are barely visible on
mammography. However, there is still some difficulty in detecting lesions in images due to
the particularity of the female breast anatomy and also to recognize if that presents a
malignant lesion pattern. Therefore, this work focuses on geometric study to recognize
patterns according to the geometrical shape of a particular breast region. The objective of this
work is the extraction of geometric features such as: geometrical characteristics related to the
radius length, density and image moments and classify individuals according to their group.
To classification mass or no mass, the results are promising.
Keywords: Breast Cancer, Concave Geometry, Geometric Analysis.
LISTA DE FIGURAS
Figura 2.1: Etapas do processamento de imagens. Fonte: adaptado de (GONZALEZ;
WOODS, 2010).........................................................................................................................20
Figura 2.2: esquerda, a imagem antes da equalizao de histograma e direta, a mesma
imagem aps a equalizao de histograma...............................................................................22
Figura 2.3: Contorno computado a partir de um conjunto de pontos......................................27
Figura 2.4: esquerda um k-simplexo -exposto. direita um k-simplexo que no exposto......................................................................................................................................28
Figura 2.5: esquerda um k-simplexo -exposto. direita um k-simplexo que no exposto......................................................................................................................................29
Figura 3.1: Etapas da metodologia utilizada para desenvolver o estudo geomtrico de
neoplasias mamrias.................................................................................................................32
Figura 3.2: esquerda, a imagem de um ndulo antes da equalizao de histograma e
direta, a imagem do mesmo ndulo aps a equalizao de histograma....................................34
Figura 3.3: Diviso de faixas. A primeira imagem esquerda a imagem original e direita as
imagens geradas a partir da quantizao no-linear, respectivamente, primeira, segunda e
terceira faixa..............................................................................................................................35
Figura 3.4: Os contornos (destacados pelas linhas brancas) computados de cada imagem
representando cada faixa...........................................................................................................36
Figura 4.1: Grfico dos resultados da acurcia pelo nmero de faixas.....................................40
Figura 4.2: Grfico dos resultados da acurcia pelo valor de ................................................41
Figura 4.3: Grfico dos resultados da acurcia pelo valor do grau do Zernike Moments........42
Figura 4.4: esquerda uma imagem com o padro no massa e direita uma imagem com o
padro massa.............................................................................................................................43
Figura 4.5: Diviso de faixas da quantizao no linear: (a) Padro Massa (b) Padro No
Massa........................................................................................................................................44
Figura 4.6: esquerda a imagem de um ndulo benigno e direita a imagem de ndulo
maligno......................................................................................................................................46
LISTA DE TABELAS
Tabela 2.1: Fatores de risco do cncer de mama.....................................................................18
Tabela 4.1: Resultados gerais e individuais das medidas geomtricas utilizadas para
classificao massa e no massa...............................................................................................43
Tabela 4.2: Resultados gerais e individuais das medidas geomtricas utilizadas para
classificao de benigno e maligno...........................................................................................45
SUMRIO
1 INTRODUO....................................................................................................................11
1.1 Trabalhos Relacionados...........................................................................................12
1.2 Objetivos.................................................................................................................14
1.2.1 Objetivos Especficos...........................................................................................14
1.3 Organizao do Restante do Trabalho.....................................................................14
2 FUNDAMENTAO TERICA.......................................................................................16
2.1 Cncer de Mama......................................................................................................16
2.2 Processamento de Imagens......................................................................................18
2.3 Pr-processamento..................................................................................................19
2.3.1 Equalizao do Histograma..................................................................................20
2.4 Extrao de Caractersticas.....................................................................................21
2.4.1 Anlise Geomtrica..............................................................................................22
2.4.2 Momentos............................................................................................................23
2.4.3 Momentos Invariantes..........................................................................................24
2.4.4 Zernike Moments.................................................................................................25
2.5 Alpha Shapes...........................................................................................................25
2.6 Reconhecimento de padres....................................................................................28
2.6.1 Random Forest.....................................................................................................29
3 METODOLOGIA................................................................................................................31
3.1 Aquisio de Imagens..............................................................................................32
3.2 Pr-processamento..................................................................................................32
3.2.1 Equalizao de Histograma..................................................................................33
3.2.2 Quantizao No-linear........................................................................................33
3.3 Alpha Shapes...........................................................................................................34
3.4 Medidas Geomtricas..............................................................................................35
3.5 Ajuste de Parmetros...............................................................................................36
3.6 Classificao............................................................................................................37
4 RESULTADOS.....................................................................................................................38
4.1 Determinando Parmetros.......................................................................................39
4.2 Resultados Massa e No Massa..............................................................................41
12
1 INTRODUO
Nos pases ocidentais, o cncer de mama representa uma das principais causas de
morte entre as mulheres. As estatsticas indicam aumento de sua frequncia tanto nos pases
desenvolvidos quanto naqueles em desenvolvimento. Segundo a Organizao Mundial da
sade (OMS), nas dcadas de 1960 e 1970, registrou-se, nos estudos de cncer de base
populacional de diversos continentes, um aumento de dez vezes em suas taxas de incidncia
ajustadas por idade (INCA). Tem-se documentado tambm o aumento no risco de mulheres
migrantes de reas de baixo risco para reas de alto risco. Nos Estados Unidos, a Sociedade
Americana de Cancerologia indica que cada dez mulheres tem a probabilidade de desenvolver
cncer de mama durante toda a sua vida (INCA).
Segundo o Ministrio da Sade (Brasil, 2003), no Brasil, o cncer de mama o que
mais causa morte entre as mulheres. Anualmente, so registradas por volta de 10 mil mortes
decorrentes desse tipo de cncer. Ele o principal a atingir a populao feminina, sendo
responsvel por cerca de 40 mil novos casos ao ano.
A deteco precoce do cncer de mama seguido do tratamento efetivo tm
comprovadamente reduzido a mortalidade em vrias sries de estudos. No Brasil, ainda 60%
dos tumores malignos da mama so diagnosticados em estados avanados. Portanto notrio
que diante dos nmeros atuais, esforos no devem ser poupados no desenvolvimento de
estratgias de diagnstico precoce (preveno secundria), j que a preveno primria dessa
neoplasia, que a tentativa de evitar o contato ou modificar a ao de agentes que induzem a
carcinognese, ainda no uma realidade para os casos de cncer de mama espordicos (sem
fator de risco conhecido), que constituem o tipo mais frequente desta neoplasia. O diagnstico
precoce consiste em identificar leses em fases iniciais em mulheres com algum sinal de
cncer de mama (ndulo, retrao do mamilo, etc.) e o rastreamento que a aplicao
sistemtica de um exame, em populaes assintomticas, para identificar mulheres com
anormalidades sugestivas de cncer.
A mamografia, entre os mtodos de diagnstico por imagem, o mais utilizado para o
screening e diagnstico do cncer de mama. Vrios estudos comprovam a eficcia da
mamografia em detectar leses pequenas e impalpveis (screening) ou em estgios iniciais.
Entretanto, sua sensibilidade diminui consideravelmente (estimada em 81% a 94%, decai para
54 a 58% em algumas sries) entre as mulheres com menos de 40 anos (SANTOS, 2012).
13
Limitaes tais como a alta densidade das mamas jovens, gravidez e amamentao, processos
inflamatrios, uso de prteses e mamas operadas ou irradiadas no invalidam o mtodo, mas
exigem conhecimentos na hora de solicitar o exame. A mamografia digital, apesar do alto
custo, aumenta a taxa de deteco de cncer em mamas densas. No Brasil, a rotina mais
frequente fazer o exame de screening anualmente entre os 40 e 50 anos de idade. Todavia, a
presena de histrico familiar de cncer ou antecedentes de doenas proliferativas da mama
altera esta rotina e o incio do screening ocorre de forma precoce (por volta dos 35 anos de
idade).
14
O ndice de Biodiversidade Shannor-Wiener por (SOUSA, 2011), geralmente aplicado
para medir a biodiversidade em um ecossistema, foi aplicado para descrever padres de
regies de imagem de mama. E por fim foi utilizado o Support Vector Machine pra classificar
regies em massa ou no massa. Essa metodologia obteve uma acurcia mxima de 99,95%.
Em (SALES, 2013) tcnicas de Processamento de Imagem foram usadas para preparar
as mamografias e, em seguida, o nvel de simetria entre a mama esquerda e a direita foi
medido com coeficiente de correlao cruzada e distncia euclidiana. O ndice de Getis-Ord
na sua forma geral foi usado para extrair caractersticas das imagens para treinar uma
Mquina de Vetores de Suporte que classificou regies das mamografias em leso e no leso.
A metodologia, de modo geral, apresentou 80,11% de sensibilidade, 84,41% de especificidade
e 84,38% de acurcia.
Em (SILVA et al., 2006) foi utilizada a textura como caracterstica para a segmentao
por agrupamento com K-means. Cada estrutura identificada pelo K-means descrita usando
caractersticas de textura e geometria para formar a sua assinatura, usadas para classificao
com K-NN, obtendo especificidade igual a 85,13% e sensibilidade igual a 81,81%.
Em (MARTINS et al., 2006) foi descrito uma metodologia para classificao de
tecidos da mama em normal, benigno ou maligno, atravs de matrizes de coocorrncia e redes
neurais Bayesianas. A partir de cada amostra so obtidas diversas matrizes de coocorrncia, as
quais so utilizadas no clculo de medidas estatsticas de textura. Uma rede neural
Bayesiana e usada para avaliar a eficacia dessas medidas em classificar cada amostra de
tecido. A metodologia obteve uma taxa de acerto de 86.84%.
Em (ROCHA, 2014) foi descrito uma metodologia que utiliza textura e aprendizado de
mquina para descriminar padres malignos e benignos. Alm disso, foi ampliado o conceito
de ndice de Diversidade, atravs do uso da informao de coocorrncia de espcies, com o
propsito de aumentar a eficincia da extrao de caractersticas de textura. Assim, foram
utilizadas tcnicas Local Binary Pattern, Funo K de Ripley e os ndices Shannon,
Mchintosh, Simpson, Gleason e de Meninhick. Na classificao foi utilizado Mquina de
Vetores de Suporte com o objetivo de classificar massas malignas e benignas. O melhor
resultado foi obtido utilizando a funo K de Ripley com 92,2% de acurcia, 92,96% de
sensibilidade e 91,26% de especificidade.
15
1.2 Objetivos
O objetivo geral deste trabalho consiste no estudo de caractersticas geomtricas
aplicadas a neoplasias mamrias extradas de mamografias digitalizadas atravs do
desenvolvimento de uma metodologia que realiza a extrao de caractersticas geomtricas a
fim de determinar um padro discriminatrio e posteriormente realizar dois testes de
classificao, sendo o primeiro a classificao massa e no massa e o segundo a classsificao
maligna ou benigna.
Estudar e aplicar o uso da geometria cncava para descrio de forma para obter
melhor eficincia na extrao de caractersticas.
16
classificao. Apresenta tambm a seleo de parmetros para que resultassem em
melhor eficincia na classificao e deteco de contornos cncavos;
as
imagens
mamogrficas
que
foram
propostas
para
todo
17
2 FUNDAMENTAO TERICA
Neste captulo so abordados os fundamentos tericos que foram utilizados para
elaborar esta metodologia. Os temas que so abordados nas sees seguintes so: o cncer de
mama, o processamento de imagens bem como suas etapas utilizadas nesse trabalho do prprocessamento, deteco de contornos cncavos, extrao de caractersticas baseada em
geometria cncava e classificao.
18
podem contribuir para o aumento da incidncia do cncer de mama em todo mundo
(SOARES et al., 2013).
Por outro lado, as neoplasias mamrias do tipo hereditrio correspondem a 5% a 10%
dentre os casos de cncer de mama, sendo este o grupo muito relacionado a alteraes de
genes supressores de tumor com os genes BRCA 1 e BRCA 2 e o P53. A prevalncia de
mutao deletria no gene BRCA 1 de 1/800 na populao geral, sendo mais frequente nas
descendentes de judeus asquenazes. Mulheres portadoras de mutaes nesses genes tm o
risco estimado que varia de 56% a 85% de desenvolver o cncer de mama durante sua vida,
tendendo a apresent-lo mais precocemente (SOARES et al., 2013).
Vrias condies so reconhecidas como capazes de aumentar ou diminuir a chance de
desenvolvimento do cncer de mama como os descritos na Tabela 2.1:
19
de estudar e obter mtodos computacionais auxiliando os profissionais da sade no
diagnstico. Atravs disso, houve a possibilidade de desenvolver ferramentas para o
diagnstico auxiliado por computador (Computer-Aided Diagnosys CAD, 2005).
Os sistemas CAD tm como objetivo auxiliar e aumentar a preciso do diagnstico do
mdico, atravs do uso de resultados do computador como referncia, como, por exemplo, a
indicao de reas suspeitas da imagem. Este auxilio importante, pois o diagnstico do
especialista est sujeita s variaes pessoais (como fadiga visual e distrao). Assim, os
sistemas CAD tm mostrado que podem melhorar o desempenho dos diagnsticos oferecendo
uma segunda opinio ao especialista mdico e podem auxiliar no rastreamento precoce do
cncer de mama.
20
2.3 Pr-processamento
A imagem adquirida pode conter alguns rudos, contraste e/ou brilho inadequados. O
objetivo do pr-processamento melhorar a qualidade da imagem para ser processada nas
etapas posteriores. As operaes lineares ou no lineares efetuadas nesta etapa trabalham
diretamente com os valores de intensidade dos pixels. A tcnica utilizada nesse trabalho foi a
equalizao de histograma.
21
forma a obter um histograma mais uniforme (MARQUES, 1999). A funo utilizada para
equalizar o histograma chamada de funo de distribuio acumulada.
Seja r a varivel que representa os nveis de cinza da imagem a ser aprimorada.
Assume-se que r pode ser normalizado no intervalo [ L 1,0 ] . Com r = 0 representando
preto e
Os nveis de cinza em uma imagem podem ser considerados como variveis aleatrias
no intervalo [0, 1]. Assim, pode-se obter um descritor fundamental que a funo densidade
de probabilidade. Portanto, pr (r) e ps (s) denotam a funo densidade de probabilidade das
variveis aleatrias de r e s. Como neste caso utiliza-se variveis discretas para descrever os
nveis de cinza das imagens que foram utilizadas, a probabilidade de ocorrncia do nvel de
cinza rk em uma imagem dada por:
nk
(2.2)
k=0,1,2, L1
n
Sendo n o nmero total de pixels na imagem, nk o nmero total de pixels que tem o
pr ( r k )=
nvel de cinza rk , e L o nmero total de nveis de cinza possveis em uma imagem. Ento a
verso discreta da transformao dada por:
k
nj
k =0,1,2, , L 1.
(2.3)
j=0
j=0 n
Assim, a sada processada obtida pelo mapeamento de cada pixel com nvel rk na
s k =T ( r k ) = pr ( r j )=
22
23
2.4.1 Anlise Geomtrica
A anlise geomtrica visa descrever o quo as massas so definidas em termo de
circularidade, a espicularidade e a rugosidade. O estudo dessas medidas visando descrever as
formas deve-se ao comportamento distinto entre ndulos malignos e ndulos benignos.
Enquanto neoplasias benignas possuem uma chamada pseudocpsula que impede o tumor de
crescer e invadir os tecidos normais circundantes, fazendo com que esses ndulos tenham
contornos bem definidos e margens e formas arredondadas e suaves, as neoplasias malignas
(sem a pseudocpsula) tendem a invadir de forma envolvente os tecidos, resultando em
aspectos ultrassonogrficos mal definidos, contornos irregulares e formas espiculadas (TSUI
et al., 2010). Portanto, partindo do princpio das diferenas entre esses dois grupos de
ndulos, foram calculadas medidas geomtricas.
As medidas calculadas so: Circularidade, Compacidade, Desvio Padro, Razo De
rea, Rugosidade (CHIANG, CHIU, 2001); Densidade Circular e Quadrangular, Hu
Moments (HU, 1962) e Zernike Moments (TEAGUE, 1980).
2
P
A
Mede o quo circular o objeto em relao ao seu permetro (P) tomando como
Circularidade 1: C1=
explicitado posteriormente.
P2
Compacidade: C o=
4 A
Mede o quo compacto o objeto distribudo em sua rea (A) ao longo de seu
permetro (P).
readoobjeto
readofechoconvexodoobjeto
Mede o quo cncavo ou quo convexo o objeto.
Convexidade: CV =
24
( x ( i ) X ) +( y ( i) Y )
d ( i )=
2
max
( d (i ) )
(2.4)
O valor max(d(i)) representa o valor mximo de d(i). Assim o desvio mdio ser dado por:
N
1
d avg= d ( i )
N i=1
(2.5)
2
1
d (i ) d avg )
(
N 1
Mede o desvio padro das distncias radiais de cada objeto.
N
1
Razo de rea: A=
(d (i ) d avg ) . Onde d ( i ) d avg
d avg N i=1
Mede a porcentagem do tumor que est fora da regio circular.
Desvio Padro: =
R= d ( i ) d (i+1 )
Rugosidade:
i=1
extrada a razo entre a rea da parte do objeto dentro da circunferncia (Aoi) e a rea
da circunferncia (Aci).
2.4.2 Momentos
Momentos (ou Moments) descrevem o arranjo de pixels do objeto, combinando rea,
compacidade, irregularidade na forma e outros descritores. So descritores globais de forma e
foram originalmente introduzidos na dcada de 1960 (HU,1962) para anlise de imagens
digitais. Momentos so frequentemente associados como reconhecimento de padres
estatsticos e o seu uso vem sendo bem-sucedido em muitas aplicaes.
O momento cartesiano bidimensional est associado como uma ordem que se inicia a
partir de um valor baixo (onde o mais baixo zero) at ordens superiores. O momento (mpq)
de ordem p e q da funo I(x, y) definido por:
p
m pq= x y I ( x , y ) dxdy
(2.6)
25
Para imagens discretas, usualmente aproximado para:
m pq= x p y q I ( x , y )
x
(2.7)
pq= ( x x o ) ( y y o ) I ( x , y )
x
onde
( xo , yo )
(2.8)
relao:
x o=
(2.9)
m10
m
y o= 01
m00
m00
h2=( 20 02 ) + 4 211
2
h3=( 30 3 12 ) + ( 3 21 03 )
2
)
) ) +4
2
(2.10)
(
+ )(( + ) 3 ( + ) )+ ( 3
2
12
30
12
11
21
03
12
pq
00
(2.11)
representa os momentos centrais invariantes escala e rotao. E por fim na Equao 2.12:
26
=
p+ q
+1
2
(2.12)
n+1
V nl ( x , y ) f ( x , y )
x
y
onde x 2+ y 2 1 , 0 l n , f ( x , y )
(2.13)
V nl ( x , y )= ( 1 )
m=0
( n m ) !
m!
)(
n 2 m+l
n 2 m l
!
!
2
2
1
onde, 0 l n , n l igual, =tan
( yx ) , e
(x
+y
n
m
2 2
e ti
(2.14)
i= 1 .
27
Com isso, a soluo adotada nesse trabalho foi a utilizao do algoritmo de geometria
cncava chamado Alpha Shapes. Atravs desse algoritmo, a partir de um conjunto de pontos
pode-se obter o contorno cncavo de cada objeto da imagem a ser processada. Assumindo que
h um conjunto
S d
computar a forma dos n pontos, ou seja, traar um contorno cncavo que englobe esse
conjunto de pontos. Para controlar o grau de concavidade do contorno do conjunto S de
pontos utilizado o parmetro . Assim, para cada ponto do conjunto S de pontos, ser
englobado por uma circunferncia de raio .
Figura 2.3: Contorno computado a partir de um conjunto de pontos representado pela linha
mais escura.
Na Figura 2.3, possvel observar que os pontos pertencentes ao contorno do Alpha
Shapes so incidentes sobre o contorno das circunferncias. Ao alterar o valor de , altera-se o
tamanho da circunferncia e assim altera-se a concavidade da forma computada. Para valores
de que tendem a zero, o Alpha Shapes degenera para o conjunto de pontos. J para valores
28
de relativamente altos que tendem ao infinito, no haver contornos internos a outros e nem
contornos isolados um dos outros. Portanto, esse contorno ser um fecho convexo do conjunto
de pontos existentes.
Para 0 < < , seja uma circunferncia aberta com raio . Uma 0-circunferncia um
ponto e uma -circunferncia um espao aberto. Uma circunferncia b chamada de vazia
se b S = 0. Com isso, um k-simplexo T dito -exposto se existe uma -circunferncia
vazia onde T = b S e b a superfcie da esfera (para d = 3) ou da circunferncia (para d =
2) delimitadora b. Onde d representa a dimenso em que se encontra o conjunto de pontos. T
o fecho convexo de T e
T S com
chamado de k-simplexo. Na Figura 2.4, pode-se observar o exemplo de um k-simplexo exposto para o caso de d = 2.
29
2. Todos os k-simplexos que sejam faces para outros simplexos em DT(S).
Portanto, para que T DT(S), T deve ser um -exposto simplexo de S. Assim
atravs da triangulao DT(S) obtida, para obter o -shapes do conjunto de pontos, cada face
da triangulao deve atender pelo menos uma das seguintes condies:
1. A circunferncia que engloba a face T vazia e tem raio menor que , ou
2. Se T face de outro simplexo no conjunto -complexo, que representado por C
(S).
30
2.6.1 Random Forest
Random Forest um algoritmo de classificao formado por um conjunto de rvores
estruturadas classificadoras. Atravs dessas rvores de classificao, em tempo de
treinamento, o algoritmo produz a classificao de acordo com o resultado independente de
cada uma dessas rvores, isto , a classificao final ser dada pelo maior nmero de votos
dados por rvore.
O procedimento comum para todas as rvores que, para a k-sima rvore, um vetor
aleatrio vk gerado de forma independente dos outros vetores aleatrios gerados v1,, vk-1,
entretanto gerado com a mesma distribuio. Cada rvore cultivada utilizando o conjunto de
treinamento e vk, resultando em um classificador h(x, vk), onde x um vetor de entrada. O
vetor v gerado conforme as contagens em N caixas resultantes de N dardos lanados
aleatoriamente nas caixas, onde N o nmero de exemplos no conjunto de treinamento. Na
seleo de diviso aleatria, v consiste de um nmero independe de inteiros aleatrios entre 1
e K. Depois de um grande nmero de rvores, elas votam pela classe mais popular e assim
esse procedimento chamado de Random Forest (BREIMAN,1999).
O crescimento de cada rvore dado como segue:
preciso dos classificadores individuais e da dependncia entre eles. A interao entre eles da
base para compreenso do Random Forest. A primeira varivel a correlao entre as rvores
na floresta. Quando a correlao entre duas rvores cresce, aumenta a taxa de erro da floresta.
E a outra varivel a fora individual da rvore. Uma rvore com uma baixa taxa de erro
um classificador forte, assim o aumento das foras individuais das rvores diminui a taxa de
31
erro da floresta. Reduzir o valor de m reduz tanto a correlao quanto a fora. Usando a taxa
de erro out-of-bag o valor de m pode ser facilmente encontrado na faixa. Este o nico
parmetro ajustvel que influencia na sensibilidade do Random Forest. Estes dados out-ofbag so usados para obter uma estimativa imparcial de execuo do erro de classificao de
conforme as rvores so adicionadas floresta. Eles so calculados a partir dos casos que so
descartados durante a construo do conjunto de treinamento. Em que se tomam os votos
desses casos e comparam-se com os votos das rvores e a proporo em que os votos desses
casos so diferentes aos votos das rvores a estimativa do erro out-of-bag.
Outra caracterstica importante que se pode obter do Random Forest so as
proximidades entre os casos. As proximidades entre os casos so representadas por meio de
uma matriz N x N. Depois que a rvore que cultivada e depois da fase de treinamento. Se os
casos k e n esto no mesmo n terminal, a proximidade entre eles igual a 1. No final
normalizam-se as proximidades dividindo pelo nmero de rvores.
A proximidade mdia do caso n na classe j para outros casos do treinamento pode ser
definida por:
2
P ( n )= prox ( n , k )
cl= j
(2.16)
32
3 METODOLOGIA
Este captulo apresenta a metodologia utilizada para obter as caractersticas das
regies extradas da mamografia. A metodologia deste trabalho exemplificada na Figura 3.1
formada por um conjunto de etapas que so semelhantes s etapas do processamento de
imagens apresentadas na fundamentao terica. As etapas da metodologia so: aquisio de
imagens, pr-processamento, extrao de caractersticas e classificao.
A primeira etapa a aquisio da base de imagens j com os ndulos mamrios prsegmentados. A segunda etapa o pr-processamento que consiste no realce da imagem e na
quantizao no linear. A terceira etapa tem o objetivo de computar e detectar o contorno e
33
extrair as medidas geomtricas e a quarta a classificao utilizando o Random Forest. As
sees seguintes descrevem mais detalhadamente os procedimentos utilizados na realizao
deste trabalho.
3.2 Pr-processamento
Esta etapa tem o objetivo de aprimorar a qualidade da imagem para as etapas
subsequentes. Os procedimentos adotados nessa etapa so muito importantes para a definio
dos contornos de cada imagem, pois entre as funes adotadas aqui o aumento do contraste
e uma melhor definio das regies que pertencem ao fundo e das regies que pertencem ao
objeto em questo. Os procedimentos adotados nessa fase foram: a equalizao do
histograma, para melhorar o contraste da imagem e a quantizao no linear para avaliar
34
possveis diferenas na distribuio dos valores de intensidade dos pixels das regies de
interesse.
35
a imagem original deve ser redistribuda. Aps isso, criado um vetor A de tamanho N com os
valores existentes dispostos em ordem crescente. Assim calculado o quociente q, que
representa o nmero de valores de intensidade de pixel do vetor A em cada faixa, atravs de
uma diviso inteira da seguinte relao:
N
, f 1
(3.1)
f
Aps isso, para calcular a faixa que o pixel de valor rb distribudo, deve-se obter a
q=
posio p do valor rb no vetor A. A faixa m que o pixel de valor rb computada pela seguinte
relao:
p
m= +1
(3.2)
q
onde p varia de 1 a N e p/ q ser uma diviso inteira. Caso m > f, os pixels correspondentes
a m so alocados ltima faixa de nmero f. A Figura 3.3 apresenta a diviso de faixas da
quantizao no linear.
Figura 3.3: Diviso de faixas. A primeira imagem esquerda a imagem original e direita as
imagens geradas a partir da quantizao no-linear, respectivamente, primeira, segunda e
terceira faixa.
36
parmetros utilizados para variar o seu valor a fim de se obter melhores resultados na fase de
testes, pois ele influencia diretamente nos valores das medidas geomtricas e assim influencia
tambm nos resultados de classificao. A Figura 3.4 apresenta contornos computados pelo
Alpha Shapes.
Figura 3.4: Os contornos (destacados pelas linhas brancas) computados de cada imagem
representando cada faixa.
comum que apaream vrios contornos na mesma imagem. Alguns contornos
aparecem internamente a outros maiores devido a algumas pequenas regies que no contm
pontos (buracos) e outros contornos aparecem externos a outros devido a alguns conjuntos de
pontos estarem disjuntos a outros conjuntos de pontos. O processo de obteno das medidas
geomtricas atravs dos contornos computados de cada imagem explicado posteriormente.
37
mdia das medidas geomtricas dos contornos, ou seja, primeiro calculam-se as medidas
geomtricas de cada contorno e depois a mdia dessas medidas geomtricas representar
aquela determinada faixa da quantizao no linear. Em contrapartida medidas como:
densidades quadrangular e circular, Hu Moments e Zernike Moments so calculadas
diretamente para cada faixa e no nos contornos individualmente.
Para calcular a densidade quadrangular primeiro faz-se um bounding box
bidimensional englobando todo o objeto e depois divide a regio em quatro quadrantes e
partir desses quadrantes menores criados calculam-se quatro ndices de densidade
quadrangular dividindo-se o nmero de pixels do objeto dentro do quadrante pelo nmero
total de pixels do respectivo quadrante. E para calcular a densidade circular, primeiro
construda uma circunferncia que envolva todo o objeto e depois so construdos outras trs
circunferncias menores concntricas primeira circunferncia, correspondendo a 1/2, 1/4 e
1/8 do raio da primeira circunferncia e ento as densidades circulares so calculadas a partir
do nmero de pixels do objeto dentro da circunferncia pelo nmero total de pixels dentro da
circunferncia e assim se tem 4 ndices de densidade circular.
at N,
38
valores timos de para cada imagem. Na segunda fase as mesmas medidas geomtricas da
primeira fase foram utilizadas. O nmero de faixas foi ajustado em 3 e o nmero de
indivduos testados para cada teste foi de at 380. Na terceira fase o parmetro a se ajustar foi
o valor do grau do Zernike Moments, os valores testados variaram de 6, resultado em um vetor
de caracterstica de tamanho 16, at 13, resultando em um vetor de caractersticas de tamanho
56. O nmero de faixas foi trs e =0.55 N .
3.6 Classificao
Para fazer a classificao das imagens, foram reunidas para cada imagem do ndulo as
caractersticas das imagens de cada faixa correspondente. A sada da extrao de
caractersticas foi gerada em um arquivo de texto Attribute-Relation File Format (ARFF) para
a leitura e processamento do aplicativo Weka [WAIKATO, 2013] que implementa o
classificador Random Forest. Cada arquivo contm as definies dos atributos (variveis)
utilizados na classificao e o conjunto de caractersticas que representam as medidas
geomtricas extradas de cada ndulo regio. Cada ndulo com suas respectivas
caractersticas foram distribudos linha por linha. Para ndulos benignos, foi atribudo o
atributo nao indicando a ausncia de cncer e para ndulos malignos, foi atribudo o
atributo sim indicando a presena de cncer. Na classificao de indivduos massa e no
massa, o atributo sim indicava que o indivduo apresentava massa e o atributo nao foi
utilizado para indivduos no massa.
39
4 RESULTADOS
Os resultados foram obtidos atravs dos testes de cada fase em que os parmetros de
nmero de faixas, valor de do Alpha Shapes e valor do grau do Zernike Moments sofreram
variao a fim de se encontrar os parmetros que ocasionassem melhores resultados na
classificao. Para se avaliar o resultado dos testes, foram utilizadas trs variveis: acurcia,
sensibilidade e especificidade.
A sensibilidade caracteriza como a capacidade de um teste para identificar
corretamente os indivduos onde h presena de uma determinada doena. A especificidade
a capacidade de se identificar os indivduos onde h ausncia de uma determinada doena. A
acurcia a proporo de indivduos que foram classificados corretamente. A sensibilidade
(S), especificidade (E) e acurcia (A) so definidas pelas Equaes 4.1, 4.2 e 4.3.
A=
S=
VP
VP+ FN
(4.1)
E=
VN
VN + FP
(4.2)
VP+VN
VP+VN + FN + FP
(4.3)
40
4.1 Determinando Parmetros
Todos os testes a fim de se encontrar esses parmetros foram realizados na
classificao de padres malignos e benignos, pois objetivo inicial do trabalho era fazer um
estudo sobre o uso de ndices geomtricos para diagnosticar o cncer de mama. O critrio
utilizado para escolher os melhores resultados foi o valor da acurcia geral de cada teste.
Na primeira fase, a fim de se encontrar o melhor valor para o nmero de faixas da
quantizao no linear, o valor de foi fixado em = 10000 e o nmero de faixas da
quantizao foi variado de um a sete. As medidas utilizadas na primeira fase foram: duas
medidas de circularidade, compacidade, desvio padro, convexidade, razo de rea e
rugosidade.
41
foram testados de 0,05 N a N , variando 0,05 no valor de de um teste para outro. E
tambm o valor timo de para cada conjunto de pontos. Onde:
(4.4)
O nmero de faixas foi fixado em trs e foram utilizadas as mesmas medidas da primeira
fase.
42
Figura 4.3: Grfico dos resultados da acurcia pelo valor do grau do Zernike Moments.
Como se pode perceber na Figura 4.3 em todos os testes realizados com o Zernike
Moments, a variao do grau do Zernike Moments pouco altera nos resultados gerais. Os
testes obtiveram os melhores resultados com o grau do Zernike Moments ajustado em 12,
fornecendo 49 descritores no total.
43
Tabela 4.1: Resultados gerais e individuais das medidas geomtricas utilizadas para
classificao massa e no massa.
Sensibilidade (%)
Especificidade (%)
Acurcia (%)
Circularidade 1
93,8
93,1
93,48
Circularidade 2
95
91,3
93,2
Compacidade
93,5
93,9
96,53
Desvio Padro
91,9
92,6
92,26
Convexidade
77,3
68,8
73,31
Razo de rea
98,8
97,8
98,37
Rugosidade
100
100
100
Densidade Quadrangular
95,4
93,5
94,5
Densidade Circular
84,6
84
84,31
Hu Moments
98,8
98,3
98,57
Zernike Moments
76,5
58,4
68,02
Total
100
99,1
99,59
Figura 4.4: esquerda uma imagem com o padro no massa e direita uma imagem com o
padro massa.
44
Observando o exemplo da Figura 4.4, pode-se avaliar as possveis justificativas do
resultado de cada medida geomtrica utilizada para classificao de padres massa e no
massa. Em relao s medidas geomtricas que obtiveram acurcia acima de 90%, o resultado
se deve diferena de distribuio dos pixels na forma. Enquanto o recorte de regies no
massa apresenta uma distribuio de pixels mais compacta e regular, as regies com padro
massa apresentam uma distribuio de pixels relativamente desconexa e concentrada em
determinadas faixas da quantizao no linear. Isso fica mais claro na Figura 4.5.
Figura 4.5: Diviso de faixas da quantizao no linear: (a) Padro Massa (b) Padro No
Massa
Como se pode observar na Figura 4.5, as duas primeiras faixas da quantizao no
linear do padro massa apresentam regies pouco concentradas de pixels e regies
consideravelmente desconexas e a ltima faixa do padro massa obteve grande concentrao
de pixels. O mesmo no ocorre no padro no massa, pois a distribuio de pixels entre as
faixas foi consideravelmente mais equivalente que a distribuio de pixels no padro massa.
possvel observar que cada faixa do padro no massa apresentou uma distribuio de pixels
mais compacta e a existncia de poucas regies desconexas.
Em relao s medidas geomtricas que obtiveram acurcia menor que 90% tem-se o
Zernike Moments, que no apresentou bons resultados em nenhum dos testes possivelmente
45
devido a grande variedade de formas geomtricas que as regies massa e no massa assumem,
a convexidade, que obteve acurcia de 73,31% devido a diviso dos pixels em faixas
ocasionando em muitas regies consideravelmente cncavas, e a densidade circular, que
apesar de ter obtido acurcia maior que 80% no atingiu o mnimo desejado que foi de 90%
devido suas densidades serem calculadas atravs de crculos concntricos, isto , devido, em
algumas faixas, a distribuio de pixels em imagens de ndulos serem mais densas prximos
ao centro de massa faz com que as densidades de crculos mais intrnsecos aos ndulos sejam
relativamente semelhantes s densidades circulares de regies no massa.
Tabela 4.2: Resultados gerais e individuais das medidas geomtricas utilizadas para
classificao de benigno e maligno.
Sensibilidade (%)
Especificidade (%)
Acurcia (%)
Circularidade 1
60,5
61,1
60,76
Circularidade 2
63,6
47,3
55,38
Compacidade
60,5
61,8
61,15
Desvio Padro
59,7
51,1
55,38
Convexidade
72,9
65,6
69,23
Razo de rea
62
54,2
58,07
Rugosidade
53,5
45
49,23
Densidade Quadrangular
71,3
64,9
68,07
Densidade Circular
66,7
61,1
63,84
Hu Moments
62
47,3
54,61
Zernike Moments
63,6
52,7
58,07
Total
76,7
64,1
70,38
46
Na classificao de padres malignos e benignos, os resultados apresentados pela
Tabela 4.2 no foram bons. A acurcia geral foi de 70,38% e entre as medidas geomtricas, a
convexidade obteve melhor acurcia individual e Hu Moments obteve a pior acurcia
individual que foi de 54,61%, errando a classificao de quase metade dos indivduos. Para
explicar as possveis justificativas dos resultados, importante observar o exemplo dado pela
Figura 4.6 de um ndulo maligno e de um ndulo benigno.
47
5 CONCLUSO
Este trabalho apresenta o desenvolvimento de uma metodologia para extrao de
caractersticas de ndulos mamrios para posteriormente classific-los em massa ou no
massa e depois classific-los em maligno ou benigno.
Foram utilizadas imagens mamogrficas da base DDSM (Digital Database for
Screening Mamography) (HEAT et al., 1998). Sendo dois grupos: o primeiro grupo
representava as imagens que no continham qualquer massificao e o segundo grupo que
continha neoplasias malignas e benignas.
A adio da equalizao de histograma contribuiu para melhora de distribuio dos
valores de pixels e consequentemente na diviso de faixas da equalizao no linear que foi
importante para o estudo geomtrico em cada regio de cada imagem mamogrfica. Os
resultados na classificao de padres massa e no massa atingiram acurcia de 93,48% e
apenas a convexidade, a densidade circular e o Zernike Moments no atingiram
individualmente acurcia acima de 90%. A metodologia provou ser eficaz em reconhecer os
padres massa e no massa. Para a classificao de neoplasias malignas e benignas, os
resultados com acurcia atingindo 70,38% ainda no foram satisfatrios devido variedade de
formas geomtricas que ndulos podem apresentar. Para este caso, a medida de convexidade
obteve os melhores resultados individuais atingindo acurcia de 69,23% e sensibilidade de
72,9%. De forma geral, a sensibilidade foi maior que a especificidade, ou seja, houve mais
acertos em reconhecer os ndulos malignos que reconhecer os ndulos benignos. Desse
modo, as contribuies esse trabalho apresenta so:
1. Implementao de uma metodologia de extrao de caractersticas segundo a
geometria, densidade e momentos de imagem;
2. Uma metodologia eficaz no reconhecimento de padres massa e no massa; E
3. A possibilidade de se utilizar ndices geomtricos com a adio de outros parmetros
para reconhecer padres malignos e benignos;
48
diagnosticar o cncer de mama ainda em estgio inicial e consequentemente aumentando a
probabilidade de cura. Com isso, melhorias so necessrias a fim de que este trabalho possa
ser utilizado como auxlio ao mdico. As melhorias so:
49
REFERNCIAS
SALES, A. M. V.; SILVA, A.C.; PAIVA, A.C.; Deteco de Leses em Mamografias Atravs
da Assimetria das Mamas e Extrao de Caractersticas com ndice de Getis-Ord.
Universidade Federal do Maranho. 2013.
PAIVA, A.C.; SILVA, A.C. et al. Identificao de Massas em Mamografias usando Textura,
Geometria e Algoritmos de Agrupamento e Classificao. Universidade Federal do
Maranho. 2006.
MARTINS, L. O. et al. Classificao de Tecidos Normais, Benignos e Malignos Utilizando
Matrizes de Coocorrncia e Redes Neurais Bayesianas em Imagens de Mamografia.
Universidade Federal do Maranho. 2006.
SOUSA. U.S. Treinamento De Redes Neurais Artificiais Utilizando Algoritmos Genticos
Em Plataforma Distribuda. Universidade Federal do Maranho. 2011
HOLSBACK. N. Mtodo de Minerao de Dados para Diagnstico do Cncer de Mama
Baseado na Seleo de Variveis. Universidade Federal do Rio Grande do Sul. 2012.
ROCHA. S.V. Diferenciao do Padro de Malignidade e Benignidade de Massas em
Imagens de Mamografias Usando Padres Locais Binrios, Geoestatstica e ndice de
Diversidade. Universidade Federal do Maranho. 2014.
TSUI. P.H. et al.Classification of Benign and Malignant Breast Tumors by 2-D Analysis
Based on Contour Description and Scatterer Characterization.IEEE. 2010.
GONZALEZ, R., & WOODS, R. Digital Image Processing. 3. ed. Person Prentice Hall. 2010.
NIXON, M., & AGUADO, A. Feature Extraction & Image Processing. Elsevier. 2008
Instituto Nacional do Cncer (INCA). Atlas de mortalidade por cncer. Disponvel em:
<http://mortalidade.inca.gov.br/Mortalidade/prepararModelo05.action>. 2014.
BREIMAN,
L.;
CUTLER,
ADELE.
Random
Forest.
Disponvel
em:
https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.html.
HEALT et al. Digital Database for Screening Mamography. Exerpta Medica International,
1998.
50
MUCKE, H. E. Three-dimensional alpha shapes. ACM Trans. Graph, v. 13. 4372, 1994.
VIEIRA, S., SOAREA, L., JUNIOR, J., & TEIXEIRA, J. et al. Oncologia Bsica. 2012.
DUARTE, D. L. A Mama em Imagens. Rio de Janeiro: Guanabara/Koogan, 2006.