Você está na página 1de 50

Universidade Federal do Maranho UFMA

Centro de Cincias Exatas e Tecnologia CCET


Coordenadoria do Curso de Cincia da Computao COCOM

JOO VICTOR COSTA GOMES

ESTUDO DE EXTRAO DE CARACTERSTICAS MORFOLGICAS PARA


CLASSIFICAO DE MASSAS MAMRIAS

SO LUS
2014

JOO VICTOR COSTA GOMES

ESTUDO DE EXTRAO DE CARACTERSTICAS MORFOLGICAS PARA


CLASSIFICAO DE MASSAS MAMRIAS

Monografia apresentada ao Curso de Cincia da


Computao da Universidade Federal do Maranho,
como parte dos requisitos necessrios para obteno
do grau de Bacharel em Cincia da Computao
Orientador: Prof. Dr. Geraldo Braz Jnior

SO LUS
2014

UNIVERSIDADE FEDERAL DO MARANHO


CENTRO DE CINCIAS EXATAS E TECNOLOGIA
DEPARTAMENTO DE INFORMTICA

ESTUDO DE EXTRAO DE CARACTERSTICAS MORFOLGICAS PARA


CLASSIFICAO DE MASSAS MAMRIAS

JOO VICTOR COSTA GOMES

BANCA EXAMINADORA

Pr. Dr. Geraldo Braz Jnior


Universidade Federal do Maranho
Orientador

Prof. Dr. Joo Dallyson Sousa de Almeida


Universidade Federal do Maranho

Prof. Dr. Tiago Bonini Borchartt


Universidade Federal do Maranho

Aprovada em: de Janeiro de 2015

Portanto, quer comais, quer bebais ou faais outra coisa qualquer, fazei tudo para a glria de
Deus.
(1 Corntios 10:31)

AGRADECIMENTOS
Primeiramente, agradeo a Deus pelo dom da vida e pela sua graa em minha vida;
Pelo apoio recebido da minha famlia, em especial, da minha me;
Pela orientao e dedicao do meu orientador Geraldo Braz Jnior;
Pela contribuio e ajuda dos meus professores, amigos e colegas de curso nessa jornada
difcil, porm gratificante.

RESUMO

O cncer de mama representa uma das principais causas de morte entre as mulheres no
mundo ocidental. responsvel, tambm no Brasil, por milhares de mortes e novos casos ao
ano. A probabilidade de cura aumenta consideravelmente com o diagnstico precoce, podendo
assim, evitar maiores danos sade da mulher. Com isso, ferramentas computacionais so
desenvolvidas a fim de auxiliar o mdico especialista e se possvel detectar leses com o
padro maligno ainda em estgio inicial que estejam pouco visveis em imagens
mamogrficas. Entretanto, ainda h certa dificuldade em se detectar leses por imagens
devido particularidade da anatomia da mama feminina e tambm em reconhecer se aquela
leso apresenta um padro maligno. Para isso, este trabalho se concentra em fazer um estudo
visando reconhecer padres segundo a forma geomtrica de uma determinada regio da
mama. O objetivo deste trabalho a extrao de caractersticas geomtricas como:
caractersticas geomtricas relacionadas ao comprimento do raio, densidades e momentos da
imagem e classificar os indivduos de acordo com seu grupo. Para classificao massa ou no
massa, os resultados so promissores.
Palavras-chave: Cncer de Mama, Geometria Cncava, Anlise Geomtrica.

ABSTRACT
Breast cancer represents one of the leading causes of death among women in the western
world. It is also responsible in Brazil for thousands of deaths and new cases per year. The
likelihood of cure increases considerably with early diagnosis, and thus, avoid further damage
to women's health. Thus, computational tools are developed to assist the specialist and can
detect lesions with malignant pattern still at an early stage that are barely visible on
mammography. However, there is still some difficulty in detecting lesions in images due to
the particularity of the female breast anatomy and also to recognize if that presents a
malignant lesion pattern. Therefore, this work focuses on geometric study to recognize
patterns according to the geometrical shape of a particular breast region. The objective of this
work is the extraction of geometric features such as: geometrical characteristics related to the
radius length, density and image moments and classify individuals according to their group.
To classification mass or no mass, the results are promising.
Keywords: Breast Cancer, Concave Geometry, Geometric Analysis.

LISTA DE FIGURAS
Figura 2.1: Etapas do processamento de imagens. Fonte: adaptado de (GONZALEZ;
WOODS, 2010).........................................................................................................................20
Figura 2.2: esquerda, a imagem antes da equalizao de histograma e direta, a mesma
imagem aps a equalizao de histograma...............................................................................22
Figura 2.3: Contorno computado a partir de um conjunto de pontos......................................27
Figura 2.4: esquerda um k-simplexo -exposto. direita um k-simplexo que no exposto......................................................................................................................................28
Figura 2.5: esquerda um k-simplexo -exposto. direita um k-simplexo que no exposto......................................................................................................................................29
Figura 3.1: Etapas da metodologia utilizada para desenvolver o estudo geomtrico de
neoplasias mamrias.................................................................................................................32
Figura 3.2: esquerda, a imagem de um ndulo antes da equalizao de histograma e
direta, a imagem do mesmo ndulo aps a equalizao de histograma....................................34
Figura 3.3: Diviso de faixas. A primeira imagem esquerda a imagem original e direita as
imagens geradas a partir da quantizao no-linear, respectivamente, primeira, segunda e
terceira faixa..............................................................................................................................35
Figura 3.4: Os contornos (destacados pelas linhas brancas) computados de cada imagem
representando cada faixa...........................................................................................................36
Figura 4.1: Grfico dos resultados da acurcia pelo nmero de faixas.....................................40
Figura 4.2: Grfico dos resultados da acurcia pelo valor de ................................................41
Figura 4.3: Grfico dos resultados da acurcia pelo valor do grau do Zernike Moments........42
Figura 4.4: esquerda uma imagem com o padro no massa e direita uma imagem com o
padro massa.............................................................................................................................43
Figura 4.5: Diviso de faixas da quantizao no linear: (a) Padro Massa (b) Padro No
Massa........................................................................................................................................44
Figura 4.6: esquerda a imagem de um ndulo benigno e direita a imagem de ndulo
maligno......................................................................................................................................46

LISTA DE TABELAS
Tabela 2.1: Fatores de risco do cncer de mama.....................................................................18
Tabela 4.1: Resultados gerais e individuais das medidas geomtricas utilizadas para
classificao massa e no massa...............................................................................................43
Tabela 4.2: Resultados gerais e individuais das medidas geomtricas utilizadas para
classificao de benigno e maligno...........................................................................................45

SUMRIO
1 INTRODUO....................................................................................................................11
1.1 Trabalhos Relacionados...........................................................................................12
1.2 Objetivos.................................................................................................................14
1.2.1 Objetivos Especficos...........................................................................................14
1.3 Organizao do Restante do Trabalho.....................................................................14
2 FUNDAMENTAO TERICA.......................................................................................16
2.1 Cncer de Mama......................................................................................................16
2.2 Processamento de Imagens......................................................................................18
2.3 Pr-processamento..................................................................................................19
2.3.1 Equalizao do Histograma..................................................................................20
2.4 Extrao de Caractersticas.....................................................................................21
2.4.1 Anlise Geomtrica..............................................................................................22
2.4.2 Momentos............................................................................................................23
2.4.3 Momentos Invariantes..........................................................................................24
2.4.4 Zernike Moments.................................................................................................25
2.5 Alpha Shapes...........................................................................................................25
2.6 Reconhecimento de padres....................................................................................28
2.6.1 Random Forest.....................................................................................................29
3 METODOLOGIA................................................................................................................31
3.1 Aquisio de Imagens..............................................................................................32
3.2 Pr-processamento..................................................................................................32
3.2.1 Equalizao de Histograma..................................................................................33
3.2.2 Quantizao No-linear........................................................................................33
3.3 Alpha Shapes...........................................................................................................34
3.4 Medidas Geomtricas..............................................................................................35
3.5 Ajuste de Parmetros...............................................................................................36
3.6 Classificao............................................................................................................37
4 RESULTADOS.....................................................................................................................38
4.1 Determinando Parmetros.......................................................................................39
4.2 Resultados Massa e No Massa..............................................................................41

4.3 Resultados Benignos e Malignos............................................................................43


5 CONCLUSO......................................................................................................................46
5.1 Trabalhos Futuros....................................................................................................46
REFERNCIAS......................................................................................................................48

12
1 INTRODUO
Nos pases ocidentais, o cncer de mama representa uma das principais causas de
morte entre as mulheres. As estatsticas indicam aumento de sua frequncia tanto nos pases
desenvolvidos quanto naqueles em desenvolvimento. Segundo a Organizao Mundial da
sade (OMS), nas dcadas de 1960 e 1970, registrou-se, nos estudos de cncer de base
populacional de diversos continentes, um aumento de dez vezes em suas taxas de incidncia
ajustadas por idade (INCA). Tem-se documentado tambm o aumento no risco de mulheres
migrantes de reas de baixo risco para reas de alto risco. Nos Estados Unidos, a Sociedade
Americana de Cancerologia indica que cada dez mulheres tem a probabilidade de desenvolver
cncer de mama durante toda a sua vida (INCA).
Segundo o Ministrio da Sade (Brasil, 2003), no Brasil, o cncer de mama o que
mais causa morte entre as mulheres. Anualmente, so registradas por volta de 10 mil mortes
decorrentes desse tipo de cncer. Ele o principal a atingir a populao feminina, sendo
responsvel por cerca de 40 mil novos casos ao ano.
A deteco precoce do cncer de mama seguido do tratamento efetivo tm
comprovadamente reduzido a mortalidade em vrias sries de estudos. No Brasil, ainda 60%
dos tumores malignos da mama so diagnosticados em estados avanados. Portanto notrio
que diante dos nmeros atuais, esforos no devem ser poupados no desenvolvimento de
estratgias de diagnstico precoce (preveno secundria), j que a preveno primria dessa
neoplasia, que a tentativa de evitar o contato ou modificar a ao de agentes que induzem a
carcinognese, ainda no uma realidade para os casos de cncer de mama espordicos (sem
fator de risco conhecido), que constituem o tipo mais frequente desta neoplasia. O diagnstico
precoce consiste em identificar leses em fases iniciais em mulheres com algum sinal de
cncer de mama (ndulo, retrao do mamilo, etc.) e o rastreamento que a aplicao
sistemtica de um exame, em populaes assintomticas, para identificar mulheres com
anormalidades sugestivas de cncer.
A mamografia, entre os mtodos de diagnstico por imagem, o mais utilizado para o
screening e diagnstico do cncer de mama. Vrios estudos comprovam a eficcia da
mamografia em detectar leses pequenas e impalpveis (screening) ou em estgios iniciais.
Entretanto, sua sensibilidade diminui consideravelmente (estimada em 81% a 94%, decai para
54 a 58% em algumas sries) entre as mulheres com menos de 40 anos (SANTOS, 2012).

13
Limitaes tais como a alta densidade das mamas jovens, gravidez e amamentao, processos
inflamatrios, uso de prteses e mamas operadas ou irradiadas no invalidam o mtodo, mas
exigem conhecimentos na hora de solicitar o exame. A mamografia digital, apesar do alto
custo, aumenta a taxa de deteco de cncer em mamas densas. No Brasil, a rotina mais
frequente fazer o exame de screening anualmente entre os 40 e 50 anos de idade. Todavia, a
presena de histrico familiar de cncer ou antecedentes de doenas proliferativas da mama
altera esta rotina e o incio do screening ocorre de forma precoce (por volta dos 35 anos de
idade).

1.1 Trabalhos Relacionados

Com a motivao buscar novas tecnologias para auxiliar no diagnstico do cncer de


mama, encontram-se, na literatura, vrias metodologias que so desenvolvidas a fim de
detectar leses e posteriormente classific-las em benignas ou malignas. Nesta seo destacase os trabalhos que tem objetivos relacionados ao diagnstico do cncer de mama atravs de
ferramentas computacionais.
A tcnica Scalar Feature Selection (SFS) utilizada por (MELO, 2010) teve a
finalidade de selecionar um conjunto de caractersticas que permita obter melhor classificao
dos achados mamogrficos. Neste trabalho ainda, foi realizada uma comparao dos mtodos
supervisionado e no supervisionado de classificao. Para a classificao supervisionada,
foram empregadas diferentes arquiteturas de redes neurais de propagao direta. E para a
classificao no supervisionada, foi utilizado o algoritmo k-Means. Obtendo ao mtodo
supervisionado uma acurcia de 86,19% com um conjunto de seis caractersticas dos clusters
de microcalcificaes.
Em (HOLSBACK, 2012) foi proposta a minerao de dados para o diagnstico do
cncer de mama baseado na seleo de variveis, baseado na anlise de amostras de clula da
mama de pacientes. O mtodo proposto pode auxiliar o mdico no diagnstico do cncer de
mama utilizando o menor nmero de variveis com a maior acurcia possvel. Aplicado ao
WBCD (Wisconsin Breast Cancer Database), o mtodo proposto apresentou acurcia de
98,09%, retendo uma mdia de 17,24 variveis.

14
O ndice de Biodiversidade Shannor-Wiener por (SOUSA, 2011), geralmente aplicado
para medir a biodiversidade em um ecossistema, foi aplicado para descrever padres de
regies de imagem de mama. E por fim foi utilizado o Support Vector Machine pra classificar
regies em massa ou no massa. Essa metodologia obteve uma acurcia mxima de 99,95%.
Em (SALES, 2013) tcnicas de Processamento de Imagem foram usadas para preparar
as mamografias e, em seguida, o nvel de simetria entre a mama esquerda e a direita foi
medido com coeficiente de correlao cruzada e distncia euclidiana. O ndice de Getis-Ord
na sua forma geral foi usado para extrair caractersticas das imagens para treinar uma
Mquina de Vetores de Suporte que classificou regies das mamografias em leso e no leso.
A metodologia, de modo geral, apresentou 80,11% de sensibilidade, 84,41% de especificidade
e 84,38% de acurcia.
Em (SILVA et al., 2006) foi utilizada a textura como caracterstica para a segmentao
por agrupamento com K-means. Cada estrutura identificada pelo K-means descrita usando
caractersticas de textura e geometria para formar a sua assinatura, usadas para classificao
com K-NN, obtendo especificidade igual a 85,13% e sensibilidade igual a 81,81%.
Em (MARTINS et al., 2006) foi descrito uma metodologia para classificao de
tecidos da mama em normal, benigno ou maligno, atravs de matrizes de coocorrncia e redes
neurais Bayesianas. A partir de cada amostra so obtidas diversas matrizes de coocorrncia, as
quais so utilizadas no clculo de medidas estatsticas de textura. Uma rede neural
Bayesiana e usada para avaliar a eficacia dessas medidas em classificar cada amostra de
tecido. A metodologia obteve uma taxa de acerto de 86.84%.
Em (ROCHA, 2014) foi descrito uma metodologia que utiliza textura e aprendizado de
mquina para descriminar padres malignos e benignos. Alm disso, foi ampliado o conceito
de ndice de Diversidade, atravs do uso da informao de coocorrncia de espcies, com o
propsito de aumentar a eficincia da extrao de caractersticas de textura. Assim, foram
utilizadas tcnicas Local Binary Pattern, Funo K de Ripley e os ndices Shannon,
Mchintosh, Simpson, Gleason e de Meninhick. Na classificao foi utilizado Mquina de
Vetores de Suporte com o objetivo de classificar massas malignas e benignas. O melhor
resultado foi obtido utilizando a funo K de Ripley com 92,2% de acurcia, 92,96% de
sensibilidade e 91,26% de especificidade.

15
1.2 Objetivos
O objetivo geral deste trabalho consiste no estudo de caractersticas geomtricas
aplicadas a neoplasias mamrias extradas de mamografias digitalizadas atravs do
desenvolvimento de uma metodologia que realiza a extrao de caractersticas geomtricas a
fim de determinar um padro discriminatrio e posteriormente realizar dois testes de
classificao, sendo o primeiro a classificao massa e no massa e o segundo a classsificao
maligna ou benigna.

1.2.1 Objetivos Especficos

Fazer um estudo do desempenho geral e individual das medidas geomtricas utilizadas


nesse trabalho na classificao observando as variveis acurcia, sensibilidade e
especificidade de cada medida geomtrica.

Estudar e aplicar o uso da geometria cncava para descrio de forma para obter
melhor eficincia na extrao de caractersticas.

Utilizar o classificador Random Forest para classificar os ndulos malignos e


benignos a partir das caractersticas geomtricas extradas de cada ndulo.

Construir uma metodologia que oferea ao especialista uma segunda opinio na


distino de regies extradas de mamografias.

1.3 Organizao do Restante do Trabalho


O restante deste trabalho est organizado em mais quatro captulos:

O Captulo 2 apresenta a fundamentao terica que serve de base para o


desenvolvimento da metodologia deste trabalho. So explanados assuntos relacionados
ao diagnstico do cncer de mama, s tcnicas do processamento de imagens,
deteco de contornos e classificao;

O Captulo 3 apresenta as etapas da metodologia deste trabalho como: a obteno das


imagens mamogrficas, o pr-processamento, a extrao de caractersticas e a

16
classificao. Apresenta tambm a seleo de parmetros para que resultassem em
melhor eficincia na classificao e deteco de contornos cncavos;

O Captulo 4 apresenta os resultados obtidos utilizando a metodologia proposta


utilizando

as

imagens

mamogrficas

que

foram

propostas

para

todo

desenvolvimento e estudo geomtrico dos ndulos;

O Captulo 5 apresenta a concluso dos resultados obtidos e as possveis melhorias


para alcanar melhores resultados.

17
2 FUNDAMENTAO TERICA
Neste captulo so abordados os fundamentos tericos que foram utilizados para
elaborar esta metodologia. Os temas que so abordados nas sees seguintes so: o cncer de
mama, o processamento de imagens bem como suas etapas utilizadas nesse trabalho do prprocessamento, deteco de contornos cncavos, extrao de caractersticas baseada em
geometria cncava e classificao.

2.1 Cncer de Mama


O cncer o nome dado a um conjunto de mais de 100 doenas que tem em comum o
crescimento desordenado (maligno) de clulas que invadem os tecidos e rgos, podendo
espalhar-se (metstase) para outras regies do corpo. Dividindo-se rapidamente estas clulas
tendem a ser muito agressivas e incontrolveis, determinando a formao de tumores
(acmulos de clulas cancerosas) ou neoplasias malignas. Por outro lado, um tumor benigno
significa simplesmente uma massa localizada de clulas que se multiplicam vagarosamente e
se assemelham ao seu tecido original, raramente constituindo um risco de vida (INCA, 2014).
O cncer de mama provavelmente o tipo de cncer mais temido pela populao
feminina, devido a sua alta frequncia e, sobretudo, aos seus efeitos psicolgicos, que afetam
a percepo da sexualidade e a prpria imagem pessoal. Este relativamente raro antes dos
35 anos de idade, mas acima dessa faixa etria sua incidncia cresce rapidamente e
progressivamente (INCA, 2014).
O cncer de mama considerado espordico, ou seja, sem associao, com o fator
hereditrio, representa mais de 90% dos casos de cncer de mama em todo mundo. Dados
clnicos, epidemiolgicos e experimentais tm demonstrado que o risco de desenvolvimento
de cncer de mama espordico est fortemente relacionado produo de esteroides sexuais.
Condies endcrinas moduladas pela funo ovariana, como menarca precoce, menopausa e
gestao tardias, assim como a utilizao de estrgenos exgenos, so componentes
relevantes do risco de desenvolvimento do cncer de mama. Em sinergismo com os fatores
hormonais, estudos observacionais indicam comportamento humano relacionado ao estilo de
vida como a inatividade fsica e os descuidos com a dieta tipo obesidade ou alcoolismo,

18
podem contribuir para o aumento da incidncia do cncer de mama em todo mundo
(SOARES et al., 2013).
Por outro lado, as neoplasias mamrias do tipo hereditrio correspondem a 5% a 10%
dentre os casos de cncer de mama, sendo este o grupo muito relacionado a alteraes de
genes supressores de tumor com os genes BRCA 1 e BRCA 2 e o P53. A prevalncia de
mutao deletria no gene BRCA 1 de 1/800 na populao geral, sendo mais frequente nas
descendentes de judeus asquenazes. Mulheres portadoras de mutaes nesses genes tm o
risco estimado que varia de 56% a 85% de desenvolver o cncer de mama durante sua vida,
tendendo a apresent-lo mais precocemente (SOARES et al., 2013).
Vrias condies so reconhecidas como capazes de aumentar ou diminuir a chance de
desenvolvimento do cncer de mama como os descritos na Tabela 2.1:

Tabela 2.1: Fatores de risco do cncer de mama


Risco muito elevado (RR = 3.0)
Me ou irm com cncer de mama na pr-menopausa
Antecedente de hiperplasia epitelial atpica ou neoplasia lobular in situ
Suscetibilidade gentica comprovada (mutao de BRCA1-2)
Risco moderado (1.5 < RR < 3.0)
Me ou irm com cncer de mama na ps-menopausa
Nuliparidade
Antecedente de hiperplasia epitelial sem atipia ou macrocistos apcrinos
Risco pouco elevado (1.0 < RR < 1.5)
Menarca precoce (=12 anos)
Menopausa tardia (=55 anos)
Primeira gestao a termo depois de 34 anos de idade
Obesidade
Dieta gordurosa
Sedentarismo
Terapia de reposio hormonal por mais de 5 anos
Ingesto alcolica excessiva
Exposio da mama a radiaes ionizantes
Fonte: Diagnstico e Tratamento do Cncer de Mama, 2001.
Atravs do crescente volume de imagens mdicas digitais produzidas em hospitais. As
atividades relacionadas aquisio, gerenciamento e segmentao de imagens tm exigido
esforos de pesquisadores e profissionais na informatizao dos sistemas hospitalares, a fim

19
de estudar e obter mtodos computacionais auxiliando os profissionais da sade no
diagnstico. Atravs disso, houve a possibilidade de desenvolver ferramentas para o
diagnstico auxiliado por computador (Computer-Aided Diagnosys CAD, 2005).
Os sistemas CAD tm como objetivo auxiliar e aumentar a preciso do diagnstico do
mdico, atravs do uso de resultados do computador como referncia, como, por exemplo, a
indicao de reas suspeitas da imagem. Este auxilio importante, pois o diagnstico do
especialista est sujeita s variaes pessoais (como fadiga visual e distrao). Assim, os
sistemas CAD tm mostrado que podem melhorar o desempenho dos diagnsticos oferecendo
uma segunda opinio ao especialista mdico e podem auxiliar no rastreamento precoce do
cncer de mama.

2.2 Processamento de Imagens


Uma imagem digital pode ser definida como uma funo bidimensional f(x , y), onde x
e y so coordenadas espaciais, e a amplitude de f para qualquer par de coordenadas (x , y)
chamada de intensidade ou nvel de cinza da imagem neste ponto. Quando x, y e o valor da
amplitude de f so finitos, em quantidades discretas a imagem digital. A imagem digital
composta de um nmero finito de elementos, sendo que cada um possui uma localizao e um
valor. Esses elementos so denominados de pixels (pontos). Pixel o termo mais amplamente
usado para denotar os elementos da imagem digital. O processamento de imagens digitais
engloba processos cujas entradas so imagens digitais que, a partir de tcnicas
computacionais, geralmente so transformadas em outras imagens digitais. Com isso, pode-se
obter melhorias nos aspectos estruturais de cada imagem para: a interpretao visual humana,
para extrao de caractersticas e para o reconhecimento de objetos em particular. O
processamento de imagens surgiu da necessidade de codificar, transmitir e decodificar
imagens digitais por cabos de transmisso entre pontos distantes (GONZALEZ, 2010).
Da aquisio extrao de informaes, existem vrias etapas a serem a executadas, para que
as informaes obtidas sejam consistentes. Dependendo do objetivo final, para cada etapa,
podem ser utilizado um ou mais algoritmos que compe todo o trabalho. Geralmente o
processamento de imagens segue a seguinte metodologia conforme a Figura 2.1.

20

Figura 2.1: Etapas do processamento de imagens. Fonte: adaptado de (GONZALEZ;


WOODS, 2010).
As etapas apresentadas na Figura 2.1 so: a aquisio de imagens, o prprocessamento, a segmentao, representao e descrio e reconhecimento e interpretao. O
fluxo de informaes segue a ordem apresentada na Figura 2.1, ou seja, a sada de
informaes de uma etapa vai para a entrada de outra etapa.

2.3 Pr-processamento
A imagem adquirida pode conter alguns rudos, contraste e/ou brilho inadequados. O
objetivo do pr-processamento melhorar a qualidade da imagem para ser processada nas
etapas posteriores. As operaes lineares ou no lineares efetuadas nesta etapa trabalham
diretamente com os valores de intensidade dos pixels. A tcnica utilizada nesse trabalho foi a
equalizao de histograma.

2.3.1 Equalizao do Histograma


uma tcnica em que se redistribuem os valores de tons de cinza dos pixels de uma
imagem para que o percentual de pixels de qualquer nvel de cinza seja quase o mesmo, de

21
forma a obter um histograma mais uniforme (MARQUES, 1999). A funo utilizada para
equalizar o histograma chamada de funo de distribuio acumulada.
Seja r a varivel que representa os nveis de cinza da imagem a ser aprimorada.
Assume-se que r pode ser normalizado no intervalo [ L 1,0 ] . Com r = 0 representando
preto e

r=L 1 representado branco. Aps isso, considera-se a formulao discreta e

atribui-se valores de pixels no intervalo [ 0, L 1 ] . Sendo assim, a transformao se d da


seguinte forma:
s=T ( r ) ,0 r 1
(2.1)
A qual produz um nvel s para todo valor de pixel r na imagem original. Assume-se

ento que a funo de transformao T(r) satisfaz as seguintes condies:


1. T(r) de valor nico e monotonicamente crescente no intervalo 0 r 1.
2. 0 T(r) 1 para 0 r 1

Os nveis de cinza em uma imagem podem ser considerados como variveis aleatrias
no intervalo [0, 1]. Assim, pode-se obter um descritor fundamental que a funo densidade
de probabilidade. Portanto, pr (r) e ps (s) denotam a funo densidade de probabilidade das
variveis aleatrias de r e s. Como neste caso utiliza-se variveis discretas para descrever os
nveis de cinza das imagens que foram utilizadas, a probabilidade de ocorrncia do nvel de
cinza rk em uma imagem dada por:
nk
(2.2)
k=0,1,2, L1
n
Sendo n o nmero total de pixels na imagem, nk o nmero total de pixels que tem o
pr ( r k )=

nvel de cinza rk , e L o nmero total de nveis de cinza possveis em uma imagem. Ento a
verso discreta da transformao dada por:
k

nj
k =0,1,2, , L 1.
(2.3)
j=0
j=0 n
Assim, a sada processada obtida pelo mapeamento de cada pixel com nvel rk na
s k =T ( r k ) = pr ( r j )=

imagem de entrada correspondendo com o pixel com nvel sk na imagem de sada.

22

Figura 2.2: esquerda, a imagem antes da equalizao de histograma e direta, a mesma


imagem aps a equalizao de histograma. Fonte: (BRIDI, 2011)

2.4 Extrao de Caractersticas


Esta etapa ocorre antes do reconhecimento de padres. Tem como objetivo extrair um
conjunto de dados descritivos correspondentes a suas caractersticas de algum objeto
analisado. Essas caractersticas descritivas devem apresentar um bom poder de discriminao
entre os indivduos que posteriormente sero classificados na etapa de reconhecimento e
interpretao. Para processamento de imagens, a entrada nesta etapa uma imagem e a sua
sada ser um conjunto de dados referente quela imagem de entrada. Esses dados gerados
devem organizados de forma adequada ao classificador que ser utilizado.
As caractersticas extradas de cada indivduo so invariantes rotao, translao e
escala. Pois, geralmente quando se precisam classificar indivduos (como ocorre neste
trabalho em classificar ndulos malignos e benignos), cada objeto (ndulo) analisado poderia
apresentar um tamanho, uma localizao ou uma posio diferente dos demais o que poderia
influenciar no resultado final e a margem de erro ser superior ao esperado.
As caractersticas escolhidas por este trabalho para caracterizao de massas dividemse em trs categorias: a primeira se refere s caractersticas geomtricas adquiridas atravs da
localizao do centro de massa e das medidas do raio, permetro e rea. A segunda se refere a
densidade de pixels em quatro quadrantes e circunferncias inscritos ao ndulo. E a terceira se
refere s medidas de momentos, Zernike Moments e Hu Moments.

23
2.4.1 Anlise Geomtrica
A anlise geomtrica visa descrever o quo as massas so definidas em termo de
circularidade, a espicularidade e a rugosidade. O estudo dessas medidas visando descrever as
formas deve-se ao comportamento distinto entre ndulos malignos e ndulos benignos.
Enquanto neoplasias benignas possuem uma chamada pseudocpsula que impede o tumor de
crescer e invadir os tecidos normais circundantes, fazendo com que esses ndulos tenham
contornos bem definidos e margens e formas arredondadas e suaves, as neoplasias malignas
(sem a pseudocpsula) tendem a invadir de forma envolvente os tecidos, resultando em
aspectos ultrassonogrficos mal definidos, contornos irregulares e formas espiculadas (TSUI
et al., 2010). Portanto, partindo do princpio das diferenas entre esses dois grupos de
ndulos, foram calculadas medidas geomtricas.
As medidas calculadas so: Circularidade, Compacidade, Desvio Padro, Razo De
rea, Rugosidade (CHIANG, CHIU, 2001); Densidade Circular e Quadrangular, Hu
Moments (HU, 1962) e Zernike Moments (TEAGUE, 1980).
2

P
A
Mede o quo circular o objeto em relao ao seu permetro (P) tomando como

Circularidade 1: C1=

referncia a sua rea (A).


Desviomdio
Circularidade 2: C2 =
Desviopadro
Mede o quo a forma digital similar a um crculo. Quanto maior a similaridade,
maior ser o valor resultante. O clculo do desvio mdio e do desvio padro ser

explicitado posteriormente.
P2
Compacidade: C o=
4 A
Mede o quo compacto o objeto distribudo em sua rea (A) ao longo de seu
permetro (P).

readoobjeto
readofechoconvexodoobjeto
Mede o quo cncavo ou quo convexo o objeto.
Convexidade: CV =

As medidas a seguir (CHIANG, CHIU, 2001) utilizam a distncia radial normalizada


que calculada a partir da localizao do centro de massa, que representa o ponto mdio entre
os pontos extremos do objeto, e a localizao de cada pixel que estiver no contorno. A
distncia radial normalizada (CHIANG, CHIU, 2001) ser dada por

24

( x ( i ) X ) +( y ( i) Y )
d ( i )=
2

max
( d (i ) )

(2.4)

O valor max(d(i)) representa o valor mximo de d(i). Assim o desvio mdio ser dado por:
N

1
d avg= d ( i )
N i=1

(2.5)

2
1
d (i ) d avg )
(
N 1
Mede o desvio padro das distncias radiais de cada objeto.
N
1
Razo de rea: A=
(d (i ) d avg ) . Onde d ( i ) d avg
d avg N i=1
Mede a porcentagem do tumor que est fora da regio circular.

Desvio Padro: =

R= d ( i ) d (i+1 )

Rugosidade:

Mede o grau de espicularidade do objeto.


Aoi
Densidade Quadrangular: Dqi=
Aqi
Divide a imagem em quadrantes e para cada quadrante extrada a razo entre a rea

da parte do objeto no quadrante (Aoi) e a rea do quadrante correspondente (Aqi).


Aoi
Densidade Circular: Dci=
A ci
Divide a imagem em circunferncias concntricas e para cada circunferncia

i=1

extrada a razo entre a rea da parte do objeto dentro da circunferncia (Aoi) e a rea
da circunferncia (Aci).

2.4.2 Momentos
Momentos (ou Moments) descrevem o arranjo de pixels do objeto, combinando rea,
compacidade, irregularidade na forma e outros descritores. So descritores globais de forma e
foram originalmente introduzidos na dcada de 1960 (HU,1962) para anlise de imagens
digitais. Momentos so frequentemente associados como reconhecimento de padres
estatsticos e o seu uso vem sendo bem-sucedido em muitas aplicaes.
O momento cartesiano bidimensional est associado como uma ordem que se inicia a
partir de um valor baixo (onde o mais baixo zero) at ordens superiores. O momento (mpq)
de ordem p e q da funo I(x, y) definido por:

p

m pq= x y I ( x , y ) dxdy

(2.6)

25
Para imagens discretas, usualmente aproximado para:
m pq= x p y q I ( x , y )
x

(2.7)

pq que so invariantes translao:

Para momentos centralizados

pq= ( x x o ) ( y y o ) I ( x , y )
x

onde

( xo , yo )

(2.8)

representa as coordenadas do centro de massa que podem ser calculadas pela

relao:
x o=

(2.9)

m10
m
y o= 01
m00
m00

2.4.3 Momentos Invariantes


Momentos invariantes, tambm conhecidos como Hu Moments (HU, 1962), so
calculados atravs das relaes anteriores citadas como: centro de massa e momentos
centralizados. Diferentemente de momentos centralizados que so invariantes apenas
translao. Hu Moments so invariantes escala, rotao e a translao. Nesse trabalho,
foram sete momentos invariantes foram computados.
h1=20+ 02
2

h2=( 20 02 ) + 4 211
2

h3=( 30 3 12 ) + ( 3 21 03 )
2

h4 =( 30+ 12) + ( 21+ 03)

)
) ) +4
2

(2.10)

h5=( 30 312 )( 30 +12) + ( 30+12) 3 (21 03) + ( 321 03 ) 3 ( 30+12) ( 21+03)

(
+ )(( + ) 3 ( + ) )+ ( 3
2

h6=( 20 02) ( 30 +12) ( 21 +03


h7=( 321 03 )( 30

12

30

12

11

21

03

12

( 30+ 12)( 21+ 03)

30 )(21 +03 ) 3 ( 12+30 ) ( 21+ 03)

Onde a Equao 2.11:


pq=

pq
00

(2.11)

representa os momentos centrais invariantes escala e rotao. E por fim na Equao 2.12:

26
=

p+ q
+1
2

(2.12)

2.4.4 Zernike Moments


O Zernike Moments (TEAGUE, 1980) ou Momentos de Zernike fornecem tambm
caractersticas que so um conjunto ortogonal de momentos invariantes rotao. Momentos
de Zernike so representados por um conjunto de polinmios complexos que formam um
conjunto ortogonal completo sobre o interior do crculo unitrio, isto , x 2+ y 2=1 . Para
calcular os momentos de Zernike de uma imagem necessrio primeiro tomar o centro de
massa como origem e as coordenadas de pixel so tomadas para o intervalo de crculo unitrio
x 2+ y 2 1 . Os pixels que esto fora do crculo unitrio no so computados. Os momentos
de Zernike de uma imagem digital podem ser calculados por:
Z nl =

n+1
V nl ( x , y ) f ( x , y )

x
y

onde x 2+ y 2 1 , 0 l n , f ( x , y )

(2.13)

descreve a valores de intensidade da imagem e

V nl um complexo conjugado do Zernike Polynomial de grau n e dependncia angular l.


n l
2

V nl ( x , y )= ( 1 )
m=0

( n m ) !

m!

)(

n 2 m+l
n 2 m l
!
!
2
2

1
onde, 0 l n , n l igual, =tan

( yx ) , e

(x

+y

n
m
2 2

e ti

(2.14)

i= 1 .

2.5 Alpha Shapes


comum que alguns ndulos mamrios apresentem regies desconexas umas das
outras, o que dificulta o clculo das medidas geomtricas, pois de antemo precisa-se definir o
contorno de cada ndulo. Uma soluo seria computar o fecho convexo dos pixels existentes.
Entretanto, isso afetaria negativamente no clculo de algumas medidas como:

Razo de rea: pois a porcentagem fora da regio circular seria insignificante.

27

Rugosidade: pois os contornos no seriam to irregulares.

Convexidade: o valor da convexidade seria igual a 1 para todos os ndulos.

Com isso, a soluo adotada nesse trabalho foi a utilizao do algoritmo de geometria
cncava chamado Alpha Shapes. Atravs desse algoritmo, a partir de um conjunto de pontos
pode-se obter o contorno cncavo de cada objeto da imagem a ser processada. Assumindo que
h um conjunto

S d

de pontos de n pontos num espao d dimensional, pretende-se

computar a forma dos n pontos, ou seja, traar um contorno cncavo que englobe esse
conjunto de pontos. Para controlar o grau de concavidade do contorno do conjunto S de
pontos utilizado o parmetro . Assim, para cada ponto do conjunto S de pontos, ser
englobado por uma circunferncia de raio .

Figura 2.3: Contorno computado a partir de um conjunto de pontos representado pela linha
mais escura.
Na Figura 2.3, possvel observar que os pontos pertencentes ao contorno do Alpha
Shapes so incidentes sobre o contorno das circunferncias. Ao alterar o valor de , altera-se o
tamanho da circunferncia e assim altera-se a concavidade da forma computada. Para valores
de que tendem a zero, o Alpha Shapes degenera para o conjunto de pontos. J para valores

28
de relativamente altos que tendem ao infinito, no haver contornos internos a outros e nem
contornos isolados um dos outros. Portanto, esse contorno ser um fecho convexo do conjunto
de pontos existentes.
Para 0 < < , seja uma circunferncia aberta com raio . Uma 0-circunferncia um
ponto e uma -circunferncia um espao aberto. Uma circunferncia b chamada de vazia
se b S = 0. Com isso, um k-simplexo T dito -exposto se existe uma -circunferncia
vazia onde T = b S e b a superfcie da esfera (para d = 3) ou da circunferncia (para d =
2) delimitadora b. Onde d representa a dimenso em que se encontra o conjunto de pontos. T
o fecho convexo de T e

T S com

| T | =k +1 d +1 , com isso T de dimenso k

chamado de k-simplexo. Na Figura 2.4, pode-se observar o exemplo de um k-simplexo exposto para o caso de d = 2.

Figura 2.4: esquerda um k-simplexo -exposto. direita um k-simplexo que no exposto.


O limite S do -shape do conjunto de pontos S consiste de todos os k-simplexos de
S para 0 k < d que so -exposto.
S =T TS ,| T| d e T exposto .
(2.15)
Para o clculo do -shape, assume-se que qualquer limite S, para qualquer valor de
, obtido como subconjunto da triangulao de Delaunay. Assim, dado um conjunto
S d , a triangulao de Delaunay de S o complexo DT(S) consistindo de:
1. Todos os d-simplexos T em que T S tal que a circunferncia de T no contm mais
nenhum ponto de S.

29
2. Todos os k-simplexos que sejam faces para outros simplexos em DT(S).
Portanto, para que T DT(S), T deve ser um -exposto simplexo de S. Assim
atravs da triangulao DT(S) obtida, para obter o -shapes do conjunto de pontos, cada face
da triangulao deve atender pelo menos uma das seguintes condies:
1. A circunferncia que engloba a face T vazia e tem raio menor que , ou
2. Se T face de outro simplexo no conjunto -complexo, que representado por C
(S).

Figura 2.5: esquerda um k-simplexo -exposto. direita um k-simplexo que no exposto.

2.6 Reconhecimento de padres

Esta etapa tem por objetivo a classificao ou descrio de objetos (padres) em


categorias ou classes a partir das caractersticas extradas. Os padres podem ser entendidos
como entidade, objeto ou evento que pode ser previamente definido por um nome. A classe
pode ser definida como um conjunto de objetos que possuem caractersticas em comum e as
caractersticas como j mencionado anteriormente so dados que podem ser extrados a partir
de alguma medida. A partir de um conjunto de caractersticas resultantes da etapa de extrao
de caractersticas o classificador separa os objetos em grupos denominados por classes. E
assim, de acordo com a particularidade das caractersticas em comum em cada um de seus
grupos pode ser reconhecido como pertencente ou no pertencente a uma determinada classe.

30
2.6.1 Random Forest
Random Forest um algoritmo de classificao formado por um conjunto de rvores
estruturadas classificadoras. Atravs dessas rvores de classificao, em tempo de
treinamento, o algoritmo produz a classificao de acordo com o resultado independente de
cada uma dessas rvores, isto , a classificao final ser dada pelo maior nmero de votos
dados por rvore.
O procedimento comum para todas as rvores que, para a k-sima rvore, um vetor
aleatrio vk gerado de forma independente dos outros vetores aleatrios gerados v1,, vk-1,
entretanto gerado com a mesma distribuio. Cada rvore cultivada utilizando o conjunto de
treinamento e vk, resultando em um classificador h(x, vk), onde x um vetor de entrada. O
vetor v gerado conforme as contagens em N caixas resultantes de N dardos lanados
aleatoriamente nas caixas, onde N o nmero de exemplos no conjunto de treinamento. Na
seleo de diviso aleatria, v consiste de um nmero independe de inteiros aleatrios entre 1
e K. Depois de um grande nmero de rvores, elas votam pela classe mais popular e assim
esse procedimento chamado de Random Forest (BREIMAN,1999).
O crescimento de cada rvore dado como segue:

Se o nmero de casos do conjunto de treinamento N, apresentam-se N amostras


aleatrias v, mas com a substituio, a partir dos dados originais. Esta amostra ser o
conjunto de treinamento para o crescimento da rvore.

Se existem M variveis de entrada, um nmero m M especificado de modo em que


a cada n m variveis so selecionadas aleatoriamente fora de M e a melhor diviso
sobre essas m variveis usada para dividir o n. O valor de m constante durante o
crescimento da floresta.

Cada rvore cultivada na maior extenso possvel. No h poda.


No Random Forest, a taxa de erro depende de duas variveis que so medidas de

preciso dos classificadores individuais e da dependncia entre eles. A interao entre eles da
base para compreenso do Random Forest. A primeira varivel a correlao entre as rvores
na floresta. Quando a correlao entre duas rvores cresce, aumenta a taxa de erro da floresta.
E a outra varivel a fora individual da rvore. Uma rvore com uma baixa taxa de erro
um classificador forte, assim o aumento das foras individuais das rvores diminui a taxa de

31
erro da floresta. Reduzir o valor de m reduz tanto a correlao quanto a fora. Usando a taxa
de erro out-of-bag o valor de m pode ser facilmente encontrado na faixa. Este o nico
parmetro ajustvel que influencia na sensibilidade do Random Forest. Estes dados out-ofbag so usados para obter uma estimativa imparcial de execuo do erro de classificao de
conforme as rvores so adicionadas floresta. Eles so calculados a partir dos casos que so
descartados durante a construo do conjunto de treinamento. Em que se tomam os votos
desses casos e comparam-se com os votos das rvores e a proporo em que os votos desses
casos so diferentes aos votos das rvores a estimativa do erro out-of-bag.
Outra caracterstica importante que se pode obter do Random Forest so as
proximidades entre os casos. As proximidades entre os casos so representadas por meio de
uma matriz N x N. Depois que a rvore que cultivada e depois da fase de treinamento. Se os
casos k e n esto no mesmo n terminal, a proximidade entre eles igual a 1. No final
normalizam-se as proximidades dividindo pelo nmero de rvores.
A proximidade mdia do caso n na classe j para outros casos do treinamento pode ser
definida por:
2
P ( n )= prox ( n , k )
cl= j

(2.16)

32
3 METODOLOGIA
Este captulo apresenta a metodologia utilizada para obter as caractersticas das
regies extradas da mamografia. A metodologia deste trabalho exemplificada na Figura 3.1
formada por um conjunto de etapas que so semelhantes s etapas do processamento de
imagens apresentadas na fundamentao terica. As etapas da metodologia so: aquisio de
imagens, pr-processamento, extrao de caractersticas e classificao.

Figura 3.1: Etapas da metodologia utilizada para desenvolver o estudo geomtrico de


neoplasias mamrias.

A primeira etapa a aquisio da base de imagens j com os ndulos mamrios prsegmentados. A segunda etapa o pr-processamento que consiste no realce da imagem e na
quantizao no linear. A terceira etapa tem o objetivo de computar e detectar o contorno e

33
extrair as medidas geomtricas e a quarta a classificao utilizando o Random Forest. As
sees seguintes descrevem mais detalhadamente os procedimentos utilizados na realizao
deste trabalho.

3.1 Aquisio de Imagens


As mamografias utilizadas para avaliar os resultados de cada teste foram obtidas
atravs da base DDSM (Digital Database for Screening Mamography) (HEAT et al., 1998).
Todas as imagens possuem a resoluo 1024 x 1024, com 8 bits de profundidade e foram
obtidas segundo a projeo Mdio Lateral Oblqua (MLO). E para cada respectiva imagem h
um arquivo de texto explicativo com os pontos da imagem. Uma coluna representa a linha,
uma coluna representa a coluna e a ltima coluna representa se o ponto pertence ao objeto ou
ao fundo da imagem.
Foram selecionadas 700 regies de interesse, sendo 340 ndulos malignos e 360
ndulos benignos pr-segmentados por um especialista mdico. Nas mamografias com
ndulos presentes (malignos e benignos), foram selecionadas 260 regies de interesse para
serem consideradas como padro massa e tambm obteve-se 231 regies de interesse sem a
presena de qualquer leso, isto , padro no massa. Com essas imagens digitais j
disponibilizadas, elas foram lidas uma a uma pelo programa desenvolvido em linguagem C
em conjunto com a biblioteca de processamento de imagens OpenCV para a execuo dos
procedimentos desse trabalho.

3.2 Pr-processamento
Esta etapa tem o objetivo de aprimorar a qualidade da imagem para as etapas
subsequentes. Os procedimentos adotados nessa etapa so muito importantes para a definio
dos contornos de cada imagem, pois entre as funes adotadas aqui o aumento do contraste
e uma melhor definio das regies que pertencem ao fundo e das regies que pertencem ao
objeto em questo. Os procedimentos adotados nessa fase foram: a equalizao do
histograma, para melhorar o contraste da imagem e a quantizao no linear para avaliar

34
possveis diferenas na distribuio dos valores de intensidade dos pixels das regies de
interesse.

3.2.1 Equalizao de Histograma


A fim de melhorar a distribuio dos valores de pixels na imagem e melhorar o
contraste para depois utilizar a quantizao no-linear foi utilizada a equalizao de
histograma. Com isso, ficam mais evidentes as regies que possuem uma densidade mais
acentuada que as outras. E com essa distribuio mais igualitria entre os valores de
intensidade de pixels, foi realizada a quantizao no-linear das imagens. A Figura 3.2 mostra
o procedimento da equalizao de histograma.

Figura 3.2: esquerda, a imagem de um ndulo antes da equalizao de histograma e direta,


a imagem do mesmo ndulo aps a equalizao de histograma.

3.2.2 Quantizao No-linear


Visando o estudo e as diferenas na distribuio dos valores de intensidade de pixel,
dividiu-se cada imagem em um nmero determinado de faixas de valores de intensidade.
Cada faixa d origem a uma imagem com os pixels correspondentes a ela, ou seja, cada
imagem mamogrfica contendo o ndulo tem seus pixels distribudos a novas imagens de
acordo com seu valor de intensidade.
Para computar a distribuio de pixels da imagem original para outras imagens
representando cada faixa, deve-se anteriormente calcular o nmero N de valores diferentes de
intensidade de pixel existentes na imagem original e depois escolher o nmero f de faixas que

35
a imagem original deve ser redistribuda. Aps isso, criado um vetor A de tamanho N com os
valores existentes dispostos em ordem crescente. Assim calculado o quociente q, que
representa o nmero de valores de intensidade de pixel do vetor A em cada faixa, atravs de
uma diviso inteira da seguinte relao:
N
, f 1
(3.1)
f
Aps isso, para calcular a faixa que o pixel de valor rb distribudo, deve-se obter a
q=

posio p do valor rb no vetor A. A faixa m que o pixel de valor rb computada pela seguinte
relao:
p
m= +1
(3.2)
q
onde p varia de 1 a N e p/ q ser uma diviso inteira. Caso m > f, os pixels correspondentes
a m so alocados ltima faixa de nmero f. A Figura 3.3 apresenta a diviso de faixas da
quantizao no linear.

Figura 3.3: Diviso de faixas. A primeira imagem esquerda a imagem original e direita as
imagens geradas a partir da quantizao no-linear, respectivamente, primeira, segunda e
terceira faixa.

3.3 Alpha Shapes


A fim de se obter o contorno cncavo de cada objeto foi o utilizado o algoritmo Alpha
Shapes. O contorno de cada ndulo foi computado a partir do conjunto de pontos (pixels) e o
parmetro que controla a concavidade do contorno. Quanto maior o valor do parmetro ,
mais pontos sero englobados pelo contorno do Alpha Shapes e assim se tem um contorno
mais prximo do fecho convexo dos pontos existentes em cada imagem e quanto menor o
valor do parmetro , menos pontos sero englobados e assim se tem um contorno mais
cncavo ou degenerando para o conjunto de pontos. O parmetro foi um dos principais

36
parmetros utilizados para variar o seu valor a fim de se obter melhores resultados na fase de
testes, pois ele influencia diretamente nos valores das medidas geomtricas e assim influencia
tambm nos resultados de classificao. A Figura 3.4 apresenta contornos computados pelo
Alpha Shapes.

Figura 3.4: Os contornos (destacados pelas linhas brancas) computados de cada imagem
representando cada faixa.
comum que apaream vrios contornos na mesma imagem. Alguns contornos
aparecem internamente a outros maiores devido a algumas pequenas regies que no contm
pontos (buracos) e outros contornos aparecem externos a outros devido a alguns conjuntos de
pontos estarem disjuntos a outros conjuntos de pontos. O processo de obteno das medidas
geomtricas atravs dos contornos computados de cada imagem explicado posteriormente.

3.4 Medidas Geomtricas


As medidas geomtricas foram extradas de cada faixa da quantizao no linear e
cada imagem ter um conjunto de caractersticas provenientes das medidas geomtricas em
cada faixa, ou seja, se o nmero de variveis correspondentes s medidas geomtricas N e o
nmero de faixas obtidos atravs da quantizao no-linear M, so gerados para a fase de
classificao N x M variveis para cada imagem.
Em alguns casos, possvel a existncia de vrios contornos para cada faixa gerada da
quantizao no linear. Como as medidas geomtricas descrevem cada imagem representando
cada faixa da quantizao no linear e algumas medidas geomtricas tais como: circularidade,
compacidade, convexidade, desvio padro, razo de rea e rugosidade so extradas de cada
um dos contornos. Essas medidas geomtricas citadas, para representar cada faixa, sero a

37
mdia das medidas geomtricas dos contornos, ou seja, primeiro calculam-se as medidas
geomtricas de cada contorno e depois a mdia dessas medidas geomtricas representar
aquela determinada faixa da quantizao no linear. Em contrapartida medidas como:
densidades quadrangular e circular, Hu Moments e Zernike Moments so calculadas
diretamente para cada faixa e no nos contornos individualmente.
Para calcular a densidade quadrangular primeiro faz-se um bounding box
bidimensional englobando todo o objeto e depois divide a regio em quatro quadrantes e
partir desses quadrantes menores criados calculam-se quatro ndices de densidade
quadrangular dividindo-se o nmero de pixels do objeto dentro do quadrante pelo nmero
total de pixels do respectivo quadrante. E para calcular a densidade circular, primeiro
construda uma circunferncia que envolva todo o objeto e depois so construdos outras trs
circunferncias menores concntricas primeira circunferncia, correspondendo a 1/2, 1/4 e
1/8 do raio da primeira circunferncia e ento as densidades circulares so calculadas a partir
do nmero de pixels do objeto dentro da circunferncia pelo nmero total de pixels dentro da
circunferncia e assim se tem 4 ndices de densidade circular.

3.5 Ajuste de Parmetros


Como mencionado anteriormente, nos testes desse trabalho com o objetivo de obter
melhores resultados na classificao, o projeto em relao aos ajustes de parmetros foi
dividido em 3 fases. A primeira fase teve como parmetro de teste o nmero de faixas, a
segunda fase o valor de para computar os contornos cncavos e a terceira fase o valor do
grau do Zernike Moments. O melhor parmetro encontrado em uma fase foi utilizado na fase
seguinte.
Na primeira fase para encontrar o melhor resultado para o nmero de faixas da
quantizao no-linear utilizaram-se apenas algumas medidas geomtricas: circularidade,
compacidade, desvio padro, convexidade, razo de rea e rugosidade. Os nmeros de faixas
testados variaram de 1 a 7. O valor de para esta fase foi ajustado em 10000 para todos os
testes e o nmero de indivduos testados foram entorno de 260 incluindo imagens de ndulos
malignos e benignos. Na segunda fase a fim de se obter o melhor valor de para as imagens
utilizadas neste trabalho, foram testados 21 valores de que variaram de 0.05 N

at N,

sendo N representando a raiz quadrada do tamanho da imagem em pixels, incluindo os

38
valores timos de para cada imagem. Na segunda fase as mesmas medidas geomtricas da
primeira fase foram utilizadas. O nmero de faixas foi ajustado em 3 e o nmero de
indivduos testados para cada teste foi de at 380. Na terceira fase o parmetro a se ajustar foi
o valor do grau do Zernike Moments, os valores testados variaram de 6, resultado em um vetor
de caracterstica de tamanho 16, at 13, resultando em um vetor de caractersticas de tamanho
56. O nmero de faixas foi trs e =0.55 N .

3.6 Classificao
Para fazer a classificao das imagens, foram reunidas para cada imagem do ndulo as
caractersticas das imagens de cada faixa correspondente. A sada da extrao de
caractersticas foi gerada em um arquivo de texto Attribute-Relation File Format (ARFF) para
a leitura e processamento do aplicativo Weka [WAIKATO, 2013] que implementa o
classificador Random Forest. Cada arquivo contm as definies dos atributos (variveis)
utilizados na classificao e o conjunto de caractersticas que representam as medidas
geomtricas extradas de cada ndulo regio. Cada ndulo com suas respectivas
caractersticas foram distribudos linha por linha. Para ndulos benignos, foi atribudo o
atributo nao indicando a ausncia de cncer e para ndulos malignos, foi atribudo o
atributo sim indicando a presena de cncer. Na classificao de indivduos massa e no
massa, o atributo sim indicava que o indivduo apresentava massa e o atributo nao foi
utilizado para indivduos no massa.

39
4 RESULTADOS
Os resultados foram obtidos atravs dos testes de cada fase em que os parmetros de
nmero de faixas, valor de do Alpha Shapes e valor do grau do Zernike Moments sofreram
variao a fim de se encontrar os parmetros que ocasionassem melhores resultados na
classificao. Para se avaliar o resultado dos testes, foram utilizadas trs variveis: acurcia,
sensibilidade e especificidade.
A sensibilidade caracteriza como a capacidade de um teste para identificar
corretamente os indivduos onde h presena de uma determinada doena. A especificidade
a capacidade de se identificar os indivduos onde h ausncia de uma determinada doena. A
acurcia a proporo de indivduos que foram classificados corretamente. A sensibilidade
(S), especificidade (E) e acurcia (A) so definidas pelas Equaes 4.1, 4.2 e 4.3.

A=

S=

VP
VP+ FN

(4.1)

E=

VN
VN + FP

(4.2)

VP+VN
VP+VN + FN + FP

(4.3)

Verdadeiros positivos (VP) so doentes (nesse caso com a presena de cncer)


classificados como doentes. Verdadeiros negativos (VN) so indivduos saudveis
classificados como saudveis. Falsos positivos (FP) so indivduos saudveis classificados
como doentes. E falsos negativos (FN) so indivduos doentes classificados como saudveis.
Os resultados desta metodologia se subdividem em duas sees: a Seo 4.1 trata dos
resultados de ajuste de parmetros e a Seo 4.2 trata dos resultados da classificao massa e
no massa e a Seo 4.3 trata dos resultados da classificao benigna e maligna.

40
4.1 Determinando Parmetros
Todos os testes a fim de se encontrar esses parmetros foram realizados na
classificao de padres malignos e benignos, pois objetivo inicial do trabalho era fazer um
estudo sobre o uso de ndices geomtricos para diagnosticar o cncer de mama. O critrio
utilizado para escolher os melhores resultados foi o valor da acurcia geral de cada teste.
Na primeira fase, a fim de se encontrar o melhor valor para o nmero de faixas da
quantizao no linear, o valor de foi fixado em = 10000 e o nmero de faixas da
quantizao foi variado de um a sete. As medidas utilizadas na primeira fase foram: duas
medidas de circularidade, compacidade, desvio padro, convexidade, razo de rea e
rugosidade.

Figura 4.1: Grfico dos resultados da acurcia pelo nmero de faixas.


Como se pode observar na Figura 4.1, aps os testes com vrias quantidades de faixas,
constatou-se que sem a diviso de faixas ocasionava os melhores resultados. Entretanto,
escolheu-se a diviso em trs faixas para se avaliar posteriormente a distribuio dos valores
de pixel nos ndulos benignos e malignos.
A segunda fase teve como objetivo encontrar o valor de que ocasionasse a melhor
acurcia. Como visto na Seo 2.5, o valor de influencia no nmero de pontos englobados
pelo contorno cncavo e consequentemente na extrao de caractersticas. Por isso valores de

41
foram testados de 0,05 N a N , variando 0,05 no valor de de um teste para outro. E
tambm o valor timo de para cada conjunto de pontos. Onde:

N= Altura daimagem Largura daimagem

(4.4)

O nmero de faixas foi fixado em trs e foram utilizadas as mesmas medidas da primeira
fase.

Figura 4.2: Grfico dos resultados da acurcia pelo valor de .


Como se pode observar na Figura 4.2, para =0,55 N , obteve-se a melhor
acurcia dentre 21 testes realizados nessa fase. Este parmetro foi fixado na fase posterior. Na
terceira fase foi fixado

=0,55 N , trs faixas na diviso de faixas da quantizao no

linear e foram adicionadas as medidas de densidade circular e quadrangular e os descritores


de momentos Hu Moments e Zernike Moments. Para melhorar a distribuio dos valores de
intensidade de pixel na imagem foi adicionada a etapa de pr-processamento com a
equalizao de histograma. Nesta fase apenas os resultados individuais do Zernike Moments e
do total mudam. Os resultados referentes densidade, aos ndices geomtricos inclusive Hu
Moments so iguais para todos os testes. A Figura 4.3 apresenta o grfico com os resultados
dos testes variando-se o valor do grau do Zernike Moments.

42

Figura 4.3: Grfico dos resultados da acurcia pelo valor do grau do Zernike Moments.

Como se pode perceber na Figura 4.3 em todos os testes realizados com o Zernike
Moments, a variao do grau do Zernike Moments pouco altera nos resultados gerais. Os
testes obtiveram os melhores resultados com o grau do Zernike Moments ajustado em 12,
fornecendo 49 descritores no total.

4.2 Resultados Massa e No Massa


Depois de estimados os melhores parmetros para extrao de caractersticas, foram
testados a classificao de indivduos em massa e no massa. No total, foram utilizados 490
indivduos 260 indivduos massa e 230 indivduos no massa. Os parmetros de nmero de
faixas e valor de foram os mesmos utilizados da terceira fase e o valor do grau do Zernike
Moments utilizado foi grau = 12, resultando em um vetor de caractersticas de tamanho 49.

43
Tabela 4.1: Resultados gerais e individuais das medidas geomtricas utilizadas para
classificao massa e no massa.
Sensibilidade (%)

Especificidade (%)

Acurcia (%)

Circularidade 1

93,8

93,1

93,48

Circularidade 2

95

91,3

93,2

Compacidade

93,5

93,9

96,53

Desvio Padro

91,9

92,6

92,26

Convexidade

77,3

68,8

73,31

Razo de rea

98,8

97,8

98,37

Rugosidade

100

100

100

Densidade Quadrangular

95,4

93,5

94,5

Densidade Circular

84,6

84

84,31

Hu Moments

98,8

98,3

98,57

Zernike Moments

76,5

58,4

68,02

Total

100

99,1

99,59

Para a classificao de indivduos massa e no massa, os resultados gerais so


apresentados na Tabela 4.1. A acurcia ficou prxima a um, a sensibilidade foi um, ou seja,
acertou todos os indivduos massa e a especificidade foi prxima a um. Com relao aos
resultados individuais a medida de rugosidade classificou totalmente de forma correta os
indivduos massa e no massa e em relao s outras medidas geomtricas, a maioria teve
acurcia, sensibilidade e especificidade acima de 90%, com exceo do Zernike Moments, das
densidades circulares e da medida de convexidade.

Figura 4.4: esquerda uma imagem com o padro no massa e direita uma imagem com o
padro massa.

44
Observando o exemplo da Figura 4.4, pode-se avaliar as possveis justificativas do
resultado de cada medida geomtrica utilizada para classificao de padres massa e no
massa. Em relao s medidas geomtricas que obtiveram acurcia acima de 90%, o resultado
se deve diferena de distribuio dos pixels na forma. Enquanto o recorte de regies no
massa apresenta uma distribuio de pixels mais compacta e regular, as regies com padro
massa apresentam uma distribuio de pixels relativamente desconexa e concentrada em
determinadas faixas da quantizao no linear. Isso fica mais claro na Figura 4.5.

Figura 4.5: Diviso de faixas da quantizao no linear: (a) Padro Massa (b) Padro No
Massa
Como se pode observar na Figura 4.5, as duas primeiras faixas da quantizao no
linear do padro massa apresentam regies pouco concentradas de pixels e regies
consideravelmente desconexas e a ltima faixa do padro massa obteve grande concentrao
de pixels. O mesmo no ocorre no padro no massa, pois a distribuio de pixels entre as
faixas foi consideravelmente mais equivalente que a distribuio de pixels no padro massa.
possvel observar que cada faixa do padro no massa apresentou uma distribuio de pixels
mais compacta e a existncia de poucas regies desconexas.
Em relao s medidas geomtricas que obtiveram acurcia menor que 90% tem-se o
Zernike Moments, que no apresentou bons resultados em nenhum dos testes possivelmente

45
devido a grande variedade de formas geomtricas que as regies massa e no massa assumem,
a convexidade, que obteve acurcia de 73,31% devido a diviso dos pixels em faixas
ocasionando em muitas regies consideravelmente cncavas, e a densidade circular, que
apesar de ter obtido acurcia maior que 80% no atingiu o mnimo desejado que foi de 90%
devido suas densidades serem calculadas atravs de crculos concntricos, isto , devido, em
algumas faixas, a distribuio de pixels em imagens de ndulos serem mais densas prximos
ao centro de massa faz com que as densidades de crculos mais intrnsecos aos ndulos sejam
relativamente semelhantes s densidades circulares de regies no massa.

4.3 Resultados Benignos e Malignos


Aps a classificao de regies massa e no massa, o objetivo principal identificar,
entre as regies que tem o padro massa, quais so as regies que possuem o padro benigno
e as regies com o padro maligno. A Tabela 4.2 apresenta os resultados individuais e o
resultado geral da classificao de ndulos benignos e malignos.

Tabela 4.2: Resultados gerais e individuais das medidas geomtricas utilizadas para
classificao de benigno e maligno.
Sensibilidade (%)

Especificidade (%)

Acurcia (%)

Circularidade 1

60,5

61,1

60,76

Circularidade 2

63,6

47,3

55,38

Compacidade

60,5

61,8

61,15

Desvio Padro

59,7

51,1

55,38

Convexidade

72,9

65,6

69,23

Razo de rea

62

54,2

58,07

Rugosidade

53,5

45

49,23

Densidade Quadrangular

71,3

64,9

68,07

Densidade Circular

66,7

61,1

63,84

Hu Moments

62

47,3

54,61

Zernike Moments

63,6

52,7

58,07

Total

76,7

64,1

70,38

46
Na classificao de padres malignos e benignos, os resultados apresentados pela
Tabela 4.2 no foram bons. A acurcia geral foi de 70,38% e entre as medidas geomtricas, a
convexidade obteve melhor acurcia individual e Hu Moments obteve a pior acurcia
individual que foi de 54,61%, errando a classificao de quase metade dos indivduos. Para
explicar as possveis justificativas dos resultados, importante observar o exemplo dado pela
Figura 4.6 de um ndulo maligno e de um ndulo benigno.

Figura 4.6: esquerda a imagem de um ndulo benigno e direita a imagem de ndulo


maligno.

Como mencionado anteriormente na Seo 2, os ndulos benignos e malignos


possuem comportamentos biolgicos diferentes, pois enquanto o padro benigno tende
apresentar um crescimento lento, organizado e limitado, o padro maligno tende apresentar
um crescimento desordenado e invasivo (INCA, 2004). E atravs dos comportamentos
distintos faz com que geralmente ndulos benignos apresentam formas mais regulares e
ndulos malignos apresentassem formas relativamente irregulares. Entretanto, como se pode
observar na Figura 4.6, h alguns casos que fogem a essa regra. esquerda pode-se observar
que o ndulo benigno possui forma relativamente mais irregular que o ndulo maligno que
est direita. Nota-se que o ndulo maligno na Figura 4.6 tem o aspecto mais circular,
compacto e conexo que so caractersticas que se esperam que os ndulos benignos
apresentem. Outra possvel justificativa para que os resultados no fossem satisfatrios o
fato de que esses ndulos serem segmentados manualmente pelos especialistas mdicos. Isso
abre a possibilidade de haver erros quanto ao recorte das regies que ainda no foram
invadidas pela neoplasia, devido composio fisiolgica da mama ser diferente para cada
mulher e a possibilidade de essa estrutura sofrer alteraes de acordo com a condio de
sade que a mulher se encontra (DUARTE, 2006).

47
5 CONCLUSO
Este trabalho apresenta o desenvolvimento de uma metodologia para extrao de
caractersticas de ndulos mamrios para posteriormente classific-los em massa ou no
massa e depois classific-los em maligno ou benigno.
Foram utilizadas imagens mamogrficas da base DDSM (Digital Database for
Screening Mamography) (HEAT et al., 1998). Sendo dois grupos: o primeiro grupo
representava as imagens que no continham qualquer massificao e o segundo grupo que
continha neoplasias malignas e benignas.
A adio da equalizao de histograma contribuiu para melhora de distribuio dos
valores de pixels e consequentemente na diviso de faixas da equalizao no linear que foi
importante para o estudo geomtrico em cada regio de cada imagem mamogrfica. Os
resultados na classificao de padres massa e no massa atingiram acurcia de 93,48% e
apenas a convexidade, a densidade circular e o Zernike Moments no atingiram
individualmente acurcia acima de 90%. A metodologia provou ser eficaz em reconhecer os
padres massa e no massa. Para a classificao de neoplasias malignas e benignas, os
resultados com acurcia atingindo 70,38% ainda no foram satisfatrios devido variedade de
formas geomtricas que ndulos podem apresentar. Para este caso, a medida de convexidade
obteve os melhores resultados individuais atingindo acurcia de 69,23% e sensibilidade de
72,9%. De forma geral, a sensibilidade foi maior que a especificidade, ou seja, houve mais
acertos em reconhecer os ndulos malignos que reconhecer os ndulos benignos. Desse
modo, as contribuies esse trabalho apresenta so:
1. Implementao de uma metodologia de extrao de caractersticas segundo a
geometria, densidade e momentos de imagem;
2. Uma metodologia eficaz no reconhecimento de padres massa e no massa; E
3. A possibilidade de se utilizar ndices geomtricos com a adio de outros parmetros
para reconhecer padres malignos e benignos;

5.1 Trabalhos Futuros


O desenvolvimento de uma metodologia para deteco de massas e posteriormente
alertar ao mdico se aquela dada massificao possui um padro maligno pode contribuir para

48
diagnosticar o cncer de mama ainda em estgio inicial e consequentemente aumentando a
probabilidade de cura. Com isso, melhorias so necessrias a fim de que este trabalho possa
ser utilizado como auxlio ao mdico. As melhorias so:

Utilizar alguma tcnica de segmentao aps o recorte mdico e o pr-processamento;

Adicionar outros ndices como a anlise de textura na extrao de caractersticas;

Adicionar outros ndices geomtricos na extrao de caractersticas;

Adicionar a correlao de histograma na extrao de caractersticas;

Incluir ndices de diversidade na extrao de caractersticas para medir a diversidade


de tons de cinza que os pixels das regies de interesse possuem.

49
REFERNCIAS
SALES, A. M. V.; SILVA, A.C.; PAIVA, A.C.; Deteco de Leses em Mamografias Atravs
da Assimetria das Mamas e Extrao de Caractersticas com ndice de Getis-Ord.
Universidade Federal do Maranho. 2013.
PAIVA, A.C.; SILVA, A.C. et al. Identificao de Massas em Mamografias usando Textura,
Geometria e Algoritmos de Agrupamento e Classificao. Universidade Federal do
Maranho. 2006.
MARTINS, L. O. et al. Classificao de Tecidos Normais, Benignos e Malignos Utilizando
Matrizes de Coocorrncia e Redes Neurais Bayesianas em Imagens de Mamografia.
Universidade Federal do Maranho. 2006.
SOUSA. U.S. Treinamento De Redes Neurais Artificiais Utilizando Algoritmos Genticos
Em Plataforma Distribuda. Universidade Federal do Maranho. 2011
HOLSBACK. N. Mtodo de Minerao de Dados para Diagnstico do Cncer de Mama
Baseado na Seleo de Variveis. Universidade Federal do Rio Grande do Sul. 2012.
ROCHA. S.V. Diferenciao do Padro de Malignidade e Benignidade de Massas em
Imagens de Mamografias Usando Padres Locais Binrios, Geoestatstica e ndice de
Diversidade. Universidade Federal do Maranho. 2014.
TSUI. P.H. et al.Classification of Benign and Malignant Breast Tumors by 2-D Analysis
Based on Contour Description and Scatterer Characterization.IEEE. 2010.
GONZALEZ, R., & WOODS, R. Digital Image Processing. 3. ed. Person Prentice Hall. 2010.
NIXON, M., & AGUADO, A. Feature Extraction & Image Processing. Elsevier. 2008
Instituto Nacional do Cncer (INCA). Atlas de mortalidade por cncer. Disponvel em:
<http://mortalidade.inca.gov.br/Mortalidade/prepararModelo05.action>. 2014.
BREIMAN,

L.;

CUTLER,

ADELE.

Random

Forest.

Disponvel

em:

https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.html.
HEALT et al. Digital Database for Screening Mamography. Exerpta Medica International,
1998.

50
MUCKE, H. E. Three-dimensional alpha shapes. ACM Trans. Graph, v. 13. 4372, 1994.
VIEIRA, S., SOAREA, L., JUNIOR, J., & TEIXEIRA, J. et al. Oncologia Bsica. 2012.
DUARTE, D. L. A Mama em Imagens. Rio de Janeiro: Guanabara/Koogan, 2006.

Você também pode gostar