Escolar Documentos
Profissional Documentos
Cultura Documentos
ITUIUTABA-MG 2011
Trabalho de Concluso de Curso apresentado Universidade do Estado de Minas Gerais como prrequisito para obteno do ttulo de Bacharel em Engenharia da Computao, sob orientao do Prof. Marco Tlio Faissol Tanns. .
ITUIUTABA-MG 2011
Trabalho de Concluso de Curso apresentado Universidade do Estado de Minas Gerais como prrequisito para obteno do ttulo de Bacharel em Engenharia da Computao, sob orientao do Prof. Marco Tlio Faissol Tanns.
Banca Examinadora
Dedico este trabalho minha famlia, aos meus professores e todos aqueles que me ajudaram e me apoiaram
AGRADECIMENTOS
A Universidade do Estado de Minas Gerais, a Fundao Educacional de Ituiutaba, ao Curso de Engenharia da Computao e aos meus professores por todo apoio e conhecimento que obtive. A FAPEMIG pelo apoio financeiro. Ao meu orientador por sua dedicao e apoio. A minha famlia pelo incentivo.
RESUMO
Os sistemas de busca de imagens tradicionais, baseados em metadados textuais, no apresentam resultados precisos, uma vez que esses metadados so inseridos manualmente. Segundo Penatti a recuperao de imagens baseada em contedo tem a vantagem de considerar as caractersticas visuais das imagens no processo de indexao e recuperao. Alm disso, a grande quantidade de informao disponvel atualmente motiva o desenvolvimento de mtodos eficientes de recuperao de imagens com base no contedo. A literatura prope diversas tcnicas para efetuar tal tarefa, dentre elas, as propostas pelo padro MPEG-7 e o descritor derivado da matriz de co-ocorrncia de nveis de cinza para texturas, proposto por Haralick. Este trabalho tem o objetivo de implementar algumas dessas tcnicas de descrio de texturas e test-las sobre um banco de imagens de referncia a fim de determinar seus desempenhos relativos. Palavras-chave: Busca de Imagens; Busca por Semelhana; Imagem Digital; Estudo de desempenho.
ABSTRACT
The traditional image search engines, based on textual metadata, do not show accurate results, since this metadata is entered manually. According Penatti image retrieval based on content has the advantage of considering the characteristics of the images in the process of indexing and retrieval. Moreover, the vast amount of information currently available motivates the development of efficient methods of image retrieval based on content. The literature suggests several techniques to accomplish this task, among them, proposed by MPEG-7 standard and the descriptor derivative of gray level co-occurrence matrix for texture proposed by Haralick. This work aims to implement some of these techniques for texture description and test them on a database of reference images to determine their relative performance. Keywords: Image Search, Similarity Search, Digital Imaging, Performance Study.
LISTA DE ILUSTRAES
Figura 1 Exemplo de Espectro de Filtros de Gabor. ...................................................... 30 Figura 2 - Texturas Brodatz utilizadas nos testes. ............................................................. 40 Figura 3 - Consulta de uma imagem da classe Herringbone para o descritor MCNC ...... 44 Figura 4 - Consulta de uma imagem da classe Bubbles para o descritor MCNC .............. 45 Figura 5 - Consulta de uma imagem da classe Herringbone para o descritor CCR .......... 47 Figura 6 - Consulta de uma imagem da classe Bubbles para o descritor CCR ................. 48 Figura 7 - Consulta de uma imagem da classe Herringbone para o descritor LBP .......... 51 Figura 8 - Consulta de uma imagem da classe Bubbles para o descritor LBP .................. 52 Figura 9 - Consulta de uma imagem da classe Herringbone para o descritor HSD .......... 55 Figura 10 - Consulta de uma imagem da classe Bubbles para o descritor HSD ............... 56 Figura 11 - Consulta de uma imagem da classe Herringbone para o descritor GAB ....... 58 Figura 12 - Consulta de uma imagem da classe Bubbles para o descritor GAB ............... 59 Figura 13 - Grfico comparativo das Taxas de Acertos dos descritores analisados. ........ 60 Figura 14 - Grfico comparativo das ANMRRs dos descritores analisados. .................... 61
LISTA DE TABELAS
Tabela 1 - Padres binarios locais com um bit 1 ............................................................... 24 Tabela 2: Comparao dos trabalhos relacionados ao projeto .......................................... 37 Tabela 3 - ANMRR de cada classe para do descritor MCNC ........................................... 42 Tabela 4 - Taxa de Acertos para cada classe do descritor MCNC em %. ......................... 43 Tabela 5 - Matriz de Confuso do descritor MCNC em % ............................................... 43 Tabela 6 - ANMRR de cada classe para do descritor CCR ............................................... 46 Tabela 7 - Taxa de Acertos para cada classe do descritor CCR em % .............................. 46 Tabela 8 - Matriz de Confuso do descritor CCR em % ................................................... 46 Tabela 9 - ANMRR de cada classe para do descritor LBPRIU16 .................................... 49 Tabela 10 - Taxa de Acertos para cada classe do descritor LBPRIU16 em % ................. 49 Tabela 11 - Matriz de Confuso do descritor LBPRIU16 em % ....................................... 50 Tabela 12 - ANMRR de cada classe para do descritor HSD ............................................. 53 Tabela 13 - Taxa de Acertos para cada classe do descritor HSD em % ............................ 53 Tabela 14 - Matriz de Confuso do descritor HSD em % ................................................. 54 Tabela 15 - ANMRR de cada classe para do descritor GAB ............................................ 57 Tabela 16 - Taxa de Acertos para cada classe do descritor GAB em % ........................... 57 Tabela 17 - Matriz de Confuso do descritor GAB em % ................................................ 57
LISTA DE FRMULAS
Equao 2.1 Energia MCNC .......................................................................................... 20 Equao 2.2 Contraste MCNC ....................................................................................... 20 Equao 2.3 Correlao MCNC ..................................................................................... 20 Equao 2.4 Varincia MCNC ....................................................................................... 20 Equao 2.5 Homogeneidade MCNC ............................................................................ 20 Equao 2.6 Mdia da Soma MCNC ............................................................................. 20 Equao 2.7 Varincia da Soma MCNC ........................................................................ 21 Equao 2.8 Entropia da Soma MCNC .......................................................................... 21 Equao 2.9 Entropia MCNC ......................................................................................... 21 Equao 2.10 Varincia da Diferena MCNC ............................................................... 21 Equao 2.11 Entropia da Diferena MCNC ................................................................. 21 Equao 2.12 Medida de Informao da Correlao I MCNC ...................................... 22 Equao 2.13 Media de Informao da Correlao II MCNC ....................................... 22 Equao 2.14 Mximo Coeficiente da Correlao MCNC ............................................ 22 Equao 2.15 Possveis Valores para as Relaes entre pixels LBP. ............................. 24 Equao 2.16 Valor do Padro Binrio Local LBP ........................................................ 24 Equao 2.17 Calculo das Coordenadas dos pixels de uma Vizinhana LBP............... 25 Equao 2.18 Valor do Padro LBPRIU ........................................................................ 26 Equao 2.19 Soma e Diferena entre pixels HSD ........................................................ 27
Equao 2.20 Histogramas da Soma e da Diferena HSD ............................................. 27 Equao 2.21 HSD Normalizados .................................................................................. 27 Equao 2.22 Mdia HSD .............................................................................................. 28 Equao 2.23 Varincia HSD ......................................................................................... 28 Equao 2.24 Energia HSD ............................................................................................ 28 Equao 2.25 Correlao HSD ....................................................................................... 28 Equao 2.26 Entropia HSD........................................................................................... 28 Equao 2.27 Contraste HSD ......................................................................................... 28 Equao 2.28 Homogeneidade HSD .............................................................................. 28 Equao 2.29 Cluster Shade HSD .................................................................................. 29 Equao 2.30 Cluster Prominence HSD ......................................................................... 29 Equao 2.31 Resposta de um Filtro de Gabor Unidimensional Normalizado .............. 29 Equao 2.32 Resposta de um Filtro de Gabor Bidimensional Normalizado ................ 29 Equao 2.33 Taxa de Acertos ....................................................................................... 32 Equao 2.34 Taxa de Acertos Mdia ............................................................................ 32 Equao 2.35 Posio de Retorno de uma Imagem ....................................................... 33 Equao 2.36 Posio Mdia de uma Busca .................................................................. 33 Equao 2.37 Posio de Retorno Modificada ............................................................... 34 Equao 2.38 Posio de Retorno Modificada Normalizada ......................................... 34 Equao 2.39 Posio Mdia de Retorno Modificada Normalizada ANMRR .............. 34 Equao 2.40 Taxa de Acertos ....................................................................................... 34 Equao 4.1 Distancia L1 Entre dois Vetores de Caractersticas ................................... 41
MCNC CCR LBP LBPRI LBPRIU LBPRIU16 HSD GAB MPEG ISO IEC FCM RR AVR MRR NMRR ANMRR
Matriz de Co-ocorrncia de Nveis de Cinza Representao dos Grupos Coordenados Padres Binrios Locais Padres Binrios Locais Invariantes a Rotao Padres Binrios Locais Uniformes Invariantes a Rotao Padres Binrios Locais Uniformes Invariantes a Rotao de Vizinhana 16 Histogramas da Soma e da Diferena Filtros de Gabor Moving Picture Experts Group International Organization for Standardization International Electrotechnical Commission Fuzzy C-Means Taxa de Recuperao Posio Mdia de Retorno Posio de Retorno Modificada Posio de Retorno Modificada Normalizada Posio Mdia de Retorno Modificada Normalizada
SUMRIO
2.1.2.1 Binarizao de Imagem em Escala de Cinza ............................................................................. 23 2.1.2.2 Calculo do CCR .......................................................................................................................... 23 2.1.3 Padres Binrios Locais ............................................................................................................. 23
2.1.3.1 Padres Binrios Locais Invariantes a Rotao......................................................................... 24 2.1.3.2 Padres Binrios Locais Uniformes ........................................................................................... 25 2.1.4 Histogramas da Soma e da Diferena ....................................................................................... 26
2.1.4.1 Calculo dos Histogramas............................................................................................................ 27 2.1.4.2 Caractersticas Propostas .......................................................................................................... 28 2.1.5 Filtros de Gabor .......................................................................................................................... 29
2.2.2.1 Clculo da ANMRR ..................................................................................................................... 33 2.2.3 2.2.4 Taxa de Acertos .......................................................................................................................... 34 Matriz de Confuso .................................................................................................................... 35
4 Desenvolvimento ............................................................................................... 39
4.1 Procedimentos de Testes ............................................................................................ 39 4.2 Resultados Obtidos ..................................................................................................... 41
4.2.1 Matriz de Co-ocorrncia de Nveis de Cinza .............................................................................. 42
Coordinated Clusters Representation ........................................................................................ 45 Padres Binrios Locais ............................................................................................................. 48 Histogramas da Soma e da Diferena ....................................................................................... 52 Filtros de Gabor .......................................................................................................................... 56
4.3 Resultados Complementares ...................................................................................... 59 4.4 Tecnologias Utilizadas ................................................................................................. 61 4.5 Consideraes Finais .................................................................................................. 61
5 Concluso ........................................................................................................... 63
5.1 Contribuies .............................................................................................................. 64 5.2 Trabalhos Futuros ....................................................................................................... 65
14
INTRODUO
A quantidade de imagens digitais disponveis vem crescendo rapidamente. Isso se deve a grande popularizao das cmeras fotogrficas digitais e a disseminao da Internet (PENATTI, 2009). Com a popularizao das imagens digitais e o advento da computao, percebeu-se a necessidade de guardar essas imagens de forma organizada, para que pudessem ser facilmente recuperadas quando necessrio. Porm, a grande maioria dos sistemas de indexao de imagens faz o uso de metadados textuais que devem conter palavras chave relacionadas ao contedo visual das imagens. Como se trata de uma tarefa manual, esse processo de rotulao de imagens pode ser falho, uma vez que quem rotula pode no ter uma percepo muito boa do que realmente relevante dentro de uma dada imagem. Outro problema com essa rotulao que ela no obrigatria, com isso alguns ambientes possuem imagens absolutamente sem nenhuma informao relevante. Penatti ainda mostrou que no caso de sistemas de busca, os rtulos podem gerar problema de ambigidade, uma vez que um determinado termo pode ter mais de um significado. O que realmente importa em uma imagem seu contedo visual, suas texturas, formas e cores. Portanto toda a informao a respeito de uma imagem, que deve ser considerada como relevante, deve ser proveniente destas grandezas. Existem inmeros estudos que buscam uma forma adequada de descrever essas grandezas, para a classificao, segmentao e recuperao de imagens. fcil prever uma srie de aplicativos que podem fazer uso das tcnicas de comparao de imagens. Um exemplo clssico de aplicativo que faria um bom uso desses mtodos so os mecanismos de busca na Internet, pois por se tratar de um ambiente bastante heterogneo e sem nenhum controle rigoroso quanto rotulao de imagens, a classificao e recuperao baseada em contedo visual poderiam melhorar significativamente os resultados das pesquisas, mostrando apenas os resultados visualmente relevantes.
15
Dentre as grandezas visuais de uma imagem e as diversas tcnicas para analisar cada uma delas, este trabalho tem como objetivo estudar as tcnicas que extraem caractersticas das texturas de uma imagem. O objetivo deste trabalho comparar algumas das tcnicas que se destacam na literatura sobre um mesmo conjunto de imagens, utilizando uma mesma medida de desempenho para este fim. Este trabalho tem tambm como objetivo gerar dados que possam servir a estudos que analisem outras grandezas visuais das imagens e que possam servir como base para a escolha de descritores para a utilizao em aplicativos e sistemas de busca e comparao de imagens. Este trabalho estruturado como se segue: O captulo 2 apresenta a base terica utilizada no desenvolvimento dos estudos realizados. So introduzidos os conceitos dos descritores analisados e as medidas de desempenho usadas na avaliao so apresentadas. Por ltimo so realizadas as consideraes finais. O captulo 3 faz um comparativo deste trabalho com outros trabalhos semelhantes, destacando os conceitos abordados em cada trabalho. Finalmente so apresentadas as consideraes finais. No captulo 4 so apresentados os procedimentos utilizados na avaliao de desempenho dos descritores. Em seguida so mostrados os dados obtidos para cada descritor, assim como algumas informaes complementares a esses dados. A seguir so realizadas as consideraes finais deste captulo. O captulo 5 apresenta as concluses derivadas da realizao deste trabalho, algumas contribuies e sugestes para trabalhos futuros.
16
REFERENCIAL TERICO
Os sistemas de busca de imagens tradicionais, baseados em metadados textuais, no apresentam resultados precisos, uma vez que esses metadados so inseridos manualmente. Segundo Penatti (PENATTI, 2009) a recuperao de imagens baseada em contedo tem a vantagem de considerar as caractersticas das imagens no processo de indexao e recuperao. Alm disso, a busca por contedo retorna imagens que no seriam relevantes em mecanismos de busca textuais. Uma possibilidade para que se possa efetuar a busca por semelhana extrair de uma imagem bruta, ou seja, do valor de seus pixels, um conjunto reduzido de valores que tenham correlao com seu contedo. Esse conjunto de valores, chamado na literatura, de vetor de caractersticas, deve representar grandezas distintivas do contedo da imagem. O vetor deve ser tal que apresente valores bem distintos para imagens significativamente diferentes, bem como valores semelhantes para imagens consideradas semelhantes. Uma forma de se avaliar o desempenho de vetores de caractersticas obtidos por um determinado descritor submet-los a testes sobre um conjunto de imagens do qual j se conhea a classificao correta. Dessa forma podem-se comparar os resultados obtidos com os resultados esperados e ento avaliar o desempenho. Este captulo apresenta alguns descritores utilizados para a busca e indexao de imagens baseados em contedo, assim como apresenta propostas para a avaliao do desempenho desses mecanismos. A seguir so apresentados os descritores comuns na literatura (Seo 2.1 ), medidas de avaliao do desempenho de descritores (Seo 2.2 ) e por fim so feitas as consideraes finais (Seo 2.3 ).
17
2.1
Descritores
A tarefa mais difcil na classificao de imagens digitais a definio de um conjunto
adequado de caractersticas que permitam sua anlise e que, portanto, traduzam grandezas familiares para a interpretao humana (HARALICK, SHANMUGAM e DINSTEIN, 1973). Essas caractersticas se enquadram em trs categorias: caractersticas espectrais, texturais e contextuais. No grupo das caractersticas espectrais, analisam-se as variaes tonais nas vrias bandas do espectro visvel e de sua vizinhana. As caractersticas texturais referem-se s inter-relaes entre as tonalidades em uma vizinhana restrita. Finalmente, as caractersticas contextuais buscam descrever as relaes entre blocos vizinhos de uma regio e seus objetos. O estudo das caractersticas contextuais extrapola os objetivos deste trabalho, que tem como objeto de estudo a utilizao das cores e das texturas na determinao da semelhana entre as imagens. Cor e textura so conceitos distintos, porm so relacionados intimamente. A cor diz respeito s variaes tonais das clulas de resoluo. A textura refere-se distribuio espacial das tonalidades pelos pixels de uma micro-regio. A cor uma propriedade do pixel enquanto que a textura uma propriedade de uma regio. Apesar de serem conceitos diferentes, cor e textura esto intimamente ligadas e no se pode falar em uma sem considerar a outra. Cada regio de uma imagem apresenta ambas as caractersticas. comum observar que algumas regies caracterizam-se por extenses montonas e homogneas de tonalidades predominantes, enquanto outras regies apresentam grande e rpida variao tonal. No primeiro caso, diz-se que a caracterstica predominante da regio a cor, ao passo que, na segunda, prevalecem s caractersticas texturais (HARALICK, 1979). O padro MPEG-7 (MPEG, 2002) define algumas tcnicas para a determinao de semelhana entre imagens digitais. Define tambm um conjunto de medidas que permite avaliar o desempenho dos mtodos definidos, bem como de novos mtodos que porventura venham a ser propostos. Apesar de a cor ser um importante fator de distino e caracterizao de imagens, o arquivamento e o processamento de imagens coloridas implicam em requisitos computacionais e de espao de armazenamento que os equipamentos comercialmente disponveis no possuam at alguns anos atrs. Cada imagem colorida pode requerer at trs vezes mais espao em disco para ser arquivada e uma quantidade de memria semelhante para ser processada quando comparada com uma imagem em nveis de cinza de resoluo
18
equivalente (MEHTRE et al, 1995). Com a comercializao de mquinas mais potentes a preos mais atrativos, as pesquisas que incluem a cor no conjunto de caractersticas de descrio e classificao de imagens tornaram-se factveis e permitiu o surgimento de tcnicas mais potentes na rea de classificao, segmentao e busca de imagens semelhantes em bancos de dados. Nesse contexto, foi desenvolvido pelo grupo MPEG da ISO/IEC o padro MPEG-7 (ISO15938), que possibilita a descrio de contedo multimdia em vrios nveis de granularidade e em diversas reas, visando, sobretudo, apoiar o desenvolvimento de aplicativos de busca e recuperao, por semelhana, de informaes de som, imagem e vdeo (MPEG, 2002). O padro MPEG-7 bastante amplo e se ocupa em definir regras que permitam a interoperabilidade entre os sistemas e aplicativos diversos que produzam, gerenciem, distribuam e consumam descries de contedos udio-visuais (CHANG, SIKORA e PURI, 2001). A seguir apresentada uma definio de alguns mtodos que sero analisados durante a pesquisa. 2.1.1 Matriz De Co-Ocorrncia De Nveis De Cinza
Essa sesso apresenta uma tcnica que introduz as estatsticas de segunda ordem na anlise de texturas. Essa tcnica se baseia na construo da Matriz de Co-ocorrncia de Nveis de Cinza (MCNC). A partir dessa matriz foram propostas 14 diferentes caractersticas que buscam sintetizar determinados aspectos de uma imagem, ou de uma regio dessa imagem (HARALICK, SHANMUGAM e DINSTEIN, 1973). 2.1.1.1 Clculo da Matriz
A MCNC estima a densidade de probabilidade conjunta da ocorrncia de um par de valores de nveis de cinza em dois pixels separados por uma distncia d medida em uma direo que forma um ngulo com a horizontal (HARALICK, SHANMUGAM e DINSTEIN, 1973). Deve-se calcular uma matriz para cada par de distancias d e ngulos considerados. A Mariz quadrada e indexada pelos valores dos nveis de cinza. Cada elemento m(i, j) da matriz M(d, ) conter o nmero de ocorrncias, na imagem, de pares de pixels separados pela distncia d calculada na direo de que apresentam valores de nvel de cinza i e j,
19
respectivamente. Vale lembrar que a MCNC simtrica, ou seja, os valores m(i, j) so iguais aos valores m(j, i). O tamanho de uma MCNC no depende da resoluo da imagem, mas sim do nmero de nveis de cinza considerados. Portanto imagens de 256 nveis de cinza originam MCNC de 256x256. Uma matriz desse tamanho pode inviabilizar a analise de texturas, por isso normalmente necessrio quantizar os nveis de cinza em nmero menor. Essa quantizao deve ser feita com cautela, pois pode eliminar detalhes importantes de uma imagem. Uma questo importante ressaltada por Haralick e outros (1973) diz respeito sensibilidade da matriz variao dos nveis de cinza. Isso porque a aquisio de uma imagem est sujeita a diversos fatores que podem fazer com que duas imagens de um mesmo objeto apresentem tonalidades diferentes. Para isso desejvel uma operao de equalizao de histogramas como pr-processamento. 2.1.1.2 Caractersticas Propostas
O pressuposto da MCNC que caractersticas importantes de textura da imagem geradora esto contidas nessa matriz. Ento, baseando-se nessas MCNC Haralick e outros (1973) definiram as medidas de textura ou complexidade de variao dos nveis de cinza, conforme as equaes Equao 2.1 a Equao 2.14. A seguir so mostradas as notaes utilizadas nas definies. N: o nmero de nveis de cinza. R: a constante de normalizao. p(i, j): cada elemento da matriz normalizada. e : distribuies marginais x e y.
As medias de textura, ou caractersticas texturais so: Segundo Momento Angular, Energia ou Uniformidade
20
Contraste
Correlao
Mdia da Soma
21
Varincia da Soma
Entropia da Soma
Entropia
Varincia da Diferena
Entropia da Diferena
22
Define-se:
Onde:
23
2.1.2
A proposta apresentada por Snchez-Yez e outros (2003) para a descrio de texturas em escala de cinza uma extenso da representao dos grupos coordenados, CCR (Coordinated Clusters Representation), proposta por Kurmyshev e Soto (1996), onde uma imagem binria pode ser caracterizada por um histograma de ocorrncias de padres unitrios. A sesso 2.1.2.1 , a seguir, mostra o processo de binarizao necessrio como prprocessamento para as imagens e em seguida a sesso 2.1.2.2 mostra como realizado o calculo do histograma CCR. 2.1.2.1 Binarizao de Imagem em Escala de Cinza
Como o CCR definido para imagens binrias, para que se possa utiliz-lo com imagens em escala de cinza necessrio que essas imagens sejam previamente binarizadas. Mas esse processo de binarizao deve ser tomado com cautela, pois pode, a princpio, causar uma perda significante de informao. O mtodo de binarizao escolhido por Snchez-Yez e outros (2003) foi o mtodo de agrupamento FCM (Fuzzy C-Means) (ROSS, 1995) com o algoritmo de otimizao iterativa de Bezdek (1981) e (1980). Os autores consideram o nvel de intensidade dos pixels como dados brutos e computam dois nveis mdios, c1 e c2, correspondentes aos centros dos clusters no histograma de intensidades. A mdia desses valores o limiar utilizado no processo de binarizao, requerido para classificar cada pixel como preto ou branco. 2.1.2.2 Calculo do CCR
Para calcular o histograma CCR, define-se primeiramente uma janela IxJ. Essa janela percorrer toda imagem, deslocando-se pixel a pixel. O histograma gerado a partir das ocorrncias dos padres de pixels encontrados ao longo da imagem binria. Como os pixels so binrios, a quantidade de possveis padres de pixels que podem ser encontrados na imagem igual a 2IxJ. Esse nmero determina a quantidade de bins do histograma. Cada padro encontrado indexado pelo valor da converso do seu valor binrio para decimal (SNCHEZ-YEZ, KURMYSHEV e CUEVAS, 2003). 2.1.3 Padres Binrios Locais
Uma proposta apresentada por Ojala e outros (1996), como alternativa a proposta de He e Wang (1991), segue a linha dos conceitos de unidade e histograma de texturas, mas alivia as
24
restries da regio analisada pela diminuio do histograma. Definindo-se assim os padres binrios locais LBP (Local Binary Pattern). A diferena est nos valores do LBP, que ao invs de trs valores possveis para as relaes entre os pixels vizinhos e o pixel central, temos apenas dois, conforme a Equao 2.15.
Onde:
Cabe observar que a proposta inicial de Ojala considerou a ordem dos pixels variando da esquerda para a direita e de cima para baixo (OJALA, PIETIKINEN e HARWOOD, 1996). Todavia em trabalhos posteriores, eles retomaram a ordem cclica (HE e WANG, 1991) no sentido horrio (PIETIKINEN, OJALA e XU, 2000) (OJALA et al, 2001). Os valores dos padres binrios locais (LBP) so calculados pela Equao 2.16.
2.1.3.1
Os padres binrios locais no so invariantes a rotao, isso porque a ordem dos seus elementos arbitrada e influi na posio dos padres no histograma. Para ultrapassar essa limitao, Pietikinen e outros (2000) propuseram um aprimoramento para atingir a invarincia rotacional. O conceito consiste em agrupar em um nico padro binrio local invariante a rotao, LBPRI (Local Binary Pattern Rotation Invariant), todas as verses rotacionadas do padro original. Como, por exemplo, os padres binrios locais, mostrados na
Tabela 1,
que apresenta apenas um bit 1 em sua constituio. Todos esses oito LBP sero
mapeados em um nico LBPRI. Aplicando esse mesmo raciocnio a todos os LBP, chegamos aos 36 LBPRI possveis.
Tabela 1 - Padres binarios locais com um bit 1
25
Para o calculo do valor do LBPRI, como no existe formula, pode-se utilizar uma tabela. Esta tabela deve conter o menor valor de LBP correspondente a cada LBPRI. Ento basta calcular o LBP da forma usual, submet-lo a todas as oito rotaes possveis e considera-se o menor dos valores encontrados. Esse valor ser o LBPRI constante na tabela. Finalmente, retorna-se o ndice do valor encontrado na tabela. Consequentemente o histograma de LBPRI dever conter 36 bins. 2.1.3.2 Padres Binrios Locais Uniformes
O LBPRI se comporta de modo indesejado quando se compara duas texturas semelhantes que apresentam um ngulo de rotao entre elas diferente de 90. Para resolver isso Ojala e outros (2001) propuseram uma reestruturao para a vizinhana. Ao invs de considerar uma vizinhana quadrada, foi sugerida uma vizinhana circular de raio arbitrado, dependendo da resoluo angular desejada. Considerando que o pixel central esta localizado nas coordenadas (0, 0) em uma vizinhana com P pixels a distantes a um raio R do centro, pode-se calcular as coordenadas dos pixels da vizinhana com a Equao 2.17, supondo que o pixel central e que suas coordenadas so (0, R). est direita do pixel
Equao 2.17 Calculo das Coordenadas dos pixels de uma Vizinhana LBP
Onde: i: i-simo pixel da vizinhana; P: nmero de pixels da vizinhana; R: raio da vizinhana. Para os casos em que o valor das coordenadas de alguns dos P pixels no coincida com o centro de um pixel da imagem, o mesmo dever ser calculado por interpolao. As prximas etapas se assemelham s propostas para os LBPRI. O valor associado vizinhana passa a ser designado por em que P o nmero de vizinhos e R o
raio da vizinhana. A abreviao RI informa que o padro invariante a rotao e o sufixo U2 significa que se trata de padres uniformes que apresentam duas transies.
26
Ojala e outros (2001) descobriram que os padres que apresentam at duas transaes entre corridas de 0 e corridas de 1 correspondem a at 90% dos padres totais das imagens. Esses padres foram chamados de uniformes de media 2. So importantes, pois traduzem padres recorrentes de textura, como bordas, cantos, pontos e planos. J os demais traduzem micro-texturas menos comuns e, por isso, so rotulados com um mesmo identificador. Cada padro uniforme recebe como valor o numero de bits 1 que o compem. Todos os demais recebem o valor P + 1. Essa regra geral e serve para qualquer valor de P e R. A Equao 2.18 mostra como o valor do padro calculado.
Onde:
: nvel de cinza do i-simo pixel da vizinhana; : diferena entre o i-simo pixel e o pixel central. Com a tcnica proposta por Ojala e outros (2001), foi possvel reduzir o numero de bins do histograma para P + 2, e com isso obtm-se uma maior concentrao dos aspectos texturais mais marcantes. 2.1.4 Histogramas da Soma e da Diferena
Os Histogramas da Soma e da Diferena (HSD) foram propostos por Michael Unser como alternativa para o clculo de algumas das caractersticas das Matrizes de Co-ocorrncia de Nveis de Cinza (UNSER, 1986). Segundo Unser (1986), as dimenses das MCNC so uma grande desvantagem. No total possvel aproximar nove das 14 caractersticas originais. Da mesma forma que a MCNC, esses histogramas so calculados a um determinado ngulo com a horizontal e a uma distancia d.
27
2.1.4.1
O calculo dos histogramas feito de forma bem similar ao calculo da MCNC. Para cada par de pixels da imagem, calcula-se a soma e a diferena dos valores de seus nveis de cinza, conforme a Equao 2.19.
Onde: : valor do nvel de cinza do pixel localizado no ponto (k, l); e : deslocamento de tamanho d e direo . Dessa forma, os histogramas da soma, hs e da diferena, hd, so definidos como o nmero de ocorrncias dos pares de pixels que possuem valores sk,l e dk,l, para cada um dos possveis valores sk,l e dk,l. Se a imagem possui Ng nveis de cinza, ento tem se 2Ng valores possveis para a soma e 2Ng valores possveis para a diferena, contra o tamanho de Ng2 da MCNC. A Equao 2.20 define os histogramas.
Onde: Card{} : nmero de ocorrncias; e D : domnio das coordenadas dos pontos da imagem. E finalmente, os histogramas normalizados, tanto da soma quanto da diferena so definidos na Equao 2.21.
28
2.1.4.2
Caractersticas Propostas
Conforme mencionando, Unser (1986) demonstrou em seu trabalho que os histogramas da soma e da diferena, HSD, podem ser utilizados para aproximar nove das 14 caractersticas propostas por Haralick. E isso acarreta em um bom ganho, tanto nos requisitos de memria quanto no tempo de processamento. As equaes Equao 2.22 a Equao 2.30 apresentam as caractersticas que podem ser calculadas pela utilizao dos HSD (UNSER, 1986).
29
2.1.5
Filtros de Gabor
O descritor proposto por Manjunath e Ma faz o uso dos Filtros de Gabor (GAB) para realizar a anlise das imagens (MANJUNATH e MA, 1996). Esses filtros so sintonizados em frequncia e orientao, e um banco desses filtros apropriadamente projetado permitem cobrir o espectro de uma imagem com um conjunto de regies que selecionam tanto a faixa de frequncia quanto a orientao desejada. 2.1.5.1 Calculo do Filtro
A resposta de um filtro de Gabor unidimensional normalizado uma onda senoidal complexa modulada por uma gaussiana, conforme a Equao 2.31.
Onde: : frequncia de sintonia do filtro; e : banda do filtro. A frequncia de sintonia e a largura de faixa determinam a faixa do espectro que ser realada. Quanto menor essa largura, mais seletivo o filtro. A extenso bidimensional do filtro de Gabor mostrada na Equao 2.32.
30
Onde: ; ; : frequncia central; : ngulo entre o eixo principal da gaussiana e o plano da onda; : largura de faixa ao longo do eixo principal; e : largura de faixa ao longo do eixo secundrio. O plano espectral pode ento ser dividido utilizando-se um banco de filtros de Gabor, variando-se o ngulo e a frequncia f0, e ajustando-se os parmetros de seletividade e para se obter uma cobertura completa com pouca sobreposio entre os espectros de cada filtro do banco. A Figura 1 mostra um exemplo de cobertura obtida com quatro frequncias e cinco rotaes.
31
Pode-se perceber na Figura 1 os quatro anis referentes as quatro frequncias, e em cada um dos quatro anis, as cinco regies que se assemelham a elipses referentes s cinco rotaes. Cada uma dessas regies representa a resposta em frequncia de um dos vinte filtros considerados (TANNS, 2008). 2.1.5.2 Vetor de Caractersticas Proposto
Manjunath e Ma (1986) ainda descrevem uma aplicao desses filtros na determinao de semelhana entre imagens compostas por regies de textura uniforme. Foi proposto que uma imagem se submeta a um banco de filtros de Gabor de quatro frequncias e seis rotaes, e para cada uma das 24 sadas, calcula-se a mdia e o desvio padro dos valores absolutos da sada. Resultando em um vetor de caractersticas de 48 dimenses. Porm nada impede que outras combinaes de frequncias e rotaes possam ser utilizadas de forma semelhante para a construo de um vetor de caractersticas.
2.2
Medidas de Desempenho
Quando se pretende integrar naturalmente diferentes tecnologias, ou diferentes solues
para um mesmo problema, importante que se definam padres que possam comparar o desempenho dessas diferentes solues e produzir resultados lgicos e coerentes. O paradigma adotado pelo padro MPEG-7 foi o da busca por exemplo, (query by example). Nesse paradigma, uma imagem de busca processada e tem suas caractersticas extradas. Essas caractersticas so comparadas com as caractersticas de um conjunto de imagens que compem o banco de dados por meio de uma medida numrica objetiva que quantifica o grau de similaridade entre elas (MPEG, 2002). Para determinar coerentemente o resultado dos testes de desempenho necessrio que se defina o conjunto de imagens de busca, o conjunto de imagens do banco de dados e os conjuntos-verdade correspondentes (ground-truth data). Estes conjuntos-verdade so os conjuntos de imagens pertencentes ao banco de dados que sejam similares a cada imagem do conjunto de imagens de busca. Assim, possvel determinar o grau de acerto e, por conseguinte, o desempenho de uma determinada tcnica de busca (OJALA, PIETIKINEN e HARWOOD, 1996).
32
2.2.1
Taxa de Recuperao
Uma medida bastante utilizada a taxa de recuperao, RR (retrieval rate), ou taxa de acertos, que mede a taxa de acertos obtidos nas NV(q) primeiras imagens recuperadas. O parmetro deve ser maior ou igual a 1 e NV(q) o nmero de imagens do conjunto-verdade para a imagem buscada. A taxa calculada sobre o nmero de imagens que constituem o conjunto-verdade correspondente imagem de busca. A taxa de acertos assume valores no intervalo [0,1] em que o valor zero corresponde a nenhum acerto e o valor um corresponde recuperao de todas as imagens semelhantes. Quanto maior o valor de , mais tolerante o valor da taxa porque se permite um nmero maior de tentativas, o que pode aumentar o nmero de acertos. 2.2.1.1 Clculo da Taxa de Recuperao
A Equao 2.33 define a taxa de acertos e a Equao 2.34 define a taxa de acertos mdia.
Onde: q: imagem de busca; NA (, q): nmero de acertos nas NV(q) primeiras imagens recuperadas; NV(q): nmero de imagens do conjunto verdade da imagem q.
2.2.2
ANMRR
O padro MPEG-7 (MPEG, 2002) prope uma medida de desempenho que se baseia nas posies em que as imagens pertencentes ao conjunto-verdade so retornadas dentro da seqncia de imagens recuperadas. Define-se assim a posio mdia, AVR (average rank) da busca, que a mdia da posio de retorno calculada para todas as imagens do conjuntoverdade. Uma posio mdia pequena significa que as imagens do conjunto-verdade foram
33
retornadas nas posies iniciais da seqncia de retorno, o que indica um melhor desempenho. Para contemplar graciosamente os casos em que algumas imagens do conjuntoverdade no sejam retornadas, ou seja, ocorram no final de uma longa seqncia de retorno, deve-se definir um limite K para as posies relevantes, bem como uma penalidade para os acertos que ocorram posteriormente a esse limite, (MANJUNATH, et al., 2001). Para minimizar os efeitos das variaes de tamanho nos conjuntos-verdade das imagens de busca, o padro define a posio de retorno modificada, MRR (modified retrieval rank). Essa medida retorna zero para um retorno perfeito e valores maiores para os casos de menor desempenho. A ANMRR a medida de desempenho utilizada pelo padro MPEG-7 (MPEG, 2002), e definida como a mdia simples dos valores da posio de retorno modificada normalizada, NMRR, para os vrios ensaios de busca executados com as imagens pertencentes ao conjunto de busca, a faixa de valores dessa media [0,1], onde zero o retorno perfeito e um o pior caso, (MANJUNATH, et al., 2001). 2.2.2.1 Clculo da ANMRR
A Equao 2.35 define a posio de retorno de uma imagem k levando em considerao o limite K e a penalidade mencionada anteriormente.
Onde: k: imagem do conjunto-verdade; Posio(k): posio da imagem k na sequncia de retorno; K: nmero limite de posies relevantes. A Equao 2.36 define a posio mdia de uma busca.
34
A Equao 2.38 a normalizao do resultado da Equao 2.37, e define a posio de retorno modificada normalizada.
2.2.3
Taxa de Acertos
Outra medida simples de avaliao a Taxa de Acertos da Classificao, ela computa a taxa de acertos para o problema em que devemos associar cada imagem a uma nica classe. Considerando que temos C classes e N imagens, podemos definir a taxa de acertos conforme a Equao 2.40.
Onde:
V(i): o conjunto verdade, indica o ndice da classe a qual a imagem i pertence; C(i): a classe em que a imagem i foi classificada.
35
2.2.4
Matriz de Confuso
A Matriz de Confuso ajuda a identificar como as imagens foram erroneamente classificadas. Ela mostra as quais classes essas imagens foram atribudas. Isso bastante til para a anlise dos resultados, pois mostra se existe alguma tendncia nos casos da classificao incorreta possibilitando dessa forma o questionamento das razes dessas incorrees (TANNS, 2008). Considerando que existem C classes de imagens, a matriz de confuso para esse caso tem tamanho CxC. Tanto suas linhas quanto suas colunas so indexadas por um nmero identificador sequencial de cada classe. O elemento da matriz mi, j indica quantos elementos da classe j foram classificados como elementos da classe i, nitidamente nos casos onde i = j a classificao foi correta e nesse caso temos a Taxa de Acerto da classe j. Existem duas formas de se apresentar a Matriz de Confuso, so elas: simplificada; e percentual. A primeira traz o resultado apresentando a quantidade de elementos classificados como elementos de cada classe. J a segunda apresenta os dados em forma percentual, mostrando a quantidade de imagens retornadas em cada classe em funo do total de imagens da classe (TANNS, 2008).
2.3
Consideraes Finais
Este captulo introduziu o conceito de descritores e a necessidade da sua utilizao para
representar as grandezas visuais de imagens digitais. Apresentou alguns dos descritores de texturas em escala de cinza propostos na literatura, notadamente aqueles desenvolvidos por Haralick e outros (1973), Snchez-Yez e outros (2003), Ojala e outros (2001), Unser (1986) e Manjunath e outros (1996). Descreveu o paradigma da medida de desempenho e finalmente conceituou as medidas de desempenho da Taxa de Acertos, ANMRR e Matriz de Confuso.
36
ESTADO DA ARTE
Diversos autores apresentam propostas para mtodos de busca de imagens baseados no contedo, e inclusive comparam seus mtodos com outros mtodos conhecidos. Porm o foco desses autores apresentar um novo mtodo e as comparaes realizadas visam apenas enfatizar seus resultados em relao aos resultados de outros autores. As sesses a seguir (3.1 e 3.2 ) apresentam alguns trabalhos que visam comparar diversos descritores de imagens digitais para determinar os que possuem o melhor desempenho, a sesso 3.3 apresenta uma comparao dos trabalhos apresentados com a proposta deste projeto, e finalmente na sesso 3.4 temos as consideraes finais deste captulo.
3.1
Trabalho I
O trabalho intitulado Comparao de Tcnicas para a Determinao de Semelhana
Entre Imagens Digitais foi desenvolvido por Tanns (2008) e tem o objetivo de comparar uma grande diversidade de mtodos de determinao de semelhana entre imagens digitais. Seus estudos se concentram na avaliao de histogramas que se baseiam em texturas, outros que se baseiam na utilizao da cor e ainda em alguns vetores de caractersticas que utilizam ambos, textura e cor. O autor defende que nem todas as tcnicas de determinao de semelhana entre imagens so ideais para diversas situaes, com isso justifica que um estudo amplo pode mostrar a aplicabilidade de cada uma dessas tcnicas para determinadas situaes. O autor tambm ressaltou a importncia de reunir em um nico trabalho diversas tcnicas para comparao, assim como a utilizao das matrizes de confuso para avaliar os resultados.
3.2
Trabalho II
O trabalho de Penatti (2009), intitulado Estudo Comparativo de Descritores para
37
de descritores para Recuperao de imagens tendo a Web como cenrio. O autor define o cenrio da Web, como amplo, com muitas imagens e com um contedo bastante heterogneo. Ele realiza avaliaes de desempenho dos descritores quanto a suas complexidades, tempo de execuo dos seus algoritmos, requisitos de armazenamento e eficcia. Nesse estudo so realizadas comparaes com descritores de cor, textura e forma.
3.3
interesse deste trabalho que esto presentes nos trabalhos apresentados neste captulo.
Tabela 2: Comparao dos trabalhos relacionados ao projeto
Trabalho I
Trabalho II
Este Trabalho
MCNC
CCR
LBP
HSD X1
GAB
X X2
1 2
Foi feita apenas uma introduo ao descritor, mas este no foi implementado e comparado aos demais. A taxa de acertos calculada por Penatti (2009) realizada atravs da iterao de usurios que marcam, para o resultado de uma consulta, quais imagens so verdadeiramente semelhantes a imagens utilizadas na busca.
38
3.4
Consideraes Finais
Esse captulo mostrou alguns dos trabalhos que realizaram comparaes entre diversas
tcnicas para a determinao de semelhana entre imagens. So eles os trabalhos de Tanns (2008) e Penatti (2009). Em seguida foi realiza uma comparao dos trabalhos apresentados com este trabalho, mostrando os conceitos que sero abordados nessa pesquisa que tambm foram parte dos demais trabalhos.
39
DESENVOLVIMENTO
A tarefa de comparar diversos descritores de imagens tem como requisito a utilizao de desses descritores sobre um mesmo conjunto de imagens, cuja classificao previamente conhecida. Para isso tem-se inicialmente que definir o conjunto de imagens que ser abordado durante a pesquisa. O foco deste trabalho comparar alguns dos descritores utilizados na classificao de texturas em escala de cinza, com isso foi escolhido o conjunto de texturas Brodatz (1966), essas texturas j foram utilizadas por alguns dos autores citados neste trabalho. As imagens selecionadas para os procedimentos de aprendizado e testes sero apresentadas na prxima sesso deste captulo. Este captulo apresenta os procedimentos utilizados nos testes (Sesso 4.1 ), os resultados obtidos para cada uma das tcnicas discutidas (Sesso 4.2 ), alguns resultados complementares aos resultados obtidos com os descritores (Sesso 4.3 ) e finalmente as consideraes finais deste captulo (Sesso 4.4 ).
4.1
Procedimentos de Testes
Os testes realizados durante o desenvolvimento deste trabalho seguiram uma mesma
metodologia, dessa forma os dados obtidos remetem apenas ao desempenho de cada mtodo e no so influenciados pela metodologia utilizada. Conforme mencionado anteriormente, foram selecionadas imagens provenientes do lbum de fotografias Brodatz (1966), esse lbum composto por um conjunto de 111 imagens de texturas em escala de cinza, destas imagens foram selecionadas 10 imagens, so elas: D9 (Grass), D16 (Herringbone Wave), D19 (Woolen Cloth), D24 (Pressed Calf Leather), D29 (Beach Sand), D38 (Water), D68 (Wood Grain), D84 (Raffia), D92 (Pigskin) e D112 (Bubbles). Essas imagens selecionadas so as mesmas utilizadas por Snchez-Yez e outros (2003). A Figura 2 mostra as imagens selecionadas.
40
Figura 2 - Texturas Brodatz (D9, D16, D19, D24, D29, D38, D68, D84, D92 e D112) (BRODATZ, 1966) utilizadas nos testes.
Para a realizao dos testes, cada uma das 10 imagens foi dividida igualmente em 64 partes, dessa forma o conjunto das 64 imagens provenientes de uma mesma imagem original forma uma classe. Com isso se tem um total de 640 imagens derivadas das 10 imagens iniciais. Essas imagens ficaram armazenadas em uma pasta seguindo uma nomeao prdefinida para facilitar o acesso a essas imagens, assim como a identificao de suas respectivas classes. Os procedimentos de testes baseiam-se em comparar cada imagem com as classes existentes e ento classifica a imagem como pertencente classe a qual for mais semelhante. Como existe a necessidade de se comparar uma imagem com uma classe, houve a necessidade de se definir um prottipo para cada classe. Dessa forma os procedimentos de testes foram precedidos por uma etapa de treinamento, onde os prottipos das classes foram construdos com base na mdia do vetor de caractersticas de 6 das 64 imagens de cada classe, selecionadas aleatoriamente. Em seguida as 58 imagens restantes de cada classe so utilizadas nos testes.
41
A semelhana entre duas imagem determinada pela distncia L1 entre seus vetores de caractersticas, conforme a Equao 4.1. Essa distancia acumula as diferenas modulares entre os elementos correspondentes dos vetores.
Onde: D a distncia entre os dois vetores de caractersticas; N o tamanho do vetor de caractersticas; A o vetor de caractersticas da primeira imagem; B o vetor de caractersticas da segunda imagem; Ento, a partir dos dados das distncias entre as imagens e as classes, pode-se determinar a que classe pertence cada uma das imagens, e finalmente, a partir das informaes previamente conhecidas, pode-se calcular o desempenho de cada um dos mtodos testados. A prxima sesso apresenta os resultados obtidos para cada um dos descritores estudados, esses resultados so: a ANMRR, a ANMRR especfica de cada classe, a Taxa de Acerto Mdio, a Taxa de Acerto especfica de cada classe, Matriz de Confuso e exemplos de consultas boas e ruins.
4.2
Resultados Obtidos
Conforme apresentado anteriormente, todos os descritores foram avaliados da mesma
forma. Como a etapa de treinamento apresentada realiza a escolha das imagens para a prototipagem de forma aleatria, foram realizadas 10000 repeties de todos os procedimentos para cada um dos descritores, assim os resultados apresentados nessa sesso so referentes mdia de todas as execues dos procedimentos. A seguir esto os resultados dos descritores da Matriz de Co-ocorrncia de Nveis de Cinza (Sesso 4.2.1 ), dos Coordinated Clusters Representation (Sesso 4.2.2 ), dos Padres Binrios Locais (Sesso 4.2.3 ), dos Histogramas da Soma e da Diferena (Sesso 4.2.4 ) e dos Filtros de Gabor (Sesso 4.2.5 ).
42
4.2.1
Conforme apresentado no Captulo 2 desta monografia, existem 14 caractersticas extradas das matrizes de co-ocorrncia de nveis de cinza. Tambm foi mostrado que a matriz calculada computando-se a relao entre dois pixels separados a uma distncia d formando um ngulo com a horizontal. Para que o resultado das caractersticas fique invariante a rotao, foram calculadas 4 matrizes com igual a 0, 45, 90 e 135. Como esse clculo percorre toda a imagem pixel a pixel, no se faz necessrio o calculo nas demais direes, pois seus resultados seriam idnticos aos resultados das direes apresentadas. Em seguida so calculadas as 14 caractersticas para cada uma das 4 matrizes. Ento o vetor de caractersticas da MCNC montado com 28 caractersticas, onde as primeiras 14 dimenses so as mdias das 14 caractersticas extradas das 4 matrizes, e as demais 14 dimenses so as variaes de cada dimenso das 14 caractersticas das 4 matrizes. Ao fim do clculo das caractersticas de todas as imagens, necessria a realizao de uma normalizao de todas as dimenses dos vetores de caractersticas. Essa normalizao feita subtraindo-se cada dimenso do vetor pela mdia dessa dimenso e ento dividindo o resultado pelo seu desvio padro. Os testes realizados mostram que esse processo de normalizao aumentou em muito os coeficientes de desempenho desse descritor. Os testes que apresentaram o melhor desempenho para o conjunto de imagens selecionadas foram considerando 64 nveis de cinza a uma distncia d = 1. O melhor resultado de ANMMR para este descritor foi de 0.0481 e a Taxa de Acertos foi de 95.8%. A Tabela 3 mostra a ANMRR de cada uma das 10 classes, a Tabela 4 mostra as Taxas de Acertos para cada classe e finalmente a Tabela 5 representa a Matriz de Confuso para este descritor.
Classe ANMRR
Grass 0.071
Leather 0.032
Sand 0.007
Water 0.073
Wood 0.017
Raffia 0.006
Pigskin 0.006
Bubbles 0.190
43
Classe Acerto
Grass 98.7
Woolen 92.8
Leather 95.5
Sand 98.9
Water 89.6
Wood 99.9
Raffia 99.8
Pigskin 99.9
Bubbles 82.6
Classe
Grass Herringb one Woolen Leather Sand Water Wood Raffia Pigskin Bubbles
Grass
Herrin gbone
Woolen
Leather
Sand
Water
Wood
Raffia
Pigskin
Bubbles
4.5
13.8
1.5 3.9
1 1.5
0.1
99.9
3.6 82.6
Conforme os dados apresentados nas tabelas anteriores notam-se que o melhor desempenho deste descritor foi para a classe Herringbone, igualmente, analisando a matriz de confuso pode-se notar uma grande confuso entre as classes Woolen e Bubbles, o que levou a classe Bubbles a ter o pior resultado de ANMRR. No geral este descritor apresentou resultados muito promissores, inclusive o melhor resultado de ANMRR dentre os descritores estudados. A Figura 3 mostra o resultado de uma consulta realizada a partir de uma imagem da classe Herringbone. Conforme foi observado nos resultados, essa classe obteve alto ndice de
44
acerto, o que claramente percebido no resultado da consulta. Em contrapartida, a Figura 4 mostra um exemplo de consulta a partir de uma imagem da classe Bubbles, a qual obteve o pior ndice de acerto para este descritor. Com essa consulta fica evidente o que foi apresentado na matriz de confuso, onde a classe Bubbles se confunde com a classe Woolen.
45
4.2.2
Como se trata de um histograma de ocorrncias de padres locais o seu vetor de caractersticas o prprio histograma, nos clculos realizados foi utilizada uma caixa de varredura para o clculo do histograma de 3 por 3 pixels, com isso tem-se padres de binrios de 9 bits, o que resulta em um histograma, e consequentemente em um vetor de caractersticas, de 512 dimenses. Este o maior vetor de caractersticas dentre os descritores estudados. A normalizao desses histogramas realizada dividindo-se cada uma de suas dimenses pelo somatrio de todas as dimenses de modo que o somatrio de todas as dimenses do vetor de caractersticas normalizado seja sempre igual a 1. O melhor resultado de ANMRR para este descritor foi de 0.1107 e a Taxa de Acertos foi de 89.5%. A Tabela 6 mostra a ANMRR de cada uma das 10 classes, a Tabela 7 mostra as Taxas de Acertos para cada classe e finalmente a Tabela 8 representa a Matriz de Confuso para este descritor.
46
Classe ANMRR
Grass 0.158
Leather 0.079
Sand 0.000
Water 0.314
Wood 0.000
Raffia 0.008
Pigskin 0.081
Bubbles 0.241
Classe Acerto
Grass 84.4
Leather 97.8
Sand 100
Water 74.0
Wood 100
Raffia 99.7
Pigskin 97.4
Bubbles 74.0
Classe
Grass Herringb one Woolen Leather Sand Water Wood Raffia Pigskin Bubbles
Grass
Herrin gbone
Woolen
Leather
Sand
Water
Wood
Raffia
Pigskin
Bubbles
2.2
5.7 97.8 100 1.4 74.0 100 7.8 99.7 0.2 0.1
2.6
23.6
5.9
18.1 14.6
1.6 9.5
47
Os resultados apresentados nas tabelas anteriores mostram que o resultado deste descritor bom, porm como foi mostrado anteriormente, este resultado est muito abaixo do resultado da matriz de co-ocorrncia de nveis de cinza. A fim de comparao, a Figura 5 e a Figura 6 correspondem s mesmas consultas realizadas no descritor anterior. Novamente fica claro o bom resultado para a consulta de um elemento da classe Herringbone, assim como a confuso apresentada em uma consulta com um elemento da classe Bubbles. Assim como o descritor anterior, este tambm apresentou confuso com a classe Woolen.
48
4.2.3
Da mesma forma que o descritor anterior, este tambm se trata de um histograma, portanto o seu vetor de caractersticas o prprio histograma. A variao que apresentou o melhor resultado foi a dos Padres Binrios Locais Uniformes e Invariantes a Rotao para uma vizinhana de 5x5 pixels (LBPRIU16). O nmero 16 de sua abreviao vem do fato de que o quadrado considerado possui 16 pixels em sua borda, nomeados em hexadecimal de 0 a F, conforme o esquema abaixo:
6 5 4 3 2 7 x . x 1 8 . Z . 0 9 x . x F A B C D E
49
Os pixels de nmeros 6, 2, A e E, so substitudos por suas mdias com os seus respectivos vizinhos x. Os demais clculos so efetuados conforme apresentado no captulo 2 desta monografia. O melhor resultado de ANMRR para este descritor foi de 0.1489 e a Taxa de Acertos foi de 88.2%. A Tabela 9 mostra a ANMRR de cada uma das 10 classes, a Tabela 10 mostra as Taxas de Acertos para cada classe e finalmente a Tabela 11 representa a Matriz de Confuso para este descritor.
Classe ANMRR
Grass 0.271
Leather 0.149
Sand 0.084
Water 0.363
Wood 0.007
Raffia 0.000
Pigskin 0.319
Bubbles 0.107
Classe Acerto
Grass 81.2
Leather 83.9
Sand 93.1
Water 69.4
Wood 98.0
Raffia 100
Pigskin 81.2
Bubbles 93.5
50
Classe
Grass Herringb one Woolen
Grass
Herrin gbone
Woolen
Leather
Sand
Water
Wood
Raffia
Pigskin
Bubbles
14.9
16.5
0.4
Leather
Sand
1.7
Water
Wood
Raffia
Pigskin
2.1
16.7 0.8
0.1
4.2
10 1.2
81.2 0.6
6.1 93.5
Bubbles
Os resultados apresentados nas tabelas anteriores mostram que o resultado deste descritor consideravelmente bom, porm novamente, este resultado est muito abaixo do resultado da matriz de co-ocorrncia de nveis de cinza, alm de ser o pior desempenho dentre os descritores analisados. Cabe observar que este descritor, diferentemente dos anteriores, apresentou um melhor resultado para a classe Bubbles. A Figura 7 mostra um exemplo de uma consulta a partir de uma imagem da classe Herringbone, novamente apresentou um timo resultado. J a Figura 8 mostra a consulta realizada a partir de uma imagem da classe Bubbles, possvel observar algumas das confuses ocorridas com a classe Pigskin. Fica claro tambm que o resultado apresentado melhor que o resultado para a mesma consulta com os demais descritores.
51
52
4.2.4
Como foi mostrado no captulo 2 desta monografia, esses histogramas so usados para aproximar 9 das 14 caractersticas extradas da matriz de co-ocorrncia de nveis de cinza. Portanto todos os procedimentos adotados para a construo do vetor de caractersticas desse descritor so idnticos aos adotados pelo descritor MCNC. Ou seja, os histogramas so calculados nas quatro direes, 0, 45, 90 e 135, para uma distncia d igual a 1, em seguida as 9 caractersticas so extradas de cada um dos pares de histogramas. Dessa forma o vetor de caractersticas composto de 18 dimenses, sendo que as 9 primeiras so as mdias das caractersticas de todas as direes e as demais so a variao de cada uma dessas dimenses. Novamente, da mesma forma que o descritor MCNC, este descritor tambm necessita de normalizao, isso feito subtraindo-se cada dimenso do vetor de caractersticas pela mdia dessa dimenso em todos os vetores e dividindo-se por seu respectivo desvio padro. O melhor resultado de ANMRR para este descritor foi de 0.0883 e a Taxa de Acertos foi de 91.6%. A Tabela 12 mostra a ANMRR de cada uma das 10 classes, a Tabela 13 mostra as
53
Taxas de Acertos para cada classe e finalmente a Tabela 14 representa a Matriz de Confuso para este descritor.
Classe ANMRR
Grass 0.104
Leather 0.081
Sand 0.009
Water 0.174
Wood 0.031
Raffia 0.063
Pigskin 0.025
Bubbles 0.256
Classe Acerto
Grass 93.8
Leather 87.1
Sand 99.6
Water 84.6
Wood 95.1
Raffia 98.0
Pigskin 99.7
Bubbles 72.7
54
Classe
Grass Herringb one Woolen
Grass
Herrin gbone
Woolen
Leather
Sand
Water
Wood
Raffia
Pigskin
Bubbles
12.9
1.2
0.1
5.3 87.1 99.6 0.1 8.8 84.6 0.4 1.2 3.6 95.1 0.1 98.0 0.3 0.5
0.2
13.9
Leather
Sand
Water
2.3
Wood
Raffia
Pigskin
99.7
11.1 72.7
Bubbles
Os resultados apresentados nas tabelas anteriores mostram que o resultado deste descritor foi bom, porm novamente, este resultado ainda inferior ao resultado da matriz de coocorrncia de nveis de cinza. Vale lembrar que este descritor foi proposto como alternativa ao uso da MCNC, e que so aproximadas apenas nove das 14 caractersticas originais. Seguindo o mesmo padro apresentado para os demais descritores, a Figura 9 mostra o bom resultado para uma consulta com uma imagem da classe Herringbone. E a Figura 10 mostra o resultado para uma consulta com uma imagem da classe Bubbles. Novamente existe a confuso com os elementos da classe Woolen.
55
56
4.2.5
Filtros de Gabor
O descritor que utiliza os filtros de Gabor utiliza as sadas dos filtros para a construo do vetor de caractersticas, a mdia e o desvio padro de cada sada usado para a construo do vetor de caractersticas. A configurao de frequncias e rotaes que apresentou o melhor resultado foram de dez frequncias e oito rotaes. Com isso tem-se um vetor de caractersticas de 160 dimenses, um valor consideravelmente alto. O melhor resultado de ANMRR para este descritor foi de 0.0578 e a Taxa de Acertos foi de 97.5%. A Tabela 15 mostra a ANMRR de cada uma das 10 classes, a Tabela 16 mostra as Taxas de Acertos para cada classe e finalmente a Tabela 17 representa a Matriz de Confuso para este descritor.
57
Classe ANMRR
Grass 0.065
Leather 0.019
Sand 0.012
Water 0.024
Wood 0.000
Raffia 0.008
Pigskin 0.054
Bubbles 0.341
Classe Acerto
Grass 98.9
Leather 99.4
Sand 98.9
Water 99.9
Wood 100
Raffia 99.6
Pigskin 98.2
Bubbles 81.6
Classe
Grass Herringb one Woolen
Grass
Herrin gbone
Woolen
Leather
Sand
Water
Wood
Raffia
Pigskin
Bubbles
0.6
0.1 99.4 98.9 0.1 99.9 100 99.6 0.5 98.2 0.4 0.4 1.4
5.9
Leather
Sand
8.4 0.8
Water
Wood
Raffia
Pigskin
3.3 81.6
Bubbles
0.4
0.5
58
Os resultados apresentados nas tabelas anteriores mostram que este descritor foi muito bom, com isso conclui-se que dentre os descritores analisados este foi o que apresentou melhores resultados quanto a Taxa de Acertos, e quando se trata de ANMRR s ficou abaixo a MCNC. Estudos mais aprofundados podem melhorar ainda mais os resultados deste descritor, inclusive a buscar da combinao deste descritor com a MCNC a fim de se obter um desempenho ainda melhor. A Figura 11 mostra o resultado para um consulta com uma imagem da classe Herringbone, assim como os demais descritores, essa consulta apresentou bons resultados. J na Figura 12, apresentada uma consulta realizada com uma imagem da classe Bubbles, fica clara as confuses com as classes Woolen e Sand.
59
4.3
Resultados Complementares
Vale lembrar que este trabalho buscou o estudo comparativo visando apenas eficcia,
ou seja, apenas o quanto cada descritor acerta sobre um mesmo conjunto de imagens. Diversos outros fatores influenciam na escolha de um descritor para o desenvolvimento de aplicativos que utilizem comparaes entre imagens digitais. Deve-se levar em considerao principalmente o tamanho dos vetores de caractersticas e o custo de processamento das imagens para gerar estes descritores. Foi mostrado que os descritores possuem vetores de caractersticas de tamanhos variados, desde os menores com 18 dimenses, no caso dos descritores LBPRIU16 e HSD, passando pelo descritor MCNC com 28 dimenses e o descritor GAB com 80 dimenses, at o maior apresentado, com 512 dimenses no caso do descritor CCR. Tambm importante observar que em alguns casos a normalizao dos vetores de caractersticas crucial para o desempenho do descritor, e essa operao pode ser facilmente
60
desenvolvida de forma incremental, para que um banco de imagens com constantes inseres fique sempre com os vetores normalizados. A Figura 13 apresenta um grfico comparativo dos resultados obtidos para as taxas de acertos dos descritores estudados, fica fcil perceber os resultados superiores do descritor GAB seguido do descritor MCNC. Na Figura 14 mostrada a comparao do resultado de ANMRR de cada descritor, destacando-se o melhor desempenho do descritor MCNC seguido pelo descritor GAB. Em ambas as figuras percebe-se que o pior resultado obtido foi para o descritor LBP, seguido pelos descritores CCR e HSD.
61
4.4
Tecnologias Utilizadas
Todos os testes realizados foram feitos a partir de scripts em Matlab. Sua escolha se deve
a simplicidade da linguagem para o desenvolvimento das frmulas necessrias implementao dos descritores. Alm disso, ainda existe a facilidade de se armazenar o contedo das variveis com os resultados dos ndices de desempenho e dos vetores de caractersticas computados para todas as imagens e descritores em arquivos que podem ser carregados e utilizados posteriormente.
4.5
Consideraes Finais
Este captulo apresentou os resultados obtidos durante os experimentos realizados com os
descritores apresentados. Vale ressaltar que todos os testes foram realizados sobre condies equivalentes e sobre um mesmo conjunto de imagens. E tambm cada descritor foi avaliado individualmente para que seus parmetros fossem ajustados ao ponto em que desenvolvam o seu melhor resultado sobre as imagens utilizadas nos testes. Podemos destacar principalmente o bom resultado a Matriz de Co-ocorrncia de Nveis de Cinza e para os Filtros de Gabor, que para o conjunto de imagens selecionadas foram os
62
descritores que apresentaram os melhores resultados de ANMRR e Taxa de Acertos respectivamente. No prximo capitulo sero apresentadas as concluses a cerca dos dados encontrados durante toda a pesquisa, sobre os dados obtidos como resultado desses experimentos, as contribuies dessa pesquisa e algumas sugestes de trabalhos futuros.
63
CONCLUSO
O campo de pesquisa de busca de imagens por contedo bastante amplo e complexo, e devido crescente quantidade de imagens digitais disponveis atualmente, verifica-se a necessidade de aplicativos que utilizam esse tipo de busca e apresentem bons resultados. O item mais importante nos sistemas de busca de imagens por contedo o descritor de imagens. Os descritores de imagens so os responsveis por traduzir as propriedades visuais das imagens para grandezas que possam ser comparadas. Dentre as vrias propriedades visuais, ou caractersticas, de uma imagem que podem ser analisadas, como cor, forma e textura, este trabalho realizou um estudo comparativo de descritores de textura em imagens em escala de cinza. Os descritores analisados so a Matriz De Co-Ocorrncia De Nveis De Cinza (MCNC), Padres Binrios Locais ou Local Binary Pattern (LBP), A Representao dos Grupos Coordenados (CCR), Histogramas da Soma e da Diferena (HSD) e os Filtros de Gabor (GAB). No captulo 2 , alm da introduo aos descritores mencionados anteriormente, foram apresentadas as medidas utilizadas para a comparao e avaliao dos descritores, essas medidas foram a ANMRR, a Taxa de Acertos e a Matriz de Confuso. A primeira avalia a posio de retorno mdio em uma busca realizada em um descritor, por isso, quanto mais prximo de zero o seu valor melhor. A segunda avalia quanto das imagens de uma classe foram corretamente classificadas, seu resultado se d em pela porcentagem de acertos, e por essa razo, quanto mais prximo de cem melhor. J a ltima permite perceber onde ocorreram os erros de classificao e com uma analise mais profunda podem-se observar nas imagens quais caractersticas visuais no so bem distinguveis por um determinado descritor. O captulo 3 apresentou dois trabalhos que realizaram estudos comparativos de forma mais generalizada, ou seja, que abordaram diversos aspectos visuais de uma imagem para sua
64
analise. Tambm foi apresentado um comparativo entre os trabalhos mencionados e este trabalho, com a finalidade de mostrar os conceitos que foram estudados em ambos os trabalhos. O captulo 4 inicialmente apresentou os procedimentos utilizados nos testes de desempenho, onde um conjunto de dez imagens de texturas em escala de cinza provenientes do lbum Brodatz (1966) foram divididas em 64 partes uniformes, e destas seis imagens foram utilizadas para treinamento e as demais utilizadas para os testes. Mostrou-se tambm que a medida de distncia entre os vetores de caractersticas foi da distncia L1, que acumula as diferenas modulares entre cada dimenso dos vetores comparados. Em seguida foram apresentados os resultados obtidos para cada descritor como a mdia de 10000 execues com sorteios aleatrios das seis imagens de treinamento. Vale destacar os resultados obtidos para os descritores MCNC e GAB, que obtiveram os melhores resultados de ANMRR e Taxa de Acertos respectivamente. Outro ponto interessante so as Matrizes de Confuso, podemos perceber claramente que na maioria dos casos os erros cometidos pelos descritores so diferentes, o que refora a idia de os descritores possuem sensibilidades diferentes a algumas propriedades das texturas.
5.1
Contribuies
Este trabalho rene informaes importantes sobre a eficcia dos descritores estudados.
Esses dados podem servir de base para a escolha dos mtodos apropriados para o desenvolvimento de aplicativos de busca de imagens por contedo. A textura uma parte importante de uma imagem, e seu estudo pode se estender a texturas e imagens coloridas, sendo assim este trabalho tambm serve como uma importante introduo ao campo de pesquisa de semelhana entre imagens. Os dados obtidos reforam o bom desempenho da MCNC, e tambm mostrou que o descritor GAB muito promissor. Outros estudos ainda podem ser realizados a fim de tentar aprimorar ainda mais os resultados destes descritores. Tambm foi possvel comparar conjuntamente o descritor HSD com o descritor MCNC, j que o primeiro foi proposto como uma alternativa ao primeiro. Pode-se notar que seu desempenho, apesar de inferior, se aproximou do desempenho do segundo.
65
5.2
Trabalhos Futuros
Como se trata de um campo de pesquisa muito amplo e diversificado, inmeras pesquisas
podem ser realizadas como complemento a este trabalho. Mas podem-se destacar alguns mais relevantes. Um trabalho interessante a extenso dos estudos para a pesquisa de mtodos de busca de texturas coloridas, pois existem muitos trabalhos que procuram discutir a relao dessas duas caractersticas visuais, alguns autores defendem uma analise conjunta de cor e textura, j outros autores defendem que essas grandezas devem ser tratadas de forma separada. Dessa forma podem-se realizar estudos que busquem identificar dentre essas possibilidades qual e a mais plausvel. Ainda pode-se destacar a extenso dos estudos para a pesquisa de mtodos que utilizem as formas, j que essa grandeza importante e visualmente marcante em uma imagem. Estudos que visem estudar a utilizao desta grandeza tambm so de grande importncia. Por outro lado, a aplicao de tcnicas de inteligncia artificial para a melhoria da comparao entre os vetores de caractersticas pode ser realizada, uma vez que se pode avaliar no somente os descritores, mas tambm os algoritmos de classificao e recuperao. Os estudos mais aprofundados sobre as Matrizes de Confuso podem ajudar a identificar quais caractersticas percebidas visualmente so menos sensveis para um determinado descritor. Isso pode ajudar a identificar as deficincias de cada descritor e ajudar a combinar descritores a fim de se diminuir a deficincia de ambos.
66
REFERNCIAS
BEZDEK, J. A convergence theorem for the fuzzy ISODATA clustering algorithms. IEEE Trans. Pattern Anal. Mach. Intell. PAMI-2. 1980, 1, pp. 1-8. __________. Pattern Recognition with Fuzzy Objective Function Algorithms. New York : s.n., 1981. BRODATZ, P. A photographical album for artists and designers. Toronto : Dover, 1966. CHANG, S., SIKORA, T. e PURI, A. Overview of the MPEG-7 standard. IEEE Transactions on Circuits and Systems for Vdeo Technology. 2001, Vol. 11, 6, pp. 703-715. HARALICK, R. Statistical and structural approaches to texture. Procedings of the IEEE. 1979, pp. 786-804. HARALICK, R., SHANMUGAM, K. e DINSTEIN, I. Textural features for image classification. IEEE Transactions on Systems, Man and Cybernetics SMC. 1973, pp. 610-621. HE, D. e WANG, L. Texture features based on texture spectrum. 1991. Vol. 5, 24, pp. 391399. ITO, R. H., KIM, H. Y. e SALCEDO, W. J. Classificao de Texturas Invariante a Rotao Usando Matriz de Co-ocorrncia. So Paulo, SP, Brasil : s.n. KURMYSHEV, E. V. e CERVANTES, M. A quasi-statistical approach to digital image representation. Rev. Mex. Fis. 1996, Vol. 1, 42, pp. 104-116. KURMYSHEV, E. V. e SNCHEZ-YEZ, R. E. Comparative Experiment With Colour Texture Classifiers Using the CCR Feature Space. 2005. pp. 1346-1353. KURMYSHEV, E. V. e SOTO, R. Digital pattern recognition in the coordinated cluster representation. Proc, of the 1996 IEEE Nordic Signal Processing Symposium. 24-27 de September de 1996, pp. 463-466. MENP, T. e PIETIKINEN, M. Classification With Color and Texture: Jointly or Separately. 2004. p. 12.
67
MANJUNATH, B. S. e MA, W. Y. Texture Features for Browsing and Retrieval of Image Data. IEEE Transactions on Pattern Analysis and Machine Intelligence. 1996. Vol. 18, 8, pp. 837-842. MANJUNATH, B. S., et al. Color and Texture Descriptors. IEEE Transactions on Circuits and Systems for Video Technology. 2001. Vol. 11, 6, pp. 703-715. MEHTRE, B. M., et al. Color matching for image retrieval. Pattern Recognition Letters. 1995, Vol. 16, pp. 325-331. MPEG. MPEG-7 International Standard. Information technology multimedia content descriptor interface: part 3 visual. 2002. ISO/IEC 15938-3. OJALA, T, PIETIKINEN, M e MENP, T. Multiresolution gray-scale and rotation invariant classification with local binary patterns. s.l. : PAMI, 2002. Vol. 7, 24, pp. 971-987. OJALA, T., et al. Texture discrimination with multidimensional distributions of signed graylevel differences. 2001. 34, pp. 727-739. OJALA, T., PIETKINEN, M. e HARWOOD, D. A comparative study of texture measures with classification based on feature distributions. 1996. 29, pp. 51-59. PALM, C. Color Texture Classification by Integrative Co-occurrence Matrices. 2004. pp. 965-976. PENATTI, O. A. B. Estudo Comparativo de Descritores para Recuperao de Imagens por Contedo na Web. Dissertao de Mestrado, UNICAMP. Campinas, SP, Brasil : s.n., 2009. PIETIKINEN, M., OJALA, T. e XU, Z. Rotation-invariant texture classification using feature descriptor. 2000. 33, pp. 43-53. ROSENFELD, A., WANG, C. e WU, A. Y. Multispectral Texture. Transactions on Systems, Man, and Cybernetics. January/February de 1982, pp. 79-84. ROSS, T. J. Fuzzy Logic with Engineering Applications. McGraw-Hill, Singapore : s.n., 1995. SNCHEZ-YEZ, R. E., KURMYSHEV, E. V. e CUEVAS, F. J. A Framework for Texxture Classification Using the Coordinated Clusters Representation. 2003. pp. 21-31. SNCHEZ-YEZ, R. E., KURMYSHEV, E. V. e FERNNDEZ, A. One-class Texture Classifier in the CCR Feature Space. 2003. pp. 1503-1511. TANNS, M. T. F. Comparao de Tcnicas para a Determinao de Semelhana entre Imagens Digitais. Dissertao de Mestrado, UFU. Uberlndia : s.n., 2008. UNSER, MICHAEL. Sum and Difference Histograms for Texture Classification. IEEE Transactions on Pattern Analysis and Machine Intelligence. 1986. Vols. PAMI-8, 1, pp. 118125.