Você está na página 1de 17

ALGORITMOS PARA RECONHECIMENTO DE PADRES

ARMANDO ANTONIO MONTEIRO DE CASTRO PEDRO PAULO LEITE DO PRADO Departamento de Engenharia Eltrica Universidade de Taubat

RESUMO
O objetivo principal desse trabalho foi o desenvolvimento de algoritmos para sistemas de reconhecimento de padres com nfase em tcnicas de agrupamento. Inicialmente so apresentados os conceitos bsicos sobre reconhecimento de padres e, a seguir, desenvolve-se uma viso sistmica do problema, discutindo as fases e mtodos de abordagem de projeto do reconhecimento de padres. Finalmente, apresenta os algoritmos comumente usados para tcnicas de busca e agrupamento, aplicando alguns exemplos para ilustrar seus passos e desenvolvimento. Os algoritmos analisados e implementados foram: Similaridade Mxima, MaxiMinDistncia, K-Means e ISODATA. O objetivo proposto inicialmente foi alcanado, ou seja, foram desenvolvidos com xito os algoritmos Similaridade Mxima, MaxiMin-Distncia, K-Means e ISODATA. Os exemplos desenvolveram-se de maneira a apresentar de forma didtica a implementao dos algoritmos nas amostras de padro determinadas para cada caso. A medida de similaridade adotada para comparao de padres foi a distncia euclidiana. Os algoritmos foram escritos em linguagem C++ e MatLab. Procurando tornar mais amigvel o acompanhamento dos algoritmos implementados e a apresentao dos resultados, foi desenvolvida uma interface grfica, utilisando-se o software MatLab. PALAVRAS-CHAVE: reconhecimento de padres, algoritmos, agrupamento, similaridade mxima, maximindistncia, k-means, isodata.

INTRODUO O reconhecimento de padres uma

farejadores,

que

vasculham

bagagens

em

terminais de desembarque em busca de drogas. O grau de refinamento do reconhecimento de padres, por parte do ser humano, pode chegar a ponto de distinguir uma pintura de um grande mestre daquela feita por um exmio falsrio ou, ainda mais, pode estabelecer uma tomada de deciso por parte de um operador em um dia de grande movimento em uma bolsa de valores. habilidade extremamente desenvolvida nos seres humanos e em alguns animais. O ser humano hbil em reconhecer rostos, vozes, caligrafias e, at mesmo, estados de humor de pessoas conhecidas. Alguns animais tambm tm essa caracterstica desenvolvida, tais como os ces

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

130

Assim sendo, pode-se dizer que padres so os meios pelos quais o mundo interpretado e, a partir dessa interpretao, elaboram-se atitudes e decises. Percebe-se, tambm, que nos exemplos citados, tal facilidade no reconhecimento de padres est diretamente vinculada aos estmulos aos quais o indivduo foi exposto anteriormente. Isso leva a supor que a estrutura selecionada pela evoluo biolgica para desempenhar bem a tarefa de reconhecimento de padres incorpora alguma forma de aprendizado e evolui com a experincia. tenham tais O grande desafio proposto neste comportamentos. Tarefas de inicio de sculo o de desenvolver mquinas que reconhecimento de voz, de caligrafias e de textos impressos usando caracteres de tipos distintos esto em fase avanada de desenvolvimento, mas muito ainda precisa ser feito para que seu desempenho se assemelhe ao do ser humano. Algumas reas que poderiam ser destacadas na aplicao do reconhecimento de padres so: identificao atravs de impresses digitais e anlise da ris, diagnsticos mdicos (Steiner, 1995), anlise de imagens aeroespaciais, viso computacional (Perelmuter et al., 1995), diagnsticos pr e ps-natal e certos diagnsticos de cncer ( Aguiar, 2000), reconhecimento de voz,(Ferreira,1994) investigao da qualidade do papel industrial (Steiner, 1995), processamento de imagens, anlise de peas para manuteno

preventiva, anlise de caracteres manuscritos (Prado, 1975), anlise de eletrocardiogramas, sinais de radar, e (Mascarenhas,1987) identificao de reconhecimento

cromossomos(Todesco, 1995) dentre outras. CONCEITOS BSICOS EM

RECONHECIMENTO DE PADRES O estudo do reconhecimento de padres pode ser dividido em duas categorias bsicas: (Tou e Gonzales, 1981).o estudo de seres humanos e organismos vivos com o objetivo de se estabelecer os modos pelos quais os mesmos desenvolvem e aprimoram suas capacidades de reconhecimento de padres e o desenvolvimento de teorias e tcnicas objetivando a construo de mquinas ou dispositivos capazes de apresentar caractersticas semelhantes s dos seres humanos em reconhecerem padres. O presente trabalho desenvolve-se abordando a segunda categoria. Padro e Classe Entende-se por padro as propriedades que possibilitam o agrupamento de objetos semelhantes dentro de uma determinada classe ou categoria, mediante a interpretao de dados de entrada, que permitam a extrao das caractersticas relevantes desses objetos, (Tou e Gonzles, 1981). Entende-se por classe de um padro um conjunto de atributos comuns aos

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

131

objetos de estudo.

Assim, reconhecimento de

dimensionalidade infinita, descrito por um vetor X:


x1 x2 x3 X = . . . x N

padres pode ser definido como sendo um procedimento em que se busca a identificao de certas estruturas nos dados de entrada em comparao a estruturas conhecidas e sua posterior classificao dentro de categorias, de modo que o grau de associao seja maior entre estruturas de mesma categoria e menor entre as categorias de estruturas diferentes. Os dados de entrada so medidos por sensores e selecionados segundo o contedo de informaes relevantes para a deciso, e passam por um processo de reduo de sua dimensionalidade para que possam ser usados pelo classificador, que o designar classe que melhor o represente. Fases do Reconhecimento de Padres Um sistema para reconhecimento de padres engloba trs grandes etapas: representao dos dados de entrada e sua mensurao, extrao das caractersticas e finalmente identificao e classificao do objeto em estudo. A primeira etapa refere-se representao dos dados de entrada que podem ser mensurados a partir do objeto a ser estudado. Essa mensurao dever descrever padres caractersticos do objeto, possibilitando a sua posterior classificao numa determinada classe. perfeitamente um O vetor que caracteriza objeto seria de

onde:

x1, x2, x3,...,xN

so suas

caractersticas. do objeto e

A segunda etapa consiste na conseqente reduo da

extrao de caractersticas intrnsecas e atributos dimensionalidade do vetor padro. a fase da extrao das caractersticas. A escolha das Esta caractersticas de fundamental importncia para um bom desempenho do classificador. pretende classificar. escolha feita objetivando os fenmenos que se Exige-se, portanto, um conhecimento especfico sobre o problema em estudo. Nesta etapa, os objetivos bsicos so: a reduo da dimensionalidade do vetor caracterstico, sem que isso implique em perda de informao que possa ser relevante para a classificao, objetivando a reduo do esforo computacional e a seleo das caractersticas significativas para a tarefa de classificao. A terceira etapa em reconhecimento de padres envolve a determinao de procedimentos que possibilitem a identificao e classificao do objeto em uma classe de objetos. De modo diferente da segunda etapa, aqui a concepo do

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

132

classificador pode ser abordada de forma abstrata e independente da natureza do problema, pois, os mtodos usados em reconhecimento de voz, anlise de imagens, processamento de sinais de radar, inspeo de materiais, viso por computador ou deteco de avarias so muitas vezes os mesmos, possibilitando a aplicao dessas tcnicas em contextos variados, sem perda de sua eficincia (Marques, 1999). Num sistema fsico qualquer existe um nmero infinito de caractersticas que definem os padres nele existentes. O Extrator de Caractersticas tem

como

funo

determinar

extrair

as

caractersticas mais significativas que contribuam para a descrio do objeto, dentre as infinitas caractersticas que possam descrev-lo. Outro dado relevante que o extrator de caractersticas varia com o sistema a ser analisado. A tabela 1 exemplifica vrias tarefas de classificao, propostas por um sistema de reconhecimento de padres, com seus dados de entrada e respectivos dados de sada:

Tabela 1: Exemplos de tarefas de classificao Tarefas de Classificao Reconhecimento de caracteres Reconhecimento de Voz Diagnsticos Mdicos Previso do tempo Dados de Entrada Sinais pticos Voz Sintomas Mapas atmosfricos Dados de Sada Nome do caractere Identificao da palavra Identificao da Patologia Chuva, Sol etc.

Uma vez extradas as caractersticas necessria a classificao do objeto. Esta classificao pressupe a designao do objeto uma determinada classe, dentre as vrias que se apresentam. Nesta etapa o classificador aprende a distinguir dentre as classes, aquela

qual o objeto pertence. Padres de uma mesma classe aglomeram-se em agrupamentos Sj. Se o treinamento do classificador exigir amplo conhecimento a priori da estrutura estatstica dos padres a serem analisados e o padro de entrada for identificado como membro de uma

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

133

classe pr-definida pelos padres de treinamento, o classificador ser chamado de Classificador Paramtrico e a classificao se processa de forma supervisionada. Por outro lado, se o classificador utilizar determinado modelo estatstico, ajustando-se mediante processos adaptativos e a associao entre padres se fizer com base em similaridades entre os padres de treinamento, o classificador ser chamado de Classificador NoParamtrico e a classificao se processar de forma no supervisionada.

A grande dificuldade na implementao de um projeto de reconhecimento de padres est justamente na escolha da tcnica adequada para que as fases do reconhecimento de padres ocorram de modo a representar satisfatoriamente os fenmenos do mundo real. A figura 1 ilustra, de forma mais detalhada, as diversas fases do reconhecimento de padres.

- Medida de um vetor padro - vetor de entrada - x : ponto do espao n-dimensional - Caractersticas com poder de discriminao entre classes

Dados de Entrada (Objetos) Representao dos Dados de Entrada Medidas x Extrao das Caractersticas Principais Vetor de "features" Estimao Treinamento Aprendizado Anlise Contextual

- Procedimentos de deciso - Gerao de funes de deciso arbitrariamente definidas ou estimadas, "otimizadas" por treinamento e aprendizagem

Categorizao (identificao) e Classificao

Classe de Padro

Figura 1: Fases do Reconhecimento de Padres

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

134

Formas de Abordagens de Projeto de Reconhecimento de Padres As abordagens de projeto de

padro. A figura 2 ilustra a abordagem de projeto mediante a aplicao do conceito Rol de Membros.

reconhecimento de padres so desenvolvidas em funo da forma como as classes de padro so categorizadas ou definidas. Basicamente so trs as abordagens de projeto: rol de membros (template matching), propriedades comuns (feature matching) e agrupamento (clustering matching). Rol de Membros (Template Matching) A caracterizao de padres mediante uma lista de padres um faz-se modelo atravs de A comparaes com previamente
Padro X i

Lista de Padres Armazenados

Xj j = 1, 2,..., n

Xi = X j j =1

Xi S j

N j = j+1

Figura 2: Abordagem do Rol de Membros (template matching)

Propriedades Comuns (Feature Matching) caracterizao principais classe de padres inerentes por aos

armazenado cujas caractersticas servem de parmetro para a comparao. Evidentemente, um procedimento bastante elementar, podendo, em certos casos, acarretar classificaes inadequadas em funo de certos rudos durante o processo de extrao das caractersticas e posterior comparao com o padro armazenado. Como exemplo de rudos, em reconhecimento de caracteres, pode-se citar a impresso de um caracter mal delineado ou ento uma maior ou menor porosidade do papel em que foi impresso, ocasionando concentrao ou disperso da tinta. til nas aplicaes em que os padres a serem comparados so bastante prximos do modelo

propriedades comuns efetiva-se mediante algumas caractersticas uma mesma elementos desta classe. Padres pertencentes a possuiro propriedades comuns de discriminao dessa classe. Desta forma, quando um padro desconhecido observado pelo sistema, suas caractersticas so extradas e comparadas com aquelas armazenadas como discriminantes das classes. O classificador ento, classificar este novo padro em uma das classes existentes ou ento designar o objeto a uma nova classe. O principal aspecto desta abordagem refere-se ao extrator das caractersticas do sistema, pois, dele depender o

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

135

bom desempenho do reconhecimento de padres. Se todas as caractersticas de um padro de classe so determinadas a partir de uma amostra, o processo de reconhecimento reduz-se simplesmente a estabelecer comparaes com os novos objetos submetidos para anlise. extremamente completamente utilizao aperfeioar deste e difcil, todas conceito otimizar porm, as determinar caractersticas A freqente das

Mtodos de Reconhecimento de Padres As abordagens de projeto apresentadas anteriormente so implementadas atravs de trs mtodos de reconhecimento de padres: mtodos matemticos, mtodos lingsticos ou sintticos e mtodos heursticos. No raro o emprego de uma combinao dos mtodos acima citados para que se efetive o reconhecimento de padres (Tou e Gonzales, 1981). Mtodos Matemticos Os mtodos matemticos utilizam regras de classificao que so formuladas a partir de modelagem matemtica dos conceitos de propriedades principais e agrupamento. So subdivididos em duas categorias principais: mtodos determinsticos e mtodos estatsticos. O classificador de padres estatstico baseia-se na Regra de Classificao de Bayes, empregada quando a funo densidade de probabilidade das classes de padro e a probabilidade de ocorrncia de cada classe de padro so conhecidas. Assim, a principal tarefa para a utilizao da classificao estatstica a estimao paramtrica das funes densidade de probabilidade ou, se necessrio, aproximao funcional dessas densidades de probabilidade. gaussiana ser Se forem conhecidas apenas a utilizada. Os mtodos mdia e a varincia das distribuies, a funo

determinantes de uma classe de padro. implica a

desenvolvimento de tcnicas que permitam extrao caractersticas dos objetos em estudo. Agrupamento (Clustering Matching) Quando os padres de uma classe so vetores cujos componentes so nmeros reais, a classe do padro pode ser estabelecida segundo formas do agrupamento, clusters, desses pontos no plano. Havendo uma separao entre os pontos de forma clara, tcnicas simples podem ser empregadas, tal como, distncia-mnima. Caso haja superposio entre os clusters, tcnicas mais elaboradas so necessrias, tais como, classificao por funes similares (mtodos estatsticos), por treinamento de padro (mtodos determinsticos) adequados. ou outros algoritmos mais

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

136

determinsticos tm formulao simplesmente matemtica. Mtodos Lingsticos ou Sintticos A abordagem comuns, de projeto a de

desempenho de um sistema de reconhecimento de padres baseado neste mtodo depender de profundo conhecimento e intuio do elaborador do projeto. Reconhecimento Superviso Reconhecimento de Padres Supervisionado Padres representativos de cada classe esto disponveis e o sistema ensinado a reconhecer padres por meio de esquemas de adaptao. Consiste, pois, na disponibilidade de padres de treinamento e de um procedimento de aprendizado. Exemplos de algoritmos utilizados no reconhecimento supervisionado so: perceptron, gradiente, erro quadrtico mnimo, funes potenciais, etc . Reconhecimento Supervisionado So disponveis apenas padres de O de Padres Node Padres Quanto

propriedades

feature

matching.

Baseia-se na caracterizao de padres por meio de uma estrutura hierrquica de elementos primitivos (sub-padres) e suas relaes. Desenvolve-se de forma semelhante estrutura sinttica de linguagens. para ou particularmente til padres que no podem ser descritos ento, so to complexos no que podem ento, suas ser em

convenientemente atravs de medidas numricas, caractersticas enunciadas, especficas

transformando-se

caractersticas globais. Mtodos Heursticos Baseiam-se em procedimentos ad hoc para tarefas especializadas de reconhecimento de padres. Levam em considerao a intuio e experincia do programador em utilizar o conceito de rol de membros e propriedades comuns. Embora a abordagem heurstica seja um importante mtodo no reconhecimento de padres, pouco pode ser dito sobre princpios generalizados nesta rea, visto que cada problema requer a aplicao de regras especificas e elaboradas para tal fim. Por conseguinte, o

treinamento de classificao desconhecida.

reconhecimento de padres de forma nosupervisionada empregado quando no existe informao a priori acerca das classes dos prottipos. Os mtodos para associar um dado agrupamento a cada padro seguem algum critrio de similaridade e so dependentes do algoritmo

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

137

empregado, dos dados utilizados e da medida de similaridade adotada. ALGORITMOS DE BUSCA E AGRUPAMENTO As tcnicas de busca de agrupamento so empregadas quando os padres das classes so nmeros reais que se agrupam no espao ndimensional. So utilizados como ponto inicial para o reconhecimento de padres nosupervisionado em cujo caso os padres das classes so conhecidos a priori. Os centros dos agrupamentos obtidos por essa tcnica podem ser interpretados como os diferentes padres de classe, atravs das quais o treinamento pode ser realizado. Classificao de Padres Baseado em

Sejam M os agrupamentos de padres de classes, representados pelos prottipos de padro Z1, Z2, Z3...ZM.

A por:

distncia

Euclidiana

entre

padres

quaisquer x e cada prottipo Zi ser dada

D i = x Z i = ( x Z i )' ( x Z i )

(3.2.1)

onde ( x Z i )' significa a transposta de ( x Z i ) . A classificao por similaridade em mxima ao estabelece a distncia entre um padro x de classificao desconhecida relao prottipo de cada classe e nomeia o padro classe que est mais prximo. Em outras palavras, x ser designado para a classe wi se: Di < D j , j i A equao (3.2.1) pode ser desenvolvida como:

Similaridade Mxima. A classificao por distncia de funes um dos primeiros conceitos em reconhecimento automtico de padres (Tou e Gonzles, 1981). Esta tcnica uma ferramenta efetiva para a soluo de problemas em que cada padro de classe apresenta de modo claro, limitado grau de variabilidade, por exemplo, a identificao de caracteres impressos com tinta magntica em cdigos de barra. Sob estas condies, similaridade mxima constitui uma abordagem adequada para o problema de classificao.

Di 2 = x Z i

= ( x Z i )' ( x Z i )

= x '.x x ' Z i Z'i x + Z'i Z i Sendo x' Z i = Z'i x , resulta: D i 2 = x' x 2x' Z i + Z'i Z i 1 = x' x 2[ x' Z i Z'i Z i ] 2 (3.2.2)

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

138

Escolher o menor D i 2 equivalente a escolher o menor D i , pois todas as distncias so positivas. De (3.2.2) tem-se que o termo x ' x independe de i para todo D i 2 ,
2

onde: Wi = ( w i1 , w i2 ,..., w i,n+1 )' . Classificao por Limiar Simples - Threshold Algorithm O algoritmo Limiar Simples tem uma conceituao bastante simples. Arbitrariamente escolhida uma das amostras de padro, disponveis para anlise, para ser o primeiro centride de classe Z1. A seguir, so calculadas as distncias entre o centride Z1 e cada e uma das amostras. Se essas distncias forem menores que um limiar T, previamente estabelecido, a amostra Caso designada classe S1 de centride Z1.

i = 1,2,..., M .

Assim escolher o menor D i , corresponde pois, 1 escolher o mximo [ x' Z i Z'i Z i ] . Define-se 2 assim a funo de deciso di ( x ) : (3.2.3)

1 di ( x) = x ' Z i Z i' Z i , i = 1,2,..., M 2

onde o padro x designado para a classe Wi se di ( x ) > d j ( x ) j i.

Sendo d i ( x ) uma funo de deciso linear, isto , se Z ij , j = 1,2,3,..., n , so os componentes de Z i j = 1,2,3,..., n . 1 w i,n+1 = Z i' Z i 2 x1 x2 x= M xn 1 podendo-se representar a equao (3.2.3) na forma linear di ( x ) = w 'i x , com i = 1,2,3,..., M (3.2.5) (3.2.4) e Wij = Zij , onde

alguma distncia seja maior que o limiar T, novo centride de classe determinado e novamente so calculadas e comparadas as distncias entre centrides e amostras com o limiar T. Algumas caractersticas desse algoritmo merecem especial ateno. A escolha do centride inicial, prottipo de classe, pode afetar de maneira significativa a classificao das amostras. Seu desempenho pode ser melhorado se os valores para o limiar T adotados forem prximos aos centrides de agrupamento. O valor arbitrado para o limiar T afeta a alocao dos padres s classes de agrupamento. Caso esse valor seja muito grande, distintas amostras de padro podem agrupar-se em uma mesma classe.

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

139

Por outro lado, se o valor adotado for muito pequeno classes as cujos amostras padres constituiro podem ter inmeras mesmas

usado pelo algoritmo.

Uma derivao do

algoritmo k-means, com heursticas para diviso e unio de clusters, o algoritmo ISODATA, que o algoritmo k-means modificado. Apesar dessas caractersticas, o ISODATA tambm no convexo e variante, ou seja, enfrenta problemas quando se depara com mnimos locais, durante a minimizao do custo (Aguiar, 2000). Observese que: dado um conjunto S, distoro
+ que associa qualquer aplicao d: S X S 0

caractersticas.

Em ambos os casos, tem-se a

descaracterizao da anlise efetuada. A escolha do melhor valor para o limiar T depender de anlise da disposio das amostras, da quantidade de amostras e de experimentaes com vrios valores (Feucht, 1977). Algoritmo Maximin-Distncia O algoritmo Maximin-Distncia um procedimento heurstico baseado no conceito de medida de similaridade, por exemplo, a distncia euclidiana. O algoritmo similar, em princpio, ao apresentado no item 3.2, diferindo deste por identificar inicialmente as amostras mais afastadas entre si. 3.4 Algoritmo K-Means O algoritmo k-means baseia-se na I.

cada par de elemento de S a um nmero real que traduz o afastamento entre esses elementos (Marques, 1999). O Algoritmo Inicializao: arbitrariamente Selecionar os k centros iniciais de

agrupamentos (centrides), Z1, Z2 ,..., Zk. II. Determinar a distncia x i , com i = 1, 2, ...,k, entre cada centride e os demais padres. A designao dos padres s classes de padro se far, no caso da distncia euclidiana, quando as amostras de padro atenderem relao: x i Z j (k ) < x i Z i (k ) , com i = 1,2,..., k e i j . A expresso x Zi define a distncia

minimizao de uma medida de custo, a distncia interna entre os padres de um agrupamento. A minimizao do custo garante encontrar um mnimo local da funo objetivo, que depender do ponto inicial do algoritmo. Esse tipo de algoritmo chamado de no-convexo, pois, a cada iterao diminui o valor da distoro, visto que o resultado final depende do ponto inicial

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

140

euclidiana entre os padres, (amostras) e os centrides. Formam-se k agrupamentos (cluster), compostos pelos elementos x i pertencentes classe S j (k ) = { x1 , x 2 ,...}

O comportamento do algoritmo k-means apresenta simples, seqencial vantagens no que o concerne a simplicidade e eficincia. rpido para clculos possibilitando dos dados, processamento baixa acarretando

quantidade de armazenamento de informaes a III Atualizar os centros de agrupamento a partir do passo 2, usando a relao: 1 Z j (k + 1) = x , onde N numero de N xS serem processadas. A desvantagem a sua dependncia dos valores iniciais de k, da ordem em que as amostras so processadas, da escolha dos primeiros centros de agrupamento e da geometria das amostras disponveis para anlise. Em alguns casos sua utilizao requer experimentao com vrios valores de k e diferentes escolhas dos parmetros iniciais(Duda, 1974). Algoritmo ISODATA O algoritmo ISODATA, Iterative SelfOrganizing Data Analysis Techniques, um algoritmo semelhante, em princpio, ao algoritmo k-means. Desenvolve-se baseado em critrios de minimizao e aplicao de mtodos heursticos repete-se o passo 2 com Z j (k + 1) no lugar de Z j (k ) , definindo assim os novos elementos de cada classe. Se Z j (k + 1) = Z j (k ) o algoritmo converge e o procedimento est terminado, com a designao de cada padro sua respectiva classe de padres. em um procedimento iterativo para determinao de centrides de classes de padres. desenvolvimento segue os seguintes passos: 1. Inicializao: Z1 , Z 2 ,..., Z Nc . Selecionar de forma Nc. O nmero de Seu

elementos de Sj.. distncias agrupamento agrupamento. de ao

Esta atualizao cada novo padro centro do de

minimiza a soma do quadrado das

IV Comparar os centrides Z j (k + 1) com o centride Z j (k ) . Se Z j (k + 1) Z j (k ) ento novos centrides ficam determinados e

arbitrria os centros de agrupamento

centros de agrupamentos arbitrado,

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

141

necessariamente, no precisa ser igual ao nmero final de centrides obtidos aps o trmino do algoritmo. 2. Estabelecer os valores dos parmetros iniciais: K = Nmero de agrupamentos (clusters) desejado N = Parmetro mnimo de amostras permitido eliminao de agrupamentos S = Parmetro a ser comparado com o desvio padro, usado na diviso de agrupamento C = Parmetro de agrupamento, usado para agregar agrupamentos L = Nmero mximo de amostras que podem juntar-se a uma classe durante o desenvolvimento do algoritmo. I = Nmero mximo de iteraes permitidas. 3. Designao das amostras de padres aos centros de agrupamento mais prximo, usando a relao: x S j se x - Zj < x Z i i = 1,2,..., N c , i j 4. Descartar os conjuntos de padres Sj que no apresentarem quantidade mnima de amostras ou seja, para as mesma com por classe, usado na

classes Sj em que N j < N , descartar Sj e reduzir o nmero de classes em uma unidade, NC = NC 1. 5. Atualizar os centros de agrupamento Zj usando a relao: Zj = 1 Nj

xS j

x , j = 1,2, ,..., N c

onde Nj

o nmero de amostras presentes nas respectivas classes. 6. Calcular a disperso D j , distncia mdia de cada amostra x, da classe Sj , ao centro de agrupamento Zj correspondente, usando a relao: Dj = 1 Nj

xS j

x Zj

, j = 1,2,..., Nc

7. Calcular a disperso global D , distncia mdia global entre amostras e respectivo centride, usando: D= 1 N
Nc

NjD j
j=1

onde: N a quantidade de amostras disponveis para anlise e Nj a quantidade de amostras presentes na classe espalhamento entre mostras de padro de uma classe, usado como parmetro na S j. D fornece o

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

142

diviso de classes. 8. Terminar, dividir ou reagrupar: a) se for a ltima iterao, fazer C = 0 e ir para o passo 12. b) Se Nc k , ir para o passo 9 2

Z ij = i-simo componente de Z j Nj = classe S j Cada componente de j representa o desvio padro das amostras em S j ao longo do principal eixo coordenado. 10. Calcular o componente mximo da disperso j e denot-lo jmx , j = 1,2,..., Nc , 11. Diviso: Se para algum j
mx

nmero de amostras da

(quantidade de centrides menor que o esperado, buscar diviso de classes). c) Se for uma iterao par ou Nc 2k ir para o passo 12 (quantidade de centrides acima do esperado, buscar agrupamento de classes), caso contrrio continue 9. Calcular o vetor desvio padro j para cada amostra de padro em relao aos eixos coordenados, j = (1j , 2 j ,..., nj )' , usando a relao

j = 1,2,..., Nc , tem-se j > S e: mx a) D j > D e N j > 2(N + 1) b) Nc k 2 ou

Dividir a classe S j , de centro em Z j , em duas outras classes cujos centros


sero dados por Z + j e Z j , obtidos em

ij =

1 Nj

(
xSj

xik Z ij

funo de j , com j = jmx e 0 < 1, eliminando-se Zj e

i = 1,2,...n ; j = 1,2,..., N c ; k = 1,2,..., N j onde: n = Dimensionalidade da amostra x ik = i-simo componente da k-sima amostra em S j

incrementando NC de 1 unidade. Assim, tem-se: Z j = f (Z j , j ) . Z+ j = f (Z j , j ) e

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

143

Ocorrendo a diviso v para o passo 3, caso contrrio continue. 12. Calcular os pares de entre os centros ; de distncias Dij agrupamentos, e

b) Se no for ltima iterao, pode ser necessria a troca de alguns dos parmetros iniciais, o algoritmo segue para o passo 2. c) Se no for ltima iterao e no houver necessidade de alterao nos parmetros inicias. O algoritmo segue para o passo 3. Observe-se que uma iterao considerada cada vez que o algoritmo retorna ao passo 2 ou 3. 14. O algoritmo est encerrado, com a designao dos padres s respectivas classes de padro.

Dij = Zi Z j j = i + 1,..., N c

i = 1,2,..., N c 1

, e comparar Dij com N .

Reordenar as L menores distncias que N , ( Dij < c ) , em ordem crescente: onde e L o nmero

[Di1j1 , Di2 j2 ,..., DiLjL ]

Di1j1 < Di2 j2 < ., DiLjL

mximo de classes que podem se agrupar. 13. Unio dos Agrupamentos: para cada Diljl associado um par de

distncia

RESULTADOS E CONCLUSES O objetivo principal proposto inicialmente foi alcanado, ou seja, foram desenvolvidos com xito tcnicas os algoritmos de para sistemas de reconhecimento de padres, com nfase em agrupamento, Similaridade Mxima, MaxiMin-Distncia, K-Means e ISODATA. Os exemplos desenvolveram-se de maneira a apresentar de forma didtica a implementao dos algoritmos nas amostras de padro determinadas para cada caso. Foram escolhidas amostras com vetor de caractersticas bidimensional dada a maior facilidade de visualizao dos resultados obtidos

agrupamentos de centros Z il e Z jl . Iniciar o agrupamento com a menor dessas

distncias. Para l = 1,2,...,L , unir as duas classes usando a relao: 1 Z* N il ( Z il ) + N jl ( Z jl ) , l = N il + N jl descartando Z il e Z jl e reduzindo NC de uma unidade. 14. Terminar ou repetir: a) Se for a ltima iterao, o algoritmo segue para o passo 15.

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

144

aps a implementao dos algoritmos. A medida de similaridade adotada para comparao de padres foi a distncia euclidiana dada por D i = x Z i = ( x Z i )' ( x Z i ) onde ( x Z i )' significa a transposta de ( x Z i ) . Os algoritmos foram escritos em linguagem C++(Borland C++ for Windows, V5.02). Objetivando uma forma mais amigvel de apresentao dos resultados dos algoritmos, foi desenvolvida uma interface grfica, (Castro, 2001) usando-se o software Matlab, em sua verso 5.3, para o algoritmo K-Means. Os exemplos apresentados foram limitados ao espao bidimensional, objetivando ilustrar de forma didtica os fundamentos tericos desenvolvidos e tornar possvel seu desenvolvimento passo a passo, embora, usualmente, as tarefas de reconhecimento de padres contemplem variveis n-dimensionais, n 3. ABSTRACT This work aims at developing algorithms for pattern recognition, mainly on clustering systemic techniques. Initially, the basic concepts of pattern recognition are presented. Then, a

Maximim Similarity,

Maximin-Distance,

K-Means and ISODATA. An user-friendly interface helps to present the programs, written in C++ and in Matlab. KEY WORDS: pattern recognition, algorithms, clustering, maximim similarity, maximindistance, k-means, isodata. REFERNCIAS BIBLIOGRFICAS Aguiar, R. G. Segmentao de Imagens em Cores de Himunohistoqumica. Dissertao de Mestrado. Universidade Federal de So Carlos, 2000. Castro,A.A.M. Algoritmos Para Reconhecimento de Padres. Dissertao de Mestrado, Universidade de Taubat, 2001. Duda, R. O., Hart, P. E. Pattern Classification and Scene Analysis. Wiley -Interscience, New York. 1974. Ferreira, M. F. O Reconhecimento de Padres. Dissertao de Mestrado. Universidade de Braslia, 1994. Feucht, D. Pattern Recognition, Basic Concepts and Implementations. Computer Design, 1977.

vision of the problem is developed, with the discussion of the approaches for the project of pattern recognition. Finally, the following algorithms for cluster-seeking are implemented:

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

145

Marques,

J,S.

Reconhecimento

de

Padres

Mtodos Estatsticos e Neuronais. IST Press, Portugal 1999. Mascarenhas, N. D. A. Breve Introduo ao Reconhecimento Estatstico de Padres. 39 Reunio Anual da SBPC. 1987. Perelmuter, G., Carrera, E. V., Vellasco, M., Pacheco, A. Reconhecimento de Imagens Bidimensionais Utilizando Redes Neurais Artificiais. Anais do VII SIBGRAPI, p. 197203, 1995. Prado, A. Jr., Elfes, A. Um Projeto em Reconhecimento de Padres de Forma. Monografia de Graduao, ITA, So Jos dos Campos, SP, 1975. Steiner, M. T. A. Uma Metodologia para o Reconhecimento de Padres Multivariados com Resposta Dicotmica. Tese de Doutorado. Florianpolis-SC, 1995. Todesco, J. L. Reconhecimento de Padres usando Rede Neuronal Artificial com uma Funo de Base Radial: uma aplicao na classificao de cromossomos humanos. Tese de Doutorado. Florianpolis-SC, 1995. Tou, J. T., Gonzalez, R. C. Pattern Recognition Principles. Addison-Wesley Publishing Company, Massachusetts, 1981.

Rev. Cinc. Exatas, Taubat, v. 5-8, p. 129-145, 1999-2002

Você também pode gostar