Você está na página 1de 5

1.

VISÃO GERAL

PROCESSAMENTO DIGITAL DE IMAGENS (PDI) é qualquer forma de processamento de dados no qual a


entrada e saída são imagens tais como fotografias ou quadros de vídeo, mas que todo o processo é orientado
por algoritmos computacionais. Observe que tanto a entrada quanto a saída podem se constituir de imagens
analógicas. Ao contrário do TRATAMENTO DE IMAGENS, que se preocupa somente na manipulação de
figuras para sua representação final, o processamento de imagens (PDI) é um estágio para novos
processamentos de dados tais como aprendizagem de máquina ou reconhecimento de padrões. É uma das
subáreas da Computação Gráfica e, como nas demais, faz uso intenso da Matemática para cumprir cada uma
de suas etapas:
Aquisição (processamento analógico à digital)
Pré-processamento (realce e restauração)
Segmentação
Extração de características (representação e descrição)
Reconhecimento e interpretação

As duas primeiras etapas são características de um sistema simples, de baixo nível, de TRATAMENTO DE
IMAGENS. As duas últimas etapas são mais apropriadamente referidas como ANÁLISE DE IMAGENS, VISÃO
COMPUTACIONAL ou RECONHECIMENTO DE PADRÕES. A etapa 3, Segmentação, constitui-se, por assim
dizer, no elo de ligação dos dois subsistemas (tratamento de imagem e visão computacional).
Um sistema de processamento digital de imagens completo é constituído por um conjunto de etapas capazes
de produzir um RESULTADO a partir do DOMÍNIO DO PROBLEMA. Observe que o domínio do problema não
é a imagem em si, mas o ponto de partida para, inclusive, estabelecer a BASE DE CONHECIMENTO que será
utilizada nas diferentes etapas de processamento da imagem. Ou seja, ELE ANTECEDE a etapa de
AQUISIÇÃO, pois também é ele que determina a forma como a imagem será adquirida. Por exemplo, se
desejamos determinar o número de células sanguíneas presentes em uma imagem digitalizada da amostra de
sangue, o domínio do problema será a própria amostra de sangue e não a sua imagem. Outro exemplo seria a
leitura automática do CEP em envelopes de carta. Neste exemplo, o domínio do problema consiste em
correspondências, pois são elas que serão imageadas para, então, extrair as informações desejadas, ou seja,
o endereço contido em cada uma.

1.1. AQUISIÇÃO
Assim, uma vez estabelecido o DOMÍNIO DO PROBLEMA, o PRIMEIRO PASSO no processo será a
AQUISIÇÃO DA IMAGEM. Os principais dispositivos para aquisição de imagens são câmeras fotográficas, de
vídeo, scanners, tomógrafos e etc. Mas a imagem também pode ser resultado de simulações numéricas de
modelos matemáticos.
No exemplo sugerido de leitura automática de CEP, o primeiro passo no processo é a aquisição de imagens
dos envelopes. Para tanto são necessários um sensor e um digitalizador. O sensor converterá a informação
óptica em sinal elétrico e o digitalizador transformará a IMAGEM ANALÓGICA em IMAGEM DIGITAL. Dentre
os aspectos de projeto envolvidos nesta etapa, pode-se mencionar: a escolha do tipo de sensor, o conjunto de
lentes a utilizar, as condições de iluminação da cena, os requisitos de velocidade de aquisição (assumindo que
os envelopes passariam pela frente da câmera a uma certa velocidade), a resolução e o número de níveis de
cinza da imagem digitalizada, dentre outros. Esta etapa produz na saída uma imagem digitalizada do envelope.

1.2. PRÉ-PROCESSAMENTO (REALCE e RESTAURO)


Esta etapa visa melhorar a qualidade da imagem por meio de TÉCNICAS ALGORÍTMICAS que atenuem o
ruído, corrijam o brilho, o contraste, redimensionamento adequado etc. Em geral essas operações matemáticas
constituem o processo de REALCE. O REALCE é na maioria das vezes SUBJETIVO, sobretudo quando a
imagem se destina a interpretação humana.
Um outro processo que também procura melhorar a imagem é a RESTAURAÇÃO. Ao contrário do REALCE,
que é subjetivo, baseado em preferências humanas sobre o que constitui uma "boa imagem", a
RESTAURAÇÃO é OBJETIVA, pois se utiliza de técnicas estatísticas e modelos matemáticos para restaurar a
informação perdida, não registrada, ou oculta na imagem. Imagine o trabalho de recuperar uma fotografia
desbotada pelo tempo (realce) e roída por traças (restauro).
Seguindo no exemplo das correspondências começado acima, a imagem resultante do passo anterior pode
apresentar diversas imperfeições, tais como: presença de pixels ruidosos, contraste e/ou brilho inadequado,
caracteres interrompidos ou indevidamente conectados etc. A função da etapa de pré-processamento é
aprimorar a qualidade da imagem para as etapas subsequentes. As operações efetuadas nesta etapa são ditas
de baixo nível porque trabalham diretamente com os valores de intensidade dos pixels, sem nenhum
conhecimento sobre quais deles pertencem aos dígitos do CEP, a outras informações impressas no envelope
ou ao fundo. A imagem resultante desta etapa é uma imagem digitalizada de melhor qualidade que a original.

1.3. SEGMENTAÇÃO
Objetivo: Isolar regiões de pontos da imagem pertencentes a objetos para posterior extração de atributos e
cálculo de parâmetros descritivos.
A etapa de segmentação realiza a extração e identificação de áreas de interesse contidas na imagem.
Geralmente se baseia na DETECÇÃO DE DESCONTINUIDADE (bordas) ou SIMILARIDADES (regiões) na
imagem. Talvez seja a etapa mais difícil em todo o processo.
No caso específico do problema das correspondências, é possível que o problema seja dividido em duas
etapas: em um primeiro momento os algoritmos de segmentação tentarão localizar o CEP do restante das
informações para posteriormente, trabalhando sobre esta subimagem, segmentar (destacar, separar) cada
dígito individualmente. Segundo esta linha de raciocínio, este bloco produzirá à saída oito subimagens, cada
qual correspondendo a um dígito do CEP.

1.4. EXTRAÇÃO DE CARACTERÍSTICAS


Objetivo: A partir de imagens já segmentadas (em objeto e fundo) ou binárias, busca obter dados relevantes ou
atributos, das regiões ou objetos destacados.
A próxima etapa consiste em escolher uma REPRESENTAÇÃO adequada para DESCREVER os elementos
segmentados na etapa anterior. Por exemplo, o diâmetro de um círculo, o número de "buracos" e concavidade
em um caracter, etc. Note que nesta etapa a entrada ainda é uma imagem, mas a saída é um conjunto de
dados correspondentes àquela imagem, cuja estrutura é conveniente ao sistema de reconhecimento de
imagens que será utilizado na próxima etapa. No exemplo das cartas, um algoritmo de extração de
características eficaz deveria ser capaz de distinguir caracteres do CEP semelhantes, como o "5" do "6".

1.5. RECONHECIMENTO E INTERPRETAÇÃO


Objetivo: Distinguir objetos na imagem agrupando parâmetros de acordo com sua semelhança para cada
região de pixels encontrada.
O reconhecimento é o processo de rotular um objeto com base na sua descrição (extração de características),
após o que é processada a sua interpretação, que confere significado à informação, coerente com o que há na
BASE DE DADOS (ou conhecimento). No exemplo, uma forma simples de interpretação seria a verificação do
CEP em uma base de dados de CEPs válidos, para descobrir se o conjunto dos oito caracteres (cada qual
reconhecido individualmente) faz sentido ou não.

1.6. BASE DE CONHECIMENTO


Todas as tarefas das etapas descritas acima pressupõem a existência de um conhecimento sobre o problema
a ser resolvido, armazenado em uma base de conhecimento, cujo tamanho e complexidade podem variar
muito. Idealmente, esta base de conhecimento deveria não somente guiar o funcionamento de cada etapa, mas
também permitir a realimentação entre elas. Por exemplo, se a etapa de representação e descrição recebesse
7 caracteres ao invés de 8, ela deveria ser capaz de repetir a etapa de segmentação (provável responsável

2
pela falha) para que esta procurasse segmentar novamente a subimagem 'suspeita' (aquela de maior largura),
buscando dividi-la em duas.
A figura a seguir esquematiza as etapas de um sistema de processamento de imagem a partir do domínio do
problema até o resultado final.

Figura 1. Etapas fundamentais de um sistema de processamento de imagem digitais

Figura 2. Etapas de um sistema de visão computacional

3
1.7. DISPOSITIVOS PARA AQUISIÇÃO
Scanners - dispositivo que possibilita a conversão de uma imagem em papel, por exemplo, ou de uma cena
para uma imagem digital através de um processo óptico-eletrônico. Essa forma de aquisição pode inserir
distorções na imagem original.
Todos os scanners se baseiam no princípio da refletância da luz, que consiste em posicionar a imagem de
forma que uma luz a ilumine. Um sensor capta a luz refletida pela figura, formando assim uma imagem digital.
Os scanners mais simples usam lâmpada fluorescente para iluminar a imagem, enquanto que os mais
sofisticados usam uma lâmpada do tipo catodo-frio. No entanto, um outro fator determinante para a qualidade
de imagens escaneadas, é o sensor. Abaixo há uma descrição dos tipos de sensores mais usados:
Photo Multiplier Tube (PMT): Usado nos scanners de tambor, que são mais sofisticados e caros. Esse tipo de
scanner é usado principalmente na indústria gráfica, para impressões de alta qualidade.
Charge Coupled Device (CCD): Esse sensor é usado em quase todos os scanners domésticos, os mais
comuns. Seu destaque é a boa qualidade e preço baixo. Esse tipo de sensor transforma a luz refletida em
sinais elétricos que por sua vez, são convertidos em bits através de um circuito denominado conversor
analógico-digital. Os scanners de mesa geralmente possuem vários sensores CCD organizados em forma de
linha reta.
Contact Image Sensor (CIS): Esse tipo de sensor usa uma série de LEDs vermelhos, azuis e verdes para
produzir a luz branca e substituir os espelhos e lentes usados nos scanners com sensor CCD. Isso permite um
escaneamento mais leve e que gasta menos energia. No entanto, a qualidade da imagem escaneada não é tão
boa quanto à do CCD, mas o suficiente para aplicações simples. O preço desse tipo de scanner é bem baixo.

1.8. REPRESENTAÇÃO DE IMAGEM DIGITAL


Uma imagem digital é representada por uma matriz. Dizemos, assim, que uma imagem digital tem uma
representação matricial. Assim, como uma matriz, toda imagem possui um certo número de linhas (nlin) e um
certo número de colunas (ncol). O número de linhas e o número de colunas podem ser diferentes.
Convencionou-se que a linha inicial de uma imagem é a linha superior e é chamada linha 0. A última linha, a
inferior, é a linha nlin-1
A coluna inicial, ou coluna 0 da imagem, é a coluna da esquerda. A coluna final, ou coluna ncol-1, é a coluna
da direita. O tamanho total de uma imagem é obtido pela multiplicação de nlin por ncol.
tamanho = nlin*ncol
Cada elemento dessa matriz é conhecido como pixel (picture element) da imagem. O pixel (0,0) é o pixel
superior esquerdo e o pixel (nlin-1,ncol-1) é o pixel inferior direito.
A resolução espacial se refere a região espacial que está representada em cada pixel da imagem. Podemos
definir uma resolução na direção do eixo x (dx) e outra na direção do eixo y (dy). Podemos ainda inserir
referências de coordenadas planas, ou geográficas, na imagem. O pixel inferior esquerdo é referenciado pelos
valores de coordenadas iniciais (xi, yi) e o pixel superior direito é referenciado pelas coordenadas finais:
(xf, yf) e xf >xi e yf>yi.

1.9. FORMATOS DE ARMAZENAMENTO DE IMAGENS


As imagens digitais são armazenadas em arquivos binários com formatos específicos.
Em geral os arquivos de imagens contêm um cabeçalho (header), ou campos informativos, descrevendo as
características da imagem digital, seguido dos dados da imagem propriamente dito.
Nos cabeçalhos dos arquivos de imagens digitais existem informações do tipo: número de linhas, número de
colunas, número de bits usados na representação da radiometria da imagem, referências geográficas (quando
a imagem é georeferenciada), resolução horizontal (dx), resolução vertical (dy), número de bandas da imagem,
tipo de compressão usado para guardar os dados, data e hora de aquisição, tipo de sensor que captou a
imagem, dados paramétricos dos sensores, e outras informações relevantes.

4
Os dados das imagens digitais podem ser gravados em sua totalidade ou com auxílio de uma compressão. Os
arquivos de imagens com dados comprimidos utilizam menor área de armazenamento de dados nas memórias.
Existem vários algoritmos de compressão de imagens que serão estudados mais adiante. Em geral, os dados
são escritos linha a linha, e da esquerda para a direita, começando pela linha superior, linha 0 da imagem.
Entre os formatos, de armazenamento de imagens digitais, mais usados podemos destacar
BMP (Windows bitmap): É o formato gráfico nativo do Windows da Microsoft. É capaz de armazenar cores em
até 24 bits, e muito popular em ambiente PC: alguns programas como o Paint aceitam somente este formato.
TIFF (Tagged Image File Format): É um formato de arquivos que praticamente todos os programas de imagem
aceitam. Foi desenvolvido em 1986 pela Aldus e pela Microsoft numa tentativa de criar um padrão para
imagens geradas por equipamentos digital. O TIFF é capaz de armazenar imagens true color (24 ou 32 bits) e
é um formato muito popular para transporte de imagens do desktop para bureaus, para saídas de scanners e
separação de cores. O TIFF permite que imagens sejam comprimidas usando o método LZW e permite salvar
campos informativos (caption) dentro do arquivo. No Photoshop, use o comando File Info do menu File para
preencher tais campos informativos.
GIF (Graphics Interchange Format): É provavelmente o formato de arquivos gráficos mais popular. Foi criado
pela Compuserve para a transmissão de imagens do tipo bitmap pela Internet. A primeira versão do GIF surgiu
em 1987 (GIF87a). Em 1989 a Compuserve lançou a especificação GIF89a, que implementava o recurso da
cor transparente. Imagens GIF são sempre comprimidas e codificadas pela especificação LZW. A sua
característica mais marcante é suportar apenas 8 bits por píxel, no máximo; se você necessitar de 24 ou 32 bits
por píxel, use JPEG ou TIFF.

Você também pode gostar