Estudo e Avaliação Comparativa de Técnicas de Visão Estéreo

FACULDADE LOURENO FILHO
LICHIERY SILVA
ESTUDO E AVALIAO COMPARATIVA DE TCNICAS DE VISO ESTREO
FORTALEZA CE
2013
LICHIERY SILVA
Monografia apresentada Coordenao do

Curso de Bacharelado do Curso de Sistemas
de Informao,como requisito parcial para
obteno do grau de Bacharel em Sistemas de
Informaoda Faculdade Loureno Filho.
Orientador: Prof. D.Sc. Rodrigo Carvalho
Souza Costa.
FORTALEZA, 2013
LICHIERY SILVA

Monografia apresentada Coordenao do Curso de Sistemas de Informao
Aprovada em: ______/______/______
BANCA EXAMINADORA
_____________________________________
Prof. Dsc. Rodrigo Carvalho Souza Costa
Orientador FLF
_______________________________________
Prof. M.Sc. Tarique Silveira Cavalcante
Faculdade Loureno Filho
____________________________________
Prof. Esp. Anaxgoras Maia Giro
Instituto Federal de Educao, Cincia e Tecnologia IFCE Campus Fortaleza
_____________________________________
Prof. Dr. Carlos Alberto Manso
Coordenador do Curso
Dedico este trabalho a minha famlia que

sempre me incentivou e me apoiou, durante
minha vida, me mantendo no caminho correto.
ii
AGRADECIMENTOS
Agradeo a Deus por me dar a instruo inicial em todos os meus atos, logo em seguida
minha famlia que me apoiou durante a minha carreira acadmica e propiciou a minha
formao, principalmente a minha Av e Tia que tiveram contribuio fundamental para esta
realizao.
Ao meu Orientador e Mentor, professor Rodrigo Carvalho Souza Costa, que contribuiu muito
tanto nesse trabalho como na minha carreira acadmica e profissional, grande parte do meu
conhecimento se deve a ele.
Por fim, mas no menos importante, aos meus amigos, que tiveram compreenso nos
momentos em que me ausentei para concluso desse trabalho, mas sempre me incentivaram a
termina- lo, uma participao especial ao meu amigo Joo Pedro Capistrano, que me ajudou
com a parte da lngua inglesa, de fundamental importncia para o termino do trabalho.
iii
Se no existe meio de vencer um

inimigo, CRIE um meio!
Se no h chance de vitria,
ENCONTRE uma!
Mestre Arsenal
iv
RESUMO
Um grande diferencial do sistema de viso humano a capacidade de percepo de
distncia, propiciando uma forma de observao tridimensional do mundo. Atravs da viso,
o ser humano realiza tarefas cotidianas do seu dia-a-dia e toma decises a partir do que
enxerga.
Para simular o processo de percepo humana, existe na Cincia da Computao a
rea de Viso Computacional (VC) que extrai informaes de cenas a partir do processamento
de imagens adquiridas, por exemplo, atravs de cmeras.
A rea da VC muito ampla e um de seus setores de estudo a viso estereoscpica
que tem como objetivo realizar a percepo tridimensional a partir do processamento de
imagens de duas cmeras posicionadas de forma adequada. Esta rea tem avanado muito nos
ltimos anos e vrias tcnicas e algoritmos foram desenvolvidos.
O objetivo desta monografia realizar uma avaliaodas caractersticas de algumas
implementaes de tcnicas de viso estrea (VE) em bibliotecas ou Softwares de
processamento de imagens disponveis na internet.
Atravs da aplicao em um mesmo ambiente de testes e hardware possvel avaliar
os fatores, como iluminao e tipos de lentes das cmeras, que podem influenciar na deteco
de profundidade, possibilitando a compreensodos ajustes necessrios para auxiliar a escolha
da tcnica de VEque agregue o menor custo computacional a uma deteco eficiente para
aplicaes em tempo real.
Os algoritmos apresentados foram desenvolvidos em Linguagem C ANSI com a
biblioteca OpenCV, pois so os mais utilizados em sistemas de VE.
Os resultados encontrados ao final da monografia no so satisfatrios, mesmo as
tcnicas funcionando, cada uma apresenta algum problema, como a taxa de processamento
muito alta, a identificao da imagem de resultado no aceitvel, impossvel de realizar
testes com imagens de tamanho grande.
Palavras-chave:Viso Estreo, Mapa de Profundidade, OpenCV.
ABSTRACT
A great advantage of the human vision system is the ability to percept distance,
providing a form to observe the three-dimensional world. Through vision, humans can carry
out daily tasks of their daily life and make decisions based on what they see.
To simulate the process of human perception, there is, in the Computer Science, the
Computer Vision (VC) area that extracts information from scenes based on the processing of
images acquired by cameras.
The VC area is very wide and one of its studys sectors is the Stereoscopic Vision
which aims to make a three-dimensional perception from processing images from two
cameras positioned appropriately.This area has made a huge advance in recent years and
many techniques and algorithms have been developed.
The purpose of this monograph is to conduct an assessment for the characteristics of
different implementations of techniques in libraries or Stereo Vision image processing
software available on the internet.
Through the application on the same test and hardware environment, it is possible to
evaluate the factors such as lighting and types of camera lenses, which may influence the
measurement of depth, allowing us to understand the necessary adjustments to assist t he
Stereo Visiontechniques choice that represent the lowest computational cost at an efficient
detection for real-time applications.
The presented algorithms have been developed inlanguage C ANSI with the OpenCV
library, as mostly used in VS systems.
The results at the end of the monograph are not satisfactory, even the technical
functioning, each presents a problem, as the very high rate of processing, image identification
result is not acceptable, impossible to carry out tests with larger-sized images.
Key-Words: Stereo Vision, Depth Map, OpenCV.
vi
SUMRIO
1.
INTRODUO................................................................................................................... 1
2.
VISO ESTREO .............................................................................................................. 5

2.1.
FUNDAMENTAO SOBRE A CAPTAO DA IMAGEM ................................ 6
2.2.
VISO TRIDIMENSIONAL ...................................................................................... 8
2.3.
CAPTAO ESTEREOSCOPICA........................................................................... 10
2.3.1. PARAMETROS INTRNSECOS.............................................................................. 10

2.3.2. PARAMETROS EXTRNSECOS............................................................................. 15
2.4.
RETIFICAO ......................................................................................................... 16
2.5.
RECONSTRUO 3D ............................................................................................. 17
2.6.
MAPA DE PROFUNDIDADE.................................................................................. 19
2.6.1. CALIBRAO ESTREO ....................................................................................... 20

2.6.2. RETIFICAO SEM CALIBRAO ..................................................................... 20
3.
4.
MATERIAIS E METODOLOGIA ................................................................................... 22

3.1.
OPENCV.................................................................................................................... 22
3.2.
GIMP.......................................................................................................................... 22
3.3.
CMERA UTILIZADA ............................................................................................ 22
3.4.
METODOLOGIA DE TESTES ................................................................................ 24
RESULTADOS ................................................................................................................. 26
4.1.
DEPTHMAP GIMP ................................................................................................... 26
4.2.
MAPA DE PROFUNDIDADE COM AUTOCALIBRAO ................................. 28
4.3.
RETIFICAO ESTREO....................................................................................... 30
5.
CONCLUSO FINAL ...................................................................................................... 32
6.
REFERNCIAS BIBLIOGRFICAS .............................................................................. 33
vii
LISTA DE FIGURAS
Figura 1: Exemplo de visualizao de objetos no olho humano. ............................................... 1
Figura 2: Mecanismos para captao de imagens com focos visuais coincidentes. ................... 5
Figura 3: Representao Geomtrica Esquemtica de um MCI. ................................................ 7
Figura 4: Representao de uma cmera virtual. ........................................................................ 7
Figura 5: Exemplo de informao de profundidade obtida pela variao de luminosidade. a)
imagem original b) imagem com textura gerada a partir de uma variao de luminosidade.
Fonte: Pinho (2013). ................................................................................................................... 9
Figura 6: Modelo de Cmera Pinhole. ...................................................................................... 11
Figura 7: Representao de Distoro de Lentes. ..................................................................... 12
Figura 8: a) Modelo chessboard utilizado como padro para calibrao de cmeras b) Imagem
adquirida atravs de cmera com distoro. ............................................................................. 14
Figura 9: Relao de sistemas de coordenadas do mundo real com as coordenadas da imagem.
.................................................................................................................................................. 15
Figura 10: Um Par Estreo Retificado. Fonte: Segundo (2007). .............................................. 16
Figura 11: Exemplo de um Mapa de profundidade. Fonte: Bradski (2008). ............................ 19
Figura 12: Webcam Logitech C210.......................................................................................... 23
Figura 13: disposio das cmeras a) cmeras prximas b) cmeras afastadas. ...................... 23
Figura 14: Aquisio de imagens com cmeras prximas. a) Imagem da cmera esquerda e b)
Imagem da cmera direita. Fonte: elaborao prpria. ............................................................. 24
Figura 15: Aquisio de imagens com cmeras distantes. a) Imagem da cmera esquerda e b)
Imagem da cmera direita. Fonte: elaborao prpria. ............................................................. 24
Figura 16: imagem da cmera a) direita b) esquerda e c) resultado do processamento feito
atravs do GIMP. ...................................................................................................................... 26
Figura 17: Resultado depthmap GIMP ..................................................................................... 27
Figura 18: Teste depthmap GIMP com diferentes parmetros. ................................................ 27
Figura 19: Resultado depthmap GIMP, com OpenCV ............................................................. 28
Figura 20: Imagens adquiridas pela cmera (a) direita e (b) esquerda. .................................... 29
Figura 21: Deteco do tabuleiro de xadrez na cmera (a) Direita e (b) Esquerda. ................. 29
Figura 22:Execuo do sistema, Mapa de Profundidade em tempo real .................................. 30
Figura 23: Resultado do mapa de Profundidade com retificao sem informaes da
calibrao. ................................................................................................................................. 31
viii
LISTA DE SIGLAS E ABREVIATURAS
Centro de Projeo
Distancia Focal
FEH
Fator de Escala Homogneo
MP
Mapa de Profundidade
MCI
Mecanismo de Captao de Imagem
OPENCV
Open Source Computer Vision
PDI
Processamento Digital de Imagem
PII
Parmetro de Inclinao da Imagem
Matriz de Rotao 3 por 3
VE
Viso Estreo
VC
Viso Computacional
Vetor de Translao 3D
1. INTRODUO
A percepo visual uma ferramenta muito importante para os seres vivos videntes,
pois possibilita um indivduo organizar e interpretar suas impresses sensoriais para atribuir
significado ao meio atravs do sentido da viso. Ela utilizada em tarefas cotidianas do ser
humanopara tomar decises, baseadas nas informaes obtidas pela captura do cenrio, como,
por exemplo, a travessia de uma rua ou escolher frutas em um mercado (SOUTO & LUCAS,
2009; COSTA, 2012).
Ao contrrio do que se pensa o olho no capaz de identificar e separar objetos de um
cenrio, o crebro tem a capacidade de dividir a informao por prioridade de ateno tarefa
sendo realizada, examinando o importante e suprimindo as outras informaesadvindas de
sensores musculares e os outros sentidos, que o ajudam a cruzar essas informaes e tomar
uma deciso (BRADISK, 2008).
A associao entre o olho e o crebro forma o sistema visual humano. Olhos apenas
captam os estmulos luminosos do mundo externo, similar a uma cmera. Atravs dos
elementos que compem a estrutura do olho, a luz focalizada em uma superfcie repleta de
receptores sensoriais (retina) que detectam a luz e converte em estmulos (sinas eltricos) que
so conduzidos ao crebro, gerando caractersticas iniciais de informaes como cor, forma,
tonalidade, entre outras (GONZALEZ, 2011; ALEXANDRE & TAVARES, 2007).
Como o sistema visual humano composto por dois olhos e devido ao seu
posicionamento, as imagens percebidas por ambos os olhos so ligeiramente diferentes,
conforme mostrado na Figura 1.
Figura 1: Exemplo de v isualizao de objetos no olho humano.

.
Na Figura 1 pode ser visto que existe um pequeno deslocamento lateral entre as
imagens adquiridas por ambos os olhos, quase imperceptvel se observado separadamente.
Contudo, esse deslocamento causado pela distncia entre os olhos que permite ao ser
humano ter uma observao tridimensional do mundo externo (BRADISK, 2008).
Devido importncia da percepo visual, o ramo da (VC) est em franca ascenso,
pois, tem como objetivo simular o processo de percepo humana atravs de sistemas que
capturam imagens atravs de cmeras, a processam e com isso, so capazes de identificar e
rastrear objetos de interesse (BOURCHARDT, 2006; DELAI & COELHO, 2010).
Uma subrea da VC, conhecida como Viso Estreo (VE), se dedica a desenvolver
tcnicas para percepo tridimensional de objetos atravs do processamento de imagens
obtidas a partir de duas cmeras posicionadas de forma adequada. Com base nas suas posies
e seus campos de viso, possvel determinar-se a posio de qualquer ponto neste espao,
desde que este ponto esteja presente em ambas asimagens capturadas (CORREA, 2004).
Existem diversos projetos, principalmente na rea da robtica, que utilizam a VE, com
a finalidade de simular a viso e percepo humana e detectar objetos,um exemplo disto o
trabalho de Kelber (2005) que tem como objetivo aplicar as tcnicas desenvolvidas para a VE
para o desenvolvimento de um veculo autmato, podendo detectar eventuais colises ou a
sada de pista(SEGUNDO, 2007; KELBER, 2005; CORRA, 2004).
Um exemplo similar o trabalho de Achtelik et al.(2009) que compara sensores e
cmeras estreo para utilizar na automao da navegao de um helicptero quadrotor,
fazendo-o navegar em ambientes internos estruturados e desconhecidos, mas seu objetivo
final a unio dessas tecnologias para um melhor desempenho do helicptero.
Outro exemplo o trabalho de Dias(2009), que utiliza uma cabea robtica para
simular o movimento da viso humana, juntamente com um mtodo conhecido como
Transformada Generalizada de Hough, desenvolvida originalmente por Hough(1959), que
utiliza uma imagem de referncia pr-determinada com a inteno de retirar informaes de
interesses a serem buscadas, tornando a deteco de objetos invarivel ao seu tamanho e
posio.
Seguindo esta linha de pensamento, no trabalho de Martins (2007) proposta a VE
como uma estratgia para resolver problemas na rea de realidade aumentada. Ela consiste no
alinhamento do mundo virtual com o mundo real atravs da calibrao de cmeras para
corrigir a distoro devido a lentes. Neste trabalho em questo mostrado que possvel
estabelecer uma correspondncia dos cantos do padro no mundo real com os da projeo na
imagem, podendo assim, realizar a estimao de distncia mesmo com cmeras com lentes
esfricas.
Existem tambm pesquisas para desenvolver e implementar novos algoritmos de VE, o
trabalho de Kelle (2012) prope um novo modelo de viso estreo densa, que procura realizar
uma estimao de distncia mais precisa analisando todos os pontos que compes as duas
imagens (KELLE, 2012).
Uma vertente tambm a rea de deteco de pessoas, no trabalho de Yahiaoui (2008)
ele apresenta um sistema para contagem de passageiros de nibus baseado em VE, em sua
pesquisa mostrou que possvel ter uma preciso de contagem de 99%, tendo seus testes
feitos com alguns vdeos em nibus.
Na mesma linha de pesquisa, na tese de Lefloch (2007) demonstrado que o a
deteco de profundidade utilizando cmeras com VE mais preciso que mtodos baseados
em feixe de laser, sensor de infravermelhos e sensor trmico. Contudo, uma desvantagem
deste tipo de abordagem o seu elevado custo computacional.O autor apresenta um sistema
com cmeras de baixo custo e pode detectar que mesmo assim os resultados so satisfatrios.
O trabalho de Oosterhout (2011) apresenta uma tcnica de deteco de pessoas atravs
do achado se suas cabeas com base em VEem trs ambientes distintos, podendo concluir que
mesmo em situaes de aglomerao o desempenho ainda era muito bom.
Pode-se perceber que ultimamente as empresas de cinema tambm utiliza ma VE para
produo de filmes 3D. As empresas utilizam uma tcnica quefilma a cena com uma lente e
utiliza um espelho para captar a mesma cena com o deslocamento necessrio para simular a
profundidade que o espectador percebe ao assistir um filme com esse formato (LANDIM,
2009).
Existem diversas implementaes de tcnicas de Viso Computacional (VC)
disponibilizadas em cdigos abertos ou bibliotecas comerciais. Por exemplo, a biblioteca
OpenCVproduzida pela Intel e implementa diversos algoritmos de VC incluindo tambm
algoritmos de VE. Esta biblioteca possui implementaes com elevada eficincia
computacional associada a eficaz processamento e, por causa disto, so bastante utilizadas em
diversos tipos de sistemas(DROPPELMANN, 2012).
O objetivo principal desta monografia realizar uma avaliaodas caractersticas dos
algoritmos de VE implementados em bibliotecas disponveis na internet para compreenso
dos ajustes necessrios para auxiliar o desenvolvimento de aplicaes que sejam capaz de
extrair informaes de profundidade das imagens adquidas. .
Essa monografia est dividida em seis captulos, este descreve brevementeos objetivos
e trabalhos com tcnicas de Viso Estreo (VE), no segundo captulo apresentada a
fundamentao necessria para compreender as tcnicas de VE que tornam possvel estimar
profundidade utilizando duas cmeras.
O terceiro captulo apresenta a metodologia utilizada para avaliao, bem como as
ferramentas utilizadas para o desenvolvimento do trabalho como, ambiente, tipos de cmera e
as formas de testes utilizadas, no quarto capitulo ser apresentado os resultados obtidos no
ltimo capitulo sero apresentadasas concluses do trabalho e perspectivas de trabalhos
futuros.
2. VISO ESTREO
Segundo Correa (2004), a VE um campo da Viso Computacional (VC) que se
dedica a desenvolver tcnicas para percepo tridimensional e segundo Azevedo e Conci
(2003) uma das formas de se obter essa percepo atravs da estreoscopia.
A estreoscopia consiste na viso de um mesmo foco por dois mecanismos de captura
de imagens (MCI), que combinados formam o chamado par estereoscpico. A captura da
imagem pode ser, posteriormente, reproduzida em softwares de modelagem virtual
(MALARD, 2008).
Em sua definio, a percepo estereoscpica a capacidade de ver uma imagem
tridimensional a partir de duas imagens separadas adquiridas no mesmo ambiente sob pontos
de vista diferentes com um foco em comum, conforme mostrado na Figura 2 (PEREIRA,
2013).
Figura 2: Mecanismos para captao de imagens com focos visuais coincidentes.
Apesar de cada cmera ter seu campo de viso, a partir da combinao das
informaes em comum de ambas as cmeras, conforme mostrado na regio cinza escura que
torna possvel a identificar a profundidade.
Segundo Pereira (2013), a estreoscopia torna possvel a percepo de profundidade
bem mais precisa que em cmeras monoculares. Contudo, Malard (2008) ressalta que somente
a juno do par estereoscpico no suficiente para a obteno de informaes relativas
distncia, posies e tamanhos de objetos.
Para que seja possvel obter estas informaes alguns fatores devem ser levados em
considerao, como a iluminao e sombras, ou que compreende m a forma e volume do
objeto, bem como a ocluso. Este conjunto de efeitos facilitam a identificao relativa dos
objetos e seu tamanho e otimizam o funcionamento dos algoritmos de VE e(MALARD,
2008).
Segundo Trucco e Verri (1998), a VE deve resolver dois problemas da VC, o primeiro
conhecido por correspondncia que consiste em determinar qual item no MCI esquerdo
corresponde ao mesmo item no MCI direito enquanto que o segundo problema o chamado
reconstruo, que seria o processo de reconstruo da imagem a partir do par estreo. O
primeiro possui dificuldades relacionadas com a existncia de algumas partes da cena em
apenas um dos MCIs, portanto a VE deve ser capaz de identificar as partes da imagem que
no so abrangidas pelo outro MCI.
Com base nas regies existentes em ambas as imagens, detectadas pelo primeiro
processo, computada a diferena da posio dos objetos em cada MCI, conhecida como
disparidade (TRUCCO & VERRI, 1998).
2.1. FUNDAMENTAO SOBRE A CAPTAO DA IMAGEM

Segundo Malard (2008), os MCI, tais como maquinas fotogrficas, cmeras
filmadoras e um dos olhos animal, possuem um campo de viso tipicamente representado por
uma pirmide retangular, pois realiza a projeo perspectiva.
Nesta, todos os raios de projeo convergem para um ponto co mum, chamado ponto
de observao ou centro da projeo e sua posio representada pelo vrtice cume da
pirmide, conhecido como ponto de vista (CONCI, 2002; MALARD, 2008).
O foco visual dos MCI equivalente ao centro geomtrico da base da pirmide, os
ngulos de abrangncia do campo visual desses mecanismos correspondem ao angulo
limitado pelo vrtice cume e pelas faces inclinadas do solido,desenhado em dourado na Figura
3 (MALARD, 2008; AZEVEDO e CONCI, 2003).
Azevedo e Conci (2003) ressaltam que o plano da imagem, onde a cena ser projetada
est posicionada no ponto focal e, na maioria dos casos perpendicular ao vetor de direo de
projeo, rea tracejada em azul na Figura 3.
A orientao desses mecanismos definida pela reta que liga o cume da pirmide ao
centro geomtrico de sua base e por uma reta normal ao plano que contem a reta suporte do
ponto de vista e do foco visual, conhecida como vector up(MALARD, 2008).
Figura 3: Representao Geo mtrica Esquemtica de u m M CI.
Uma forma de se compreender as informaes de posio e orientao da cmera e

que consolidam estes parmetros da cmera funo so mostradas na Figura 4.
Figura 4: Representao de uma cmera virtual.
Toda orientao da cmera feita a partir de sua posio definida atravs de

coordenadas (x, y, z). O vector up que est intimamente relacionado orientao do campo
visual observado pela cmera definido como o vetor z (zx ,zy ,zz).
O foco visual, representado pela letra D na Figura 4 o foco visual e geralmente est
localizado sobre o objeto de interesse em primeiro plano. Atravs desses parmetros definida
a orientao da cmera e est relacionada determinao do campo de viso da cmera
(AZEVEDO e CONCI, 2003).
Alm destes parmetros comum definir caractersticas de movimentao da cmera,
apresentadas como as letras A, B e C. Atravs destes pode-se modificar o campo de viso de
uma cmera sem mudar seu posicionamento (x, y, z).
A letra A define o movimento de inclinao, tambm conhecido como tilt, da cmera,
podendo rotacionar o vetor de direo (vector up) da cmera em relao ao eixo y,
similarmente a cabea do ser humano movendo de baixo para cima ou vice-versa.
J a letra B define o movimento panormico, conhecido como pan, podendo rotacionar
o vetor de direo em relao ao eixo z, similar ao movimento da cabea do ser humano ao
movimentar a cabea da esquerda para a direita. A letra C define a movimentao de
aproximao e distanciamento da cmera em relao ao foco visual.
2.2. VISO TRIDIMENSIONAL

Existem trs categorias de estmulos visuais que o crebro utiliza para a formao de
uma imagem tridimensional, conhecidas como viso monocular, informao culo-motora e
estreoscopia, est sendo utilizada em sistemas relacionados VE (AZEVEDO e CONCI,
2003; PINHO, 2013).
Segundo Azevedo e Conci (2003), atravs da viso monocular pode-se obter a
informaes inerentes imagem, que so chamados de static depth cues (informaes
estticas de profundidade) ou pictorial depth cues (informaes de profundidade na imagem)
e entre as informaes temos a perspectiva linear, responsvel pela aparente diminuio dos
tamanhos e das distncias entre objetos medida que o observador se distancia deles.
So exemplos deste tipo de informao o conhecimento prvio do objeto, a ocluso, a
densidade de texturas dentre outras. Por exemplo, ao se conhecerpreviamenteo objeto, sabese o tamanho do objeto e ento consegue-se determinar a distncia absoluta do objeto ao
observador e a relativa entre objetos (AZEVEDO e CONCI, 2003).
J a ocluso refere-se a obstruo da viso de um objeto por outro objeto e a
conhecendo a densidade de texturas pode-se perceber quais partes do objeto esto mais
distantes do observador. Por fim, a variao da reflexo da luz outra forma de informaes
inerentes conforme mostrado na Figura X.
Figura 5: Exemplo de informao de profundidade obtida pela variao de lu minosidade. a) imagem

original b) imagem co m textura gerada a part ir de u ma variao de lu minosidade. Fonte: Pinho (2013).
Observando as figuras, pode-se perceber a profundidade devido intensidade de luz

refletida na superfcie do objeto, possvel obter informaes sobre a forma e curvaturas de
sua superfcie (AZEVEDO e CONCI, 2003).
Alm disto, a partir das sombras dos objetos, pode-se determinar a posio de um
objeto a partir de um piso colocado abaixo dele, alm de uma distncia relativa entre objetos
devido s noes de perspectivas (AZEVEDO e CONCI, 2003).
Segundo Pinho (2013), Azevedo e Conci (2003), as informaes monoculares so
obtidas atravs da movimentao dos olhos a partir de dois conjuntos de msculos presos ao
globo ocular, o primeiro move o globo ocular e o segundo muda a curvatura da lente que fica
atrs da ris, existindo dois tipos de informaes, a acomodao usado os msculos que
alteram o foco com a mudana no formato das lentes dos olhos e a vergncia utiliza os
msculos que produzem as rotaes dos olhos para mudar o campo de viso.
As informaes estereoscpicas esto diretamente relacionadas com a diferena entre
as imagens captadas por cada MCI e chamada de diferena binocular para determinar a
distncia relativa dos objetos, e a distncia entre dois pontos projetadas em um anteparo, visto
especificamente por um MCI e ambos os pontos correspondentes no mesmo espao
conhecido como paralaxeressaltando que os objetos devem estar at dez metros do observador
(AZEVEDO e CONCI, 2003).
Mesmo com os vrios dispositivos existentes que se utilizam da capacidade animal de
perceber profundidade com pares de imagens em estreo, pode-se perceber altura e largura,
ainda no est claro o quanto dessa percepo depende das disparidades geomtricas ou o
quanto est ligado familiaridade de objetos pelo animal (AZEVEDO e CONCI, 2003;
COUTINHO, 2007).
10
Alm disto, possvel ter uma percepo de aproximao e distanciamento devido sua
relao direta com o tamanho visto pela cmera. Ao aproximar um objeto, seu tamanho
aumenta, j quando ele diminui, o tamanho percebido diminui. Fazendo este tipo de anlise, a
percepo de distncia pode ser feita monoscopicamente, de mane ira aproximada (PEREIRA,
2013).
2.3. CAPTAO ESTEREOSCOPICA

Segundo Pereira (2013), algumas precaues devem ser tomadas para que se obtenha
um par estereoscpico, como:
a rea de sobreposio mnima de cinquenta por cento entre as imagens,
os eixos das cmeras que formaro o par estereoscpico devem estar

aproximadamente coplanares,
a distncia entre as estaes de exposio das cmeras no deve ser muito grande
em relao distncia objeto/cmera e;
as fotografias devem ter aproximadamente a mesma escala, com uma variao no

mximo de cinco por cento entre elas.
Levando em considerao estas precaues, existem as condies ideais para obteno
de imagens a partir de um par estereoscpico para a partir dele obter-se a determinao de um

mapa de profundidade que mapeia em cores a distncia entre os objetose a cmera.
A partir disto, segundo Santos (2012), devem-se conhecer dois parmetros das
cmeras, os intrnsecos, relacionados a caractersticas internas da cmera, como a distncia
focal (f) e distoro das lentes, e os extrnsecos, relacionados com a orientao e a translao
das cmeras para poder determinar o par-estereoscpico. Estas informaes so discutidas nas
subsees a seguir.
2.3.1. PARAMETROS INTRNSECOS

Os parmetros intrnsecos esto relacionados ao mapeamento dos pontos na imagem e
sua representao em pontos no espao tridimensional.Estes parmetros so especficos para
cada cmera e so necessrios para caracterizar as propriedades pticas, geomtricas e de
visualizao da cmera (TRUCCO e VERRI, 1998).
Segundo Rudek (2006), um modelo matemtico capaz de explicar os parmetros
intrnsecos o de uma cmera de orifcio (pinhole)apresentadona Figura 6.
11
Figura 6: Modelo de Cmera Pinhole.
Este tipo de cmera no possui uma lente, portanto, a imagem dos objetos gerada
somente a partir convergncia da luz refletida sobre o centro de projeo (O), localizado na
origem do sistema de coordenadas para fins de simplificao da notao, conforme mostrado
na Figura 6.
Segundo Santos (2012), devido inexistncia de lente e por consequente inexistncia
de distoro na formao da imagem, a determinao dos parmetros intrnsecos
simplificada, pois o nico fenmeno que deve ser avaliado a projeo de perspectiva. Este
tipo de projeo possui apenas um parmetro que consiste no comprimento focal (TRUCCO e
VERRI, 1998).
O plano de projeo, tambm conhecido como plano da imagem ou plano focal,
posicionado a frente do centro de projeof (Z = f), onde f a distncia focal. A linha que
passa por O e perpendicular ao plano da imagem chamada de eixo principalou eixo ptico
e o ponto onde o eixo principal encontra o plano da imagem chamado de ponto principal
(SANTOS. 2012).
Ao utilizar esse modelo de cmera e assumir que o centro de projeo est na origem
do sistema de coordenadas no plano tridimensional e o eixo ptico colinear ao eixo Z,
apresentado na equao 1,com isto, tem-se que a projeo de um ponto um ponto no espao
com coordenadas (X, Y, Z)T mapeado para um ponto no plano da imagem (u,v)T e pode ser
obtido atravs de semelhanas de tringulos e que resumidamente apresentado atravs de
(SANTOS, 2012, RUDEK, 2006, TRUCCO e VERRI, 1998):
12
= ,
(1)
Levando-se em conta a projeo perspectiva, transformao das coordenadas na

imagem , , com o mesmo ponto na cmera, tem-se que (RUDEK 2006; TRUCCO
e VERRI, 1998) :
= ,
(2)
= ,
(3)
em que (Sx, Sy) representam o tamanho do pixel em milmetros.

Substituindo-se as equaes 2 e 3 na equao 1, tem-se que:
= = ,
= = .
Desta forma, o ponto na imagem ,
(4)
(5)
est relacionado s coordenadas do
ponto no espao atravs de :
= ,
(6)
= .
(7)
Segundo Trucco e Verri (1998), em vrios casos, a lente introduz na imagem uma
distoro que pode ser percebida na periferia da imagem, apresentado na Figura 6.
Figura 7: Representao de Distoro de Lentes.
Uma forma para modelar essas distores usando um modelo radial simples. Se
(Xd,,Yd ), representa as coordenadas com distoro radial, tem-se que a correo da posio
definida atravs das equaes:
= 1 + 1 2 + 2 4 ,
(8)
13
= 1 + 1 2 + 2 4 ,
2
em que, r = Xd +
Yd2 ,
(9)
e k1 e k 2 so parmetros intrnsecos de distoro radial. Atravs
destas equaes, pode-se perceber que a distoro causa um deslocamento de radial dos
pontos da imagem. Estes deslocamentos so nulos nulo no centro da imagem (x d = 0 ou yd
= 0) e vai aumentando conforme a coordenada vai distanciando do centro.
Normalmente, os parmetros k 1 e k 2 so muito pequenos e comumente ignorados, se
uma preciso alta no necessria em toda a imagem ou quando os pixels da periferia so
descartados.Neste caso, k 2 definido como zero e k 1 o nico parmetro a ser estimado no
modelo de distoro radial, sek 2 muito maior que k 1 , a magnitude da distoro geomtrica
depende da qualidade da lente a ser utilizada, como regra geral a mdia de qualidade e
tamanho quinhentos de altura por quinhentos de largura (500 x 500) (TRUCCO e VERRI,
1998).
Segundo Santos (2012), um modelo matricial facilita a representao computacional,
supondo que os pontos em um espao tridimensional e os pontos no plano de uma imagem
so representados por coordenadas equivalentes (Homogneo).
Assumindo assim asequaes necessrias para determinar os parmetros intrnsecos
apresentados na equao 1 podem ser reescrita de forma matricial, levando em considerao
que o fator de escala homogneo (FEH) dado pelo Mapeamento da Cmera Pinhole = Z,
dado por:
= 0
1
0
0
0
0
0
0
1
(10)
Considerando essas equaes, assume-se que a origem das coordenadas no plano da

imagem ponto principal, mas a maioria dos sistemas de imagens considera a origem como
sendo o ponto mais a esquerda e mais acima, necessitando um mapeamento quando
necessrio para a converso do sistema de coordenadas no plano da imagem, dado por
(SANTOS, 2012):
0 0
= 0 0 ,
1
0 0 0 1 1
(11)
em que (Px,,Py)T so as coordenadas do ponto principal.

Santos (2012) afirma que a equao mostrada acima funciona se os pixels da imagem
tiverem o formato quadrado (1 : 1),chamado de razo de aspecto, mas para cmeras que
adotam o modelo CCD, existe a possibilidade de que seus pixels no sejam quadrados, ento
14
se as coordenadas da imagem so medidas em pixels e o nmero do pixel medido em

unidade de distncia nas coordenadas da imagem representados por (Sx, Sy ) (na direo do
Eixo X e Y respectivamente), tem-se a representao matricial:
0 0
= 0 0 .
1
0 0 0 1
1
(12)
Outro fator importante, que na maioria das cmeras, o parmetro da inclinao da

imagem nulo,levando isto em considerao o Parmetro de Inclinao da Imagem (PII), a
equao12 pode ser reescrita atravs da equao 13:

= 0

1
0 0
0
0
0
1
= | ,
3
(13)
em que o O 3 um vetor nulo, Q = (X, Y, Z, 1)T um ponto no espao tridimensional e K

representa os parmetros intrnsecos da cmera ou Matriz de Calibrao da Cmera (MCC)
(SANTOS, 2012)
Desta forma, quando a razo de aspecto um para um (Sx =1 e Sy =1), Sx e Sy so
igual a um, se a imagem no for inclinada PII igual a zero.
Santos (2012) complementa a afirmao de Trucco e Verri (1998) sobre a distoro
das lentes, afirmando que os parmetros da distoro radial podem ser estimulado pelo
clculo da curvatura de um linha na imagem bidimensional, que uma linha reta no plano
tridimensional, utilizando um padro de calibrao mostrado na Figura 8a.
(a)
(b)
Figura 8: a) Modelo chessboard utilizado co mo padro para calibrao de cmeras b) Imagem adquirida
atravs de cmera co m d istoro.
As linhas destacadas em vermelho e verde, apresentado na Figura 8b, no mundo real

so linhas retas, mas na imagem capturada essas mesmas linhas possuem uma pequena
distoro (SANTOS, 2012).
15
2.3.2. PARAMETROS EXTRNSECOS

Segundo Santos (2012), estes parmetros esto relacionados com as coordenadas da
cmera e as coordenadas do mundo real, descrevendo a orientao e posio da cmera no
mundo tridimensional.
Rudek (2006) e Trucco e Verri (1998) ressaltam que as coordenadas de referncia da
cmera so constantemente desconhecidos e um problema muito comum determinar a
localizao e a orientao das coordenadas da cmera com alguma coordenada de referncia
conhecida, apenas com as informaes da imagem e que a transformao entre as
coordenadas deve ser feita usando um Vetor de Translao 3D(T), que descreve as posies
relativas das origens dos dois frames de referncia, e uma Matriz de Rotao 3 por 3(R), que
retorna os eixos correspondentes dos dois frames, onde a representao das coordenadas de
um determinado ponto P da cmera (Pc) dado pela multiplicao de R pelas coordenadas de
um ponto P no mundo real (Pw), somado a T, representados na Figura 9.
Figura 9: Relao de sistemas de coordenadas do mundo real co m as da imagem.
Santos (2012) apresenta um modelo matricial em que a posio e orientao da cmera

no sistema de coordenadas, mundo real, pode ser mostrado na equao :
= | 3
= | ,
(14)
em que,K representa os parmetros intrnsecos, abordado na seo 2.3.2.R a matriz de

rotao, eC consiste no centro de projeo da cmera no mundo em coordenadas no
16
homognease representam os parmetros extrnsecos da cmera.I uma matriz identidade, de

tamanho trs por trs (3x3),q e Q representam o mesmo ponto da cmera e do mundo
tridimensional, respectivamente.
A equao P = KR[I]-C representa o mapeamento completo de uma cmera pinhole,
incluindo os parmetros intrnseco eextrnsecos.A matriz P, de tamanho trs por quatro (3x4),
chamada de Matriz de projeo da Cmera, onde o ponto Q no mundo tridimensional
mapeado no ponto q no plano da imagem bidimensional, calculado a partir da transformao
linear q = PQ (SANTOS, 2012).
2.4. RETIFICAO
A retificao simplifica os clculos associados a algoritmos de VE, a imagem obtida
substituda por uma figura equivalente projetada em um plano de imagem comum, paralelo
base de juno dos dois centros ticos, conforme apresentado na Figura 10 (SOUSA
SEGUNDO, 2007).
Figura 10: Um Par Estreo Ret ificado.Fonte: Segundo (2007).

.
Neste modelo, a linha que liga os dois centros de Projeo das duas cmeras
denominada linha de base, ou baseline. A interseo da baseline com o plano de imagem
conhecida como epipole, sendo a imagem do centro de projeo de uma das cmeras feita
pela outra cmera (FARIAS, 2006).
17
Este mesmo processo pode ser implementado pela projeo da imagem original em um
novo plano de imagem, considerando os dois planos da imagem e so projetos sobre um
plano comum = , a imagem retificada facilmente construda, considerando que a
imagem de entrada seja um poliedro e usando mapeamento de texturas para renderizar a
projeo dessa rede em um plano = (SOUSA SEGUNDO, 2007).
Existem duas possibilidades relacionadas com a escolha de um plano de imagem
retificado. A primeira consiste na distncia entre esse plano e a linha de base, o que
irrelevante, desde que se modifique somente a escala da imagem. A segunda consiste em um
balano efetivo pela escala invertida dos eixos de coordenadas da imagem e a direo do
plano retificado normal no plano perpendicular base, determinado a partir daescolha de um
plano paralelo linha onde as duas retinas originais intersectam-se, o que minimiza a
distoro associada com o processo de projeo (SOUSA SEGUNDO, 2007).
Trucco e Verri (1998) sugere um algoritmo para tratar a retificao, que possui quatro
etapas; girar a cmera da esquerda, de modo que sua epipole v em direo ao infinito, no
eixo horizontal; aplicar a mesma rotao na cmera da direita, de modo a recuperar a
geometria original; girar a cmera da direita em R(Matriz 3x3); ajustar escala de ambas as
cmeras para o frame desejado.
2.5. RECONSTRUO 3D
A reconstruo 3D consiste em obter as informaes tridimensionais dos objetos
observados em planos de imagens bidimensionais. Por exemplo, o principal problema para se
reconstruir um solido conhecer sua forma geomtrica.A partir de sua projeo no plano da
imagem formada por duas cmeras, pode-se descobrir a interseo no espao de duas retas e
assim, saber o resultado da transformao dos pontos, projetados nas cmeras, tornando
possvel convert-los em pontos do espao tridimensional. (RUDEK, 2006).
A reconstruo 3D pode ser obtida a partir do que se conhece sobre os parmetros
disponveis no sistema, em trs situaes (TRUCCO & VERRI, 1998):
quando os parmetros intrnsecos e extrnsecos encontram-se disponveis, o

problema de reconstruo pode ser resolvido usando triangulao;
quando apenas os parmetros intrnsecos so conhecidos, pode-se resolver o

problemaavaliando os parmetros extrnsecos atravs de um fator de escala;
18
quando nenhum dos parmetros (intrnsecos e extrnsecos) so conhecidos e a

nica informao disponvel a correspondncia de pixel, pode se obter a
reconstruo do ambiente, usando a transformao projetiva.
Nas sees a seguir so tratados os principais tipos de reconstruo.
2.5.1. RECONSTRUO POR TRIANGULAO

Esse o caso mais simples, no qual se tem conhecimento dos parmetros intr nsecos e
extrnsecos. Sendo possvel a localizao tridimensional dos seus pontos de projeo, uma vez
que os parmetros e localizao de imagem so conhecidos apenas, os dois raios no vo
realmente se cruzar no espao, sua interseo s pode ser estimado como o ponto de distncia
mnimo de ambos os raios (TRUCCO & VERRI, 1998).
Segundo Bradski (2008),duas cmeras cujos planos de imagens so coplanares entre
elas, e paralelos com os eixos ticos, que esto a uma distncia conhecida e distancias focais
iguais, supondo tambm que o ponto principal da cmera da direita e da esquerda estejam
calibradas para ter as coordenadas do mesmo pixel na imagem projetada pela cmera da
direita e da esquerda.
2.5.2. RECONSTRUO USANDO FATOR DE ESCALA

Segundo Trucco e Verri (1998), esse o caso em que se consideram apenas os
parmetros intrnsecos de ambas as cmeras para estimar os parmetros extrnsecos e a
estrutura da cena tridimensional, uma vez que o mtodo faz uso da matriz essencial, deve-se
assumir que pelo menos oito pontos de correspondncia foram confirmados, supondo que so
dadas somente os parmetros intrnsecos e uma quantidade de pontos de correspondncia,
maior que oito, pode-se encontrar a localizao dos pontos tridimensionais nas projees de
ambas as cmeras.
Segundo Lourakis eZabulis(2013), o fator de escala a proporo relacionada com o
deslocamento das duas cmeras, sugerindo que o objeto deve estar posicionado de modo que
fique alinhado com os quadrados de um tabuleiro de xadrez, conhecido comochessboard, a
vantagem que no precisa de nenhuma configurao especial nas cmeras, mas existem dois
problemas, o cuidado com o posicionamento do objeto no quadrado do chessboard, portanto
suscetvel ao erro humano e a imagem trabalhada de forma separada, no aproveitando todo
o potencial de combina- las, que aumentaria a preciso geral.
19
2.5.3. RECONSTRUO USANDO TRANSFORMAO PROJETIVA

Segundo Trucco e Verri (1998), possvel obter uma reconstruo tridimensional
mesmo que no se tenha a informao dos parmetros intrnsecos e extrnsecos, mas a
reconstruo ser nica e desconhecida at a aplicao de uma Transformao Projetiva.
Mapeando cinco pontos arbitrrios da cena na base de projetiva padro e usando as
epipoles, a matriz de projeo de cada cmera pode ser recuperada para uma Transformao
Projetiva, (que est associado base normal, j que no se sabe a localizao dos cinco
pontos 3D em coordenadas de cmera), ento uma vez que as matrizes de projeo so
determinadas, a localizao do ponto 3D obtida por triangulao no espao de projetiva.
2.6. MAPA DE PROFUNDIDADE

Segundo Santos (2012), um mapa de profundidade, tambm conhecido como Imagem
de Profundidade, estima valores de profundidade de cada ponto, e os armazena, de uma
imagem bidimensional e uma estrutura tridimensional.
Segundo Bradski (2008), a deteco de um mapa de profundidade consiste em
processar duas imagens de ngulos diferentes do mesmo objeto e assim, baseado na distncia
das cmeras, criar uma imagem onde cada objeto da cena tenha uma cor da escala de cinza
diferente, essa cor apresenta uma relao com a distncia do objeto das cmeras, conforme,
apresentado na Figura 11.
Figura 11: Exemp lo de u m Mapa de profundidade.

Fonte: Bradski (2008).
20
A lgica do mapa de profundidade , geralmente, que os objetos mais prximos

assumam uma tonalidade mais prxima da cor branca enquanto os mais distantes assumam
uma cor mais prxima da cinza escura ou preta.
Existem duas formas de se conseguir um mapa de profundidade, atravs da calibrao
estreo, onde se calibra as cmeras para se obter a re lao entre o plano bidimensional e o
tridimensional, e a retificao sem a calibrao, no necessitando calibrar as cmeras para
obter essa relao (BRADISK, 2008).
2.6.1. CALIBRAOESTREO
Segundo Badski (2008), a calibrao estreo um processo de clculo da relao
geomtrica entre as duas cmeras no espao, esse clculo depende de encontrar a matriz de
rotao e o vetor de translao de ambas as cmeras. Existem muitas configuraes que
podem ser feitas para a calibragem, o mais comum e simples descobrir os raios principais
que se cruzam no infinito.
Segundo Madalena (2011), com a posio e direcionamento das cmeras conhecidos,
possvel determinar a posio de qualquer ponto nesse espao, desde que esse ponto esteja
localizado em ambas as imagens capturadas pelas cmeras, sugerindo que a triangulao pode
calcular esses pontos.
Segundo Badski (2008) e Madalena(2011), os parmetros de calibrao, matriz de
rotao e vetor de translao, podem ser encontrados ao utilizar um chessboard, e ento
aplicar a cada cmera, Santos (2012) apresenta um modelo matemtico, que pode ser visto no
captulo 2 deste trabalho, para demonstrar o funcionamento e importncia do chessboard para
a calibrao.
2.6.2. RETIFICAO SEM CALIBRAO

A retificao sem calibrao significa que o processo de correo das distores das
lentes e o pareamento dos pontos comuns das cmeras so feitos sem o conhecimento de
coordenadas fsicas. Hartley (1999) apresenta um algoritmo que ignora esses parmetros, pois
ele procura homografia que mapeiam as epipoles at o infinito, diminuindo as disparidades
encontradas entre as imagens estreo, utilizando apenas os pontos entre os pares de imagens
correspondentes.
Segundo Bradski (2008), a vantagem dessa tcnica que se pode calibrar a cena
simplesmente observando-a, sua desvantagem que no se tem senso de escala da imagem, se
usasse o chessboardpara obter pontos de correspondncias, no haveria como saber a unidade
21
de medida dos lados, centmetros ou metros, tambm no poderia se guardar os parmetros

intrnsecos obtidos sem que houvesse comprimentos focais diferentes, pixels distorc idos,
diferentes centros de projees ou pontos principais, assim s podendo realizar a reconstruo
3D at a transformao projetiva.
22
3. MATERIAIS E METODOLOGIA
Neste captulo so apresentados os recursos utilizados para a realizao da avaliao
de implementaes tcnicas de Viso Estreo,desde as descries das ferramentas e
aplicaes, cmeras utilizadas, ambiente de testes e metodologia utilizada para realizao dos
testes.
3.1. OPENCV
Segundo Marengoni (2009), a OpenCV (Open Source Computer Vision) uma
biblioteca de programao, com cdigo aberto, desenvolvida originalmente pela Intel, capaz
de implementar praticamente todas as operaes relacionadas a cinco grupos de funes:
Processamento de Imagens, Analise Estrutural, Analise de Movimente e Rastreamento de
Objetos, Reconhecimento de Padres e Calibrao de Cmera e Reconstruo 3D, est
disponvel na internet juntamente com seu manual de referncia.
Bradski (2008) apresenta em seu livro, Learning OpenCV, a utilidade dessa biblioteca
para a rea de PDI, incluindo alguns exemplos de cdigo, em Linguagem C-ANSI, para
facilitar o entendimento.
3.2. GIMP
O GIMP uma ferramenta de cdigo aberto, que possui caractersticas de
manipulao grfica, desenvolvido para plataforma Linux e mais recentemente para
plataforma Windows (GIMP, 2013).
Segundo Elsamuko (2013), utilizando duas imagens de um mesmo ambiente, seguindo
o modelo de imagem estreo apresentado por Malard (2008), o algoritmo utiliza a primeira
cmera na captura de um pixel e os arredores da imagemprocurando correspondncias na
imagem da segunda cmera, sugerido que no se utilize valores grandes, nos tamanhos dos
frames, pois esse algoritmo no consegue interpretar todo o contedo da imagem demorando
muito para processar e o mapa de profundidade de retorno ter algumas falhas em algumas
reas,.
3.3. CMERA UTILIZADA

Para no haver problemas de incoerncia nas imagens, faz-se necessrio que as
cmeras utilizadas sejam do mesmo modelo e estejam com o mesmo grau de proximidade em
relao imagem (zoom).
23
Durante a realizao dos testes foi utilizada aWEBCAM Logitech C210, apresentada na
Figura 12, com as seguintes especificaes: Resoluo de 1.3 megapixels, Resoluo mximo
de Imagem 640x480 pixels, Conexo USB, Clique para Notebook, Led de Iluminao,
Microfone Integrado de dimenses 2,8 cm de altura, 1,5 cm de comprimento e
6,8cmprofundidade (LOGITECH, 2013).
Figura 12: Webcam Logitech C210.

Fonte: Buscap (2013).
A aquisio de imagens foi realizada utilizando dois tipos de posicionamento das

cmeras.No primeiro, as cmeras esto posicionadas com a menor distncia entre eixos
pticos, conforme mostrado na Figura 13a, ou seja, as cmeras esto prximas e seus eixos
pticos encontram-se alinhados paralelamente.
(a)
(b)
Figura 13: disposio das cmeras a) cmeras pr ximas b) cmeras afastadas.

Fonte: Elaborao prpria.
Na segunda, as cmeras so afastadas em 10 cm conforme mostrado na Figura 13b.

Em ambos os casos, as cmeras estavam paralelas e no mesmo ngulo de viso, como sugere
Bradski (2008).
Um exemplo de imagens adquiridas atravs desta metodologia de aquisio
apresentado na Figura 14, em que so mostradas as imagens de duas cmeras prximas e na
Figura 15 para cmeras distantes.
24
(a)
(b)
Figura 14: Aquisio de imagens com cmeras prximas. a) Imagem da cmera esquerda e b) Imagem da cmera
direita.Fonte: elaborao prpria.
Figura 15:Aquisio de imagens com cmeras distantes. a) Imagem da cmera esquerda e b) Imagem da cmera
direita.Fonte: elaborao prpria.
Todos os testes foram feitos no mesmo ambiente, para evitar alteraes nas condies
de aquisio.
3.4. METODOLOGIA DE TESTES

Foram avaliadas as implementaes de tcnicas de Viso Estreo presentes no GIMP e
no OPENCV utilizando trs estratgias:
1. Estimao de profundidade diretamente a partir das imagens de duas cmeras,
utilizando o GIMP;
2. Estimao da profundidade usando informaes da geometria das cmeras, utilizando
a Autocalibrao de cmeras;
3. Estimao da profundidade a partir de uma imagem melhorada, utilizando a
retificao.
Na primeira estratgia, avaliada a estimao do mapa de profundidade sem a
utilizao de algoritmos de pr-processamento ou realce de imagens. Para realizao deste
teste, foi utilizado oplugindepthmap do GIMP, dividido em dois testes, utilizando apenas o
plugin e conjunto com a biblioteca OpenCV.
Na segunda estratgia utilizada a metodologia proposta por Bradski (2008), em que
primeiro analisado o alinhamento das cmeras atravs da visualizao das imagens
25
adquiridas cmeras, caso no estejam bem alinhados, posiciona-se as cmeras de modo que
fiquem alinhadas.
Aps essa verificao aplica-se uma funo da biblioteca OpenCV, capaz de verificar
os pontos de correspondncia entre as imagens geradas utilizando uma imagem dochessboard,
apresentada na Figura 8a, esta imagem foi impressa em uma folha de papel A4, em que cada
quadrado do tabuleiro possui uma reade 35 milmetros.
A partir destas informaes, realizado o processo determinao dos parmetros da
cmera, que pode ser utilizada para corrigir a distoro das lentes, para, ento, poder realizar a
calibrao das cmeras.
Aps a realizao da 1 calibrao criado um arquivo que armazena os valores da
matriz de calibrao. Nas prximas execues do sistema, este arquivo utilizado para evitar
a realizao de calibrao novamente, pois, estes parmetros sero sempre os mesmos a no
ser que exista uma modificao da posio relativa entre cmeras. Com base neste conjunto
de informaes so realizados os processamentos devidos para estimar o mapa de
profundidade.
Por fim, na terceira estratgia realizado um processo conhecido como retificao em
conjunto aos demais processos da estratgia anterior, este processo melhora a qualidade da
imagem antes de ser trabalhada para propiciar um melhor resultado do processamento.
Pode-se ser feita aps a calibrao das cmeras, utilizando as informaes da matriz de
calibrao para remover a distoro ptica de cada uma das cmeras eobter um mapa de
profundidade mais preciso e a sem a necessidade dessa calibrao, caso exista alguma
alterao nas posies das cmeras.
Com base nas metodologias apresentadas foram realizados testes e seus resultados
sero apresentados no captulo a seguir.
26
4. RESULTADOS
Neste captulo so apresentados os resultados dos testes realizados segundo a
metodologia descrita no captulo anterior.
4.1. DEPTHMAP GIMP

Para avaliar o funcionamento do plugin depthmap, inicialmente foram utilizadas duas
imagens fornecidas no site do desenvolvedor, mostrada na Figura 16.
(a)
(b)
(c)
Figura 16: imagem da cmera a) d ireita b) esquerda e c) resultado do processamento feito atravs do GIMP.
Observando-se as figuras percebe-se que nesta imagem, o plugin capaz de estimar

com eficincia o mapa de profundidade, pois as regies mais prximas da imagem como o
balde apresentada em cor cinza clara.J a rvore apresentada na cor cinza escuro e tambm
se percebe um degrade das tonalidades de cinza do piso desde a regio mais prxima da
cmera, escurecendo os tons de cinza a medida que a distncia aumenta.
Utilizando a mesma configurao do plugin, foi realizado um teste com as imagens
adquiridas com a webcam, utilizada em duas formas de alinhamento, com cmeras prximas e
distantes, respectivamente mostradas nas Figuras Figura 14 e Figura 15 e 14. O resultado do
processamento do plugin para ambos os posicionamentos mostrado naFigura 17.
27
(a)
(b)
Figura 17: Resultadodepthmap GIMP
Nos testes realizados com o conjunto de parmetros padro, o mapa de profundidade

foi obtido com muito rudo e praticamente nenhuma nitidez da cena, impossibilitando a
interpretao da imagem posteriormente.
Foi possvel observar que o funcionamento da implementao est relacionado com o
brilho da imagem. As imagens adquiridas em cmeras afastadas possuam um brilho maior e
tambm as corespresentes no mapa de profundidade resultante estava mais clara, apresentado
na Figura 17 b.
Objetivando uma melhoria na estimao do mapa de profundidade, foram modificados
diversos parmetros do plugin. Na Figura 18 so mostrados os mapas de profundidade
calculados a partir de imagens adquiridas em cmeras afastadas utilizando diferentes
parmetros do plugin.
(a)
(b)
(d)
(c)
(e)
Figura 18: Teste depthmap GIMP co m diferentes parmetros.
28
Os resultados mostram que para apesar de utilizar diferentes parmetros, no houve

melhoria na estimao do mapa de profundidade, pois, as imagens possuem rudos e no
possvel observar qualquer relacionamento entre a distncia e os pixels nas imagens
processadas.
Elsamuko (2008) sugere que os testes sejam realizados utilizando implementao do
mtodo de depthmap implementado atravs da biblioteca do OpenCV, por esta possui um
melhor desempenho que o plugin perl do GIMP. Na Figura 19 apresentado o resultado do
processamento do mtodo de depthmap, implementado usando o OpenCV.
Figura 19: Resultado depthmap GIM P, co m OpenCV
Como sugerido por Elsamuko (2008), o desempenho do depthmap foi melhor que o da
implementao feita no GIMP, fornecendo uma noo de distncia superficial, mas a
qualidade do resultado ainda no era satisfatrio para a interpretao da imagem
posteriormente.
4.2. MAPA DE PROFUNDIDADE COM AUTOCALIBRAO

Esse teste foi feito em dois momentos, pois essa tcnica possui alguns passos que
necessitam de ateno, primeiro se tenta calibrar a cmera atravs do chessboard, apresentado
na seo 4.4, depois de calibrada poder ser exibido o Mapa de Profundidade.
Foi desenvolvido um sistema para captar as imagens das cmeras, apresentado na
Figura 20, que inicialmente localiza e reconhece o tabuleiro de xadrez impresso em uma folha
A4, apresentado na Figura 21.
Com base nos tabuleiros localizados em ambas as cmeras, os parmetros de
correspondncias so determinados e, ento, estes so salvos para calibrar as projees de
imagem das cmeras.
Durante os testes foi observado que ao tentar localizar o chessboard, o sistema em
vrios momentos no o detectava corretamente, fazendo uma calibrao errada, sendo
necessria uma nova calibrao e atualizao dos parmetros salvos.
29
(a)
(b)
Figura 20: Imagens adquiridas pela cmera (a) direita e (b) esquerda.
(a)
(b)
Figura 21: Deteco do tabuleiro de xad rez na cmera (a) Direita e (b) Esquerda.
Aps a concluso desse primeiro momento, de localizao do chessboard e

armazenamento dos pontos de correspondncia, o sistema est pronto para exibir o mapa de
profundidade (depthmap).Mas, seu resultado tambm no foi muito preciso, apresentando
muitos rudos na imagem, impossibilitando a identificao dos objetos, aFigura 22 apresenta a
execuo em tempo real do Mapa de Profundidade.
O tempo necessrio para o processamento foi de aproximadamente 1 segundo por
frame, indicando um elevado custo computacional, podendo ser utilizado em aplicaes onde
h movimentos suaves.
30
Figura 22:Execuo do sistema, Mapa de Profundidade em tempo real
4.3.
RETIFICAO ESTREO
Apesar do OpenCV possuir duas implementaes da tcnica de retificao, durante os
testes desta monografia foi realizado apenas os testes com a implementao que no utiliza a
calibrao.
O resultado da estimao do mapa de profundidade (obtido a partir das imagens
retificadas) mostrado na Figura 23.Observa-se pelos resultados que o mapa de profundidade
bastante preciso, contudo, a rotina de retificao possui um alto custo computacional (1,2
segundos para processar as 2 imagens).
Neste caso, a realizao de testes em tempo real ficou impossvel devido ao tempo de
processamento que ele necessita. Este alto custo computacional causado devido no
utilizao dos parmetros intrnsecos fsicos das cmeras.
31
Figura 23: Resultado do mapa de Profundidade com retificao sem informaes da calib rao.
Os
algoritmos
funcionam bem para
imagens
de
teste
fornecidas
pelos
desenvolvedores. Contudo, ao utilizar as imagens adquiridas a partir das webcams, nenhum

dos mtodos possuiu uma qualidade na deteco esperada.
necessrio um estudo mais aprofundado, realizando maior quantidade de testes para
compreender as caractersticas dos algoritmos, bem como um melhor posicionamento e
especificao de distncias para os testes.
32
5. CONCLUSO FINAL
Nesta monografia foi apresentada a reviso bibliogrfica das tcnicas de viso estreo
e foram realizados diversos testes com implementaes de tcnicas de viso estreo
disponveis em plug-ins do software de processamento de imagem GIMP e disponveis na
biblioteca do OpenCV.
Os resultados do processamento feito atravs do plugin do GIMP no conseguiu
atingir nenhum resultado positivo enquanto que os algoritmos de Autocalibrao e Retificao
sem Calibrao disponveis no OpenCV se mostraram promissores e visto que em outros
trabalhos so muito utilizados e tem um bom desempenho, apesar de no ter obtido um mapa
de profundidade com a cmera utilizada no teste.
A proposta de implementao de um sistema com Autocalibrao e Retificao se
mostra ser bem interessante, pois se melhorar o sistema de retificao ao ponto proposto no
seu algoritmo, os parmetros salvos pela Autocalibrao aumentaro muito o desempenho,
sendo possvel exibir um mapa de Profundidade de alta preciso para uma cena em tempo
real.
As principais contribuies deste trabalho so:
reviso bibliogrfica das tcnicas de viso estreo ;
integrao de funes do OpenCV para testes de tcnicas de viso estreo;
configurao do GIMP para avaliao do plugin.
Como perspectivas futuras para este trabalho sugerem-se
realizao de testes com imagens adquiridas em diferentes condies de

maiores distncias e com outros modelos de cmera;
avaliaode diferentes formas de alinhamento das cmeras, como por exemplo,

usar as cmeras em posio convergente, ao invs de cmeras com eixos
paralelos;
avaliao das metodologias para diminuio do tempo de processamento das

imagens para estimao do mapa de profundidade;
desenvolvimento sistemas que utilizem o mapa de profundidade para

realizao de tarefas como, por exemplo, contagem de pessoas ou de objetos.
avaliaoda implementao da tcnica de retificao que utiliza parmetros de

calibrao.
33
6. REFERNCIAS BIBLIOGRFICAS
AMSTEL, Frederick. Reconceitualizando a Interao. Disponvel em:
http://usabilidoido.com.br/reconceitualizando_a_interacao.html Acesso em: 25/06/2012.
ALMEIDA JUNIOR, Jos Viso Estreo Multiplataforma, Resumo do Projeto Final de
graduao em Engenharia Eletrnica e Computao, UFRJ, 2008.
AZEVEDO, Eduardo, CONCI, Aura,COMPUTAO GRFICA GERAO DE
IMAGENS, Ed. CAMPUS, 8edio, 2003.
BRADSKI, Gary, KAEHLER, Adrian, Learning OpenCV, 2008.
CARVALHO, Delmar. A Hipe rmdia. Disponvel em:
http://www.eps.ufsc.br/disserta98/delmar/cap2.htm Acesso em: 25 jun.2012.
CORRA, Fabiano Rogrio(2004), Grades de Evidncia com Viso Estreo
Omnidirecional para Navegao de Robs Mveis. Projeto de Qualificao de Mestrado
em Engenharia Mecnica da Universidade de So Paulo, So Paulo, 2004
COSTA, R. C. (2009). Desenvolvimento de Mtodos de Interao para Sistemas
Embarcados Utilizando Viso Computacional. Projeto de Qualificao de Doutorado em
Engenharia de Teleinformticada Universidade Federal do Cear, Fortaleza, 2009.
DIAS, Eduardo Tondin Ferreira, NETO, Hugo Vieira, NUNES, Joo Felipe Calvo,
Localizao de Objetos Utilizando Uma Cabea Robtica Com Viso Estreo.Artigo
2009.
ELSAMUKO,
GIMP
PLUGIN
REGISTRY,
http://registry.gimp.org/node/10217, Data de Acesso: 18/10/2013.
Disponvel
em:
FARIAS, Paulo Cesar Machado de Abreu, Desenvolvimento de uma Metodologia de

Visualizao Tridimenssional Aplicada a Estereoscopia, Tese para obteno de Doutorado
em Cincias em Engenharia Nuclear, Universidade Federal do Rio de Janeiro, 2006.
GIMP, OFFICIAL SITE, Disponvel em: http://www.gimp.org/, Data de Acesso:
18/10/2013.
HANUKSELLA, J. SANGI, P. HEIKKILA, J. BARNARD, M. Camera Based Motion
Recognition for Mobile Interacion. Artigo 2011.
HARTLEY, Richard, Multiple Vie w Geometry in Computer Vision Second Edition,
Cambridge University, 2004.
HOUGH, P. V. C. Machine analysis of bubble chambe r pictures. Proceedings of the 16th
International Conference on High Energy Accelerators and Instrumentation, 1959.
LANDIM, Wikerson. Como Funciona a Tecnologia 3D, Disponivel em:
http://www.tecmundo.com.br/video/2469-como- funciona-a-tecnologia-3d-.htm.
Acesso em: 30/09/2013.
34
LEFLOCH, Damien, Real-Time People Counting System using Video Came ra, Projeto de
Qualificao de Mestrado em Cincias da Computao, Imagem e Inteligncia Artificial da
UFR Sciences et Techniques Batiment Mirande Universit de Bourgogne BP 47870.
21078 Cedex France, 2007
LOGITECH, WEBCAM Logitech C210 MANUAL GUIDE, Disponvel em:
http://www.logitech.com/assets/33983/webcam-c210-gsw.pdf, Data de Acesso: 25/11/2013.
LOURAKIS, Manolis, ZABULIS, Xenophon, Accurate Scale Factor Estimation
in 3D Reconstruction, Artigo, Institute of Computer Science, Foundation for Research and
Technology - Hellas (FORTH) Vassilika Vouton, P.O.Box 1385, GR 711 10, Heraklion, Crete,
Greece, 2013.
MADALENA, Israel de Morais, AUTOCALIBRAO DE CMERAS EM VISO

ESTREO, Projeto de Analise de Algoritmo, Universidade Federal de Ouro Preto, 2011.
MALARD, Maria Lcia, SANTOS, Jos Cabral dos, BALTAZAR, Ana Paula, PERONTI,
Rodrigo, LAGES, Wallace, COSTA, Marcos Braga, COSME, Vanilson, Princpios Tericos
da Estreoscopia, UFGM, Artigo 2008.
MARENGONI, Mauricio, INTRUDUO VISO CUMPUTACIONAL USANDO
OPENCV, Tutorial, 2009.
MARTINS, Jos F., SILVA, Jorge A., SOUSA, A. Augusto, Sistema de Realidade
Aume ntada Baseado em Padres Retangulares de Dimenses Desconhecidas, Artigo
2007.
PEREIRA, Adriana C. de Freitas, Estreos copia e Paralaxe, Disponvel
em:http://www.fct.unesp.br/docentes/carto/adriana. Acesso em: 13/09/2013
PINHO, Marco Serolli, REALIDADE VIRTUAL VISO TRIDIMENSIONAL, Faculdade
de Informtica PUCRS, Disponvel em: http://www.inf.pucrs.br/~pinho/TACCII/, Acesso em:
2/10/2013.
RUDEK, Marcelo, Mtodo de Posicionamento e Dimensionamento 3D Baseado em
Imagens Digitais, Tese para qualificao de Doutorado, Universidade de Campinas, 2006,
Disponvel em: http://www.las.pucpr.br/rudek/doutorado/, Acesso em 7/10/2013.
SANTOS, Maikon Cismoski dos, Reviso de Conceitos em Projeo, Homografia,
Calibrao de Cmera, Geometria Epipolar, Mapas de Profundidade e Varredura de
Planos, Trabalho disciplina Viso Computacional, UNICAMP, 2012.
SOUSA SEGUNDO, Jos Alves, Um Metodo para Determinao da Profundidade
Combinando Viso Estreo e Autocalibrao para Aplicao e m RobticaMvel,
Dissertao de Mestrado, Universidade Federal do Rio Grande do Norte, 2007.
TRUCCO, Emanuele, VERRI, Alessandro, Introductory Techniques for 3-D Computer
Vision, Ed. Prentice Hall, 1998
35
YAHIAOUI, Tarek, MEURIE, Cyril, KHOUDOUR, Louahdi, CABESTAING, Franois. A

People Counting System Based on Dense and Close Stereovision. Disponvel em:
http://link.springer.com/chapter/10.1007%2F978-3-540-69905-7_7. Acesso em: 25 set 2013

Estudo e Avaliação Comparativa de Técnicas de Visão Estéreo

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estudo e Avaliação Comparativa de Técnicas de Visão Estéreo

Enviado por

Direitos autorais:

Formatos disponíveis

FACULDADE LOURENO FILHO

ESTUDO E AVALIAO COMPARATIVA DE TCNICAS DE VISO ESTREO

ESTUDO E AVALIAO COMPARATIVA DE TCNICAS DE VISO ESTREO

Monografia apresentada Coordenao do

ESTUDO E AVALIAO COMPARATIVA DE TCNICAS DE VISO ESTREO

Aprovada em: ______/______/______

Dedico este trabalho a minha famlia que

Se no existe meio de vencer um

Palavras-chave:Viso Estreo, Mapa de Profundidade, OpenCV.

Key-Words: Stereo Vision, Depth Map, OpenCV.

VISO ESTREO .............................................................................................................. 5

FUNDAMENTAO SOBRE A CAPTAO DA IMAGEM ................................ 6

VISO TRIDIMENSIONAL ...................................................................................... 8

2.3.1. PARAMETROS INTRNSECOS.............................................................................. 10

2.6.1. CALIBRAO ESTREO ....................................................................................... 20

MATERIAIS E METODOLOGIA ................................................................................... 22

CMERA UTILIZADA ............................................................................................ 22

METODOLOGIA DE TESTES ................................................................................ 24

DEPTHMAP GIMP ................................................................................................... 26

MAPA DE PROFUNDIDADE COM AUTOCALIBRAO ................................. 28

CONCLUSO FINAL ...................................................................................................... 32

REFERNCIAS BIBLIOGRFICAS .............................................................................. 33

LISTA DE SIGLAS E ABREVIATURAS

Fator de Escala Homogneo

Mecanismo de Captao de Imagem

Open Source Computer Vision

Processamento Digital de Imagem

Parmetro de Inclinao da Imagem

Matriz de Rotao 3 por 3

Figura 1: Exemplo de v isualizao de objetos no olho humano.

Figura 2: Mecanismos para captao de imagens com focos visuais coincidentes.

2.1. FUNDAMENTAO SOBRE A CAPTAO DA IMAGEM

Figura 3: Representao Geo mtrica Esquemtica de u m M CI.

Uma forma de se compreender as informaes de posio e orientao da cmera e

Figura 4: Representao de uma cmera virtual.

Toda orientao da cmera feita a partir de sua posio definida atravs de

2.2. VISO TRIDIMENSIONAL

Figura 5: Exemplo de informao de profundidade obtida pela variao de lu minosidade. a) imagem

Observando as figuras, pode-se perceber a profundidade devido intensidade de luz

2.3. CAPTAO ESTEREOSCOPICA

a rea de sobreposio mnima de cinquenta por cento entre as imagens,

os eixos das cmeras que formaro o par estereoscpico devem estar

as fotografias devem ter aproximadamente a mesma escala, com uma variao no

de imagens a partir de um par estereoscpico para a partir dele obter-se a determinao de um

2.3.1. PARAMETROS INTRNSECOS

Figura 6: Modelo de Cmera Pinhole.

Levando-se em conta a projeo perspectiva, transformao das coordenadas na

em que (Sx, Sy) representam o tamanho do pixel em milmetros.

Desta forma, o ponto na imagem ,

est relacionado s coordenadas do

ponto no espao atravs de :

Figura 7: Representao de Distoro de Lentes.

e k1 e k 2 so parmetros intrnsecos de distoro radial. Atravs

Considerando essas equaes, assume-se que a origem das coordenadas no plano da

em que (Px,,Py)T so as coordenadas do ponto principal.

se as coordenadas da imagem so medidas em pixels e o nmero do pixel medido em

Outro fator importante, que na maioria das cmeras, o parmetro da inclinao da

em que o O 3 um vetor nulo, Q = (X, Y, Z, 1)T um ponto no espao tridimensional e K

As linhas destacadas em vermelho e verde, apresentado na Figura 8b, no mundo real

2.3.2. PARAMETROS EXTRNSECOS

Figura 9: Relao de sistemas de coordenadas do mundo real co m as da imagem.

Santos (2012) apresenta um modelo matricial em que a posio e orientao da cmera

em que,K representa os parmetros intrnsecos, abordado na seo 2.3.2.R a matriz de

Aprovada em: //__