Processos Bottom-Up e Top-Down No Rastreamento Ocular de Imagens

Processos bottom-up e top-down no rastreamento ocular de imagens
Marcus Maia (UFRJ/CNPq) *
RESUMO: O artigo reporta experimento de monitoramento ocular de imagens em que 27 sujeitos foram
expostos durante 10 segundos a verses de imagem que continham, respectivamente, elementos [-animado -
humano], [+animado - humano] ou [+ animado + humano]. Cada verso podia ser precedida ou no de
informao escrita presente na tela por 5 segundos, indicando o tema da imagem. Cada sujeito reportava, ento,
o que havia visto, registrando-se fixaes e movimentos sacdicos (medidas on-line), bem como a reportagem
final (medida off-line), concluindo-se que os tpicos previamente apresentados (efeito top-down), embora
influenciem a medida off-line, no sobrepujam os traos estruturais salientes (bottom-up), na varredura on-line.
Palavras-chave: Psicolingstica; Rastreamento ocular de imagens; Efeitos top-down e bottom-up.
Introduo
Os estudos de rastreamento ocular (eye-tracking) tiveram seu incio, como relatam Just
& Carpenter (1976), com a pesquisa especificamente voltada para a leitura. Em 1878, o
oftalmologista francs Louis Javal reporta estudo em que observou a olho nu crianas lendo
textos, concluindo que seus olhos no pareciam mover-se continuamente ao longo das linhas,
mas faziam uma srie de pausas separadas entre si por pequenos saltos. Esses movimentos,
que chegam a atingir velocidades altssimas de at 700 graus por segundo (cf. CARPENTER,
1988), so denominados de sacadas, alternando-se com momentos de pausa, com durao
mdia de 200-250 ms, denominados fixaes. Muito embora as primeiras pesquisas tenham se
orientado para a investigao dos movimentos sacdicos, mais do que para a anlise das
fixaes, descobriu-se, posteriormente, o fenmeno conhecido como supresso sacdica (cf.
IRWIN, 2004) em que o fluxo de informao visual interrompido durante o movimento
sacdico. Os estudos tendem, ento, a concentrarem-se na durao das fixaes, tomando-se,
entretanto, a localizao dos movimentos sacdicos progressivos ou regressivos como ndice
importante dos processos atencionais na leitura.
O estudo da percepo visual de cenas remonta, conforme revisto em Henderson &
Ferreira (2004), ao trabalho de Buswell (1935), que apresenta resultados de experimentos em
que, utilizando equipamento engenhoso, que registrava em filme fotogrfico a luz refletida na
crnea de sujeitos observando cenas atravs das ps de um ventilador, pde determinar a
direo e a durao das fixaes. Buswell conclui que as fixaes no eram distribudas
aleatoriamente nas 55 fotografias que apresentou a 200 sujeitos, mas tendiam a agrupar-se em
regies informativas das cenas, relacionando, pioneiramente, os movimentos e fixaes
oculares a processos atencionais. Alm de monitorar o olhar de sujeitos vendo cenas
livremente, Buswell tambm fez algumas manipulaes assistemticas do que ele chamou de
mental set dos sujeitos ao olhar as fotografias, concluindo que as instrues experimentais
ou a leitura de um pargrafo de texto previamente apresentao das imagens poderia
influenciar significativamente como as pessoas olhavam as imagens. O psiclogo russo Alfred
*
maiamarcus@gmail.com
8
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 08-23 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243

Yarbus tambm reporta, em livro de 1967, uma srie de estudos de monitoramento ocular, em
que estabeleceu, em concordncia com Buswell (1935), que os padres de inspeo visual de
cenas dependem tanto de propriedades informativas do estmulo quanto das tarefas e objetivos
prvios do observador.
A literatura sobre a ateno visual parece concordar, portanto, desde h muito tempo,
que dois processos complementares atuam na inspeo ocular de cenas: um mecanismo
bottom-up, guiado por propriedades intrnsecas do estmulo e um mecanismo top-down,
relacionado a fatores tais como a disposio interpretativa aos objetivos prvios do
observador. No h controvrsia importante na literatura sobre a existncia desta
determinao dual bottom-up/top-down na cognio visual de imagens. A questo relevante
na pesquisa contempornea passa a ser, conforme apontam Henderson & Ferreira (2004), de
um lado, a determinao especfica das propriedades do estmulo, que constitui a abordagem
conhecida como saliency map, em que se procura identificar, com preciso, que regies do
estmulo visual seriam proeminentes, explicitando suas diferenas em termos de dimenses
tais como cor, intensidade, contraste, simetria, contorno, orientao etc. De outro lado, um
desafio para a pesquisa tem sido o de estabelecer como os fatores top-down podem ser
incorporados em um modelo completo de cognio visual. Trata-se de uma questo
relacionada, entre outras coisas, ao curso temporal de atuao dos fatores bottom-up e top-
down e de sua integrao em uma arquitetura da cognio. Nesse sentido, Long & Olszweski
(1999), Henderson et alii (1999) estudaram comparativamente o papel de fatores bottom-up
(propriedades do estmulo) e de fatores top-down (contextualizao prvia) na explorao de
imagens, concluindo que as pistas bottom-up parecem ser mais influentes do que as pistas top-
down. Em uma avaliao ampla da questo, Henderson & Ferreira (2004) questionam se um
progresso substancial nesta rea poderia ser feito, no entanto, caso no se estabelea mais
claramente, por exemplo, se nos movimentos sacdicos iniciais na explorao de uma cena j
se pode observar efeitos de informao sobre a chamada global scene gist ou tpico global
da cena, no sentido de que os primeiros movimentos sacdicos e fixaes j seriam
conduzidos de forma top-down.
O presente estudo procura investigar, exatamente, o curso temporal do acesso a
informaes bottom-up e top-down na percepo visual de cenas estticas. A questo do curso
temporal do acesso a diferentes informaes cognitivas tem sido um tema recorrente na
pesquisa que temos desenvolvido no Laboratrio de Psicolingstica Experimental (LAPEX-
UFRJ/CNPq) sobre a compreenso de frases em portugus. Em Maia, Faria, Buarque &
Alcntara (2003) reportam-se resultados comparativos entre dados oriundos de questionrios
(off-line) e dados obtidos atravs de leitura auto-monitorada (on-line) de frases apresentando
trs diferentes tipos de ambiguidade estrutural, concluindo que os estudos off-line
apresentaram maior sensibilidade a efeitos semnticos e pragmticos, enquanto que os
resultados dos estudos on-line parecem sugerir que estes fatores no estariam imediatamente
disponveis ao processador sinttico, diferentemente das informaes estritamente estruturais
que seriam acessadas rapidamente. Tambm em Maia, Fernndez, Costa & Loureno-Gomes
(2007) comparamos dados on-line e off-line na leitura auto-monitorada de frases contendo
oraes relativas apostas a SN complexos, concluindo que a informao relativa ao
comprimento da orao relativa atuante apenas na medida off-line, no influenciando a
medida on-line. No estudo que reportamos a seguir esta questo sobre o papel de fatores
estruturais vis vis o papel de fatores mais gerais, fundamental para o desenvolvimento de
9
modelos de arquitetura cognitiva, investigada no que se refere percepo visual de

imagens estticas, utilizando a tcnica de monitoramento ocular.
1. O experimento de rastreamento ocular de imagens
O processamento visual de cenas delimitado pelas propriedades neuro-anatmicas do

sistema visual humano. A regio que permite maior acuidade visual a chamada regio
foveal, uma rea do ponto de fixao, compreendendo entre um e dois graus do ngulo visual.
A fvea est centrada no eixo tico do olho, tendo uma alta densidade de clulas
especializadas, denominadas cones, foto-receptores responsveis pela percepo visual de
detalhes de forma e cor. A informao a recebida enviada para o crtex visual no crebro,
que destina grande parte de sua rea para o processamento da informao foveal
(magnificao cortical). A figura 1, abaixo, ilustra a regio foveal, bem como as reas de
fixao foveal, para-foveal e perifrica.
Figura 1 Fvea e campo visual
Para aproveitamento pleno do input foveal de alta qualidade, nas tarefas vsuo-
cognitivas complexas, como a leitura e a visualizao de cenas, necessrio que a fixao
foveal se desloque constantemente, em mdia trs vezes por segundo, embora haja grande
variabilidade de ndices de fixao na visualizao de imagens, como reporta Henderson
(2003). Alm dos pontos de fixao foveal, outro parmetro importante para a anlise dos
padres de visualizao de cenas a direo dos movimentos sacdicos. Ao contrrio do que
se tem observado na leitura, na visualizao de imagens no se pode estabelecer uma
assimetria da fixao foveal e nem no padro de movimentao sacdica. Na leitura, cada
fixao captura cerca de 2/3 de informao direita e 1/3 esquerda, nos leitores de lnguas
com escrita da esquerda para a direita (RAYNER, WELL & POLLATSEK, 1980). Em
leitores de hebraico, que se escreve da direita para a esquerda, a assimetria revertida
(POLLATSEK, BOLOZKY, WELL & RAYNER, 1981). Na explorao visual de imagens
tal assimetria no observada. Como revisamos na introduo deste artigo, a varredura de
10
cenas determinada de forma dual por propriedades do estmulo e tambm por fatores do tipo
top-down. Tarefas de categorizao imediata de cenas tm estabelecido um limiar de 20 ms
de exposio para a categorizao de cenas em termos de hipernimos com ndice de acerto
maior do que 90% e tempos de deciso mdios abaixo de 400 ms (VAN RULLEN &
THORPE, 2001), indicando que as primeiras fixaes j permitem uma caracterizao bsica
da cena.
O presente experimento tem como principal objetivo verificar a interao entre
propriedades intrnsecas (fatores bottom-up) de uma imagem e a existncia ou no de um
tpico apresentado previamente exibio da imagem (fatores top-down). De modo mais
especfico, examinamos se a existncia de um ttulo anterior visualizao da imagem
capaz de influenciar a sua explorao visual atravs do padro de movimentos sacdicos e de
fixaes (medida on-line) e de reportagem final sobre o contedo da imagem, aps a sua
visualizao (medida off-line), procurando, portanto discriminar o curso cronolgico dos
fatores bottom-up e top-down. As variveis independentes do experimento so:
a) Propriedades do estmulo (casal, co, nada)

b) Ttulo prvio (casa, pedras, nada)
O design experimental cruzava os trs nveis do fator (a) com os trs nveis do fator
(b), produzindo nove condies experimentais, cada uma das quais testada em trs sujeitos,
totalizando 27 sujeitos (9x3). A imagem utilizada para apresentao aos sujeitos por lapso de
tempo pr-fixado em dez segundos foi o quadro Idlio de Tarsila do Amaral, tendo-se
manipulado a imagem com o programa Photoshop, para gerar os trs nveis da varivel
independente (a), ilustrados abaixo:
Figura 2 - Propriedades do estmulo: casal [+animado,+humano]
11
Figura 3 Propriedades do estmulo: co [+animado, -humano]
Figura 4 Propriedades do estmulo: nada [-animado, -humano]
A varivel independente (b), ttulo prvio, consistia na apresentao por cinco

segundos, anteriormente exibio da imagem, de uma de trs telas, contendo o ttulo Casa
na colina, Pedras no Riacho ou nenhum ttulo (tela em branco).
A tarefa experimental consistia na observao da imagem seguida da redao de um
pargrafo, reportando o contedo da imagem observada. As variveis dependentes foram trs,
a saber, movimentos sacdicos iniciais, tempos totais de fixao, reportagem final. Para
efeitos de anlise, estabeleceram-se trs regies de interesse para as medidas on-line, onde
foram computados os movimentos sacdicos iniciais, bem como os tempos totais de fixao,
conforme ilustrado abaixo:
12
Figura 5 Regies de interesse para as medidas on-line
Como se pode ver na Figura 5, as regies de interesse eram a regio onde se

manipulou a varivel independente (a) propriedades do estmulo (casal, co, nada) e as duas
regies correspondentes a dois nveis da varivel independente (b) ttulo prvio (casa na
colina, pedras no riacho). As duas medidas on-line, a saber, os ndices de movimento
sacdicos iniciais e os tempos totais de fixao foram computados para cada uma dessas
regies.
1.1. Mtodo
Participantes
Participaram do experimento, como voluntrios, 27 alunos de graduao, cursando a
disciplina Psicolingustica, no quarto perodo do curso de Fonoaudiologia da UFRJ, no
primeiro semestre de 2008, todos do sexo feminino, com idade mdia de 20 anos, com viso
normal, sem uso de culos ou lente de contato.
Material
Manipulou-se com o programa Photoshop a imagem Idlio de Tarsila do Amaral,
produzindo-se as trs cenas correspondentes varivel independente (a), propriedade do
estmulo, ilustradas nas figuras 2, 3 e 4, que eram precedidas por uma das telas
correspondentes aos nveis da varivel independente (b), ttulo prvio, a saber, pedras no
riacho, casa na colina ou tela em branco. As telas relativas varivel (a) permaneciam por
10 segundos para observao dos sujeitos e eram precedidas pelas telas relativas varivel (b)
que permaneciam por 5 segundos para observao. Cada uma das 9 condies experimentais
geradas pelo cruzamento das duas variveis independentes foi testada em trs sujeitos,
totalizando 27 sujeitos.
O aparato experimental consistiu no equipamento Arrington View Point Quick Clamp
Eye-Tracker, um sistema que monitora o olho direito, com base em informaes obtidas
atravs do movimento da pupila e do reflexo da crnea, com resoluo temporal de 30 Hz. As
telas foram apresentadas em monitor de 17 polegadas, que se encontrava a distncia de 60 cm
dos olhos dos sujeitos. Observe-se que o programa que controla o rastreador acessado em
monitor de 17 polegadas, distinto do monitor em que os estmulos experimentais so
13
apresentados. Utilizou-se um descanso de queixo e um clipe nasal para minimizar os

movimentos de cabea durante a visualizao, conforme ilustrado na Figura 6:
Figura 6 Aparato experimental
Procedimento
Os participantes foram testados individualmente na sala do LAPEX, na qual o aparato
encontra-se instalado. Inicialmente, o experimentador orientava cada participante,
esclarecendo que a tarefa consistia na visualizao de duas telas, a primeira das quais
permaneceria por 5 segundos no monitor, enquanto que a segunda permaneceria por dez
segundos. Solicitava-se que o participante observasse atentamente a imagem na segunda tela,
de modo que, logo aps o encerramento do experimento, que era assinalado por uma tela com
a palavra FIM, o participante utilizasse a folha e a caneta na mesa ao lado para redigir um
pargrafo descrevendo a imagem que acabara de ver.
Em seguida, o sujeito era acomodado na estrutura do rastreador, ajustando-se o aparato
de acordo com a sua altura e caractersticas fsicas. Fazia-se, nesse momento, o ajuste
denominado de threshold, utilizando-se o monitor de controle, enquanto o sujeito
visualizava um ponto fixo na tela do seu monitor, garantindo-se que o foco da micro-cmera
tenha capturado a pupila do sujeito, conforme indicado na Figura 7, que ilustra a imagem do
monitor de controle enquanto o sujeito fixa seu olhar em um ponto central do seu monitor. Ao
final desta etapa solicitava-se ao participante que fixasse seu olhar nos quatro cantos da tela
do seu monitor, alternadamente, observando-se, no monitor de controle, que a sua pupila
continuava envolta pelo crculo amarelo, indicando sua captura.
14
Figura 7 Ilustrao do processo de threshold
Tinha, ento, incio o processo conhecido como calibrao, durante o qual o programa
do rastreador era ajustado s caractersticas de movimentao ocular de cada sujeito. A
calibrao consiste na observao de pontos que surgem aleatoriamente em diferentes regies
da tela e que devem ser fixados pelo sujeito at que desapaream. Imediatamente aps o
desaparecimento de um ponto, um outro ponto surge na tela, devendo ser imediatamente
observado pelo sujeito que deve, novamente, manter seu olhar fixo at que o ponto
desaparea. Aps a calibrao, o experimentador indicava que o experimento iria, de fato,
comear. Aps a apresentao das duas telas experimentais (5 segundos para a primeira tela e
10 segundos para a segunda tela, que continha a imagem), uma tela com a palavra FIM era
apresentada, devendo, ento o sujeito afastar-se do equipamento e redigir o pargrafo de
reportagem do contedo da imagem, conforme a instruo prvia. De modo geral, a durao
total de cada sesso foi de aproximadamente 10 minutos.
1.2. Resultados e discusso
1.2.1. Figura sem elementos [+humano] ou [+animado]
Apresenta-se inicialmente o conjunto de resultados para as medidas relativas Figura

4, que no continha nem o casal e nem o cachorro. De modo geral, esta imagem apresenta os
maiores ndices de interferncia dos fatores top-down, tanto nas medidas on-line, quanto nas
medidas off-line, em relao s imagens com o casal e com o co.
15
Figura 8- Resultados das medidas on-line e off-line relativas figura sem o casal e sem o co
1.2.1.1. Tempos totais de fixao
Observe-se que, quando no esto presentes na imagem o casal ou o co, os tempos

totais de fixao nas regies de interesse relativas casa na colina e s pedras no riacho no
variam significativamente entre si, na condio em que no se fornece ttulo na primeira tela
(t=1,126, p= 0,27). Por outro lado, na condio em que o ttulo Pedras no riacho os
tempos de fixao na regio de interesse relativa s pedras significativamente maior do que
os tempos de fixao na regio da casa na colina (t=2,161, p=0,038). De modo equivalente,
tambm h diferena significativa entre os tempos totais de fixao na regio das pedras e os
tempos totais de fixao na regio da casa na colina, na condio em que o ttulo A casa na
colina. Crucialmente a diferena se d na direo esperada, ou seja, o ttulo determina
maiores tempos de fixao na regio da casa do que na regio das pedras, muito embora a
rea fsica da regio das pedras seja maior do que a rea de interesse em que se encontra a
casa (t=4,094, p=0,0002).
16
1.2.1.2. Percentual de movimentos sacdicos iniciais
A medida relativa aos ndices de movimentos sacdicos iniciais consistente com os

achados reportados na seo acima, relativos aos tempos de fixao totais durante a
visualizao da imagem. Quando no esto presentes na imagem nem o casal e nem o co, as
pedras nunca so alvo das primeiras sacadas quando no se fornece ttulo para a imagem,
enquanto que a casa passa a ser objeto de 65% das sacadas iniciais. Quando o ttulo faz aluso
s pedras, os primeiros olhares so sempre direcionados regio das pedras, na imagem. De
forma equivalente, quando o ttulo se refere casa, os movimentos sacdicos iniciais so
sempre dirigidos regio da casa. A figura 9, abaixo, ilustra um desses casos, em que aps ler
o ttulo A casa na colina o sujeito visualiza a imagem, fazendo uma primeira fixao central
e um primeiro movimento sacdico na direo da casa (trao em vermelho), seguido de
fixao nesta regio (mancha verde).
Figura 9 Rastreamento ocular na condio com ttulo Casa na colina

e imagem sem o casal e sem o co.
1.2.1.3. Percentual de referncias na reportagem final
Medem-se, aqui, os ndices percentuais de referncias feitas casa e s pedras no

riacho na reportagem final (medida off-line), solicitada logo aps a visualizao da imagem
sem o casal e sem o cachorro. Observe-se que, na condio sem ttulo, a casa na colina e as
pedras no riacho apresentam os mesmos percentuais de referncia no pargrafo de reportagem
final escrito pelos sujeitos. Por outro lado, quando o ttulo Pedras no riacho , as pedras so
mencionadas em ndices superiores (65%) meno feita casa (35%). Quando o ttulo A
casa na colina, a meno casa atinge o nvel de 100% nas reportagens, enquanto as pedras
ficam em 65%.
17
1.2.2. Figura com o elemento co [-humano] e [+animado]
Apresentamos abaixo as tabelas com os resultados obtidos nas trs medidas quando a
figura apresentava o co. Em comparao com as medidas reportadas para a condio em que
a figura no exibia nem o co e nem o humano, que permitiram estabelecer a existncia de
efeito top-down resultante da ao do ttulo prvio visualizao da imagem, pode-se
observar, agora, que a introduo do elemento co j dificulta que este efeito se instancie de
modo to claro. De modo geral, nas trs medidas, observe-se que, agora, apenas o ttulo Casa
na colina, relacionado a trao [+humano], apresenta efeitos significativos. O ttulo Pedras
no riacho, por outro lado, tem seu efeito reduzido em funo da presena do co na imagem.
Figura 10- Resultados das medidas on-line e off-line relativas figura com o co
Os tempos totais de fixao nas trs regies de interesse no diferem

significativamente entre si quando a imagem contendo o co exibida sem apresentao de
18
qualquer ttulo prvio. A comparao dois a dois revela falta de significncia tanto quando se
comparam os tempos totais de fixao entre o co e as pedras (t=0,06, p=0,95), quanto entre o
co e a casa (t=0,45, p=0,65) e entre as pedras e a casa (t=0,38, p=0,70). Na condio em que
o ttulo Pedras no riacho , ao contrrio do que se observou na seo 1.2.1.1, em que h
efeito deste ttulo sobre os tempos de fixao na imagem que no apresenta nem o co e nem
o humano, agora j no h efeito top-down significativo deste ttulo sobre os tempos de
fixao nas trs regies de interesse. O co e as pedras recebem fixaes que no permitem
rejeitar a hiptese nula (t=0,79, p=0,43). Igualmente no h significncia na diferena de
tempos totais de fixao entre o co e a casa (t=0,36, p=0,71) ou entre as pedras e a casa
(t=0,42, p=0,67). Quando o ttulo Casa na colina, tambm no se obtm significncia na
comparao entre os tempos totais de fixao recebidos pelo co e as pedras (t=0,12, p=0,89)
ou quando se compara as pedras e a casa (t=1,58, p=0,12). Significncia s obtida quando se
comparam os tempos do co com a casa, onde o ttulo efetivamente impe maiores tempos de
fixao na regio da casa (t=2,68, p=0,01).
Nesta medida, pode-se observar que, de modo semelhante, na imagem em que no

havia a presena do co ou do casal, analisada em 1.2.1.2, a regio das pedras no riacho
continua a no atrair os primeiros movimentos sacdicos na condio em que no se apresenta
ttulo prvio. Entretanto, o mapa de elementos salientes alterado quando o co entra na
figura, no que se refere competio com a casa. Observe ainda nesta condio em que no se
apresenta ttulo prvio que o co e a casa recebem os mesmos ndices de sacadas iniciais, ao
contrrio do que foi registrado em 1.2.1.2, em que a casa na figura sem o co ou humano
recebia a maior parte das sacadas iniciais na condio sem ttulo prvio. Quando se apresenta
previamente o ttulo Pedras no riacho, as pedras recebem 2/3 das sacadas iniciais e o co
fica com 1/3 desses movimentos. Entretanto, note-se que o co impe uma perda para as
pedras, comparativamente ao registrado para a figura sem o co ou sem o humano, analisada
em 1.2.1.2, em que as pedras receberam 100% das sacadas iniciais quando o ttulo era Pedras
no riacho. Por outro lado, h um efeito top-down claro quando o ttulo A casa na colina,
pois nesta condio a casa recebe 100% das sacadas iniciais a despeito da presena do co, o
que j sugere a relevncia de elemento associado ao trao [+humano] no mapa de elementos
salientes no input, pois o ttulo Pedras no riacho por si s, como vimos acima, no garante a
totalidade dos movimentos sacdicos iniciais.
Na condio sem ttulo prvio, o co e a casa so sempre mencionados, enquanto as

pedras deixam de ser referidas em 35% das reportagens finais. Na condio em que o ttulo
Pedras no riacho, as trs regies de interesse (pedras, casa e co) recebem sempre meno
em todas as reportagens. Na condio em que o ttulo A casa na colina, a casa
mencionada em 100% das reportagens, enquanto que o co e as pedras ficam com 65% das
menes, cada um.
19
1.2.3. Figura com elemento casal [+humano] e [+animado]
Nesta seo apresentam-se os resultados das trs medidas quando a imagem exibida
inclui o casal. Nessa condio fica patente o efeito do trao [+humano] no mapa de elementos
salientes do input em todas as medidas. O desbalanceamento do efeito top-down observado na
condio da imagem sem o casal e sem o co reportado na seo 1.2.1, que j pde ser notado
na condio da imagem com o co (seo 1.2.2), agora claramente instanciado na condio
da imagem com o casal. Nessa condio, o efeito bottom-up do input patente nas trs
medidas, com prejuzo significativo para o efeito top-down, ao menos nas duas medidas on-
line.
Figura 11- Resultados das medidas on-line e off-line relativas figura com o casal
Na condio sem ttulo, os tempos totais de fixao na regio do casal so

significativamente maiores do que os tempos observados na regio das pedras (t= 2,61,
20
p=0,01) e na regio da casa (t= 2,8, p=0,008). Os tempos de fixao no diferem quando se
comparam as pedras com a casa (t=0,17, p=0,87). Na condio em que o ttulo Pedras no
riacho, as pedras j no recebem fixaes significativamente maiores nem em relao ao
casal (t=1,44, p=0,16) e nem em relao casa (t=1,23, p=0,23), diferentemente do observado
na condio em que a imagem no exibia nem o casal e nem o co (1.2.1.1), em que os
tempos de fixao na regio de interesse relativa s pedras foram significativamente maiores
do que os tempos de fixao na regio da casa na colina, por fora do ttulo Pedras no
riacho. Agora, o efeito top-down do ttulo completamente anulado pelo efeito bottom-up
representado pela presena do casal no mapa de elementos salientes do input. Tambm
quando o ttulo A casa na colina o efeito top-down do ttulo no se instancia nem em
relao ao casal (t=0,75, p=0,45) e nem em relao s pedras (t=0,064, p=0,99). Note-se que o
efeito top-down do ttulo Pedras no riacho no ocorre mesmo em uma comparao com os
tempos de fixao na regio das pedras na condio sem ttulo (t=2,007, p=0,054).
No que se refere aos movimentos sacdicos iniciais, a presena do casal no input atrai
sempre de forma consistente as primeiras sacadas, que nunca so dirigidas para as demais
regies de interesse, quer na condio sem ttulo, quer nas condies em que os ttulos fazem
referncia s pedras ou casa. O padro de movimento sacdico inicial em direo ao casal,
ilustrado na figura 12, comprova nesta medida o predomnio do efeito bottom-up sobre o top-
down.
Figura 12 Rastreamento na condio com ttulo Pedras no riacho e imagem com o casal.
interessante ainda observar que a presena do casal no input um atrator bottom-up

to influente que, mesmo em um controle realizado em que se inverteu a figura do casal para
o lado direito da imagem, este elemento continuou a receber a sacada inicial no escaneamento
visual da imagem.
21
Figura 13 Rastreamento em condio sem ttulo com casal direita da imagem
Nesta condio, a referncia ao casal feita em 100% das reportagens finais,

independentemente de haver ttulo ou no, comprovando o efeito bottom-up j identificado
nas medidas on-line. Registre-se, no entanto, que ao contrrio das medidas on-line, esta
medida indica efeito top-down do ttulo as pedras so mencionadas em 100% das
reportagens que as mencionam como ttulo e a casa, igualmente, sempre mencionada
quando o ttulo a coloca em destaque.
Concluses
Com base nos resultados apresentados e discutidos acima, conclui-se que:
1. A explorao visual das propriedades fsicas de uma imagem (computao

bottom-up) no randmica. H padres de movimentos sacdicos e de
latncias de fixaes relacionados a propriedades informativas ou salientes do
input.
2. No parece haver uma relao determinstica entre a informao top-down e o

escaneamento inicial da imagem. Os fatores top-down influenciam o olhar,
mas podem ser sobrepujados por caractersticas intrnsecas salientes da
imagem.
3. Efeitos top-down se instanciam mais claramente em medidas off-line do que

em medidas on-line. Por outro lado, a computao bottom-up, capturada em
medidas on-line, pode no se instanciar inequivocamente em medidas off-line.
4. O desenvolvimento de arquiteturas cognitivas que modelem a integrao de

algoritmos bottom-up e heursticas top-down no pode prescindir, portanto, de
pesquisa experimental sensvel ao curso cronolgico das operaes atuantes
no processo.
22
ABSTRACT: This article reports an eye-tracking experiment in which 27 subjects were exposed during 10
seconds to versions of an image which contained either a [- animate human], a [+animate - human] or a
[+animate +human] element. Each version could be preceded or not by written information which remained on
the screen during 5 seconds, indicating the topic of the image. Fixation times and saccadic movements (on-line
measures) were registered and subjects were also asked to write a one-paragraph report (off-line measure)
immediately after viewing the scene. Based on the results obtained it is suggested that the previously presented
topics (top-down effect) may influence the off-line measure, but cannot override the bottom-up computation of
salient elements in the input in the on-line measures.
Key-words: Psycholinguistics; Eye-movements in scene viewing; Top-down and bottom-up effects.
Referncias
BUSWELL, G. T. How People look at pictures. Chicago: University of Chicago Press,

1935.
CARPENTER, R. H. S. Movements of the Eyes. London: Plon, 1988.
HENDERSON, J. M. Human gaze control in real-world scene perception. Trends in
Cognitive Sciences, 7, 498-504, 2003.
HENDERSON, J. M.; FERREIRA, F. (Eds.). The interface of language, vision, and action:
Eye movements and the visual world. (pp 1-58). New York: Psychology Press, 2004.
HENDERSON, J. M.; HOLLINGWORTH, A. The role of fixation position in detecting scene
changes across saccades. Psychological Science, 10, 438-443, 1999.
IRWIN, D. E. Fixation Location and Fixation Duration as Indices of Cognitive Processing. In
HENDERSON, J. M; FERREIRA, F. (Eds.). The Integration of Language, Vision, and
Action: Eye Movements and the Visual World.New York: Psychology Press, 2004.
JAVAL, L. E. Essai sur la physiologie de la lecture. Annales d'Oculistique, 1878, 82, 242-
253.
JUST, M. A.; CARPENTER, P. A. Eye fixations and cognitive process. Cognitive
Psychology, 8, 441-480, 1976.
LONG, G. M.; OLSZWESKI, A. D. To reverse or not to reverse: when is an ambiguous
figure not ambiguous?. American Journal of Psychology. 112, pp. 4171, 1999.
MAIA, M. A. R.; FARIA, F. S.; BUARQUE, S.; ALCANTARA, S. N. O Processamento de
concatenaes sintticas em trs tipos de estruturas frasais ambguas em portugus. Forum
lingustico, Santa Catarina, v. 3, n. 1, p. 13-53, 2003.
MAIA, M. A. R.; FERNNDEZ, E.; COSTA, A.; LOURENO-GOMES, M. do C. Early and
late preferences in relative clause attachment in Portuguese and Spanish. Journal of
Portuguese Linguistics, v. 5/6, p. 227-250, 2007.
POLLATSEK, A.; BOLOZKY, S.; WELL, A. D.; RAYNER, K. Asymmetries in the
perceptual span for Israeli readers. Brain and Language, 14, 174-180, 1981.
RAYNER, K.; WELL, A. D.; POLLATSEK, A.. Asymmetry of the effective visual field in
reading. Perception & Psychophysics, 27, 537-544, 1980.
VAN RULLEN, R.; THORPE, S. J. Is it a bird? Is it a plane? Ultra-rapid visual categorisation
of natural and artifactual objects. Perception, 30: 655-68, 2001.
YARBUS, A. L. Eye movements and Vision. New York: Plenum Press, 1967.
23

Processos Bottom-Up e Top-Down No Rastreamento Ocular de Imagens

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Processos Bottom-Up e Top-Down No Rastreamento Ocular de Imagens

Enviado por

Direitos autorais:

Formatos disponíveis

Processos bottom-up e top-down no rastreamento ocular de imagens

Marcus Maia (UFRJ/CNPq) *

Palavras-chave: Psicolingstica; Rastreamento ocular de imagens; Efeitos top-down e bottom-up.

modelos de arquitetura cognitiva, investigada no que se refere percepo visual de

1. O experimento de rastreamento ocular de imagens

O processamento visual de cenas delimitado pelas propriedades neuro-anatmicas do

Figura 1 Fvea e campo visual

a) Propriedades do estmulo (casal, co, nada)

Figura 2 - Propriedades do estmulo: casal [+animado,+humano]

Figura 3 Propriedades do estmulo: co [+animado, -humano]

Figura 4 Propriedades do estmulo: nada [-animado, -humano]

A varivel independente (b), ttulo prvio, consistia na apresentao por cinco

Figura 5 Regies de interesse para as medidas on-line

Como se pode ver na Figura 5, as regies de interesse eram a regio onde se

apresentados. Utilizou-se um descanso de queixo e um clipe nasal para minimizar os

Figura 6 Aparato experimental

Figura 7 Ilustrao do processo de threshold

1.2. Resultados e discusso

1.2.1. Figura sem elementos [+humano] ou [+animado]

Apresenta-se inicialmente o conjunto de resultados para as medidas relativas Figura

1.2.1.1. Tempos totais de fixao

Observe-se que, quando no esto presentes na imagem o casal ou o co, os tempos

1.2.1.2. Percentual de movimentos sacdicos iniciais

A medida relativa aos ndices de movimentos sacdicos iniciais consistente com os

Figura 9 Rastreamento ocular na condio com ttulo Casa na colina

1.2.1.3. Percentual de referncias na reportagem final

Medem-se, aqui, os ndices percentuais de referncias feitas casa e s pedras no

1.2.2. Figura com o elemento co [-humano] e [+animado]

1.2.2.1. Tempos totais de fixao

Os tempos totais de fixao nas trs regies de interesse no diferem

1.2.2.2. Percentual de movimentos sacdicos iniciais

Nesta medida, pode-se observar que, de modo semelhante, na imagem em que no

1.2.2.3. Percentual de referncias na reportagem final

Na condio sem ttulo prvio, o co e a casa so sempre mencionados, enquanto as

1.2.3. Figura com elemento casal [+humano] e [+animado]

1.2.3.1. Tempos totais de fixao

Na condio sem ttulo, os tempos totais de fixao na regio do casal so

1.2.3.2. Percentual de movimentos sacdicos iniciais

interessante ainda observar que a presena do casal no input um atrator bottom-up

Figura 13 Rastreamento em condio sem ttulo com casal direita da imagem

1.2.3.3. Percentual de referncias na reportagem final

Nesta condio, a referncia ao casal feita em 100% das reportagens finais,

Com base nos resultados apresentados e discutidos acima, conclui-se que:

1. A explorao visual das propriedades fsicas de uma imagem (computao

2. No parece haver uma relao determinstica entre a informao top-down e o

3. Efeitos top-down se instanciam mais claramente em medidas off-line do que

4. O desenvolvimento de arquiteturas cognitivas que modelem a integrao de

Key-words: Psycholinguistics; Eye-movements in scene viewing; Top-down and bottom-up effects.

BUSWELL, G. T. How People look at pictures. Chicago: University of Chicago Press,

Você também pode gostar