Escolar Documentos
Profissional Documentos
Cultura Documentos
RESUMO: O artigo reporta experimento de monitoramento ocular de imagens em que 27 sujeitos foram
expostos durante 10 segundos a verses de imagem que continham, respectivamente, elementos [-animado -
humano], [+animado - humano] ou [+ animado + humano]. Cada verso podia ser precedida ou no de
informao escrita presente na tela por 5 segundos, indicando o tema da imagem. Cada sujeito reportava, ento,
o que havia visto, registrando-se fixaes e movimentos sacdicos (medidas on-line), bem como a reportagem
final (medida off-line), concluindo-se que os tpicos previamente apresentados (efeito top-down), embora
influenciem a medida off-line, no sobrepujam os traos estruturais salientes (bottom-up), na varredura on-line.
Introduo
Os estudos de rastreamento ocular (eye-tracking) tiveram seu incio, como relatam Just
& Carpenter (1976), com a pesquisa especificamente voltada para a leitura. Em 1878, o
oftalmologista francs Louis Javal reporta estudo em que observou a olho nu crianas lendo
textos, concluindo que seus olhos no pareciam mover-se continuamente ao longo das linhas,
mas faziam uma srie de pausas separadas entre si por pequenos saltos. Esses movimentos,
que chegam a atingir velocidades altssimas de at 700 graus por segundo (cf. CARPENTER,
1988), so denominados de sacadas, alternando-se com momentos de pausa, com durao
mdia de 200-250 ms, denominados fixaes. Muito embora as primeiras pesquisas tenham se
orientado para a investigao dos movimentos sacdicos, mais do que para a anlise das
fixaes, descobriu-se, posteriormente, o fenmeno conhecido como supresso sacdica (cf.
IRWIN, 2004) em que o fluxo de informao visual interrompido durante o movimento
sacdico. Os estudos tendem, ento, a concentrarem-se na durao das fixaes, tomando-se,
entretanto, a localizao dos movimentos sacdicos progressivos ou regressivos como ndice
importante dos processos atencionais na leitura.
O estudo da percepo visual de cenas remonta, conforme revisto em Henderson &
Ferreira (2004), ao trabalho de Buswell (1935), que apresenta resultados de experimentos em
que, utilizando equipamento engenhoso, que registrava em filme fotogrfico a luz refletida na
crnea de sujeitos observando cenas atravs das ps de um ventilador, pde determinar a
direo e a durao das fixaes. Buswell conclui que as fixaes no eram distribudas
aleatoriamente nas 55 fotografias que apresentou a 200 sujeitos, mas tendiam a agrupar-se em
regies informativas das cenas, relacionando, pioneiramente, os movimentos e fixaes
oculares a processos atencionais. Alm de monitorar o olhar de sujeitos vendo cenas
livremente, Buswell tambm fez algumas manipulaes assistemticas do que ele chamou de
mental set dos sujeitos ao olhar as fotografias, concluindo que as instrues experimentais
ou a leitura de um pargrafo de texto previamente apresentao das imagens poderia
influenciar significativamente como as pessoas olhavam as imagens. O psiclogo russo Alfred
*
maiamarcus@gmail.com
8
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 08-23 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
Yarbus tambm reporta, em livro de 1967, uma srie de estudos de monitoramento ocular, em
que estabeleceu, em concordncia com Buswell (1935), que os padres de inspeo visual de
cenas dependem tanto de propriedades informativas do estmulo quanto das tarefas e objetivos
prvios do observador.
A literatura sobre a ateno visual parece concordar, portanto, desde h muito tempo,
que dois processos complementares atuam na inspeo ocular de cenas: um mecanismo
bottom-up, guiado por propriedades intrnsecas do estmulo e um mecanismo top-down,
relacionado a fatores tais como a disposio interpretativa aos objetivos prvios do
observador. No h controvrsia importante na literatura sobre a existncia desta
determinao dual bottom-up/top-down na cognio visual de imagens. A questo relevante
na pesquisa contempornea passa a ser, conforme apontam Henderson & Ferreira (2004), de
um lado, a determinao especfica das propriedades do estmulo, que constitui a abordagem
conhecida como saliency map, em que se procura identificar, com preciso, que regies do
estmulo visual seriam proeminentes, explicitando suas diferenas em termos de dimenses
tais como cor, intensidade, contraste, simetria, contorno, orientao etc. De outro lado, um
desafio para a pesquisa tem sido o de estabelecer como os fatores top-down podem ser
incorporados em um modelo completo de cognio visual. Trata-se de uma questo
relacionada, entre outras coisas, ao curso temporal de atuao dos fatores bottom-up e top-
down e de sua integrao em uma arquitetura da cognio. Nesse sentido, Long & Olszweski
(1999), Henderson et alii (1999) estudaram comparativamente o papel de fatores bottom-up
(propriedades do estmulo) e de fatores top-down (contextualizao prvia) na explorao de
imagens, concluindo que as pistas bottom-up parecem ser mais influentes do que as pistas top-
down. Em uma avaliao ampla da questo, Henderson & Ferreira (2004) questionam se um
progresso substancial nesta rea poderia ser feito, no entanto, caso no se estabelea mais
claramente, por exemplo, se nos movimentos sacdicos iniciais na explorao de uma cena j
se pode observar efeitos de informao sobre a chamada global scene gist ou tpico global
da cena, no sentido de que os primeiros movimentos sacdicos e fixaes j seriam
conduzidos de forma top-down.
O presente estudo procura investigar, exatamente, o curso temporal do acesso a
informaes bottom-up e top-down na percepo visual de cenas estticas. A questo do curso
temporal do acesso a diferentes informaes cognitivas tem sido um tema recorrente na
pesquisa que temos desenvolvido no Laboratrio de Psicolingstica Experimental (LAPEX-
UFRJ/CNPq) sobre a compreenso de frases em portugus. Em Maia, Faria, Buarque &
Alcntara (2003) reportam-se resultados comparativos entre dados oriundos de questionrios
(off-line) e dados obtidos atravs de leitura auto-monitorada (on-line) de frases apresentando
trs diferentes tipos de ambiguidade estrutural, concluindo que os estudos off-line
apresentaram maior sensibilidade a efeitos semnticos e pragmticos, enquanto que os
resultados dos estudos on-line parecem sugerir que estes fatores no estariam imediatamente
disponveis ao processador sinttico, diferentemente das informaes estritamente estruturais
que seriam acessadas rapidamente. Tambm em Maia, Fernndez, Costa & Loureno-Gomes
(2007) comparamos dados on-line e off-line na leitura auto-monitorada de frases contendo
oraes relativas apostas a SN complexos, concluindo que a informao relativa ao
comprimento da orao relativa atuante apenas na medida off-line, no influenciando a
medida on-line. No estudo que reportamos a seguir esta questo sobre o papel de fatores
estruturais vis vis o papel de fatores mais gerais, fundamental para o desenvolvimento de
9
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
Para aproveitamento pleno do input foveal de alta qualidade, nas tarefas vsuo-
cognitivas complexas, como a leitura e a visualizao de cenas, necessrio que a fixao
foveal se desloque constantemente, em mdia trs vezes por segundo, embora haja grande
variabilidade de ndices de fixao na visualizao de imagens, como reporta Henderson
(2003). Alm dos pontos de fixao foveal, outro parmetro importante para a anlise dos
padres de visualizao de cenas a direo dos movimentos sacdicos. Ao contrrio do que
se tem observado na leitura, na visualizao de imagens no se pode estabelecer uma
assimetria da fixao foveal e nem no padro de movimentao sacdica. Na leitura, cada
fixao captura cerca de 2/3 de informao direita e 1/3 esquerda, nos leitores de lnguas
com escrita da esquerda para a direita (RAYNER, WELL & POLLATSEK, 1980). Em
leitores de hebraico, que se escreve da direita para a esquerda, a assimetria revertida
(POLLATSEK, BOLOZKY, WELL & RAYNER, 1981). Na explorao visual de imagens
tal assimetria no observada. Como revisamos na introduo deste artigo, a varredura de
10
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
cenas determinada de forma dual por propriedades do estmulo e tambm por fatores do tipo
top-down. Tarefas de categorizao imediata de cenas tm estabelecido um limiar de 20 ms
de exposio para a categorizao de cenas em termos de hipernimos com ndice de acerto
maior do que 90% e tempos de deciso mdios abaixo de 400 ms (VAN RULLEN &
THORPE, 2001), indicando que as primeiras fixaes j permitem uma caracterizao bsica
da cena.
O presente experimento tem como principal objetivo verificar a interao entre
propriedades intrnsecas (fatores bottom-up) de uma imagem e a existncia ou no de um
tpico apresentado previamente exibio da imagem (fatores top-down). De modo mais
especfico, examinamos se a existncia de um ttulo anterior visualizao da imagem
capaz de influenciar a sua explorao visual atravs do padro de movimentos sacdicos e de
fixaes (medida on-line) e de reportagem final sobre o contedo da imagem, aps a sua
visualizao (medida off-line), procurando, portanto discriminar o curso cronolgico dos
fatores bottom-up e top-down. As variveis independentes do experimento so:
O design experimental cruzava os trs nveis do fator (a) com os trs nveis do fator
(b), produzindo nove condies experimentais, cada uma das quais testada em trs sujeitos,
totalizando 27 sujeitos (9x3). A imagem utilizada para apresentao aos sujeitos por lapso de
tempo pr-fixado em dez segundos foi o quadro Idlio de Tarsila do Amaral, tendo-se
manipulado a imagem com o programa Photoshop, para gerar os trs nveis da varivel
independente (a), ilustrados abaixo:
11
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
12
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
1.1. Mtodo
Participantes
Participaram do experimento, como voluntrios, 27 alunos de graduao, cursando a
disciplina Psicolingustica, no quarto perodo do curso de Fonoaudiologia da UFRJ, no
primeiro semestre de 2008, todos do sexo feminino, com idade mdia de 20 anos, com viso
normal, sem uso de culos ou lente de contato.
Material
Manipulou-se com o programa Photoshop a imagem Idlio de Tarsila do Amaral,
produzindo-se as trs cenas correspondentes varivel independente (a), propriedade do
estmulo, ilustradas nas figuras 2, 3 e 4, que eram precedidas por uma das telas
correspondentes aos nveis da varivel independente (b), ttulo prvio, a saber, pedras no
riacho, casa na colina ou tela em branco. As telas relativas varivel (a) permaneciam por
10 segundos para observao dos sujeitos e eram precedidas pelas telas relativas varivel (b)
que permaneciam por 5 segundos para observao. Cada uma das 9 condies experimentais
geradas pelo cruzamento das duas variveis independentes foi testada em trs sujeitos,
totalizando 27 sujeitos.
O aparato experimental consistiu no equipamento Arrington View Point Quick Clamp
Eye-Tracker, um sistema que monitora o olho direito, com base em informaes obtidas
atravs do movimento da pupila e do reflexo da crnea, com resoluo temporal de 30 Hz. As
telas foram apresentadas em monitor de 17 polegadas, que se encontrava a distncia de 60 cm
dos olhos dos sujeitos. Observe-se que o programa que controla o rastreador acessado em
monitor de 17 polegadas, distinto do monitor em que os estmulos experimentais so
13
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
Procedimento
Os participantes foram testados individualmente na sala do LAPEX, na qual o aparato
encontra-se instalado. Inicialmente, o experimentador orientava cada participante,
esclarecendo que a tarefa consistia na visualizao de duas telas, a primeira das quais
permaneceria por 5 segundos no monitor, enquanto que a segunda permaneceria por dez
segundos. Solicitava-se que o participante observasse atentamente a imagem na segunda tela,
de modo que, logo aps o encerramento do experimento, que era assinalado por uma tela com
a palavra FIM, o participante utilizasse a folha e a caneta na mesa ao lado para redigir um
pargrafo descrevendo a imagem que acabara de ver.
Em seguida, o sujeito era acomodado na estrutura do rastreador, ajustando-se o aparato
de acordo com a sua altura e caractersticas fsicas. Fazia-se, nesse momento, o ajuste
denominado de threshold, utilizando-se o monitor de controle, enquanto o sujeito
visualizava um ponto fixo na tela do seu monitor, garantindo-se que o foco da micro-cmera
tenha capturado a pupila do sujeito, conforme indicado na Figura 7, que ilustra a imagem do
monitor de controle enquanto o sujeito fixa seu olhar em um ponto central do seu monitor. Ao
final desta etapa solicitava-se ao participante que fixasse seu olhar nos quatro cantos da tela
do seu monitor, alternadamente, observando-se, no monitor de controle, que a sua pupila
continuava envolta pelo crculo amarelo, indicando sua captura.
14
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
Tinha, ento, incio o processo conhecido como calibrao, durante o qual o programa
do rastreador era ajustado s caractersticas de movimentao ocular de cada sujeito. A
calibrao consiste na observao de pontos que surgem aleatoriamente em diferentes regies
da tela e que devem ser fixados pelo sujeito at que desapaream. Imediatamente aps o
desaparecimento de um ponto, um outro ponto surge na tela, devendo ser imediatamente
observado pelo sujeito que deve, novamente, manter seu olhar fixo at que o ponto
desaparea. Aps a calibrao, o experimentador indicava que o experimento iria, de fato,
comear. Aps a apresentao das duas telas experimentais (5 segundos para a primeira tela e
10 segundos para a segunda tela, que continha a imagem), uma tela com a palavra FIM era
apresentada, devendo, ento o sujeito afastar-se do equipamento e redigir o pargrafo de
reportagem do contedo da imagem, conforme a instruo prvia. De modo geral, a durao
total de cada sesso foi de aproximadamente 10 minutos.
15
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
Figura 8- Resultados das medidas on-line e off-line relativas figura sem o casal e sem o co
16
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
17
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
Apresentamos abaixo as tabelas com os resultados obtidos nas trs medidas quando a
figura apresentava o co. Em comparao com as medidas reportadas para a condio em que
a figura no exibia nem o co e nem o humano, que permitiram estabelecer a existncia de
efeito top-down resultante da ao do ttulo prvio visualizao da imagem, pode-se
observar, agora, que a introduo do elemento co j dificulta que este efeito se instancie de
modo to claro. De modo geral, nas trs medidas, observe-se que, agora, apenas o ttulo Casa
na colina, relacionado a trao [+humano], apresenta efeitos significativos. O ttulo Pedras
no riacho, por outro lado, tem seu efeito reduzido em funo da presena do co na imagem.
Figura 10- Resultados das medidas on-line e off-line relativas figura com o co
18
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
qualquer ttulo prvio. A comparao dois a dois revela falta de significncia tanto quando se
comparam os tempos totais de fixao entre o co e as pedras (t=0,06, p=0,95), quanto entre o
co e a casa (t=0,45, p=0,65) e entre as pedras e a casa (t=0,38, p=0,70). Na condio em que
o ttulo Pedras no riacho , ao contrrio do que se observou na seo 1.2.1.1, em que h
efeito deste ttulo sobre os tempos de fixao na imagem que no apresenta nem o co e nem
o humano, agora j no h efeito top-down significativo deste ttulo sobre os tempos de
fixao nas trs regies de interesse. O co e as pedras recebem fixaes que no permitem
rejeitar a hiptese nula (t=0,79, p=0,43). Igualmente no h significncia na diferena de
tempos totais de fixao entre o co e a casa (t=0,36, p=0,71) ou entre as pedras e a casa
(t=0,42, p=0,67). Quando o ttulo Casa na colina, tambm no se obtm significncia na
comparao entre os tempos totais de fixao recebidos pelo co e as pedras (t=0,12, p=0,89)
ou quando se compara as pedras e a casa (t=1,58, p=0,12). Significncia s obtida quando se
comparam os tempos do co com a casa, onde o ttulo efetivamente impe maiores tempos de
fixao na regio da casa (t=2,68, p=0,01).
19
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
Nesta seo apresentam-se os resultados das trs medidas quando a imagem exibida
inclui o casal. Nessa condio fica patente o efeito do trao [+humano] no mapa de elementos
salientes do input em todas as medidas. O desbalanceamento do efeito top-down observado na
condio da imagem sem o casal e sem o co reportado na seo 1.2.1, que j pde ser notado
na condio da imagem com o co (seo 1.2.2), agora claramente instanciado na condio
da imagem com o casal. Nessa condio, o efeito bottom-up do input patente nas trs
medidas, com prejuzo significativo para o efeito top-down, ao menos nas duas medidas on-
line.
Figura 11- Resultados das medidas on-line e off-line relativas figura com o casal
20
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
p=0,01) e na regio da casa (t= 2,8, p=0,008). Os tempos de fixao no diferem quando se
comparam as pedras com a casa (t=0,17, p=0,87). Na condio em que o ttulo Pedras no
riacho, as pedras j no recebem fixaes significativamente maiores nem em relao ao
casal (t=1,44, p=0,16) e nem em relao casa (t=1,23, p=0,23), diferentemente do observado
na condio em que a imagem no exibia nem o casal e nem o co (1.2.1.1), em que os
tempos de fixao na regio de interesse relativa s pedras foram significativamente maiores
do que os tempos de fixao na regio da casa na colina, por fora do ttulo Pedras no
riacho. Agora, o efeito top-down do ttulo completamente anulado pelo efeito bottom-up
representado pela presena do casal no mapa de elementos salientes do input. Tambm
quando o ttulo A casa na colina o efeito top-down do ttulo no se instancia nem em
relao ao casal (t=0,75, p=0,45) e nem em relao s pedras (t=0,064, p=0,99). Note-se que o
efeito top-down do ttulo Pedras no riacho no ocorre mesmo em uma comparao com os
tempos de fixao na regio das pedras na condio sem ttulo (t=2,007, p=0,054).
No que se refere aos movimentos sacdicos iniciais, a presena do casal no input atrai
sempre de forma consistente as primeiras sacadas, que nunca so dirigidas para as demais
regies de interesse, quer na condio sem ttulo, quer nas condies em que os ttulos fazem
referncia s pedras ou casa. O padro de movimento sacdico inicial em direo ao casal,
ilustrado na figura 12, comprova nesta medida o predomnio do efeito bottom-up sobre o top-
down.
Figura 12 Rastreamento na condio com ttulo Pedras no riacho e imagem com o casal.
21
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
Concluses
22
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243
ABSTRACT: This article reports an eye-tracking experiment in which 27 subjects were exposed during 10
seconds to versions of an image which contained either a [- animate human], a [+animate - human] or a
[+animate +human] element. Each version could be preceded or not by written information which remained on
the screen during 5 seconds, indicating the topic of the image. Fixation times and saccadic movements (on-line
measures) were registered and subjects were also asked to write a one-paragraph report (off-line measure)
immediately after viewing the scene. Based on the results obtained it is suggested that the previously presented
topics (top-down effect) may influence the off-line measure, but cannot override the bottom-up computation of
salient elements in the input in the on-line measures.
Referncias
23
VEREDAS ON-LINE PSICOLINGUSTICA 2/2008, P. 01-07 PPG LINGSTICA/UFJF JUIZ DE FORA - ISSN 1982-2243