Você está na página 1de 26

Detección de regiones de interés visual mediante Análisis Espectral

Local de la imagen.

José Antonio Aznar-Casanova


Depto. de Psicología Básica
Facultad de Psicología
Universidad de Barcelona (Spain)

Dirigir la correspondencia a:

Dr. J.A. Aznar Casanova


Depto. de Psicología Básica
Facultad de Psicología
Universidad de Barcelona
Passeig de la Vall d'Hebron, 171.
08035-Barcelona (Spain)

Tfno.: +34 93 3125145


Fax: +34 93 4021363
e-mail: jaznar2@ub.edu

Citacion como:
Aznar-Casanova, J.A. (2001). Detección de regiones de interés visual mediante Análisis
Espectral Local de la imagen. Cognitiva, 13 (1), 75-96.
Resumen
La noción de mapa, entendida como correspondencia biunívoca entre dos niveles de
representación en el SV, nos lleva a plantear la cuestión de cómo puede utilizar la visión estos
mapas (que incluyen las representaciones distribuidas) para procesar la información de la
imagen. Para ello, fijamos dos objetivos.
Por un lado, analizar la retina cortical, un mapa ubicado en el córtex estriado, que sirve de
soporte a una importante representación conjunta espacio-espectral. Para generar esta
representación concebimos un modelo, simplificado, compuesto por cuatro láminas de
frecuencia espacial y cuatro canales de orientación, el cual produce dicha representación
mediante Análisis espectral local. Por otro lado, proponemos otro modelo que permite la
detección automática de regiones de interés visual. Este se fundamenta en la hipótesis de que las
respuestas a los filtros lineales locales aplicados a la imagen, y almacenadas en la retina cortical,
señalan las regiones que más destacan en la imagen acromática, produciendo, así, un grupo
perceptivo. Complementariamente, verificamos si aquellas regiones que 'perduran' en las
diferentes escalas coinciden con las de mayor saliencia visual.

Palabras clave: Representaciones conjuntas, Funciones de Gabor, Análisis espectral local 2D,
Retina cortical, Regiones de interés visual.

Abstract
We understand the term map as one-to-one correspondence between two representation levels in
the Visual System (VS). This notion lead us to outline the question about how the VS can use
such map (which include distributed representations) for the image processing. In order to
achieve this goal we fix two objectives. On the one, to analyse the cortical retinae, a map
located in the striate cortex that contains an important joint space/spectral representation, we
have elaborated a simplified model to obtain this joint representation, which is composed by
layers of cells tuned to different spatial frequencies and for columns tuned to different
orienttions. The joint representation is generated by applying Local Spectral Analysis to an
image. On the other, we proposed a new model that allow us to detect, automatically, interesting
regions in the image. It is based in the following hypothesis: the outputs of linear and local
filters applied to the image, and stored in the cortical retinae, indicate the more highlight regions
of achromatic images, producing a perceptual grouping. In addiction, we suggest that those
regions, 'survival' through different scales, coincide with the most prominent regions in the
image.

Keywords: Joint space-spatial frequency representations, Gabor's functions; Local 2D spectral


analysis, Cortical retinae, Interesting regions.

2
INTRODUCCION
En el procesamiento visual, el cerebro humano, parece operar en un sistema tetradimensional
(4D), en el que tres coordenadas (x, y, z) son espaciales y la otra (t) temporal. Estas cuatro
coordenadas proporcionan tanto la localización de un evento en el espacio (x0, y0, z0) como en el
tiempo (instante t0).
La estructura anatómica e histológica cerebral parece revelar que en la construcción y
arquitectura de este órgano se le ha concedido una importancia capital a la ubicación espacial,
por lo que la neurofisiología cerebral comienza a parecerse a una cartografía, que requiere de
una topografía que describa y represente detalladamente los diversos mapas cerebrales. Una
prueba de ello sería el homúnculo motórico que Penfield y Rasmusen propusieron en los años
cuarenta, como resultados de la estimulación eléctrica de la superficie de la corteza cerebral en
sujetos humanos. Recuérdese que en esta representación cortical de la motricidad, los dedos,
pies (o manos) y piernas (o brazos), así como la disposición de los rasgos del rostro, etc, se
hallan en igual continuidad espacial que lo representado. También es preciso observar que, en el
esquema del homúnculo motórico, se representa el tamaño de una parte del cuerpo de modo
proporcional a la extensión de la corteza motora cerebral implicada en el procesamiento
(control) de estas partes y que dicha representación distorsiona el tamaño real de tales partes, de
modo que, por ejemplo, el dedo pulgar o la lengua ocupan mayor superficie cerebral que la
pierna o el brazo.
Otra prueba, bien conocida, de la importancia del orden espacial en el cerebro la constituye el
mapa tonotópico ubicado en la corteza auditiva primaria, cuyas neuronas se distribuyen según la
frecuencia temporal o tonalidad preferente, análogamente a la distribución de las células ciliares
de la membrana basilar de la cóclea (sensores).
En la modalidad visual, Blakemore (1990) sostiene la tesis de que al cerebro le es útil mantener
ciertas ordenaciones espaciales. Este autor señala que el cerebro utiliza dos tipos de 'mapeo'
(mapping), los denominados mapas isomórficos, que se basan en el criterio de mantener en el
córtex la misma disposición espacial de las células fotorreceptoras retinianas y los mapas
anisomórficos, que se basan en el criterio de preservar la misma disposición de los rasgos (por
ejem., la orientación) que existe en el mundo exterior. Es importante destacar la idea de que, en
este último tipo de mapa se establece una relación entre la distribución ordenada de un área
cerebral (localizacionismo) y ciertas características relevantes del estímulo, por ejemplo, la
orientación. Mientras que, en los mapas isomórficos se relaciona la distribución de los sensores
(o sus fibras nerviosas asociadas) y un área cortical.
Ahora bien, aquí, el problema principal radica en descubrir cómo el cerebro utiliza esta
cartografía. Barlow (1981, 1985) formuló los principios en los que parece fundamentarse tal
cartografía. Para él los mapas son útiles porque permiten establecer nuevas asociaciones que
puedan revelar propiedades interesantes de la imagen. Por ejemplo, agrupar todos los objetos

3
rojos de la imagen, o todos los rostros humanos, quizás para, después, focalizar la atención
sobre ellos.
Blakemore (1990) ha destacado ciertas ventajas que el cerebro obtiene con el uso de estos
mapas. Primero, mantener la misma relación topográfica facilita operaciones de cálculo local
sobre regiones vecinas que interaccionan sumando o restando los impulsos excitatorios o
inhibitorios, respectivamente. Segundo, conservar la topografía en dos localizaciones distintas
simplifica el problema de mantener el paralelismo entre la distribución sensorial y otras
representaciones que explicitan nueva información. Tercero, y finalmente, la topografía supone
una economía genética, en cuanto que reduce el número de cromosomas implicados en
especificar las instrucciones necesarias para construir el cerebro.
También, Zeki (1981) se preguntó por qué la evolución del cerebro ha recurrido a juntar en una
misma área células con propiedades comunes y basó su explicación en la necesidad de la
especialización cerebral para procesar atributos diferentes de la escena visual (forma, color,
movimiento, etc.). En otros términos, algoritmos diferentes requieren mecanismos diferentes,
ubicados en áreas diferentes. Probablemente, Zeki (1995) es uno de los investigadores que con
mayor convicción defiende la presencia de representaciones topográficas (mapas) de las
funciones visuales en el cerebro. Por su pertinencia, en relación con nuestro objetivo,
destacamos el reconocimiento de la existencia de la llamada retina cortical (Henschen, 1910),
en cuanto afirma: "tenemos un mapa de la superficie retiniana en la corteza de V1, es decir, una
correspondencia entre ambas" (pág. 183). Y: "En la corteza estriada el mapa de la retina se
constituye de la siguiente manera ..." (pág. 49).
En este trabajo, en primer lugar, nos proponemos modelar uno de los mapas cerebrales
anisomórficos más relevantes, la llamada retina cortical, haciendo uso de una representación
conjunta espacio-frecuencia espacial. Es decir, una representación de la imagen en el área visual
primaria, que contiene información sobre la localización espacial de los centros de los campos
receptores (CR) retinianos, en cuyo mosaico se proyecta la imagen observada y en la que, a cada
uno de esos CR (pequeños trozos de la imagen) se les asocia (en una cierta escala) el espectro de
amplitud local (o rango de frecuencias espaciales dispuestas en ciertas orientaciones). En
segundo lugar, postulamos un modelo de bajo nivel, que detecta automáticamente (sin
supervisión humana) regiones interesantes de la imagen. Este modelo se fundamenta en la
hipótesis de que las regiones de mayor saliencia visual (las más llamativas) son aquellas
regiones de la imagen centradas en los puntos donde las respuestas a los filtros es máxima. Es
decir, el modelo detecta aquellas porciones de la imagen a las que una hipotética población de
células simples, componentes de la retina cortical, responderían con una mayor tasa de descarga
neuronal.
El trabajo se estructura en cuatro secciones, en la primera se revisan las principales evidencias
fisiológicas y psicofísicas que dan soporte empírico a ese mapa cerebral visual conocido como

4
retina cortical. En la segunda sección, mostramos un posible modelo computacional de retina
cortical, describiéndose el algoritmo que se aplica en este modelo para producir una
representación conjunta espacio-espectral, es decir, una posible implementación del Análisis
espectral local. En la tercera sección, proponemos un modelo que permite detectar regiones de
interés visual, seleccionando aquellas áreas de la imagen de mayor saliencia en cuanto a
contraste físico de la luminancia y lo aplicamos a dos diferentes tipos de imágenes. Finalmente,
como conclusión, valoramos los resultados experimentales obtenidos en las simulaciones
computacionales.

1. CARTOGRAFIA CEREBRAL Y MAPAS RETINOTOPICOS


Se dice que un mapa es topográfico cuando a regiones adyacentes del objeto real le
corresponden las mismas regiones adyacentes en la representación. Hoy, sabemos que tanto el
NGL izquierdo como el derecho está compuesto de seis capas de células apiladas de modo
curvado o doblado, como se muestra en la Figura 1-izquierda. Así como que las células de las
capas 1 y 2 son más grandes (sistema magnocelular) que las capas 3, 4, 5 y 6 (sistema
parvocelular). También es conocido que, al salir del Quiasma óptico, las fibras contralterales del
Tracto óptico sinaptan solamente con las células de las capas 1, 4 y 6; mientras que las fibras
ipsilaterales contactan sólo son las capas 2, 3 y 5. De este modo, los dos NGL contienen
información de ambos ojos.
FIGURA 1.- Izquierda: esquema
de la disposición ordenada de las
capas del NGL ubicado en el
hemisferio cerebral derecho.
Derecha: esquema que relaciona
las conexiones entre las fibras
ipsilaterales y contralaterales del
NGL derecho, mostrando el
mapping de la retina al NGL.
También ilustra la disposición de
las capas, sugiriendo como puede
representarse la información en
este núcleo talámico, de modo que
contenga un análisis de la imagen
multiescala. Adaptado de Sekuler
(1990), figuras 4.4 y 4.5.

Puede afirmarse que cada una de las capas de células del NGL contiene una representación
espacial ordenada o mapa de la retina (Sekuler y Blake, 1990). Y puesto que cada mapa del

5
NGL mantiene la topografía de la retina, podemos denominarlos con propiedad como mapas
retinotópicos. La Figura 1-derecha es un esquema que muestra la disposición de estos seis
mapas. En ella se ilustra la idea de que las regiones homólogas de cada uno de estos mapas
están alineadas entre sí, de modo que, por ejemplo, las regiones foveales (A y A') están situadas
en la misma columna.
Daniel y Whitteridge (1961) mostraron un mapping (isomórfico) entre el campo visual y la
corteza visual primaria del mono rhesus. En la Figura 2, puede observarse una vista lateral
posterior del córtex de este primate, sobre cuya corteza estriada se ha sobreimpresionado la
topografía del campo visual, evidenciándose la correspondencia existente entre diversas
excentricidades retinianas (entre 0º y 8º) y las regiones corticales asociadas organizadas en
columnas y filas.

FIGURA 2.- Esquema del


hemisferio cerebral izquierdo de
un mono Rhesus. La línea con la
etiqueta "horizontal" señala la
localización cerebral en la que se
proyecta el meridiano horizonte
del lado derecho del capo visual.
La línea con la etiqueta "vertical"
señala la proyección del
meridiano vertical del capo
visual. Los números expresan, en
grados sexagesimales, las áreas
cerebrales cubiertas por las
distintas excentricidades retiniana
(campo visual). Tomado de Barlow (1990), figura 1.4.

Adviértase que este mapping, al igual que ocurre con la densidad de conos en las diferentes
regiones de la retina, a determinadas áreas del espacio retinotópico les corresponden áreas que
disminuyen en extensión conforme crece la excentricidad. Este sobredimensionamiento de la
representación de ciertas partes del cuerpo sigue la regla de que a mayor número de sensores en
una parte del cuerpo le corresponde una mayor superficie cerebral. También se constata la
llamada magnificación de la representación foveal (Hubel y Wiesel, 1974). Según Drasdo
(1977), alrededor del 80% de las células del córtex visual se dedican a representar
excentricidades comprendidas entre 0º y 10º del campo visual. No obstante, a pesar de esta
distorsión espacial, conocida la localización retiniana de un estímulo puntual es posible predecir
con exactitud topológica la célula cortical del mono rhesus que resultará excitada.

6
Hubel y Wiesel (1962) descubrieron tres tipos de células en el córtex visual del gato, a las que
denominaron células simples, complejas e hipercomplejas, y que estaban implicadas en el
procesamiento espacial o percepción de la forma. También desvelaron la arquitectura fisiológica
de la corteza estriada del macaco, cuyas células mostraban una disposición en columnas de
orientación de 0,5 mm de diámetro. En otras palabras, las células dispuestas en una misma
columna mostraban la misma preferencia en orientación, por lo que respondían de modo
máximo ante una barra estática iluminada con una específica inclinación (Hubel y Wiesel; 1968,
1977). La Figura 3 consiste en una adaptación, que hemos elaborado, a partir de otra figura
original de Maffei (1978), concretamente la figura 13. En ella hemos tratado de esquematizar
dos hipercolumnas que recubren una superficie aproximada de 2 mm2 de córtex visual. El
bloque está constituido por una serie de prismas de base cuadrangular que representan las
columnas de orientación. De acuerdo con ello, hemos dibujado sobre la cara frontal trazos con
distintas inclinaciones, señalando la orientación de sintonía de la columna dispuesta debajo de
ella. En la cara inferior del bloque se han dibujado estímulos de enrejado de diferentes
frecuencias espaciales (altas, medias y bajas). Junto a esta organización en columnas de
orientación coexiste otro sistema de organización columnar, las denominadas columnas de
dominancia ocular, y otro sistema de organización laminar, a las que Maffei y Fiorentini (1977)
se refienen como láminas de frecuencia espacial, dispuestas ortogonalmente a las columnas de
orientación y dominancia ocular.
Una 'columna de dominancia ocular' está constituida por varios campos receptores, asociados
de modo preferente a un solo ojo, teniendo en común un cierto solapamiento entre estas
regiones retinianas. Diferentes columnas de dominancia ocular tienen sus campos receptores
disjuntos (Hubel y Wiesel, 1977).
Una 'lámina de frecuencia espacial' está compuesta por células simples, cuyas frecuencias
espaciales de sintonía son, aproximadamente, las mismas. La Figura 3 ilustra una posible
disposición espacial del sistema de columnas de orientación respecto al sistema de láminas de
frecuencia espacial, similar al concebido por Maffei (1978), aunque hasta el momento actual se
desconoce la verdadera posición relativa entre estos tres sistemas.

7
FIGURA 3.- Esquema
simplificado de un módulo, que
cubriría unos 2 mm2 del cortex
visual primario. Cada columna
de orientación responde,
preferentemente, a una orienta-
ción representada mediante una
línea inclinada en la cara frontal
del bloque. Cada capa laminar
está sintonizada, óptimamente, a
la frecuencia espacial represen-
tada en la base inferior del
bloque. Adaptado de Maffei
(1978), figura 13.

Parece ser que a cada campo receptor del espacio retiniano le corresponde un área de
aproximadamente 2 mm2 en el córtex visual (Hubel, 1982), a la que se denomina campo
asociado, el cual cubre un rango de orientaciones de 180º y una columna de dominancia ocular.
Esta unidad funcional es conocida como hipercolumna (Hubel, 1982). Dos hipercolumnas de
dominancia ocular, que incluyen varias columnas de orientación forman un módulo visual.
Nuestro modelo de retina cortical trata de mimetizar, de modo altamente simplificado, una
hipercolumna de dominancia ocular, es decir, un conjunto de cuatro columnas de orientación,
que responden de modo óptimo cuando los rasgos están orientados a 0º, 45º, 90º y 135º, y
también incluye cuatro láminas sintonizadas a las frecuencias espaciales 1/16, 1/8, 1/4 y 1/2
ciclos/imagen.

2. UN MODELO COMPUTACIONAL DE RETINA CORTICAL


Un mapa isomórfico de la retina representado en el córtex visual, que preserve la topografía de
los fotorreceptores, enfatiza la magnificación cortical, una reconstrucción de la señal 2D que
posibilita la hiperagudeza (Fähle y Poggio, 1981). Sin embargo, el procesamiento espacial de la
imagen también requiere de mapas anisomórficos, probablemente y como señala Barlow (1990)
anidados dentro de los mapas isomórficos. Así lo sugiere la arquitectura fisiológica del córtex
visual desvelada por los neurofisiólogos y los mecanismos psicofísicos mostrados por los
psicólogos. Nuestro modelo pretende emular uno de estos mapas anisomórficos que establecen
una triple ordenación, tanto en función de la frecuencia espacial (tamaño o escala de los rasgos)

8
como en función de la orientación de los mismos y también de la localización espacial de esos
rasgos. Es decir un modelo simplificado que genere una representación conjunta espacio-
espectral, multiescala y multiorientada. La representación conjunta vendrá determinada por
cuatro parametros libres, que especifican, bien un canal psicofísico, o bien una célula simple.
Esto es, la posición espacial del CR con coordenadas (x0,y0) y la localización en el plano
espectral o plano de Fourier con coordenadas polares (f0, θ).
Numerosas investigaciones tanto neurofisiológicas como psicofísicas (véase Sierra-Vázquez,
1992, para una revisión más exhaustiva) dan soporte empírico a una peculiar concepción del
procesamiento de bajo nivel, que debe aplicar el SV, propuesta por Robson (1975). Según
Robson, el SV opera aplicando sobre la imagen algo así como un análisis de Fourier discreto,
fragmentado, por regiones, siendo cada región el área de la retina cubierta por un campo
receptor. De acuerdo con esta concepción, un banco de filtros paso-banda, de anchura más bien
estrecha, susceptibles de modelizarse mediante funciones de Gabor 2D, analizaría cada trozo de
la retina (CR). La Figura 4 muestra un conjunto de funciones de Gabor sintonizadas a una
frecuencia espacial de 1/16 ciclo/imagen y con orientaciones preferentes de 0º, 45º, 90º y 135º.
Cada filtro de Gabor 2D vendría caracterizado por dos parámetros: la frecuencia espacial de
sintonía y la orientación preferente y también debería estar localizado, espacialmente, el centro
de la gaussiana envolvente (coordenadas del centro del CR) [un detallado estudio de las
representaciones conjuntas espacio-espectral puede encontrarse en Jacobson y Wechsler, (1988)
y Sierra-Vázquez, (2000)].

FIGURA 4.- Representación gráfica, en niveles de gris, de un conjunto de funciones de


Gabor 2D, sintonizadas a bajas frecuencias espaciales (f0= 1/16 ciclos/img) y, cada
una diferente en orientación preferente (de izquierda a derecha: 0º, 45º, 90º y 135º).

En este modelo, las señales elementales de Gabor constituyen las funciones de pesos del punto
del canal o sensor y su espectro de amplitud (coeficientes de la Transformada de Gabor ó TG)
indica la importancia con que dicha función (con una cierta f0 y cierta θ) contribuye a la síntesis
de la imagen (Daugman y Kronauer, 1985). Recuérdese que, como señaló Daugman (1985)
para el caso de señales 2D, estas funciones minimizan el producto de la extensión espacial por
la extensión espectral (principio de incertidumbre de la Transformada de Fourier [TF, en
adelante] ).

9
En el modelo que aquí mostramos, resultante de integrar las evidencias psicofísicas y
neurofisiológicas, las representaciones se generan haciendo uso del análisis espectral local de
una imagen (señal bidimensional), el cual, para cada posición espacial con coordenadas (x0,y0)
[que indican el centro de un CR] representamos los coeficientes de la Transformada de Gabor,
en función de la localización en el plano de Fourier (plano espectral) con coordenadas polares
(f0, θ). Por tanto, obtenemos una representación conjunta espacio-espectral, en la que, para cada
trozo de la imagen (dominio espacial) se describen sus componentes espectrales (dominio
frecuencial). En la implementación ésto sería equivalente a aplicar un análisis de Fourier local,
es decir, que no opera sobre toda la imagen (análisis global), sino solo sobre un trozo de la
imagen, resultante de multiplicar toda la imagen por una función gaussiana 2D de una cierta
orientación, centrada en cada pixel de la imagen sucesivamente.
A continuación, describimos un algoritmo para aplicar el Análisis Espectral Local (AEL) a una
imagen en una cierta escala (determinada por una frecuencia espacial de sintonía) y en una serie
de orientaciones. Por razones de economía de tiempo de computo y espacio ocupado por la
representación generada, así como para mayor simplicidad, nosotros aplicaremos el AEL a una
imagen de 16×16 pixels. También por las mismas razones, asumiremos que el SV del modelo
esta constituido por cuatro canales de frecuencia espacial (cuyas frecuencias de sintonía son:
1/16, 1/8, 1/4 y 1/2 ciclos/imagen) y cuatro canales de orientación (cuyas orientaciones
preferidas son: 0º, 45º, 90º y 135º). Los pasos del algoritmo que aplica el análisis espectral local
son:
1. Iniciamos un bucle que establece cuatro escalas determinadas por otras tantas frecuencias
espaciales de sintonía, antes especificadas. Para cada una de estas cuatro escalas se realizan
los pasos que siguen.
2. Generamos cuatro gaussianas 2D, una para cada diferente orientación: 0º, 45º, 90º y 135º.
Las gaussianas vienen definidas, formalmente, por:

g (0,0) = e − πa (( x cos θ 0 + ysinθ 0 ) 2 + T 2 ( − xsinθ 0 + y cos θ 0 ) 2 )


2

[1]

Donde a es un coeficiente que indica la anchura de banda en frecuencia espacial o rango de


frecuencias en torno a la frecuencia de sintonía f0, T (razón de aspecto) es un factor que
determina la forma de la envoltura gaussiana (en el paso 4 se especifican los valores de a y
T). El parámetro θo es la orientación de la gaussiana 2D.
3. En la escala seleccionada (frecuencia espacial de sintonía), generamos cuatro filtros de
Gabor con fase coseno (φ= 90º ó even filter). Cada uno de estos cuatro filtros difiere en la
orientación preferente: 0º, 45º, 90º y 135º. De acuerdo con la definición formal propuesta

10
por Navarro y Tabernero (1991) y que hemos utilizado en otros trabajos (Aznar, submited),
generamos las funciones de Gabor 2D mediante la expresión:

g( x, y) = e −πa (( x cos θ0 + ysinθ0 )2 + T2 ( − xsinθ0 + y cos θ0 )2 ) e i 2πf0 ( x cos θ0 + ysinθ0 ) e iφ [2]


2

Concretamente, los valores utilizados para determinar la anchura de banda en frecuencia


espacial y la anchura de banda en orientación, son los señalados por De Valois y cols. (De
Valois et al., 1982a y De Valois et al.,1982b) para el córtex visual del macaco y son: T=
0.65 y a= 0.988

4. Creamos un doble bucle (para cada fila y para cada columna) que recorre la imagen (de
16×16 pixels). Y, conforme se ejecuta este doble bucle, desplazamos la gaussiana 2D a lo
largo y ancho de tal imagen, es decir, centrándola en cada uno de los 256 pixels (16x16).
5. Multiplicamos la imagen de trabajo por la gaussiana 2D, previamente desplazado su centro,
con lo que producimos una especie de TF ventaneada o recorte de la imagen procesada.
6. Convolucionamos la imagen con el conjugado del filtro de Gabor 2D. Para ello calculamos
ls TF de la imagen y del filtro de Gabor, hallamos el conjugado complejo de este último y
multiplicamos las dos TFs, con lo que obtenemos una TF filtrada de la imagen. Los
coeficientes de la Transformada de Gabor 2D sintonizada a (fo,θo) y aplicada sobre la
imagen f(x,y) resultan de la ecuación:
+∞ +∞

∫ ∫ f ( x, y) • g x
*
Rx = ( x , y ) • dx dy [3]
0
,
y 0, f 0, θ 0 −∞ −∞
0
, y 0, f 0,θ 0

Donde g* indica el conjugado complejo del filtro de Gabor 2D (gx,y,f,θ)

7. Convertimos la TF de coordenadas cartesianas a polares, con el fin de seleccionar el


espectro de amplitud.
8. Sumamos los cuatro espectros de amplitud correspondientes a las cuatro orientaciones. Por
lo que la representación aquí generada contendrá todas las orientaciones establecidas en el
modelo. Esta suma de canales de orientación simplemente la realizamos para evitar una
proliferación mayor de imágenes (4 canales de frecuencia x 4 canales de orientación= 16
representaciones). Nuestro objetivo, aquí, consiste en que el modelo muestre la
representación conjunta espacio-espectral y no el análisis multiescala y multiorientación, el
cual podemos encontrar en números trabajos (en nuestro entorno: Navarro y Tabernero,
1991; Sierra-Vazquez, 1992; Aznar-Casanova, 2000).
9. Aplicamos un muestreo simple al espectro de amplitud obtenido, para reducirlo de 64x64 a
32x32 pixels. Recuérdese que este espectro de amplitud corresponde a un trozo de la

11
imagen centrada en un pixel y que, en definitiva, al final de ejecutarse el algoritmo
completo dispondremos de 16×16= 256 espectros de amplitud (un espectro por cada
localización espacial o pixel de la imagen procesada).
10. Colocamos el espectro de amplitud submuestreado en su correspondiente localización
espacial de la imagen original
11. Guardamos en memoria la representación conjunta, a la que se ha añadido un nuevo
espectro de amplitud. Es decir, la representación se actualiza en cada paso de la ejecución.
12. Cerramos el doble bucle "para cada fila", "para cada columna" de la imagen de 16×16
pixels.
13. Cerramos el bucle "para cada escala".
14. Salvamos la representación conjunta espacio-espectral generada.

La representación, así generada, consiste en una representación conjunta espacio/espectral en la


que para cada trozo de la imagen, centrado en cada pixel de ésta, se describen las frecuencias
espaciales componentes y la energía con que éstas contribuyen a la formación (síntesis) de la
imagen. No obstante, nosotros no hemos representado dónde se ubican cada uno de esos
componentes espectrales de la imagen, es decir, sus espectros de fase, los cuales también debe
tener en cuenta el SVH.

2.1 OBTENCIÓN DE UNA REPRESENTACION CONJUNTA ESPACIO-ESPECTRAL


Vamos a aplicar el algoritmo antes descrito a una pequeña imagen de 16×16 pixels, que
contiene la forma de un asterisco, es decir, cuatro segmentos dispuestos perpendicularmente dos
a dos. La Figura 5 contiene esta primera imagen de trabajo, a la izquierda con su tamaño real y,
a la derecha, magnificada por un factor 8, con el fin de que puedan observarse los detalles de
grano fino especificados por las altas frecuencias espaciales y, posteriormente, compararla con
otras representaciones generadas.

FIGURA 5.- Imagen de trabajo-1, a la izquierda se muestra el tamaño real del asterisco sobre fondo
negro. A la derecha la imagen real magnificada a 64×64 pixels, las dimensiones de la original son: 16x16
pixels.

12
Debemos reparar en que, como consecuencia de la intersección de los cuatro segmentos en el
centro de la imagen, en esta localización central se configura un pequeño cuadrado del que
brotan ocho brazos o apéndices, cuyas orientaciones son: 0º (ó 180º ó 360º), 45º (ó 225º), 90º (ó
270º) y 135º (ó 315º). Al aplicar el AEL a esta imagen, en escala 4, que contiene las más altas
frecuencias espaciales en torno a 1/2 c/img, y sin separar (por pragmatismo) las diversas
orientaciones de los rasgos constitutivos de la imagen procesada, se obtiene la representación
conjunta de la Figura 6. Esta imagen de 512×512 pixels muestra un "efecto mosaico", en cuanto
que parece estar constituida por 16×16= 256 'teselas', de dimensiones 32×32 pixels. Cada una
de tales teselas corresponde al espectro de amplitud local (o coeficientes de la Transformada de
Gabor o TG) de cada trozo de la imagen procesada, centrado en cada pixel sucesivamente. Por
esta razón, es fácil comprender el elevado coste temporal de procesamiento para una
arquitectura computacional 'Von Newmann' , es decir, una máquina electrónica (ordenador) que
opera secuencialmente. Sin embargo, para un procesador analógico y que opera masivamente en
paralelo, como el cerebro, este cómputo puede realizarse en microsegundos (1 µseg.= 10-6 seg.).

FIGURA 6.- Resultado del Análisis espectral local de la imagen del asterisco en escala= 4, frecuencia
Nyquist de sintonía= 1/2 c/img. Cada subimagen es el espectro de amplitud (submuestreado)
correspondiente a una ventana gaussiana 2D centrada en uno de los 16x16 pixels de la imagen del
asterisco.

13
En esta representación, las teselas contienen los coeficientes de la TG en el dominio frecuencial
y, por tanto, informan de las frecuencias espaciales y orientaciones presentes en el trozo de la
imagen localizado espacialmente en la posición en que se ubica la tesela considerada. Así, la
porción central de la Figura 6, formada por 5×5 teselas, nos revela la presencia (en el centro de
la imagen original) de una superficie cuadrada conteniendo el centro del asterisco o lugar de
confluencia de los cuatro ejes radiales. Las teselas más periféricas de la Figura 6 nos informan
de la presencia de:
a) Una línea inclinada 45º con respecto a la horizontal en el cuadrante superior derecho.
b) Una línea inclinada 90º en el cuadrante superior central.
c) Una línea inclinada 135º en el cuadrante superior izquierdo.
d) Una línea inclinada 180º en el cuadrante central izquierdo.
e) Una línea inclinada 225º en el cuadrante inferior izquierdo
f) Una línea inclinada 270º en el cuadrante inferior central.
g) Una línea inclinada 315º en el cuadrante inferior derecho.
h) Una línea inclinada 0º ó 360º en el cuadrante central derecho.

Si aplicamos el AEL a la imagen del asterisco en escala 3, la cual contiene un estrecho rango de
frecuencias espaciales centrado en fo=1/4 c/img, en todas las orientaciones posibles, entonces
obtendremos una representación conjunta como la que se muestra en la Figura 7.

14
FIGURA 7.- Resultado del Análisis espectral local de la imagen del asterisco en escala= 3, frecuencia
Nyquist de sintonía= 1/4 c/img. Cada subimagen es el espectro de amplitud (submuestreado)
correspondiente a una ventana gaussiana 2D centrada en uno de los 16x16 pixels de la imagen del
asterisco.

En esta escala, la representación nos revela la existencia de un pequeño cuadro central


(superficie rellena), el cual es atravesado por cuatro ejes o líneas finas (de alta frecuencia
espacial) dispuestas en las orientaciones 0º, 45º, 90º y 135º.
Al aplicar el AEL en escala 2 (fo=1/8 c/img) y 1 (fo=1/16 c/img), las cuales contienen las bajas
frecuencias espaciales, las dos representaciones conjuntas (espacio/espectral) generadas nos
informan de los componentes espectrales (fo,θo) o, alternativamente (u, v) en cada posición del
espacio. Es decir, de la presencia del asterisco (intersección de cuatro ejes) en el centro de la
imagen procesada.

15
3. ¿EL MAPA VISUAL CORTICAL SEÑALA REGIONES DE INTERES EN LA IMAGEN?
Las regiones de las imágenes que procesamos para extraer información no tienen todas la misma
relevancia informativa. Existen ciertas regiones con mayor 'saliencia cognitiva', más
prominentes o llamativas, que tienen un especial atractivo y captan poderosamente la atención
visual del observador. Hasta la fecha, la detección de estas regiones interesantes se ha centrado
en aplicar el registro de los movimientos oculares para, tras el posterior análisis de estos datos,
tratar de explicar qué factores determinan el que una región sea de alto interés para la mayoría
de los sujetos. Probablemente, la escasez de otros abordajes experimentales se ha debido a que
no resulta fácil encontrar un procedimiento que permita predecir, ante una cierta imagen, qué
región o regiones recibirán mayor atención visual, definida ésta como el tiempo de fijación de la
mirada sobre una cierta área.
Los gestaltistas (Rubin, 1921) estudiaron este problema con un enfoque filosófico (descripción
fenomenológica) al señalar que, en las primeras etapas de la organización perceptual, se
perfilaba una región más estructurada y bien delimitada (la figura) sobre otra región
indiferenciada y difusa (el fondo). Más recientemente, varios autores (Neisser, 1967; Marr,
1976; Ullman, 1995) postularon la existencia de dos etapas secuenciales para el procesamiento
de la información visual. En la primera etapa (estadio preatencional), se procesaría toda la
información disponible, pero solo parcialmente. En la segunda etapa, (estadio atencional), se
procesaría parte de la información, pero de modo completo. De acuerdo con Kahneman (1973),
se asumió que, en el primer estadio, se segregaban figuras sobre un fondo. Y, hoy, la mayoría de
los investigadores de la visión admiten que este estadio, también conocido como segmentación
de formas, constituye una de las principales etapas del reconocimiento de formas.
Puesto que, los objetos a quienes corresponden tales formas pueden variar en tamaño y
extensión, aquí, se plantean al menos dos problemas que urge resolver para comprender la
visión, explicarla y emularla computacionalmente. Primero, cuál es la escala (factor relacionado
con el grado de detalle máximo que puede representarse) apropiada para describir una forma
específica. Segundo, cómo integra el Sistema Visual Humano (SVH) la información
correspondiente a la multiplicidad de representaciones que deben generarse, para abarcar todos
los detalles de los objetos.
Señalaba Witkin (1983) que, en el caso de señales unidimensionales, la dificultad del problema
de las descripciones multiescala no solo se centra en eliminar el ruido presente en las escalas de
grano fino, sino, principalmente, en separar los objetos contenidos en las diferentes escalas de
una cierta imagen (los objetos varían en tamaño y extensión). Este análisis multiescala de la
imagen se realiza filtrando la señal (por ej., convolucionando la señal con una máscara
gaussiana) de modo que se eliminen o atenúen ciertos detalles sucesivamente, lo que vendrá
determinado por el valor de la desviación típica (σ) de la gaussiana. El resultado de aplicar estos

16
múltiples filtros se representa en unos ejes cartesianos, donde las abscisas indican la posición
(espacio) de cada elemento de la señal y las ordenadas muestran la σ (escala). De este modo,
reduce el espacio-escala de la imagen a un árbol simple que describe la estructura cualitativa de
la señal en todas las escalas establecidas (número de filtrados aplicados). En efecto, esta
estrategia resuelve el problema de la integración de información contenida en las múltiples
escalas espaciales, apoyándose en una propiedad básica: conforme σ aumenta, los picos
(respuestas máximas de los filtros, bordes, altas frecuencias espaciales, o fine scale) de la señal
suavizada irán desapareciendo, de modo que, al final, solo los detalles de grano grueso (bajas
frecuencias espaciales o coarse scale) permanecen presentes. Evidentemenete, esta
representación de la imagen en el espacio-escala es una jerarquía ordenada piramidalmente de
escalas coarse-to-fine (desde los detalles de grano grueso hasta los de grano fino), en la que se
describe cómo las escalas coarse contienen o integran la información de las escalas fine. En esta
representación multiescala de la imagen ninguna de las escalas es intrínsecamente más relevante
que las otras, lo que introduce una ambigüedad inherente e ineludible. Más importante aún, para
nuestro objetivo aquí, es que Witkin (1983) constató empíricamente una importante estabilidad
de rasgos (frecuencias espaciales) a través de los cambios de escala, observando una notable
correspondencia entre la estabilidad de un fragmento de la señal, dentro de un intervalo de
escalas, y su saliencia perceptiva.
Los sistemas de visión artificial se enfrentan a grandes cantidades de información (imágenes).
Estos deben localizar y analizar sólo la información relevante para la tarea que ejecutan y
despreciar o desatender la información no relevante. Por tanto, es preciso detectar
automáticamente las regiones de interés de una imagen y asignar un peso atencional a cada una
de éstas.
El segundo objetivo, que nos proponemos en este trabajo, consiste en verificar la hipótesis,
basada en la idea de Witkin (1983) (y verificada en señales 1D), de que las regiones que
producen respuestas máximas ante los filtros (en nuestro caso) Gabor-2D (en el caso de Witkin,
funciones Gaussianas 1D) aplicados a la imagen, y que se mantienen estables a lo largo de
múltiples escalas, son las regiones de mayor relevancia informativa y, tal vez las que reciben
mayor atención visual por parte de los sujetos humanos. Para ello, hemos desarrollado otro
algoritmo que nos permita generar, en cada escala, mapas de regiones, detectadas a partir del
valor de las respuestas a los filtros aplicados a imágenes digitalizadas. Una vez localizadas las
principales regiones interesantes, en cada escala, aquellas que prevalecen en todas las escalas
constituirán las regiones de interés visual.

3.1. RESULTADOS EXPERIMENTALES


En este experimento de simulación computacional nos planteamos dos objetivos. Primero,
verificaremos la hipótesis de que, en cada escala, las regiones de interés visual de la imagen

17
coinciden con las localizaciones de las respuestas de máxima energía al banco de filtros de
Gabor aplicado en el AEL. Y, segundo, estudiar la consistencia de estas regiones a través de las
cuatro representaciones conjuntas (una por cada escala) obtenidas mediante el anterior análisis
(AEL) y que pretenden emular la representación que se forma en el córtex visual primario
(retina cortical).

FIGURA 8.- Imagen de trabajo-2. Imagen acromática de los "fusilamientos del 2 de Mayo", de
Goya.

Como imágenes de trabajo a procesar en estas simulaciones utilizaremos dos diferentes tipos de
imágenes. Una, la versión acromática del conocido cuadro de Goya "los fusilamientos del 2 de
Mayo", imagen equivalente a una foto realista y que podríamos calificar como de imágen
natural (véase Figura 8). Esta imagen ha sido ampliamente interpretada por los críticos del arte
del lienzo, quienes destacan la figura del personaje central con los brazos en cruz (sin entrar en
interpretaciones alegóricas), figura a la que atribuyen un especial magnetismo para captar la
mirada del observador. También el camino y el personaje que yace sobre él es otra región
relevante y, finalmente, la espalda de los 'fusileros' franceses. El registro de los movimientos
oculares, aplicado a sujetos ingenuos, probablemente, revelaría este mismo patrón de fijaciones
de la mirada (tracking eye), coincidiendo con lo que los críticos de obras pictóricas enfatizan.
La imagen creada por Goya fue submuestreada a 64×64 pixels, a fin de que el coste
computacional del cálculo fuera razonable y la extensión espacial de la representación conjunta
obtenida fuese adecuada al formato de una revista.
El resultado de aplicar el AEL a esta imagen en escala 4 (altas frecuencias centradas en fo=1/2
c/img) puede observarse en la Figura 9.

18
FIGURA 9.- Resultado del Análisis espectral local de la imagen de Goya en escala= 4, frecuencia
espacial de sintonía= 1/2 c/img.

También aplicamos el AEL a las otras tres escalas preestablecidas en el modelo, de manera que
disponemos de cuatro representaciones conjuntas, cada una definida esencialmente por la
frecuencia espacial de sintonía (1/2, 1/4, 1/8 y 1/16 c/img) y la anchura de banda en frecuencia
espacial del filtro, indicado por el parámetro T= 0,65. Sobre cada una de estas cuatro
representaciones (o escalas) aplicamos otro sencillo algoritmo consistente en ejecutar un bucle
de 400 pasos, en esta simulación (adviértase que la imagen de trabajo hay 64x64= 4.096 pixels).
En cada paso del bucle, se localiza, sobre la representación conjunta (imagen de 512x512 pixels
que consta de 16x16=256 teselas o espectros de amplitud) el pixel que produjo un máximo
como respuesta al banco de filtros. Después, marcamos esta posición, sobre una copia de la
imagen de trabajo (de dimensiones 64x64 pixels), y sobre la representación conjunta (de
512x512 pixels) anulamos esta tesela, que contiene el valor máximo (asignándole el valor 0),
con lo que este punto de la imagen queda excluido del ulterior procesado (bucle). Como
consecuencia de la complección del bucle, dispondremos de una imagen en la que estarán

19
marcadas las respuestas máximas o regiones de interés de dicha imagen. En la Figura 10 se
muestran, en las cuatro escalas establecidas, las regiones relevantes marcadas por el algoritmo.
Mediante simple inspección visual podemos concluir que en la escala 4 y la escala 3, las
regiones marcadas concuerdan con las predicciones de los críticos de este arte. Naturalmente, en
las escalas 2 y 1, que contienen las bajas frecuencias espaciales, las áreas de interés incluyen,
todo excepto el cielo del fondo y absolutamente todo, respectivamente.

FIGURA 10.- Regiones de interés, extraídas sobre la representación generada al aplicar a la imagen
creada por Goya el Análisis espectral local. A la izquierda: escala 4 (f0 = 1/2 c/img). Centro: escala 3 (f0 =
1/4 c/img). Derecha: escala 2 (f0 = 1/8 c/img).

La segunda imagen de trabajo consiste en una de las imágenes conocidas como contornos
ilusorios (subjetivos, fantasma, etc.) diseñadas por Kanizsa ( 1976), que puede observarse en la
Figura 11-A. Para simplificar el cálculo computacional, utilizamos el negativo fotográfico de la
imagen, más habitual (círculos negros y fondo blanco), no obstante, es conocido que ambas
versiones de la imagen producen consecuencias similares.

FIGURA 11.- A: Imagen de trabajo-3, contorno ilusorio de Kanizza. B, C y D: regiones de interés,


extraídas al aplicar a la imagen de Kanizza el Análisis espectral local. B: en escala 4 (f0 = 1/2 c/img). C:
en escala 3 (f0 = 1/4 c/img). D: en escala 2 (f0 = 1/8 c/img).

Concretamente, es sabido que, al observar esta figura, la mayoría de los sujetos describen su
experiencia perceptiva señalando la presencia de un cuadrado oscuro en el centro de la imagen,
ocluyendo parcialmente un cuadrante de círculo con cada esquina del cuadrado. Objetivamente
hablando, es obvio que no están presentes los bordes que delimitan el cuadrado central, sino que
estos contornos son ‘inventados’ ilusoriamente por el SV del sujeto. Incluso se ha señalado que
esta región cuadrada central les suele parecer a los sujetos más oscura que el resto del fondo.

20
FIGURA 12.- Resultado del Análisis espectral local sobre la imagen de Kanizsa en escala 3 (f0
= 1/4 c/img).

La Figura 12 muestra el resultado de aplicar el AEL a esta figura de Kanizsa en escala 3 (fo=1/4
c/img). En esta escala comienza a configurarse un cierto agrupamiento de los rasgos que
producen un cierre de la región central de la imagen.
Al aplicar el AEL a las otras tres escalas prefijadas, obtuvimos otras tres representaciones
conjuntas espacio/espectral. Y al seleccionar los puntos de la imagen que producen respuestas
máximas del banco de filtros (de Gabor), resultan seleccionadas las regiones que se muestran en
la Figura 11 (B= escala 4, C= escala 3, D= escala 2 y E= escala 1). En la escala 2 se resalta la
región central como más relevante; mientras que, en las escalas que contienen las más altas
frecuencias espaciales, se resaltan los bordes y los vértices de las esquinas del cuadrado.

21
4. CONCLUSIONES
Hemos retomado la noción de mapas visuales cerebrales como metáfora que nos permite
mostrar diferentes representaciones, basadas en disposiciones espaciales de la información, a las
que el SV recurre como estrategia para facilitar la ejecución de ciertas operaciones, ya sea
locales, ya sea globales. Por tanto, aquí, el término mapa implica un tipo de representación en la
que no sólo se describen explícitamente ciertas características de los objetos representados, sino
que, además, se define una correspondencia biunívoca entre dos niveles diferentes del SV.
También, recogemos la distinción conceptual introducida por Blakemore (1990) entre mapas
isomórficos y mapas anisomórficos. Ambos tipos de mapas contienen representaciones
distribuidas de la imagen, pero, en el primer caso se ajustan a una correspondencia psico-
fisiológica, mientras que, en el segundo caso se ajustan a una correspondencia psico-física. Sin
embargo, es preciso recordar que el nudo gordiano de la cuestión estriba en desvelar cómo usa
el SV esta cartografía y estas representaciones distribuidas para procesar la forma, la textura, la
profundidad, el movimiento, el color, etc. Nosotros, aquí, hemos retomado la idea de Barlow
(1985) cuando afirma que los mapas revelan nuevas propiedades de la imagen, simplemente
estableciendo diversas asociaciones de la información (neo-asociacionismo).
Nos hemos prefijado dos objetivos, el primero consistía en mostrar como se puede obtener uno
de los mapas visuales anisomórficos que el cerebro debe contener, aquel que está distribuido en
el área visual primaria y al que ciertos autores (Henschen, 1910; Zeki, 1995) se refieren como
retina cortical. Para ello, describimos un posible algoritmo, fundamentado en las evidencias
psicofísicas, cuya implementación computacional aplica el Análisis espectral local para generar,
probablemente, el mapa visual más polivalente del SV. Esto es, una representación distribuida
de la imagen en V1 (área 17 de Brodman) que tiene la virtualidad de ser una a representación
conjunta espacio/espectral. Dicha representación debe jugar un papel fundamental en la visión,
ya que sirve de entrada a los diferentes módulos visuales, conteniendo la información de la
imagen de tal modo que facilite el ulterior procesamiento en los citados módulos visuales. De
acuerdo con las investigaciones psicofísicas, esta representación supone la mejor solución, que
la naturaleza ha encontrado, al problema expresado por el principio de incertidumbre aplicado a
las representaciones visuales. Lo que ha llevado a concluir que la información se representa en
el área estriada tanto en el domino espacial como en el dominio de la frecuencia espacial, es
decir, mediante paquetes gaussianos de información espectral (ondículas de la TG) localizados
espacialmente. Este tipo de representación usada por el SV ha sido defendida, desde Robson
(1975) por numerosos autores (véase Sierra-Vázquez, 1992 y 2000) y dada su importancia debe
estudiarse en profundidad y esclarecer sus virtualidades.
En la segunda parte de este trabajo hemos presentado un algoritmo para la detección temprana
(de bajo nivel y automáticamente) de regiones correspondientes a objetos cuyo alto contraste les
confiere una especial saliencia en la imagen. Previamente, formulábamos la hipótesis de que es

22
posible formar un grupo perceptivo a partir de las respuestas máximas a los filtros lineales
locales aplicados a la imagen. En otras palabras, estas respuestas permiten configurar un nuevo
mapa en el que se destacan regiones de interés visual. Y, también, extendíamos la hipótesis de
Witkin (1983), circunscrita a la detección de señales unidimensionales, al caso bidimensional.
En efecto, Witkin mostró que aquellos rasgos de la señal que perduran en una representación
espacio-escala, que él mismo propone, y en la que la escala viene dada por la magnitud de la
desviación típica (σ) del filtro gaussiano, que utiliza para obtener las diversas escalas, son los
más relevantes de la señal. Esta tesis, que nosotros sepamos, nunca se ha aplicado al caso de
señales 2D, como las imágenes. Y los resultados de nuestro trabajo experimental muestran que
esta idea no es desacertada, sino más bien lo contrario. Aunque el apoyo empírico de la
hipótesis, por el momento, es débil, dado que solo se ha verificado ante dos tipos de imágenes
diferentes (natural y sintética), se muestra como una alternativa para elaborar mapas que
fundamenten las operaciones de agrupamiento.
En este trabajo, de acuerdo con He y Nakayama (1994), se defiende la tesis de que el
agrupamiento de regiones no tiene por qué producirse, necesariamente, con posterioridad a la
detección de bordes. Ciertamente, llama nuestra atención el hecho, aquí mostrado, de que
mediante este procedimiento pueden detectarse regiones comprendidas entre contornos ilusorios
(Kanizsa, 1976), las cuales, obviamente, ponen en apuros a las teorías que defienden la
detección de contornos como operación previa a la detección de grupos perceptuales.
Por tanto, aquí se muestra una posible estrategia, plausible neurofisiológicamente y compatible
con las evidencias psicofísicas, para obtener un agrupamiento de elementos locales (regiones)
que satisfacen ciertas propiedades (por ejem., que tengan alto contraste). Esta estrategia es útil,
en cuanto que, resuelve el problema, nada trivial, de cómo realizar un agrupamiento perceptivo
utilizando un procedimiento basado en regiones. Téngase en cuenta que la mayoría de los
algoritmos propuestos obtienen una segmentación de regiones extrayendo los bordes (límites,
fronteras, contornos), pero no áreas de la imagen. La elaboración de este tipo de mapas de
regiones es un ejemplo de proceso global, que toma como punto de partida otros procesos
locales y tiene como meta realizar un agrupamiento de elementos de la imagen que satisfacen
cierta-s propiedad-es. El reconocimiento de patrones, en particular, y la percepción de la forma,
en general, debe implicar necesariamente la actuación de procesos globales que operen sobre
una amplia zona de la imagen o sobre toda ella. Las características locales que proporcionan los
filtros (funciones gaussianas, de Gabor, etc.) no son suficientes.
Como ya mostraron Hubel y Wiesel (1961), en las células fotorreceptoras, estas células
interaccionan con sus vecinas, es decir, de forma local. No obstante, también se ha señalado
(Kovacs , 1996) la existencia de interacciones largas o en cadena. Las primeras (interacciones
cortas) estarían implicadas en la detección de bordes, mientras que las segundas (interacciones
largas) lo estarían en el agrupamiento y la segregación figura-fondo.

23
Para finalizar, no queremos dejar de señalar que, dada la gran variedad de estímulos visuales
que observamos, el SV debe aplicar una eficiente selección de las regiones relevantes de las
diferentes escenas. Normalmente, esta selección vendrá guiada conceptualmente
(procesamiento de arriba-abajo), es decir, por los intereses del sujeto, las demandas de la tarea,
las expectativas, etc. Sin embargo, otras veces, procesamos la información visual a la que
estamos expuestos de modo automático, especialmente cuando pasamos la mirada sobre la
escena o imagen durante un tiempo muy breve. En estas situaciones, en las que se impone un
procesamiento automático, el modelo de detección de regiones de interés visual, aquí propuesto,
debe jugar un papel crítico.

AGRADECIMIENTOS
Este trabajo ha sido financiado por el proyecto PB95-0266 concedido por la DGES del
Ministerio de Educación y Cultura (España).

REFERENCIAS
Aznar-Casanova, J.A. (2000). Análisis multiescala y multiorientación de imágenes mediante un
banco de filtros de Gabor-2D. Cognitiva.
Barlow, H.B. (1981). Critical limiting factors in the design of the eye and visual cortex. The
Ferrier lecture 1980. Proceeding of the Royal Society of London, B, 212, pp. 1-34.
Barlow, H.B. (1985). Cerebral cortex as model builder. En D. Rose y V. Dobson (Eds.): Models
of the Visual Cortex, Chichester: John Wiley, pp 37-46.
Barlow, H.B. (1990/1994). "Cap. I: Qué ve el cerebro y cómo lo entiende". En H.B. Barlow, C.
Blakemore y M. Weston-Smith (Eds.): Imagen y conocimiento. Cómo vemos el mundo y
cómo lo interpretamos. Trad. cast.. Barcelona: Crítica. Título original: Images and
understanding. Thoughts about images, ideas about understanding.
Blakemore, C. (1990). "Cap. II: La comprensión de la imágenes en el cerebro". En H.B. Barlow,
C. Blakemore y M. Weston-Smith (Eds.): Imagen y conocimiento. Cómo vemos el mundo y
cómo lo interpretamos. Trad. cast.. Barcelona: Crítica. Título original: Images and
understanding. Thoughts about images, ideas about understanding.
Daniel, P.M. y Whitteridge, D. (1961)The representation of the visual field onthe cerebral
cortex in monkeys. Journal of Physiology, 159, pp. 203-221.
De Valois, R.L.; Albrecht, D.A. y Torrel, L. (1982a). Spatial frequency selectivity of cells in
macaque visual cortex. Vision Research, 22, pp. 545-559.
De Valois, R.L.; Yund, E.W. y Hepler, N. (1982b). The orientation and direction selectivity of
cells in macaque visual cortex. Vision Research, 22, pp. 531-544.

24
He y Nakayama (1994). Apparent motion determined by surface layout not by disparity or
three-dimensional distance. Nature, 367, pp. 173-175.
Henschen, S.E. (1910). "Zentrale Sehstörungen". En M. Lewandowsky (Ed.), 2ª ed.: Handbuch
der Neurologie. Berlin: Springer-Verlag. pp. 891-918.
Hubel, D.H. y Wiesel, T.N. (1962). Integrative actions in the cat's lateral geniculate body.
Journal of Physiology, 155, pp. 385-398.
Hubel, D.H. y Wiesel, T.N. (1962). Receptive fields, binocular interactions and functional
architecture in the Cat's Visual Cortex. Journal of Physiology, 160, pp. 106-154.
Hubel, D.H. y Wiesel, T.N. (1968). Receptive fields and functional architecture of monkey
striate cortex. Journal of Physiology, 195, pp. 215-243.
Hubel, D.H. y Wiesel, T.N. (1977). The Ferrier Lecture: Functional architecture of macaque
monkey visual cortex. Proceeding of the Royal Society of London, B, 198, pp. 1-59.
Hubel, D.H. y Wiesel, T.N. (1982). Exploration of the primary visual cortex, 1955-78 . Naturre,
299, pp. 515-524.
Jacobson, L.D. y Wechsler, H. (1988). Joint spatial /spatial frequency representation . Signal
Processing, 14, pp. 37- 68.
Kahneman, D.(1973): Attention and effort. Prentice-Hall. Englowood Clifts. N.J.

Kanizsa, G. (1976). Subjetive contours. Scientific American, 234, pp. 48-68.

Kovaacs, I. (1996). Gestaltem of today: early processing of visual contours and surfaces.
Behavioural Brain Research, 82, 1-11.
Maffei, L. (1978). Spatial Frequency Channels: Neural Mechanisms. En R. Held,; H.W.
Leibowitz y H.L. Teuber (Eds.). Handbook of Sensory Physiology. Berlin: Springer-Verlag.
pp. 39-66
Maffei, L. y Fiorentini, F. (1977). Spatial frequency rows in the striate cortex. Vision Research,
17, pp. 257-264.
Marr, D. (1976). Early processing of visual information. Philosophical Transaction of the
Royal Society, London B, 275, 483-524.
Navarro, R. y Tabernero, A. (1991). Gaussian wavelet Transform: two alternative Fast
Implementation for images. Multidimensional Systems and Signal Processing, 2, 421-436.
Neisser, U. (1967). Cognitive Psychology. New York: Meredith Publishing Company. [Trad. cast.
Psicología cognoscitiva. México: Trillas (1979).]
Robson, J.G. (1975). Receptive fields: Neural representation of the spatial and intensive
attributes of the visual image. En Carterette y Friedman (Eds.): Handbook of Perception.
Vol. V: Seeing. New York: Academic Press, pp 81-116.
Rubin, E.(1921). Visuell wahrgenommene figure. Copenhague: Gyldendalske.

25
Sekuler, R. y Blake, R. (1990). Perception. (2d. Ed.). New York: McGraw-Hill.
Sierra-Vázquez, V. (1992). Procesamiento visual inicial. En J. Mayor y J.L. Pinillos (Eds.):
Atención y percepción. Madrid: Alhambra Universidad. pp. 163-312.
Sierra-Vázquez, V. (2000). Representaciones conjuntas espacio-frecuencia en Psicofísica Visual.
Parte I: Fundamentos 1D. Cognitiva, Nº X, pp xx-xx.
Ullman, S. (1996). High level Vision. Object recognition and visual cognition. The MIT Press.
Massachusetts Institute of Technology.
Witkin, A.P. (1983). Scale-space filtering. In Proceeding 8th International Joint Conference on
Artificial Intelligence, vol. 2, pp. 1019-1022.
Zeki, S. (1981). "The mapping of visual functions in the cerebral cortex". En Y.Katsuki,
R.Norgren y M.Sato (Eds.): Brain Mechanisms of Sensation, New York: John Wiley, pp.
105-128.
Zeki, S. (1992/1995). A Vision of the Brain. Oxford. Trad. castellana de J.Soler: Una visión del
cerebro. Barcelona: Ariel.

26

Você também pode gostar