Escolar Documentos
Profissional Documentos
Cultura Documentos
Artificial
a la Visión
Uno de los sentidos más importantes de los seres humanos es la visión. Ésta es
empleada para obtener la información visual del entorno físico. Según Aristóteles,
“Visión es saber que hay y donde mediante la vista”. De hecho, se calcula que más de
70% de las tareas del cerebro son empleadas en el análisis de la información visual. El
refrán popular de “Una imagen vale más que mil palabras” tiene mucho que ver con
los aspectos cognitivos de la especie humana. Casi todas las disciplinas científicas
emplean utillajes gráficos para transmitir conocimiento. Por ejemplo, en Ingeniería
Electrónica se emplean esquemas de circuitos, a modo gráfico, para describirlos. Se
podría hacerlo mediante texto, pero para la especie humana resulta mucho más eficiente
procesar imágenes que procesar texto. Lo mismo se podría decir de la arquitectura de
edificios o más recientemente se está empleando métodos gráficos en el desarrollo del
software, como es la herramienta visual UML. La visión humana es el sentido más
desarrollado y el que menos se conoce debido a su gran complejidad. Es una actividad
inconsciente y difícil de saber cómo se produce. De hecho, hoy en día, se carece de una
teoría que explique cómo los humanos perciben el exterior a través de la vista.
Sin embargo, el momento histórico que hace que estas técnicas confluyan y den
un cuerpo de conocimiento propio, surge en la década de los 80. La revolución de la
Electrónica, con las cámaras de vídeo CCD y los microprocesadores, junto con la
evolución de las Ciencias de la Computación hace que sea factible la Visión Artificial.
Para algunos autores, como González y Woods, los primeros atisbos de este
proceder se remontan a la década de los años 20 del siglo XX, cuando se transmitían
imágenes transoceánicas, a través de cable submarino. Las fotografías periodísticas
entre Europa y América tardaban una semana en llegar a través de los barcos. Al
emplear las primeras técnicas de procesamiento de las imágenes se pasó sólo a tres
horas. Las imágenes se codificaban a cinco niveles de grises y se transmitían por
teléfono. No obstante, éste podría ser el principio de las técnicas de procesamiento de
las imágenes, pero no el de la Visión Artificial, tal cual se ha definido. El concepto de
Visión Artificial es más amplio y recupera para sí, todos los conocimientos de análisis
de las imágenes desempeñado por otras disciplinas desde los albores de la fotografía.
Parece claro que para tratar sobre la Visión, lo primero a estudiar será la
naturaleza de la luz, para luego pasar a entender cómo funciona la visión humana y
acabar con las partes de la Visión Artificial.
La luz fue considerara, hasta el siglo XVIII, como una corriente de corpúsculos.
Éstos eran emitidos por los focos luminosos y disminuía su densidad a medida de que se
alejaban del foco. Podían penetrar en las sustancias transparentes y se reflejaban en las
superficies de los cuerpos opacos. Cuando los corpúsculos penetraban en el ojo,
excitaban el sentido de la vista. Esta teoría corpuscular fue desarrollada por Newton en
el siglo XVII y mejorada posteriormente, con el modelo cuántico, por Plank a principios
del siglo XX.
Fue Newton quien observó cómo la luz blanca, la procedente de la luz solar, se
podía descomponer en unas serie de haces luminosos de colores cuando atravesaba un
prisma óptico. Newton, con este experimento, hallo el espectro de la luz diurna
mediante el fenómeno conocido como dispersión de la luz o dispersión cromática, cuya
explicación física escapaba de su teoría corpuscular. Mediante la teoría ondulatoria se
sabe que cada color es en realidad una onda electromagnética de frecuencia determinada
y que, al penetrar en el prisma óptico, se desvía en una dirección diferente debido a que
el índice de refracción de este material varia con la frecuencia de la onda penetrante,
c
1
La frecuencia de la onda es la velocidad de la luz, partido su longitud: f =
λ
con lo que el haz se expande de forma que las radiaciones monocromáticas, de éste
incluidas, puedan ser distinguidas y observadas por el ojo humano.
Cada onda luminosa monocromática lleva asociada una energía, cuyo valor es
igual a 2 :
2
La longitud de onda del láser de un DVD está entre los 630 nm y los 650 nm, en un CD es de
780 nm. La potencia del laser de un DVD es de 5.4 μW y el de un CD es de 1.85 μW.
h⋅c
Q = h⋅ f =
λ (1. 1)
Ejemplo 1.1
P 5 ⋅ 10 −6
Π= = = 1.67 ⋅ 1013 fotones/s
Q 3 ⋅ 10 −19
La energía radiante emitida por una fuente luminosa, por unidad de tiempo y por
unidad de área, depende de la naturaleza de la superficie y de su temperatura. Esta
radiación es una mezcla de diferentes longitudes de onda. La temperatura de color es la
temperatura a la que hay que calentar un radiador de energía o fuente de radiaciones
para que emita radiaciones en determinadas longitudes de onda. A temperaturas bajas,
este manatial radiará energía que se hace visible con longitudes de ondas largas (rojas
anaranjados), mientras que a altas temperaturas llegará a emitir radiaciones de
frecuencia elevadas (azules). Por ejemplo, a la temperatura de 600 K, la más intensa de
estas ondas tiene una longitud de 500nm, que se encuentra en la región del infrarrojo,
mientras a 1000 K, un cuerpo emite bastante energía radiante visible para ser luminosos
por si mismo y parece incandescente; no obstante, la mayor parte de la energía emitida
es transportada, con mucho, por ondas infrarrojas. A 3000 K, que es aproximadamente
la temperatura del filamento de una lámpara de incandescencia, la energía radiante
contiene bastantes longitudes de onda visibles, de las comprendidas entre 400nm y
700nm, de modo que el cuerpo parece casi rojo blanco.
E = K SB T 4 (1. 2)
Ejemplo 1.2
1
⎛ 22.8 ⋅ 10 4 W / m 2 ⎞ 4
E = K SB T 4 → T = ⎜⎜ −8
⎟ = 1414 K
4 ⎟
⎝ 5.7 ⋅ 10 W / m K ⎠
2
∞
Φ = ∫ f (λ )dλ
0 (1. 3)
dΦ
I =
dω ( 1.4 )
3
El ángulo sólido se define como el área de una superficie esférica, dA, dividida por el cuadrado
del radio de la esfera, R. Su unidad es el estereorradian, [sr], una cantidad adimensional. Una esfera tiene
4π esterorradianes de ángulo sólido.
Según sea la longitud de onda que reflejen, transmitan o absorban así será el
color con el que se percibe el objeto. Un objeto que absorba todas las frecuencias se
captará como negro, mientras que un cuerpo que refleje todas las longitudes de onda
visibles aparecerá blanco. En los objetos opacos la transmitancia es insignificante,
siendo las frecuencias que refleja el cuerpo las que determinan con que color se percibe.
En los transparentes, por el contrario, son la reflectancia y la absortancia las que valen
prácticamente cero. En consecuencia, una especificación puramente objetiva del color
de una superficie opaca puede expresarse en términos de reflectancia espectral. En el
S caso de materiales transparentes vendrán dada
por la transmitancia espectral.
n
ϑ
La radiación reflejada, la captada por
el observador, depende de la naturaleza de la
l superficie en la que se refleja el haz luminoso,
así como las condiciones de iluminación y
dA posición del punto de vista. Sea dA, en la
figura 1.8, un elemento de superficie cuya
normal n forma un ángulo θ respecto a un
Figura 1. 8 Sistemas de coordenadas manantial puntual S. Asumiendo que la fuente
lumninosa S ilumina por igual en todas las
direcciones. La relación entre el flujo incidente en la superficie respecto al área, define
la iluminación como:
E=
dΦ I ⋅ dω I ⋅
= =
dA′ ⋅ cos θ 2
r ≅ =
r r
I ⋅ cos θ I ⋅ n ⋅ l ( )
dA dA dA r2 r2 ( 1.6 )
V
De otro lado, a la fracción del flujo incidente
que sea reflejada en la dirección del observador, esto es,
desde la superficie al sensor se la llama radiación
reflejada o luminancia. La radiación reflejada de la n
superficie es definida como el flujo emitido por unidad
v
de área reflejada y por unidad de ángulo sólido en la
dirección vista por el sensor. Se define la radiación
radiada, L, como:
dA
d 2Φ dI dI I
L= ≅ = r r =
dA cos θ r dω r dA cos θ r dA ⋅ (n ⋅ v ) S aparente ( 1.7 )
donde dωr es el ángulo sólido del sensor visto desde la superficie reflejada.
Considerando que la superficie es iluminada desde una dirección θi, se define la función
de distribución reflejada bidireccional ( bi-directional reflectance distribution function,
BRDF), Fr de una superficie, como el nivel de radiación reflejada de una luz incidente
vista desde (θr φr) por unidad de iluminación incidente:
Lr (θ r )
Fr (θ i , θ r ) =
Ei (θ i ) ( 1.8 )
Ejemplo 1.3
Un relé es controlado por una célula fotoeléctrica. Ésta tiene una abertura de 15
mm x 40 mm y requiere al menos un flujo mínimo de 0.3 mW. ¿A que distancia
máxima se pondrá un emisor puntual que tiene como intensidad 1 W/sr?
0.3 ⋅ 10 −3
E≥ = 0.5W / m 2
15 ⋅ 10 −3 ⋅ 40 ⋅ 10 −3
I
d max = = 1.41m
E
4
La candela es la intensidad luminosa, en una dirección dada, de una fuente que emite una
radiación monocromática de frecuencia 5.4 × 1014 Hz y cuya intensidad energética en esa dirección es
1/683 vatios por estereorradián (W/sr)
Ejemplo 1.4
¿Cuál es la potencia del Sol, si se sabe que la luz tarda 8 minutos en llegar a la
Tierra y la radiación incidente en la Tierra es de 1kW/m2?. ¿Y la temperatura del Sol, si
el radio es de 6.96⋅108 m?
(
I = E ⋅ d 2 = 10 3 ⋅ 8 ⋅ 60 ⋅ 3 ⋅ 10 8 )
2
= 2.07 ⋅ 10 25 W ⋅ sr −1
Φ = 4πI = 2.6 ⋅ 10 26 W
1
Φ ⎛ 4.27 ⋅ 10 W / m ⎞ 7 2 4
E= = 4.27 ⋅ 10 7 W / m 2 → E = K SB T 4 → T = ⎜⎜ ⎟ = 5232 K
4 ⎟
4πR 2
⎝ 5.7 ⋅ 10 −8
W / m 2
K ⎠
La visión es el sentido más importante que tiene el ser humano. Así, mientras,
para el oído se tiene alrededor de treinta mil terminaciones nerviosas, en la vista hay
más de dos millones. La irradiación exterior recibida por el ojo debe ser transformada
en señales que sean procesadas por el cerebro. El ojo es el elemento transductor,
mientras que el cerebro es el que procesa dicha información.
La percepción del color de una imagen la realizan los conos. Son unos seis
millones y cada cono tiene conexión a varias neuronas. Basándose en la información
aportada por los conos, el cerebro construye la sensación de color. Por el contrario, los
bastones son más de 100 millones y son capaces de detectar la intensidad lumínica.
Varios bastones están asociados a una única neurona.
Mientras la visión fóvea tiene mayor agudeza, más resolución y percibe los
colores, la visión periférica le da al cerebro más información espacial que la fóvea y
destaca los contrastes. De este hecho, se destaca que en la oscuridad, la visión periférica
es más adecuada que intentando centrar la visión sobre el objeto.
Una vez que la señal luminosa ha sido transformada en pulsos eléctricos por los
conos y bastones, éstos son transportados al cerebro por los nervios ópticos. Los pulsos
son llevados al lóbulo occipital, donde se encuentra el córtex visual. Es una zona de 24
cm2 con 1.5⋅108 neuronas. Al hemisferio derecho llega la información del ojo izquierdo
y viceversa. En el cerebro se realiza una labor de extracción de las características de la
imagen. Para ello existen zonas especializadas que responden mejor a un tipo de
característica que a otras.
Sistema humano:
Sistema artificial:
Los dos pilares del sistema físico de visión artificial son: el sistema de formación
de las imágenes y el sistema de procesamiento de éstas. En el primer apartado estaría
constituido por el subsistema de iluminación, de captación de la imagen y de
adquisición de la señal en el computador. Una vez introducida la señal en el
computador, ésta es procesada mediante los algoritmos para transformarla en
información de alto nivel. La cual puede ser utilizada para su representación visual, para
actuar en el planificador de un robot o ser fuente de datos para un autómata
programable. En definitiva, múltiples periféricos pueden ser receptores de esta
información y vincularse con el sistema de procesamiento de las imágenes.
Las imágenes para ser procesadas en el computador han sido adquiridas a través
de la cámara de vídeo y puestas en su memoria empleando las tarjetas de adquisición de
vídeo. Esta señal es de carácter bidimensional y emplea variables discretas. Los
elementos de la matriz se llaman píxeles. El acceso a esta elemental información se hace
indicando la fila y la columna que ocupa. El origen de coordenadas de la imagen se
encuentra en la esquina superior izquierda. El eje horizontal corresponde con las
columnas y el eje vertical con las filas. Se emplearán índices enteros para posicionar el
píxel. Se denotará el valor del píxel a través de una función, del tipo f(x,y), siendo x el
índice de la fila e y de la columna.
la imagen sea en color, f(x,y) devolverá un vector. Normalmente, suele expresarse como
una proyección del color sobre el sistema RGB (Red-Green-Blue).
La imagen puede ser de tipo 3D, por ejemplo, en resonancia magnética, luz
estructurada, etc. Éstas se presentan como una pila de imágenes 2D. Se les añade otro
índice, denominado k o z, que indica el orden de la rodaja de imagen 2D dentro de la
pila.
Una vez dividida la imagen en zonas con características de más alto nivel se
pasará a su extracción de las características. Básicamente son de tipo morfológico, tales
como área, perímetro, excentricidad, momentos de inercia, esqueletos, pero también se
pueden emplear características basadas en la textura o en el color.
La naturaleza del proyecto hace que se incida en una disciplina más que en otra.
Por ejemplo, en un problema de inspección visual de piezas, la parte de la formación de
las imágenes suele ser fundamental, mientras que un análisis de imágenes de una
tomografía tiene más importancia el procesamiento y la computación gráfica.
1.5 Aplicaciones
1.6 Problemas
3. Temperatura de color.