Você está na página 1de 47

Inteligencia Artificial

Inteligencia Artificial Computacional

2011/Vision

Contenido
Introduccin----------------------------------------------------------------------------------------------------- 3 Objetivos Objetivo General------------------------------------------------------------------------------------- 4 Objetivos Especficos-------------------------------------------------------------------------------- 5 Capitulo 1 1 Introduccin--------------------------------------------------------------------------------------- 6 1.1 Visin Computacional-------------------------------------------------------------------------- 6 1.2 Visin Computacional aplicada al Sistema Visual Humano--------------------------- 7 1.3 Aplicaciones de la Visin Computacional------------------------------------------------- 8 1.4 Planteamiento Terico de Marr------------------------------------------------------------- 9 1.5 Tcnicas de Procesamiento de Imgenes y Video------------------------------------- 10 1.6 ltimos Avances------------------------------------------------------------------------------- 13 Capitulo 2 2 Introduccin------------------------------------------------------------------------------------- 15 2.1 Aplicaciones Militares de la Inteligencia Artificial------------------------------------- 15 o Aplicaciones de la Vida Real----------------------------------------------------------- 18 Capitulo 3 3 Introduccin------------------------------------------------------------------------------------- 19 3.1 Inteligencia Artificial Distribuida----------------------------------------------------------- 19 3.2 Colaboracin entre Agentes---------------------------------------------------------------- 21 3.3 Arquitectura para Agentes Inteligentes-------------------------------------------------- 22 3.4 Teora de los Juegos-------------------------------------------------------------------------- 22 Capitulo 4 4 Introduccin------------------------------------------------------------------------------------- 27 4.1 Sintetizado de Voz por medio de un Agente Inteligente----------------------------- 27 o Tecnologa de Sntesis------------------------------------------------------------------- 28 Capitulo 5 5 Introduccin------------------------------------------------------------------------------------- 34 5.1 Reconocimiento Facial y Digital------------------------------------------------------------ 34 5.2 Tcnicas de Reconocimiento--------------------------------------------------------------- 37 Conclusiones-------------------------------------------------------------------------------------------------- 41 Bibliografa----------------------------------------------------------------------------------------------------- 42 Apndices Apndice A: Glosario y Abreviaturas---------------------------------------------------------- 44 Apndice C: Ilustraciones------------------------------------------------------------------------- 46

Ing. Erick Nehring

Pgina 2

Inteligencia Artificial Computacional

2011/Vision

Introduccin
El siguiente trabajo de investigacin, tiene como propsito mostrar informacin bsica sobre lo que es la inteligencia artificial en sus diferentes campos como ser: Visin Computacional, Inteligencia Artificial Distribuida, Sintetizado de Voz, etc. La inteligencia artificial es una ciencia que intenta crear programas para mquinas que imiten el comportamiento y la comprensin humana. La inteligencia Artificial, es una campo que ha tomado gran inters en los ltimos tiempos debido a su capacidad de poder resolver soluciones imitando el razonamiento lgico de las personas y hasta el mecanismo de cmo ellas la resuelven. En los ltimos aos la IA ha ido evolucionando, quizs con mayor celeridad que otras disciplinas, motivada probablemente por su propia inmadurez. Todo esto ha llevado a que la IA actualmente abarque una gran cantidad de reas, desde algunas muy generales como razonamiento, bsqueda, etc. a otras ms especficas como los sistemas expertos, sistemas de diagnstico, etc. De momento, se puede asegurar que, hoy en da, existe una idea generalizada dentro de la IA de que nos encontramos ante el nacimiento de una nueva tecnologa, la de agentes inteligentes, que permite abordar de una manera ms apropiada la construccin de sistemas inteligentes ms complejos aplicados a muy diversos campos.

Ing. Erick Nehring

Pgina 3

Inteligencia Artificial Computacional

2011/Vision

Objetivo General
Por medio de esta investigacin obtener ms conocimientos sobre Inteligencia Artificial, sus campos de aplicacin, sus ramas a fines, y la responsabilidad que conlleva esta nueva ciencia al ser aplica.

Ing. Erick Nehring

Pgina 4

Inteligencia Artificial Computacional

2011/Vision

Objetivos Especificos

Presentar los conceptos bsicos de Visin Computacional. Identificar las lneas de investigacin de la visin computacional. Conocer las diversas tcnicas del procesado de imgenes. Aprender sobre la nueva tecnologa y en que nos beneficia. Conocer sobre las aplicaciones de la Inteligencia Artificial y sus consecuencias. Comprender lo relacionado con el reconocimiento facial y digital, ventajas y desventajas.

Ing. Erick Nehring

Pgina 5

Inteligencia Artificial Computacional

2011/Vision

I.- Introduccin
Es una rama que es reciente y que est siendo explorada cada vez por ms profesionistas, estudiantes, maestros e incluso por la industria. Para aqullos que tienen poco o ningn conocimiento sobre lo que realmente es Visin Computacional, aqu les dejo algunos conceptos: Qu significa ver? Mirar y saber qu es lo que est ah y dnde (Aristteles). La Visin Computacional es una disciplina que intenta emular la capacidad que tienen algunos seres vivos para ver una escena y entenderla

I.1.- Visin Computacional


Qu se entiende por visin computacional? Visin es un proceso que produce, a partir de imgenes (informacin) del mundo externo, una descripcin que es til para el observador y que est libre de informacin irrelevante. La visin computacional llamada tambin visin artificial o visin por computador (del ingles Computer Visin) es parte de la inteligencia artificial. Es el conjunto de tcnica y modelos que permiten procesar, analizar y explicar aquella informacin espacial (3-D) obtenida a travs de una imagen digital (2-D), de esta manera decimos que es el conjunto de todas aquellas tcnicas y modelos que nos permitan el procesamiento, anlisis y explicacin de cualquier tipo de informacin espacial obtenida a travs de imgenes digitales. Las tcnicas de visin computacional o visin artificial por computadora presenta una multitud de aplicaciones, entre ellas pueden citarse la identificacin de huellas dactilares, reconocimiento de caras, crecimiento y deteccin de enfermedades de las plantas en la agricultura, control de trfico vehicular, monitorizacin del sistema de vigilancia y por supuesto, las aplicaciones industriales para el control de calidad. Hasta ahora los agentes usaban formas sensoriales demasiado limitadas. La Visin por Computador, es uno de los campos ms extensos de la I.A ya que influyen muchos aspectos. La Visin para los humanos no es ningn problema, pero para las mquinas es un campo muy complicado. Influyen Texturas, Luminosidad, Sombras, Objetos Complejos, etc. El primer paso es captar la imagen mediante una cmara de TV. Las imgenes a color

Ing. Erick Nehring

Pgina 6

Inteligencia Artificial Computacional

2011/Vision

tienen una matriz I(x,y,t); donde x y y nos indican la ubicacin de un punto en la matriz de colores y t, nos indica el tiempo. En la actualidad, algunos Robots emiten una seal y la reciben generando bajo esto una especie de espacio, esta forma de ver es muy rstica, pero se sigue usando ya que desafortunadamente es imposible lograr una reconstruccin de la imagen capturada. Y aunque as fuera, las computadoras no podran distinguir un objeto de juguete y uno real. Lo peor es que los modelos que existen tratan de resolver esto de forma muy complicada. Al proceso de captar imgenes podemos dividirlo en: Bajo Nivel, Nivel Medio y Alto Nivel. El primero se encarga de suavizar y quitar ruido a la imagen y de extraer caractersticas de la imagen bidimensional, en particular de las aristas, el segundo se encarga de agrupar estas aristas para formar imgenes bidimensionales y la tercera de usar estas imgenes para reconocer objetos del mundo real. Generalmente las imgenes captadas por los robots son suficientes para sus propsitos. Para que estudiamos visin por computadora? El objetivo de la visin por computadora (VC) es tomar decisiones tiles acerca de los objetos fsicos reales del mundo (de escenas) en base a imgenes adquiridas digitalmente. Por lo tanto, la tarea de la visin computacional es la construccin de descriptores de la escena en base a caractersticas relevantes contenidas en una imagen. El propsito de la visin computacional es programar un computador para que "entienda" una escena o las caractersticas de una imagen. Los objetivos tpicos de la visin artificial incluyen:

La deteccin, segmentacin, localizacin y reconocimiento de ciertos objetos en imgenes (por ejemplo, caras humanas). La evaluacin de los resultados (ej.: segmentacin, registro). Registro de diferentes imgenes de una misma escena u objeto, hacer concordar un mismo objeto en diversas imgenes. Seguimiento de un objeto en una secuencia de imgenes. Mapeo de una escena para generar un modelo tridimensional de la escena; tal modelo podra ser usado por un robot para navegar por la escena. Estimacin de las posturas tridimensionales de humanos. Bsqueda de imgenes digitales por su contenido.

Estos objetivos se consiguen por medio de reconocimiento de patrones, aprendizaje estadstico, geometra de proyeccin, procesado de imgenes, teora de grficos y otros campos. La visin artificial cognitiva est muy relacionada con la psicologa cognitiva y la computacin biolgica.

I.2.- Visin Computacional Aplicada al Sistema Visual Humano Ing. Erick Nehring Pgina 7

Inteligencia Artificial Computacional

2011/Vision

La visin humana es una tarea de procesamiento de informacin, es el proceso de describir con las imgenes lo que est presente en el mundo real y donde se encuentra. Cuando la retina est daada o no funciona bien, los fotorreceptores dejan de funcionar, pero eso no quiere decir que toda la estructura del Sistema Visual Humano no pueda seguir funcionando. Por ello hay una parte de cientficos que estn desarrollando microchips de silicio que puedan dotar de visin artificial a aquellas personas a las que no les funcionan los fotorreceptores. Como ya sabemos, la informacin captada por los fotorreceptores se transmite a las clulas ganglionares, donde se interpreta y se manda al cerebro a travs del nervio ptico. Existen enfermedades que afectan a estas clulas como la tetignosis pigmentaria o la DMAE, que dejan inoperativos los fotorreceptores pero no daan las clulas ganglionares o el nervio ptico, con lo cual el problema no es que la informacin no puede llegar al cerebro, sino que no se puede captar. En estos casos se pueden desarrollar unos conos y bastonesartificiales. Los requisitos de los microchips para que cumpla la funcin de los fotorreceptores son: Que sean lo suficientemente pequeos como para implantarlos en el ojo. Que no causen rechazo, es decir, que sean biocompatibles con los tejidos del ojo. Uno de los micros que se ha desarrollado con xito por el momento es un dispositivo de 2mm de dimetro y fino como un pelo humano. Contiene 3500 clulas solares microscpicas que imitan a los bastones y los conos y convierten la luz en pulsos elctricos. Se abastece de energa solar, con lo que se vitan cables y bateras.

Que tengan una fuente de abastecimiento de energa continua.

I.3.- Aplicaciones de la Visin Computacional


Como ya sabemos entonces, la Visin Computacional trata de acercarse lo ms posible a la representacin de la realidad para crear Sistemas de Visin Artificial. Nos podemos preguntar para que nos sirven estos sistemas, a continuacin veremos algunas de las aplicaciones de la visin computacional: Industrial: Lneas de produccin para la supervisin y control de calidad de los productos. Medicina: Deteccin de enfermedades mediante anlisis de las imgenes, biomtrica. Robtica mvil Vehicular: Creacin de vehculos autnomos. Visin 3D: Proporcionar una visin generalizada de cualquier objeto en el espacio, Depth sensors. Otras aplicaciones: Interpretacin de escritura y dibujos Reconocimiento de personas (sus gestos y partes del cuerpo) (Figura 1.2) Reconocimiento de objetos y seguimiento de los mismos

Ing. Erick Nehring

Pgina 8

Inteligencia Artificial Computacional


2011/Vision

Juegos Interpretacin de imgenes areas Anlisis de imgenes de microscopios y telescopios (Figura 1.3) Compresin de imgenes para transmisin y almacenamiento. Seguridad: monitoreo de un sistema de vigilancia Identificacin de huellas dactilares (Figura 1.4)

I.4.- Planteamiento Terico de Marr


El fenmeno de la visin lo podemos considerar como el producto de un sistema de procesamiento de informacin. Para entender un sistema de procesamiento de informacin completamente, Marr propone los siguientes tres niveles de construccin: Teora Computacional: se definen las propiedades abstractas del mapeo y se demuestra que el mapeo es idneo y adecuado para la tarea a realizar. Representacin y algoritmos: se definen cuales son las representaciones de entrada y salida que se van a ocupar para implementar, y cul es el algoritmo utilizado para realizar la transformacin. Implementacin fsica (Hardware): se define el tipo de arquitectura computacional utilizada para implementar el algoritmo.

Marco de Representacin para Visin (Acorde a Marr)


Imagen de entrada: Representa los valores de intensidad en cada punto de la imagen. Reflectancia de superficies, iluminacion, puntos de vista. Sketch primario: Hace explicita la informacin de la imagen bidimensional, en forma de cruces con cero, formas, terminaciones y discontinuidades, segmentos de bordes, lneas virtuales, grupos, bordes (nivel bajo). 2 1/2D sketch: Hace explicita la orientacin y profundidad de las superficies visibles y el contorno de discontinuidades. Las primitivas de representacin son: La orientacin de la superficie local, Distancia desde el observador, Discontinuidades en profundidad En orientacin de la superficie (Nivel medio). Modelo 3D: Describe las formas y su organizacin espacial utilizando representaciones modulares jerrquicas. Volmenes, superficies, ... (Nivel alto).

Ing. Erick Nehring

Pgina 9

Inteligencia Artificial Computacional

2011/Vision

I.5.- Tcnicas de Procesamiento de Imgenes y Video


La creacin de una herramienta de procesamiento de imgenes debe entenderse como un proyecto software que, en consecuencia, har uso de los principios ingenieriles de desarrollo de software: fases de anlisis y diseo, uso de abstracciones, modularidad, ocultacin de la implementacin, separacin interface/implementacin. Estos aspectos no son el objetivo de la prctica, pero s el medio para desarrollar buenos programas. Un sistema de reconocimiento tpicamente est formado por las siguientes partes: Adquisicin: se refiere al proceso de convertir un documento a una representacin apta para ser procesada por la computadora. Tal adquisicin y conversin puede ser realzada por un escner, cmara fotogrfica o de video, etc. y el resultado puede variar dependiendo del proceso de digitalizacin usado y el mtodo de codificacin. Binarizacion: convierte la imagen recibida en una imagen binaria separando as el fondo de los objetos a analizar. Anlisis de Documento: trata de analizar la estructura de un documento y entender la informacin contenida en sus componentes. Segmentacin: se refiere a delimitar las regiones que nos interesan. En el caso del reconocimiento de caracteres se refiere a las lneas y caracteres individuales. Normalizacin: trata de ajustar la forma, tamao y posicin del carcter esto con el objetivo de minimizar la variacin entre imgenes de la misma clase. Extraccin de Caractersticas: permite conocer las caractersticas como lo son el tamao, permetro, rea, etc. as como caractersticas topogrficas como lo es la orientacin de segmentos. Reconocimiento: convierte la imagen binaria en una representacin electrnica. Misma que permite realizar operaciones de validacin y anlisis. Pros proceso: refiere a mejorar el proceso de reconocimiento mediante el uso de informacin contextual como el anlisis a nivel lingstico. El procesamiento digital de imgenes es el conjunto de tcnicas que se aplican a las imgenes digitales con el objetivo de mejorar la calidad o facilitar la bsqueda de informacin. Proceso de Filtrado Es el conjunto de tcnicas englobadas dentro del pre procesamiento de imgenes cuyo objetivo fundamental es obtener, a partir de una imagen origen, otra final cuyo resultado sea ms adecuado para una aplicacin especfica mejorando ciertas caractersticas de la misma que posibilite efectuar operaciones del procesado sobre ella. Los principales objetivos que se persiguen con la aplicacin de filtros son: Suavizar la imagen: reducir la cantidad de variaciones de intensidad entre pxeles vecinos.

Ing. Erick Nehring

Pgina 10

Inteligencia Artificial Computacional

2011/Vision

Eliminar ruido: eliminar aquellos pxeles cuyo nivel de intensidad es muy diferente al de sus vecinos y cuyo origen puede estar tanto en el proceso de adquisicin de la imagen como en el de transmisin. Realzar bordes: destacar los bordes que se localizan en una imagen. Detectar bordes: detectar los pxeles donde se produce un cambio brusco en la funcin intensidad. Por tanto, se consideran los filtros como operaciones que se aplican a los pxeles de una imagen digital para optimizarla, enfatizar cierta informacin o conseguir un efecto especial en ella. El proceso de filtrado puede llevarse a cabo sobre los dominios de frecuencia y/o espacio. Filtrado en el Dominio de la Frecuencia Los filtros de frecuencia procesan una imagen trabajando sobre el dominio de la frecuencia en la Transformada de Fourier de la imagen. Para ello, sta se modifica siguiendo el Teorema de la Convolucin correspondiente: 1. se aplica la Transformada de Fourier, 2. se multiplica posteriormente por la funcin del filtro que ha sido escogido, 3. para concluir re-transformndola al dominio espacial empleando la Transformada Inversa de Fourier. Teorema de la Convolucin (frecuencia): G(u,v) = F(u,v) * H(u,v) F(u,v): transformada de Fourier de la imagen original H(u,v): filtro atenuador de frecuencias

Existen tres tipos de Filtros Filtro paso bajo: atena las frecuencias altas y mantiene sin variaciones las bajas. El resultado en el dominio espacial es equivalente al de un filtro de suavizado, donde las altas frecuencias que son filtradas se corresponden con los cambios fuertes de intensidad. Consigue reducir el ruido suavizando las transiciones existentes. Filtro paso alto: atena las frecuencias bajas manteniendo invariables las frecuencias altas. Puesto que las altas frecuencias corresponden en las imgenes a cambios bruscos de densidad, este tipo de filtros es usado, porque entre otras ventajas, ofrece mejoras en la deteccin de bordes en el dominio espacial, ya que estos contienen gran cantidad de dichas frecuencias. Refuerza los contrastes que se encuentran en la imagen.

Ing. Erick Nehring

Pgina 11

Inteligencia Artificial Computacional

2011/Vision

Filtro paso banda: atena frecuencias muy altas o muy bajas manteniendo una banda de rango medio.

Filtrado en el dominio del espacio Las operaciones de filtrado se llevan a cabo directamente sobre los pxeles de la imagen. En este proceso se relaciona, para todos y cada uno de los puntos de la imagen, un conjunto de pxeles prximos al pxel objetivo con la finalidad de obtener una informacin til, dependiente del tipo de filtro aplicado, que permita actuar sobre el pxel concreto en que se est llevando a cabo el proceso de filtrado para, de este modo, obtener mejoras sobre la imagen y/o datos que podran ser utilizados en futuras acciones o procesos de trabajo sobre ella. Los filtros en el dominio del espacio pueden clasificarse en: Filtros lineales (filtros basados en kernels o mscaras de Convolucin). Filtros no lineales. El concepto de kernel se entiende como una matriz de coeficientes donde el entorno del punto (x,y) que se considera en la imagen para obtener g(x,y) est determinado por el tamao y forma del kernel seleccionado. Tipos Filtro paso bajo (suavizamiento): utilizados para eliminar ruido o detalles pequeos de poco inters puesto que slo afecta a zonas con muchos cambios. La frecuencia de corte se determina por el tamao del kernel y sus coeficientes. Se emplean diversos kernels: Promedio: promedio de pxeles vecinos (kernel de unos). Paso bajo en frecuencia. Media: reemplaza cada pxel por el valor medio de sus contiguos. Mediana: sustituye por el valor de la mediana de los pxeles vecinos (normalmente se comporta mejor que el de promedio). Gaussiano: aproximacin a la distribucin gaussiana. Filtro paso alto (atenuamiento): intensifica los detalles, bordes y cambios de alta frecuencia, mientras que atena las zonas de tonalidad uniforme. Esto permite una mejor identificacin posterior de los objetos que se encuentren en la imagen, puesto que el brillo se hace mayor en las zonas con frecuencias ms altas, al mismo tiempo que se oscurecen las zonas de frecuencias bajas. Es comn la aparicin de ruido tras el proceso. Realce de bordes por desplazamiento y diferencia: sustrae de la imagen original una copia desplazada de la misma. As, es posible localizar y hacer resaltar los bordes existentes y que se quieran obtener segn el modelo de kernel aplicado: Horizontal. Vertical. Horizontal/Vertical (diagonal).

Ing. Erick Nehring

Pgina 12

Inteligencia Artificial Computacional

2011/Vision

Realce de bordes mediante Laplace: este tipo de filtros realza los bordes en todas direcciones (los resultados que se obtienen pueden considerarse como una suma de los obtenidos tras aplicar todos los modelos del tipo anterior). En esta ocasin se trabaja con la segunda derivada, que permite obtener unos mejores resultados, a pesar del aumento del ruido que se produce en la imagen. Resalte de bordes con gradiente direccional: empleado para destacar y resaltar con mayor precisin los bordes que se localizan en una direccin determinada. Trabaja con los cambios de intensidad existentes entre pxeles contiguos. Deteccin de bordes y filtros de contorno (Prewitt y Sobel): al igual que los anteriores, se centra en las diferencias de intensidad que se dan pixel a pixel. Son utilizados para obtener los contornos de objetos y de este modo clasificar las formas existentes dentro de una imagen. Este tipo de filtros requieren un menor coste computacional.

Imagen Original y Resulta tras filtros Laplaciano y Sobel

I.6.- ltimos Avances


Olor por Internet Ya es posible el olor por Internet Las tecnologas que permiten la difusin de olor a travs de Internet ya son algo real, aunque existen pocas empresas que las fabriquen, estas apuestan por ofrecer servicios tangibles, es decir, que el internauta Estos dispositivos son muy adecuados para el sector de la perfumera, aunque su desarrollo se ha extendido a las imgenes, el correo electrnico, y otros dispositivos que son tanto la computadora personal como el telfono mvil. En los negocios que se estn creando en torno a Internet, hay empresas que apuestan por ofrecer servicios tangibles, es decir, que el internauta reciba a travs de su computadora una sensacin real ms all de la vista. Un ejemplo de ello son las compaas que estn desarrollando una tecnologa que permitir transmitir olor a travs de la Red. Las empresas pioneras de la investigacin son la californiana DigiScents, TriSenx, de Georgia, AromaJet, de Texas y SenseIt Technologies de Israel, y sus dispositivos ya pueden adquirirse. Su funcionamiento se basa en dos aparatos principales, un sintetizador de olor, que es capaz de recoger la fragancia y

Ing. Erick Nehring

Pgina 13

Inteligencia Artificial Computacional

2011/Vision

transformarla en una seal digital. sta es recogida por un receptor que, al igual que una impresora, reproduce el olor original. Las personas que deseen percibir los olores de los sitios visitados podrn hacerlo conectando el "sintetizador de olores" a su computadora. En vez de tinta, este dispositivo estar cargado con aceites o esencias primarias, capaces de reproducir millones de fragancias diferentes. Audio y Tinta Digital Imagina que ests en una reunin, tomando algunos apuntes de la conversacin en una aplicacin que captura tu letra manuscrita, bocetos, y garabatos, como un "digital ink" (o tinta digital) y adjunta dichas notas a tu asistente electrnico. Luego, mientras revisas tu agenda, con solo presionar un botn puedes llamar a las notas, y cliquear sobre cualquier parte del texto para oir una reproduccin grabada de la charla. La tinta digital junto con las grabaciones de audio ya existen. Lo nico por lo que hay que esperar es que alguien las incluya dentro de tu agenda electrnica para que puedan utilizarse. Mtodos de Deteccin de Contornos Para el anlisis de imgenes digitales la extraccin de los bordes de dichas imgenes resulta de gran utilidad. Podemos considerar que existe un borde cuando en un conjunto de puntos de la imagen aparece un cambio significativo en la intensidad luminosa (Sanfeliu, 87). Existen bsicamente dos formas de obtener los bordes de una imagen, estas son: Mtodo basado en las primeras derivadas. En este mtodo primero se miden los cambios de intensidad en todos los puntos de la imagen, haciendo uso de la primera derivada, despus se seleccionan como puntos de bordes aquellos puntos en los que el cambio de intensidad rebasa algn umbral preestablecido. Una imagen puede representarse matemticamente por una funcin f cuyo valor en el punto (x, y) representa la iluminacin existente en ese punto, el cambio de iluminacin de un punto en la imagen est representado grficamente por la pendiente que all tiene la superficie que representa a f, y normalmente resulta diferente segn sea la direccin considerada, la direccin en la que el cambio es ms intenso est dada por el vector gradiente en ese punto.

Ing. Erick Nehring

Pgina 14

Inteligencia Artificial Computacional

2011/Vision

II.- Introduccin
Alarmados por los avances y sobre todo por las aplicaciones que podra tener la Inteligencia Artificial (IA), un grupo de reconocidos cientficos para analizar los riesgos en las investigaciones en IA, las cuales podran tener como consecuencia una prdida del control humano sobre la maquina y conducir a la humanidad a una catstrofe. En el estado actual de la tecnologa ya se puede construir desde robots militares autnomos, como los que estn diseando en DARPA

II.1.- Aplicaciones Militares de la Inteligencia Artificial


Creacin del primer robot capaz de inmovilizar personas con un gas letal Una compaa norteamericana ha dotado a un tanque robot de capacidad para inmovilizar enemigos con un gas letal. Aunque en principio estas mquinas no estarn armadas con dispositivos letales ni tendrn licencia para matar, en diez aos, segn sus creadores, se contar con la capacidad tecnolgica necesaria para el desarrollo de robots exterminadores, que se usarn en misiones policiales y militares, as como en las crceles y en la lucha antiterrorista. Estas mquinas irn armadas y sern autnomas, y respondern a instrucciones como la de matar a cualquiera que les apunte. Carentes de sentimientos y de remordimientos, estos robots sern infinitamente valientes e inconscientes. Armamento Inteligente Los robots militares cuentan con algunas ventajas importantes, como que resisten mejor las condiciones extremas y sobreviven ms tiempo en un fuego cruzado. Adems, cuando se rompen pueden arreglarse y ahorraran a cualquier ejrcito bajas humanas, y a los Estados el dinero de las pensiones por invalidez o muerte.

Ing. Erick Nehring

Pgina 15

Inteligencia Artificial Computacional

2011/Vision

Los robots Swords son el desarrollo del modelo Taln combinado con el sistema de teledireccin de armamentos Trap y han sido fabricados por la empresa Foster-Miller, de Massachusetts. Los Swords, sin embargo, no tienen autonoma de decisin para disparar y dependen de un soldado humano para activar sus dispositivos de tiro. Liberaration ya anticipaba entonces, por boca de John Pike, director de Global Security, que estos robots autnomos para disparar estaran disponibles en una dcada, una estimacin coincidente con la que adelanta ahora The Guardian, aunque otros expertos citados por el diario francs dudan de que estos robots puedan estar operativos para el combate a medio plazo. HULC: Prototipo Militar HULC (Human Universal Load Carrier) es el tpico desarrollo militar, seguramente con un precio exorbitante, pero que podra acabar calando en el pblico con el paso de los aos si llega a ser verdaderamente til. El HULC es un completo sin ataduras, exoesqueleto antropomorfas hidrulica potencia que proporciona a los usuarios la capacidad de llevar cargas de hasta 200 libras por largos perodos de tiempo y sobre todos los terrenos. Su diseo flexible permite sentadillas profundas, se arrastra y el levantamiento de parte superior del cuerpo. No hay palanca de mando o mecanismo de control. Los sentidos exoesqueleto lo que los usuarios quieren hacer y dnde quieren ir. Esto aumenta su capacidad, fuerza y resistencia. Un micro-ordenador de a bordo asegura que el exoesqueleto se mueve en conjunto con el individuo. Su modularidad permite que los componentes principales que se intercambian en el campo. Adems, su diseo nico de ahorro de energa permite al usuario operar con la batera para misiones de larga duracin. capacidad de carga de la HULC funciona incluso cuando el poder no est disponible. Aplicaciones Militares de la DARPA DARPA, la siempre sorprendente agencia de investigacin del Pentgono ha puesto en marcha un proyecto destinado a producir cmaras de vdeo robticas capaces de seguir y filmar un objetivo sin la intervencin humana. Esto ser posible gracias al sistema de Inteligencia Artificial que piensan poner abordo de las mismas, que las habilitar para

Ing. Erick Nehring

Pgina 16

Inteligencia Artificial Computacional

2011/Vision

tomar las decisiones que generalmente toma el camargrafo. DARPA busca construir un dispositivo inmune a las emociones o la fatiga, capaz de documentar las misiones del ejercito de forma automtica. La Agencia de Investigacin de Proyectos Avanzados de Defensa (DARPA por sus siglas en ingls), responsable de algunos de los proyectos ms locos de los ltimos aos, se encuentra embarcada en una nueva aventura. Se trata del proyecto Mind's Eye algo as como ojo de la mente- que busca dotar a las mquinas de una capacidad que actualmente existe slo en los animales: la inteligencia visual. En efecto, los animales (y los seres humanos en particular) podemos realizar con facilidad una amplia gama de tareas visuales que al mejor sistema de Inteligencia Artificial (IA) le resultan completamente imposibles. Los seres humanos tenemos una habilidad intrnseca que nos permite imaginarnos sin dificultades dentro del entorno que nos rodea y visualizar escenas, objetos y acciones en nuestra mente. Habitualmente utilizamos esta habilidad para resolver problemas, y en DARPA creen que una mquina que fuese capaz de imitar esta caracterstica de nuestra mente podra ser muy til en una amplia gama de situaciones.

Cmara inteligente, montada en uno de estos helicpteros, serial muy til. El proyecto Mind's Eye pretende dotar a las mquinas de la capacidad de aprender de las imgenes obtenidas a travs de una cmara y extraer conclusiones sobre lo que est viendo. Una distincin clave entre este proyecto y cualquier investigacin anterior en el campo de la visin artificial es que, aunque este ltimo ha hecho progresos continuos en el reconocimiento de una amplia gama de objetos y sus propiedades, ignoran por completo lo que podran considerarse como sustantivos en la descripcin de una escena. El enfoque de Mind's Eye consiste en aadir las bases perceptivas y cognitivas para permitir a la IA razonar sobre los verbos en esas escenas, tal como lo hace un humano. Que prende conseguir DARPA con todo esto? Obviamente, algo que le resulte til en el campo militar. DARPA: Prtesis Mental Las prtesis han evolucionado de forma radical con el paso del tiempo, desde los primeros intentos con garras y cables de metal, hasta diseos complejos y avanzados hechos en

Ing. Erick Nehring

Pgina 17

Inteligencia Artificial Computacional

2011/Vision

fibra de carbono. Sin embargo, por ms que pueda tener una resistencia excelente, una prtesis se mide por la capacidad que le entrega a su usuario en materia de utilidad y movimiento. Hasta ahora, los resultados han sido ms o menos limitados. An se est lejos de restaurar la funcionalidad completa de un brazo humano, principalmente por la gigantesca cantidad de datos provenientes del cerebro que generan algo tan aparentemente sencillo como tomar una taza de t o girar un picaporte. Una solucin que se ha estado estudiando durante los ltimos aos es la posibilidad de implantar interfaces de forma directa sobre la corteza cerebral, para obtener las lecturas suficientes que hagan funcionar a la prtesis. Hemos visto algunos ejemplos en el pasado, pero ahora, es el turno de nada menos que DARPA. De hecho, la agencia parece estar lista para comenzar con las pruebas, lo que significa que algunos pacientes seleccionados ser sometidos a complejas cirugas cerebrales para instalar interfaces neurales compatibles. Los investigadores probarn el Miembro Prosttico Modular en un ser humano, luego de recibir ms de 34 millones de dlares para avanzar con el proyecto. La prtesis tendr movimiento independiente para cada uno de sus dedos, y un ngulo de 22 grados de desplazamiento. Su peso total es de poco ms de cuatro kilogramos, un peso muy similar al de un brazo humano real. La prtesis recibir los datos necesarios provenientes de las interfaces neurales instaladas en el cerebro, una transmisin directa y lo suficientemente rpida como para ofrecer una capacidad de movimiento bastante amplia. Entre algunos de los objetivos, se espera que con la prtesis sea posible sostener algo comn como una taza de caf. EART (robot tctico energticamente autnomo) Un robot autnomo, capaz de mantenerse funcionando a base de gasolina, energa solar, gas propano y -tambin- de la energa que obtenga al alimentarse de materia orgnica, afirman que podra cortar trozos de madera o restos de animales (humanos incluidos) para alimentarse. En DARPA aseguran que EATR podr mantenerse funcionando por s mismo por el tiempo que la situacin lo amerite. Robot Volador Consiste en el desarrollo de un pequeo robot volador que se propulsa y mantiene en el aire imitando con gran precisin el batir de las alas que se puede ver en insectos o en pjaros pequeos como los colibres. Para misiones de espionaje y similares, pero el concepto de robot volador en miniatura con su propia fuente de energa y capaz de cargar material adicional (como podra ser un micrfono en miniatura) es lo suficientemente prometedor como para que DARPA haya decidido invertir ms de dos millones de dlares en l. Aplicaciones de la Inteligencia Artificial a la Vida Real Al IA es tambin aplicable en las actividades realizadas en la vida real, veamos unos ejemplos de lo antes mencionado: Percepcin Visin

Ing. Erick Nehring

Pgina 18

Inteligencia Artificial Computacional


2011/Vision

Habla Lenguaje Natural Comprensin Generacin Traduccin Sentido Comn Juegos Ajedrez Matemticas Geomtrica Lgica Calculo Integral

III.- Introduccin
La Inteligencia Artificial, campo de la informtica, no ha sido impasible a este avance y a finales de los aos setenta aparecen los primeros trabajos en Inteligencia Artificial Distribuida. Su objeto es el estudio de modelos y tcnicas para resolucin de problemas en los que la distribucin, sea fsica o funcional, sea inherente. En general, los sistemas IAD se caracterizan por una arquitectura formada por componentes inteligentes y modulares que interactan de forma coordinada.

III.1.- Inteligencia Artificial Distribuida


La inteligencia artificial distribuida (IAD) aparece en la dcada de los 80's como una nueva rama de la inteligencia artificial (IA) que tiene el fin de estudiar sistemas inteligentes formados por un conjunto de varios agentes, estos intenta resolver problemas en donde una conducta colectiva es ms eficiente que una conducta individual, como lo estudia la inteligencia artificial que hace el anlisis de un nico agente que se encuentra en un ambiente no cambiante y que intenta resolver todo el problema con solo esta entidad. La Inteligencia artificial distribuida es un campo dedicado al estudio de las tcnicas y el conocimiento necesario para la coordinacin y distribucin del conocimiento y las acciones en un entorno con mltiples agentes. La dimensin y la complejidad de los nuevos sistemas de informacin son cada vez mayores, los planes para encontrar una solucin global ante cierto problema necesitan integrar soluciones de problemas ms pequeos. Lo anterior se asemeja a la idea de divide y vencers, en la cual los planes para resolver subproblemas son ms simples y precisos. Alonso particulariza las razones que influyeron en el paso de la IA a la IAD en dos,

Ing. Erick Nehring

Pgina 19

Inteligencia Artificial Computacional

2011/Vision

las primeras son razones epistemolgicas y las segundas razones son tcnicas. Podemos distinguir dos reas principales de desarrollo: Solucin cooperativa de problemas distribuidos (SCPD): Estudia como unos conjuntos de mdulos (o nodos) cooperan para dividir y compartir el conocimiento de un problema y en el desarrollo de la solucin. Sistemas multiagentes (SMA): Estudia la coordinacin de la conducta inteligente entre un conjunto de agentes inteligentes autnomos. La principal diferencia entre ambas reas estriba en la flexibilidad de la coordinacin entre los agentes. En la SCPD, las interacciones y tareas que cada agente realiza, estn prefijadas de antemano: hay un plan centralizado de resolucin de problemas. Suele haber un miembro que ejerce un control global que centraliza los resultados parciales y datos entre el resto de los componentes del sistema. En contraposicin en los SMA, los agentes tienen un grado de autonoma mayor y pueden decidir dinmicamente que interacciones son adecuadas, que tareas deben realizar, quien realiza cada tarea y, adems, es posible mantener conocimiento que no es globalmente consistente, incluso los agentes pueden mantener objetivos globales diferentes. Esta definicin permite distinguir entre sistemas que se centran en el comportamiento global, con una conducta fija de los agentes (SCPD) y sistemas que se centran en la conducta de los individuos que como resultado, obtenan una conducta del sistema (SMA). Vista como una sociedad, seria escoger entre un estado que planifica y regula las conductas de los individuos (que sern predecibles) o dejar que el sistema se resuelva por la libre iniciativa de los individuos. Los problemas bsicos que estudia la IAD y que son comunes a todos los sistemas son: Como formular, describir, descomponer y asignar problemas y sintentetizar los resultados entre un grupo de agentes inteligentes. Como capacitar a los agentes para que se comuniquen e interacten: que lenguajes de comunicacin o protocolos deben utilizarse, que y cuando deben comunicarse, etc. Como asegurar que los agentes acten coherentemente al tomar decisiones o realizar acciones, como acomodar los efectos globales de las decisiones locales y prevenir interacciones no deseadas. Como capacitar a los agentes para representar y razonar sobre acciones, planes y conocimientos de otros agentes para coordinarse; como razonar sobre el estado de su proceso de coordinacin (inicio o terminacin). Como reconocer y reconciliar puntos de vista e intenciones conflictivas entre un conjunto de agentes para coordinar sus acciones; como sintetizar los puntos de vista y los resultados. Como utilizar tcnicas ingenieriles y desarrollar sistemas con IAD. Como desarrollar plataformas de SMA y metodologas de desarrollo con tenias de IAD.

Ing. Erick Nehring

Pgina 20

Inteligencia Artificial Computacional

2011/Vision

Los anteriores problemas bsicos que intenta atacar la IAD se solucionan mediante diferentes teoras que se ven reflejadas en distintas reas de trabajo, las cuales se pueden descomponer en cuatro perspectivas.

reas de trabajo de Distribuida.

la Inteligencia Artificial

III.2.- Colaboracin entre Agentes


De forma inicial definimos que un agente inteligente es un componente de software o hardware que es capaz de actuar de forma autnoma para completar tareas de parte del usuario. Un agente inteligente es un agente que debe tener un comportamiento autnomo y flexible, donde flexible quiere decir que el agente debe ser reactivo, pro-activo y que tenga habilidades sociales. Existe una variedad de agentes, los cuales se pueden agrupar en las siguientes categoras: Agentes de Colaboracin Agentes de Interfaz Agentes Mviles Agentes de Informacin o Internet Agentes Reactivos Agentes Hbridos Agentes Inteligentes Por otra parte, un agente puede tener los siguientes atributos: Autonoma: puede operar sin la intervencin directa de un humano o alguna especie de control sobre sus acciones y estado interno. Movilidad: capacidad de una entidad de software de poder migrar de ambiente en caso de ser necesario. Inteligencia: con esta habilidad deben ser capaces de reconocer eventos, determinar su significado y de ah lleva a cabo acciones. BDI(belief, desire, intentions): creencias, deseos e intenciones del agente. Reactividad: los agentes perciben su entorno. Pro actividad: no solo deben responder hacia un estimulo del ambiente sino tambin ser capaces de demostrar iniciativa. Sociabilidad: puede tener una comunicacin con otro agente o un ser humano.

Ing. Erick Nehring

Pgina 21

Inteligencia Artificial Computacional

2011/Vision

No existe un consenso sobre el grado de importancia de cada una de estas propiedades para un agente. Sin embargo, se puede afirmar que estas propiedades son las que distinguen a los agentes de meros programas. Los agentes inteligentes, se tienden a interpretar como agentes aislados basados en diferentes tipos de arquitecturas: arquitectura de subsuncin, arquitectura de pizarra, arquitectura BDI y arquitecturas para la resolucin genrica de problemas. Debido al carcter distribuido de los entornos y a la necesidad de cooperacin entre los agentes sobre todo en la solucin de problemas complejos, han ido surgiendo mtodos que permiten la colaboracin de varios agentes para lograr objetivos comunes. Para estos casos surgen los Sistemas Multi-Agentes (SMA), Existen dos formas de abordar el problema por medio de: 1. Agentes aislados. 2. Sistemas Multi-Agentes (SMA) La filosofa de trabajo de los Sistemas Multi-Agentes implica no slo la comunicacin entre agente sino tambin lograr una actuacin coordinada sobre el entorno. Este hecho aumenta la complejidad del desarrollo de los SMA, ya que obliga a realizar un estudio en todos sus detalles del entorno para detectar que acciones realizadas por un agente pueden afectar a otro agente y por supuesto al entorno en s. III.3.- Arquitecturas para agentes inteligentes Una arquitectura permite descomponer un sistema computacional en componentes ms pequeos y determinar cmo es la relacin entres estos. Una arquitectura para agentes en particular permite descomponer un sistema de agentes, y determinar cmo deben interactuar entre ellos y con el ambiente. Se distinguen tres arquitecturas diferentes que se clasifican segn el modelo de razonamiento que utilizan: Arquitecturas deliberativas: Una arquitectura deliberativa es aquella en la que el comportamiento y conocimiento de los agentes estn explcitamente representados mediante un modelo simblico. El modelo simblico consta generalmente de un conjunto de smbolos fsicos, es decir un conjunto fsicamente realizable de entidades y estructuras. Adems de esto en la arquitectura deliberativa las decisiones de los agentes son hechas mediante razonamiento lgico o seudo lgico. Arquitecturas reactivas: Una arquitectura reactiva es aquella que no incluye alguna clase central de modelo simblico del mundo y no usa un razonamiento simblico complejo. Las acciones que toman sus entidades se basan en una asignacin de lectura del medio ambiente con una operacin a efectuar. Esta clase de arquitectura tambin es llamada alternativa, ya que surgi como una opcin a las arquitecturas deliberativas que presentan problemas que en ocasiones no

Ing. Erick Nehring

Pgina 22

Inteligencia Artificial Computacional

2011/Vision

se pueden solucionar y adems se aleja de la representacin del conocimiento mediante un modelo simblico. Arquitecturas Hbridas: Los investigadores sugieren que ninguna de las dos arquitecturas vistas anteriormente es del todo apropiada para la construccin de agentes, por eso se plantean soluciones de arquitecturas hbridas en la cual se integran los dos mtodos (deliberativa y reactiva).

III.4.- Teora de los Juegos


Un juego se considera la competencia entre dos sistemas. La teora de los juegos se aplica slo a algunos tipos de conflictos (llamados juegos) que implican la disputa de intereses entre dos o ms participantes, y en los que cada parte, en determinados momentos, puede emprender diversas acciones posibles, delimitadas por las reglas del juego. El nmero de estrategias posibles es finito y, por tanto, enumerable. Cada una de ellas describe lo que se har en cualquier situacin. Conocidas las estrategias posibles de los jugadores, pueden estimarse todos los resultados factibles. La Teora de los juegos slo es posible aplicarla cuando: El nmero de participantes es finito. Cada participante dispone de un nmero finito de cursos posibles de accin. Cada participante conoce todos los cursos de accin a su alcance. Dos partes intervienen cada vez y el juego es Suma-cero, es decir, puramente competitivo: Los beneficios de un jugador son las prdidas del otro y viceversa. La teora de juegos es un rea de la matemtica aplicada que utiliza modelos para estudiar interacciones en estructuras formalizadas de incentivos (los llamados juegos). Sus investigadores estudian las estrategias ptimas as como el comportamiento previsto y observado de individuos en juegos. Tipos de interaccin aparentemente distintos pueden, en realidad, presentar estructuras de incentivos similares y, por lo tanto, representar conjuntamente un mismo juego. Desarrollada en sus comienzos como una herramienta para entender el comportamiento de la economa, la teora de juegos se usa actualmente en muchos campos, desde la biologa a la filosofa. Experiment un crecimiento sustancial y se formaliz por primera vez a partir de los trabajos de John von Neumann y Oskar Morgenstern, antes y durante la Guerra Fra, debido sobre todo a su aplicacin a la estrategia militar en particular a causa del concepto de destruccin mutua garantizada. Desde los setentas, la teora de juegos se ha aplicado a la conducta animal, incluyendo el desarrollo de las especies por la seleccin natural. A raz de juegos como el dilema del prisionero, en los que el egosmo generalizado perjudica a los jugadores, la teora de juegos se ha usado en ciencia poltica, tica y filosofa. Finalmente, ha atrado tambin la atencin de los investigadores en informtica, usndose en inteligencia artificial y ciberntica.

Cada participante conoce todos los cursos de accin al alcance del adversario aunque desconozca cul curso de accin escoger ste.

Ing. Erick Nehring

Pgina 23

Inteligencia Artificial Computacional

2011/Vision

Los juegos han sido estudiados a lo largo de la historia formulndose incluso modelos matemticos que permitiesen desarrollarlos. En un principio, estos juegos fueron estudiados por una rama de la ciencia denominada Investigacin Operativa (IO), la cual proporcionaba tcnicas que solo podran ser aplicables si exista un procedimiento finito. Con el surgimiento de la Inteligencia Artificial se crean nuevos algoritmos de bsquedas que permiten desarrollar soluciones dentro de procedimientos no finitos. Uno de estos algoritmos es el algoritmo de Poda Alpha-Beta que es muy usado en la teora de Juegos y que permite encontrar soluciones dentro de un campo de bsquedas infinito. Sin embargo para poder entender mejor esta tcnica, es necesario y conveniente primero entender la tcnica de bsqueda Minimax, que es una tcnica que se centra en la resolucin de problemas de bsquedas, basadas en la alternacin de dos entes o agentes a los cuales se les denominan Min y Max.

Estrategia Mini Max La estrategia minimax es una estrategia de bsqueda exhaustiva mediante un rbol de bsqueda. Este algoritmo considera el caso de 2 participantes a los que se les denomina Max y Min. El que inicia el juego es Max y existe una alternancia en la participacin del juego. Por lo tanto lo que tiene que hacer Max, es determinar la secuencia de jugadas que conduzca a un estado Terminal ganador o favorecedor.

Figura que muestra el rbol generado por el proceso de bsqueda minimax, por profundidad, en el juego de tres en raya.

Ing. Erick Nehring

Pgina 24

Inteligencia Artificial Computacional

2011/Vision

Figura que muestra el desarrollo general e la secuencia de la tcnica de minimax. Entrada: - Nodo N. Salida - Valor de utilidad de N Si N es nodo Hoja ValorUtilidad funcin de utilidad De lo contrario Para cada nodoHijo Hi de N hacer valorUtilidadi MiniMaxR(Hi) Fin para Si N es max valorUtilidad max(H1,H2,Hn) De lo contrario valorUtilidad min(H1,H2,Hn) Devolver (valorUtilidad) Algoritmo 1. Algoritmo recursivo de la tcnica Minimax Estrategia de PODA ALPHA BETA Este algoritmo es el ms utilizado en las aplicaciones referidas a juegos, dada su excepcional utilidad en el aumento de la velocidad de la bsqueda sin producir prdida de la informacin. Es una extensin en particular del algoritmo de Bsqueda Minimax en juegos de dos contrincantes. Cada vez que se evala un nodo u hoja, el algoritmo determina s los nuevos hijos generados pueden generar una mejor utilidad de la que ya posee el nodo estudiado y si afecta al nodo padre. De no ser as, eso significa que seguir analizando esa rama es desperdiciara recursos como tiempo y espacio, por lo cual no se sigue generando y simplemente se le poda, de all el nombre. El algoritmo muestra como es el desarrollo para una bsqueda por medio de la Poda Alpha Beta, se detalla las entradas. Para ingresar al algoritmo, se necesita ingresar el nodo a ser evaluado, del que se obtendr su utilidad, as como la utilidad del padre para evaluar si es que la nueva utilidad afecta o no al nodo padre. De no ser as, se proceder a podar la rama. Una vez podada la rama, la nueva utilidad ser la ltima en ser registrada o actualizada. Esto se da mediante la variable fNodo, que contiene la funcin de utilidad del nodo ingresado. Algoritmo Poda Alpha

Ing. Erick Nehring

Pgina 25

Inteligencia Artificial Computacional


Entrada: - Nodo, fNodoP Salida: - fNodo Si nodo es MAX fNodo -inf De lo contrario fNodo inf fin si Si nodo es hoja fNodo utilidadNodo(nodo) de lo contrario para cada ficha fi que se pueda mover para cada accion aj de fi nodoH crear nodo con ai nodoH PodaAB(nodoH,fNodo) si nodo es MAX si fHijo > fNodo fNodo fHijo si fNodo >=fNodoP eliminar fNodo retornar null; fin si fin si fin si si nodo es MIN si fHijo < fNodo fNodo fHijo si fNodo =<fNodoP eliminar fNodo retornar null; fin si fin si fin si fin para fin para retornar nodo; fin si Juego de Ajedrez

2011/Vision

Ing. Erick Nehring

Pgina 26

Inteligencia Artificial Computacional

2011/Vision

El juego del ajedrez es un juego adecuado para tratarlo mediante tcnicas de IA debido a que tiene claramente definidos el objetivo que se quiere alcanzar (meta) y los medios para llegar (movimientos permitidos). En este juego, el programa en todo momento debe conocer la configuracin del tablero para la maquina poder tomar la decisin adecuada (jugada), que le permita ganar. Para ello necesita de gran capacidad de almacenamiento de informacin, utilizando estructuras que le permitan llegar a conclusiones coherentes.

Ing. Erick Nehring

Pgina 27

Inteligencia Artificial Computacional

2011/Vision

IV.- Introduccin
El concepto de sntesis de voz ha existido durante siglos, pero slo en las ltimas dcadas ha convertido el proceso en disponible al pblico en general. Los primeros sintetizadores de voz sonaban muy robticos y eran a menudo inteligibles a duras penas. Sin embargo, la calidad del habla sintetizada ha mejorado en gran medida, y el resultado de los sistemas de sntesis contemporneos es, en ocasiones, indistinguible del habla humana real.

IV.1.- Sintetizado de Voz por medio de un agente inteligente


Que es un sintetizador de voz? El sintetizador de voz es el dispositivo que se utiliza para convertir caracteres de texto en sonidos que aproximan el sonido de la voz humana. Dependiendo del nivel de sofisticacin del dispositivo individual, los sonidos producidos pueden ser algo tiesa y suena artificial, o un sonido muy mucho como la voz de una persona real. Sntesis de habla La voz sinttica es una voz artificial (no pregrabada), generada mediante un proceso de sintetizacin del habla. La sntesis de habla es la produccin artificial de habla humana. Un sistema usado con este propsito recibe el nombre de sintetizador de habla y puede llevarse a cabo en software o en hardware. La sntesis de voz se llama a menudo en ingls text-to-speech (TTS), en referencia a su capacidad de convertir texto en habla. Sin embargo, hay sistemas que en lugar de producir voz a partir de texto lo hacen a partir de representacin lingstica simblica en habla. La calidad de una voz sinttica vendr dada por: Su inteligibilidad: con qu facilidad/dificultad es entendida? Su naturalidad: en qu medida se asemeja a la voz real de un humano? Visin general de la tecnologa de sntesis de voz Un sistema texto a voz se compone de dos partes: un front-end y un back-end. A grandes rasgos, el front-end toma como entrada texto y produce una representacin lingstica fontica. El back-end toma como entrada la representacin lingstica simblica y produce una forma de onda sintetizada. El front-end desempea dos tareas principales. Primero, toma el texto y convierte partes problemticas como nmeros y abreviaturas en palabras equivalentes. Este proceso se llama a menudo normalizacin de texto o pre procesado. Entonces asigna una transcripcin fontica a cada palabra, y divide y marca el texto en varias unidades prosdicas, como frases y oraciones. El proceso de asignar transcripciones fonticas a las palabras recibe el nombre de conversin texto a fonema (TTP en ingls) o grafema

Ing. Erick Nehring

Pgina 28

Inteligencia Artificial Computacional

2011/Vision

a fonema (GTP en ingls). La combinacin de transcripciones fonticas e informacin prosdica constituye la representacin lingstica fontica. La otra parte, el back-end, toma la representacin lingstica simblica y la convierte en sonido. El back-end se llama a menudo sintetizador. Historia Mucho antes del desarrollo del procesado de seal moderno, los investigadores de la voz intentaron crear mquinas que produjesen habla humana. El Papa Silvestre II (1003), Alberto Magno (1198-1280) y Roger Bacon (1214-1294) crearon ejemplos tempranos de 'cabezas parlantes'. En 1779, el cientfico dans Christian Gottlieb Kratzenstein, que trabajaba en esa poca en la Academia Rusa de las Ciencias, construy modelos del tracto vocal que podra producir las cinco vocales largas (a, e, i, o, u). Wolfgang von Kempelen de Viena, Austria, describi en su obra Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("mecanismo del habla humana con descripcin de su mquina parlante", J.B. Degen, Wien) una mquina accionada con un fuelle. Esta mquina tena, adems, modelos de la lengua y los labios, para producir consonantes, as como vocales. En 1837 Charles Wheatstone produjo una 'mquina parlante' basada en el diseo de von Kempelen, y en 1857 M. Faber construy la mquina 'Euphonia'. El diseo de Wheatstone fue resucitado en 1923 por Paget. En los aos 30, los laboratorios Bell Labs desarrollaron el VOCODER, un analizador y sintetizador del habla operado por teclado que era claramente inteligible. Homer Dudley refin este dispositivo y creo VODER, que exhibi en la Exposicin Universal de Nueva York de 1939. A pesar del xito de los sintetizadores puramente electrnicos, sigue investigndose en sintetizadores mecnicos para su uso en robots humanoides. Incluso el mejor sintetizador electrnico est limitado por la calidad del transductor que produce el sonido, as que en un robot un sintetizador mecnico podra ser capaz de producir un sonido ms natural que un altavoz pequeo. El primer sistema de sntesis computarizado fue creado a final de la dcada de 1950 y el primer sistema completo texto a voz se finaliz en 1968. Desde entonces se han producido muchos avances en las tecnologas usadas para sintetizar voz. Tecnologas de sntesis Las dos caractersticas utilizadas para describir la calidad de un sintetizador de voz son la naturalidad e inteligibilidad. La naturalidad de un sintetizador de voz se refiere a hasta qu punto suena como la voz de una persona real. La inteligibilidad de un sintetizador se refiere a la facilidad de la salida de poder ser entendida. El sintetizador ideal debe de ser a la vez natural e inteligible, y cada tecnologa intenta conseguir el mximo de ambas. Algunas de las tecnologas son mejores en naturalidad o en inteligibilidad y las metas de la sntesis determinan a menudo qu aproximacin debe seguirse. Hay dos tecnologas principales usadas para generar habla sinttica: sntesis concatenativa y sntesis de

Ing. Erick Nehring

Pgina 29

Inteligencia Artificial Computacional


formantes.

2011/Vision

Sntesis concatenativa: se basa en la concatenacin de segmentos de voz grabados. Generalmente, la sntesis concatenativa produce los resultados ms naturales. Sin embargo, las diferencias entre la variacin natural del habla y las tcnicas automatizadas de segmentacin de formas de onda resultan en defectos audibles, que conllevan una prdida de naturalidad.

Hay tres tipos bsicos de sntesis concatenativa: 1. Sntesis por seleccin de unidades: utiliza una base de datos de voz grabada (ms de una hora de habla grabada). Durante la creacin de la base de datos, el habla se segmenta en algunas o todas de las siguientes unidades: fonemas, slabas, palabras, frases y oraciones. Normalmente, la divisin en segmentos se realiza usando un reconocedor de voz modificado para forzar su alineamiento con un texto conocido. Despus se corrige manualmente, usando representaciones como la forma de onda y el espectrograma. Se crea un ndice de las unidades en la base de datos basada en parmetros acsticos de la segmentacin como la frecuencia fundamental, el pitch, la duracin, la posicin en la slaba y los fonemas vecinos. En tiempo de ejecucin, el objetivo deseado se crea determinando la mejor cadena de candidatos de la base de datos (seleccin de unidades). Este proceso se logra tpicamente usando un rbol de decisin especialmente ponderado. La seleccin de unidades da la mxima naturalidad debido al hecho de que no aplica mucho procesamiento digital de seales al habla grabada, lo que a menudo hace que el sonido grabado suene menos natural, aunque algunos sistemas usan un poco de procesado de seal en la concatenacin para suavizar las formas de onda. De hecho, la salida de la mejor seleccin de unidades es a menudo indistinguible de la voz humana real, especialmente en contextos en los que el sistema ha sido adaptado. Por ejemplo, un sistema de sntesis de voz para dar informaciones de vuelos puede ganar en naturalidad si la base de datos fue construida a base grabaciones de informaciones de vuelos, pues ser ms probable que aparezcan unidades apropiadas e incluso cadenas enteras en la base de datos. Sin embargo, la mxima naturalidad a menudo requiere que la base de datos sea muy amplia, llegando en algunos sistemas a los gigabytes de datos grabados. 2. Sntesis de difonos: usa una base de datos mnima conteniendo todos los difonos que pueden aparecer en un lenguaje dado. El nmero de difonos depende de la fonotctica del lenguaje: el espaol tiene unos 800 difonos, el alemn unos 2500. En la sntesis de difonos, la base de datos contiene un slo ejemplo de cada difono. En tiempo de ejecucin, la prosodia de una oracin se sobreimpone a estas unidades mnimas mediante procesamiento digital de seales, como codificacin lineal predictiva, PSOLA o MBROLA. La calidad del habla resultante es generalmente peor que la obtenida accin de unidades pero ms natural que la obtenida mediante sintetizacin de formantes. La sntesis difonos adolece de los defectos de la sntesis concatenativa y suena robtica como la sntesis de formantes, y tiene pocas ventajas respecto a estas tcnicas aparte del pequeo tamao de la base de datos, as que su uso en

Ing. Erick Nehring

Pgina 30

Inteligencia Artificial Computacional

2011/Vision

aplicaciones comerciales experimenta un declive, aunque contina usndose en investigacin porque hay unas cuantas implementaciones libres. 3. Sntesis especfica para un dominio: concatena palabras y frases grabadas para crear salidas completas. Se usa en aplicaciones donde la variedad de textos que el sistema puede producir est limitada a un particular dominio, como anuncios de salidas de trenes o informacin meteorolgica. Esta tecnologa es muy sencilla de implementar, y se ha usado comercialmente durante largo tiempo: es la tecnologa usada por aparatos como relojes y calculadoras parlantes. La naturalidad de estos sistemas puede ser muy grande, porque la variedad de oraciones est limitada y corresponde a la entonacin y la prosodia de las grabaciones originales. Sin embargo, al estar limitados a unas ciertas frases y palabras de la base de datos, no son de propsito general y slo pueden sintetizar la combinacin de palabras y frases para los que fueron diseados. Sntesis de formantes: no usa muestras de habla humana en tiempo de ejecucin. En lugar de eso, la salida se crea usando un modelo acstico. Parmetros como la frecuencia fundamental y los niveles de ruido se varan durante el tiempo para crear una forma de onda o habla artificial. Este mtodo se conoce tambin como sntesis basada en reglas pero algunos aducen que muchos sistemas concatenativos usan componentes basados en reglas para algunas partes de sus sistemas, como el front-end, as que el trmino no es suficientemente especfico. Muchos sistemas basados en sntesis de formantes generan habla robtica y de apariencia artificial, y la salida nunca se podra confundir con la voz humana. Sin embargo, la naturalidad mxima no es siempre la meta de un sintetizador de voz, y estos sistemas tienen algunas ventajas sobre los sistemas concatenativos. La sntesis de formantes puede ser muy inteligible, incluso a altas velocidades, evitando los defectos acsticos que pueden aparecer con frecuencia en los sistemas concatenativos. La sntesis de voz de alta velocidad es a menudo usada por los discapacitados visuales para utilizar computadores con fluidez. Por otra parte, los sintetizadores de formantes son a menudo programas ms pequeos que los sistemas concatenativos porque no necesitan una base de datos de muestras de voz grabada. De esta forma, pueden usarse en sistemas embebidos, donde la memoria y la capacidad de proceso son a menudo exiguas. Por ltimo, dado que los sistemas basados en formantes tienen un control total sobre todos los aspectos del habla producida, pueden incorporar una amplia variedad de tipos de entonaciones, que no slo comprendan preguntas y enunciaciones. Otros mtodos de sntesis La sntesis articulatoria ha sido un mtodo de inters puramente acadmico hasta hace poco. Se basa en modelos computacionales del tracto vocal y el proceso de articulacin. Pocos de los modelos son suficientemente avanzados o eficientes computacionalmente para ser usados en sistemas comerciales de sntesis de voz. Una excepcin notable es el sistema basado en NeXT, originalmente desarrollado

Ing. Erick Nehring

Pgina 31

Inteligencia Artificial Computacional

2011/Vision

y comercializado por Trillium Sound Research Inc, que pas ms tarde a tener una licencia GPL y se continu como gnuspeech, siendo un proyecto GNU. El software original de NeXT y versiones del software para Mac OS/X y Linux GNUstep estn disponibles e junto a manuales y documentos relevantes a los fundamentos tericos del trabajo. El sistema, que fue comercializado por primera vez en 1994, proporciona una conversin texto a voz articulatoria completa mediante una analoga de gua de onda o lnea de transmisin de los tractos vocal y nasal humanos, controlados por el Modelos de Regin Distintiva de Carr que est basado en el trabajo de Gunnar Fant y otros del laboratorio Stockholm Specch Technology Lab del Royal Institute of Technology sobre el anlisis de la sensibilidad de formantes. Este trabajo mostr que los formantes en un tubo resonante pueden ser controlados por slo ocho parmetros que corresponden a los articuladores disponibles en el tracto vocal humano natural. La Sntesis hbrida ana aspectos de las sntesis concatenativa y de formantes para minimizar los defectos acsticos cuando se concatenan segmentos. La Sntesis basada en HMM es un mtodo de sntesis basado en Modelos ocultos de Mrkov (HMM en ingls). En este sistema, el habla espectro de frecuencias (tracto vocal), frecuencia fundamental (fuente vocal), y la duracin (prosodia) se modelan simultneamente por modelos ocultos de Mrkov. Las formas de onda se generan desde estos modelos ocultos de Mrkov mediante el criterio de mxima verosimilitud. Desafos del front-end Desafos de la normalizacin de texto El proceso de normalizar texto es pocas veces simple. Los textos estn llenos de homgrafos, nmeros y abreviaturas que tienen que ser transformados en una representacin fontica. Por supuesto, en lenguas donde la correspondencia entre el texto escrito y su equivalente fontico es poca (ingls) o ninguna (mandarn), la creacin de estos sistemas se complica. Muchos sistemas de texto a voz no generan representaciones semnticas de los textos de entradas, pues los sistemas para hacerlo no son fiables o computacionalmente efectivos. Como resultado, se usan varias tcnicas heursticas para estimar la manera correcta de desambiguar homgrafos, como buscar palabras vecinas y usar estadsticas sobre la frecuencia de aparicin de las palabras. Decidir cmo convertir nmeros en palabras es otro problema que tienen que solucionar los sintetizadores de voz. Es un desafo bastante simple programar un sistema que convierta nmeros en palabras, como por ejemplo transformar 1325 en "mil trescientos veinticinco". Sin embargo, los nmeros aparecen en diferentes contextos, y 1325 puede ser un ordinal, "uno tres dos cinco" si son los ltimos dgitos de un DNI o "trece veinticinco" si es un nmero de telfono. A menudo un sistema de sntesis de voz puede inferir cmo expandir un nmero en funcin de las palabras o nmeros vecinos y la puntuacin, y algunos sistemas proporcionan un sistema para especificar el tipo de

Ing. Erick Nehring

Pgina 32

Inteligencia Artificial Computacional

2011/Vision

contexto si es ambiguo. De la misma forma, abreviaturas como "etc." se pueden transformar fcilmente en "et ctera", pero a menudo las abreviaturas puede ser ambiguas. Por ejemplo la abreviatura "am" puede ser "ante meridiam" en el ejemplo: "El vuelo aterrizar a las 11 am" o puede ser "modulacin de amplitud" o simplemente "a eme" en el ejemplo "Nos puede encontrar en la sintona 1425 am". Los sistemas con front end inteligentes pueden hacer estimaciones adecuadas acerca de cmo tratar abreviaturas ambiguas, mientras que otros pueden hacer lo mismo en todos los casos, dando resultados en ocasiones cmicos. Desafos de los sistemas Texto a fonema Los sintetizadores de voz usan dos aproximaciones bsicas al problema de determinar la pronunciacin de una palabra basndose en su pronunciacin, un proceso que a menudo recibe el nombre de conversin texto a fonema o grafema a fonema, dado que fonema es el trmino usado por los lingistas para describir sonidos distintivos en una lengua. La aproximacin ms simple a este problema es la basada en diccionario, donde se almacena en el programa un gran diccionario que contiene todas las palabras de la lengua y su correcta pronunciacin. Determinar la pronunciacin correcta de cada palabra consiste en buscar cada palabra en el diccionario y reemplazar el texto con la pronunciacin especificada en el diccionario. La otra aproximacin para convertir texto en fonemas es la aproximacin basada en reglas, donde dichas reglas para la pronunciacin de las palabras se aplican a palabras para extraer sus pronunciaciones basadas en su forma escrita. Cada aproximacin tiene ventajas y desventajas. La tcnica basada en diccionarios tiene como ventajas ser rpida y precisa, pero falla completamente si una palabra dada no aparece en el diccionario, y a medida que crece el diccionario crecen los requerimientos de memoria del sistema de sntesis. Por otra parte, la tcnica basada en reglas funciona con cualquier entrada, pero la complejidad de las reglas crece sustancialmente a medida que se van teniendo en cuenta ortografas y pronunciaciones irregulares. Como resultado, casi cualquier sintetizador de voz usa una combinacin de las dos tcnicas. Algunos idiomas, como el espaol, tienen un sistema de escritura muy regular y la prediccin de la pronunciacin de palabras basada en deletreos es casi siempre correcta. Los sistemas de sntesis de voz para este tipo de lenguajes generalmente usan un enfoque basado en reglas como el enfoque central para la conversin texto-fonema y auxilindose de diccionarios pequeos para algunas palabras de origen extranjero cuya pronunciacin no se deduce de la escritura. En otros como el ingls, dado que se trata de sistemas muy irregulares en su escritura, el enfoque se basa principalmente en diccionarios y slo para palabras no usuales se basa en reglas. Problemas de la voz sinttica Rechazo por parte de los usuarios que no le perdonan su falta de naturalidad y su timbre robtico.

Ing. Erick Nehring

Pgina 33

Inteligencia Artificial Computacional

2011/Vision

Los CTV (Conversores de Texto-Voz) producen voz, generalmente, voz de hombre. Hay varias razones que pueden explicar este hecho: Una explicacin sociolgica obvia es que, hasta hace relativamente poco, las personas que trabajaban en los laboratorios eran hombres y stos empleaban su propia voz durante los experimentos. La voz masculina ofrece mejor calidad sonora que la femenina. Esto se debe a que la frecuencia fundamental (primer armnico) de la mujer es bastante ms alta que la de hombre. La forma de onda en la voz de mujer tiene un componente de oscilacin no peridica, que viene dado por una mayor frecuencia en la aspiracin, que resulta ms notable que la del hombre. Este componente de la excitacin glotal es difcil de modelar adecuadamente. En los ltimos tiempos han aparecido sintetizadores que utilizan voz de mujer de calidad aceptable, sin embargo, siguen sin alcanzar la calidad ofrecida por un sintetizador de similares caractersticas que emplee voz masculina. Lenguajes de etiquetas para sntesis de voz Hay un cierto nmero de lenguaje de etiquetas para la interpretacin de texto como voz de acuerdo con XML. El ms reciente es SSML, propuesto por el W3C, que tiene actualmente categora de borrador. Otros lenguajes de etiquetas de aparicin anterior son SABLE y JSML. Aunque cada uno fue propuesto como un nuevo estndar, ninguno ha sido ampliamente adoptado. Los lenguajes de etiquetas para sntesis de voz no son lenguajes de etiquetas para dilogo como VoiceXML, que incluye, adems de etiquetas de conversin texto a voz, etiquetas relativas a reconocimiento de voz y control de dilogo.

Ing. Erick Nehring

Pgina 34

Inteligencia Artificial Computacional

2011/Vision

V.- Introduccin
El reconocimiento facial se ha convertido en los ltimos aos en una rea de investigacin activa que abarca diversas disciplinas, como procesado de imgenes, reconocimiento de patrones, visin por ordenador y redes neuronales. Involucra tanto a investigadores del rea de informtica como a neurocientficos y psiclogos. Se podra considerar tambin dentro del campo de reconocimiento de objetos, donde la cara es un objeto tridimensional sujeto a variaciones de iluminacin, pose, etc., y ha de ser identificada basada en su proyeccin 2D (excepto cuando se utilizan tcnicas 3D).

V.1.- Reconocimiento Facial


El sistema de reconocimiento facial es una aplicacin dirigida por ordenador que identifica automticamente a una persona en una imagen digital. Esto es posible mediante un anlisis de las caractersticas faciales del sujeto extradas de la imagen o de un fotograma clave de una fuente de video, y comparndolas con una base de datos. El objetivo de un sistema de reconocimiento facial es, generalmente, el siguiente: dada una imagen de una cara "desconocida", o imagen de test, encontrar una imagen de la misma cara en un conjunto de imgenes "conocidas", o imgenes de entrenamiento. La gran dificultad aadida es la de conseguir que este proceso se pueda realizar en tiempo real. El sistema identificar las caras presentes en imgenes o videos automticamente. Puede operar en dos modos: Verificacin o autentificacin de caras: compara una imagen de la cara con otra imagen con la cara de la que queremos saber la identidad. El sistema confirmar o rechazar la identidad de la cara. Identificacin o reconocimiento de caras: compara la imagen de una cara desconocida con todas las imgenes de caras conocidas que se encuentran en la base de datos para determinar su identidad. Por su naturaleza amigable, este tipo de sistemas siguen siendo atractivos a pesar de la existencia de otros mtodos muy fiables de idenficiacin personal biomtricos, como el anlisis de huellas dactilares y el reconocimiento del iris. Aplicaciones Actuales Se utiliza principalmente en sistemas de seguridad para el reconocimiento de usuarios. En estos sistemas se utiliza un lector que define las caractersticas del rostro, y cuando este solicita el acceso, se verifica comparando los datos obtenidos con la base de datos. Sin embargo, estos sistemas no son tiles a largo plazo ya que, a medida que pasan los aos, los rasgos faciales varan y al solicitar el acceso ya no coinciden con la imagen en la base de datos. Para solucionar este problema se puede utilizar un algoritmo que interprete el paso de los aos, aunque igualmente sigue sin ser del todo fiable), o bien, renovar frecuentemente la base de datos.

Ing. Erick Nehring

Pgina 35

Inteligencia Artificial Computacional

2011/Vision

Tambin se utiliza en aplicaciones de interaccin persona-ordenador, en gestin multimedia, y en software como Google's Picasa, Apple iPhoto, Sony's Picture Motion Browser (PMB), Facebook y Asus Smart Logon. Posibles Aplicaciones Futuras Una aplicacin de reconocimiento facial futura se basa en establecer esta tcnica a nivel de usuario. Por ejemplo, en un supermercado o en un establecimiento pequeo se podra llevar a cabo un control sobre quien abre la caja registradora mediante un reconocimiento facial previo, de esta manera tambin se pueden evitar intentos de robo ya que, al no reconocer el rostro, la caja permanecera cerrada. Un caso ms extremo sera en los cajeros automticos donde, para poder operar, fuese necesario un reconocimiento facial en vez del actual PIN. Funcionamiento El proceso consta de cuatro mdulos principales:

Deteccin de la cara: detecta que hay una cara en la imagen, sin identificarla. Si se trata de un video, tambin podemos hacer un seguimiento de la cara. Proporciona la localizacin y la escala a la que encontramos la cara. Alineacin de la cara: localiza las componentes de la cara y, mediante transformaciones geomtricas, la normaliza respecto propiedades geomtricas, como el tamao y la pose, y fotomtricas, como la iluminacin. Para normalizar las imgenes de caras, se pueden seguir diferentes reglas, como la distancia entre las pupilas, la posicin de la nariz, o la distancia entre las comisuras de los labios. Tambin se debe definir el tamao de las imgenes y la gama de colores. Normalmente, para disminuir la carga computacional del sistema, se acostumbra a utilizar imgenes pequeas en escala de grises. A veces tambin se realiza una ecualizacin del histograma. Extraccin de caractersticas: proporciona informacin para distinguir entre las caras de diferentes personas segn variaciones geomtricas o fotomtricas. Reconocimiento: el vector de caractersticas extrado se compara con los vectores de caractersticas extrados de las caras de la base de datos. Si encuentra uno con un

Ing. Erick Nehring

Pgina 36

Inteligencia Artificial Computacional

2011/Vision

porcentaje elevado de similitud, nos devuelve la identidad de la cara; si no, nos indica que es una cara desconocida. Los resultados obtenidos dependen de las caractersticas extradas para representar el patrn de la cara y de los mtodos de clasificacin utilizados para distinguir los rostros, pero para extraer estas caractersticas apropiadamente, hace falta localizar y normalizar la cara adecuadamente. Tcnicas Los mtodos de reconocimiento facial tradicional se pueden dividir en dos grandes grupos: Holsticos Los primeros 10 a) Eigenfaces, b) Fisherfaces, y c) Laplacianfaces calculados a partir de imgenes de caras de la base de datos de YALE Reconocen segn toda la imagen facial. Son mtodos basados en correlacin. El esquema de clasificacin ms simple, donde se utilizan modelos de comparacin para el reconocimiento, es el template matching. El problema del template matching es que ha de comparar muchas caractersticas (para l, un pixel es una caracterstica), y si tenemos en cuenta que en la base de datos encontramos M personas, con N imgenes por persona, observamos que este mtodo no se puede implementar en tiempo real. Por lo tanto, se trabaja con otros mtodos que decorrelacionan las caractersticas entre s para conseguir reducir el espacio facial en un nmero menor de coeficientes, que tengan un alto poder discriminatorio entre las personas. Es lo que se denomina subespacio facial. Ejemplos de mtodos que trabajan a partir de subespacios son el Anlisis de Componentes Principales (PCA - Principal Component Analysis) a partir de eigenfaces, el Anlisis Linear Discriminant (LDA - Linear Discriminant Analysis) o el Discriminante Linear de Fisher(FLD Fisher Linear Discriminant a partir de fisherfaces. La tcnica PCA se considera una de las que proporciona un mayor rendimiento. Funciona proyectando las imgenes faciales sobre un espacio de facciones que engloba las variaciones significativas entre las imgenes faciales conocidas. Las facciones significativas se llaman eigenfaces, ya que son los eigenvectors, o componentes principales, del conjunto de caras. La proyeccin caracteriza la imagen facial de un individuo como la suma de los diferentes pesos de todas las facciones y, de la misma manera, para reconocer una imagen facial determinada slo har falta comparar estos pesos con aquellos de los individuos conocidos previamente. No tiene en cuenta la informacin de qu imgenes pertenecen a un mismo individuo. Es muy sensible a cambios en las condiciones de iluminacin en diferentes imgenes de una misma persona. El mtodo LDA permite utilizar la informacin entre miembros de la misma clase (imgenes de la misma persona) para desarrollar un conjunto de vectores de caractersticas donde las variaciones entre las diferentes caras se enfatizan mientras que los cambios debidos a la iluminacin, expresin facial y orientacin de la cara no. Es decir, maximiza la variancia de las muestras entre clases, y la minimiza entre muestras de la misma clase.

Ing. Erick Nehring

Pgina 37

Inteligencia Artificial Computacional

2011/Vision

La tcnica FLD es equivalente al LDA. Los resultados obtenidos con FLD son bastante mejores que los que podemos obtener con PCA, sobre todo cuando las condiciones lumnicas varan entre el conjunto de imgenes de entrenamiento y de test, y tambin con cambios de expresin facial, dando ms peso a zonas como los ojos, la nariz o las mejillas que a la boca, porque son zonas ms invariables en las diferentes expresiones que puede tener una persona. Otros mtodos, en vez de utilizar subespacios faciales, siguen una clasificacin por redes neuronales y plantillas deformables, como EGM - Elastic graph matching.

Locales o geomtricos
Se comparan diferentes caractersticas geomtricas de las caras. Existen dos divisiones, la basada en los vectores caractersticos extraidos del perfil, y la basada en los extraidos a partir de una vista frontal. Se utilizaba mucho anteriormente pero sus resultados no son ptimos. Tcnicas 3D ltimamente ha incrementado la tendencia del reconocimiento facial tridimensional, donde se utilizan imgenes 3D tanto en el entrenamiento como en el reconocimiento. Esta tcnica utiliza sensores en 3D para captar informacin sobre la forma de la cara. Esta informacin se utiliza posteriormente para identificar rasgos caractersticos del rostro como por ejemplo la barbilla, el contorno de los ojos, la nariz o los pmulos, y reteniendo informacin espacial, a parte de la textura y la profundidad. Una ventaja del reconocimiento facial en 3D es que no les afectan los cambios de iluminacin, como pasa en el caso de otras tcnicas. Adems, otro punto a favor es que pueden reconocer una cara en diferentes ngulos, incluso de perfil. El problema es que es difcil obtener imgenes 3D fidedignas en la fase de reconocimiento, ya que los sensores 3D tienen que estar muy bien calibrados y sincronizados para adquirir la informacin correctamente. Es por eso que se utiliza el mtodo de Anlisis de Components Principals Parcial (PCA - Partial Principal Component Analysis), derivado del PCA, donde se utilizan imgenes en 3D en la fase de entrenamiento y en la base de datos, pero en la fase de test puede utilizar tanto imgenes en 2D como en 3D. La tcnica intenta reconstruir modelos faciales en 3D a partir de mltiples imgenes de la misma persona adquiridas mediante un sistema multicmara o a partir de aparatos 3D. Las imgenes 3D son imgenes de 180 en coordenadas cilndricas. Otros ejemplos de tcnicas 3D son 3-D Morphable Model i 3-D Face Recognition. Tcnicas de anlisis de la textura de la piel Esta tendencia utiliza los detalles visuales de la piel. Analiza las lneas nicas, patrones y detalles evidentes como manchas y/o cicatrices del rostro del sujeto. Al utilizar este algoritmo nos ahorramos tener que recorrer toda la base de datos ya que podemos descartar imgenes fcilmente. Hay estudios que demuestran que utilizando esta tcnica, juntamente con el reconocimiento facial, el rendimiento puede aumentar hasta un 25 por ciento.

Ing. Erick Nehring

Pgina 38

Inteligencia Artificial Computacional

2011/Vision

Reconocimiento basado en video Se han desarrollado algunos sistemas de reconocimiento facial basados en video, por ejemplo, salas inteligentes que pueden reconocer a las personas y iniciar automticamente las acciones apropiadas. Otro ejemplo son los sistemas que detectan la fatiga de un conductor, monitorizando las expresiones de la cara y los movimientos de cabeza. Pero en aplicaciones de video vigilancia, el reconocimiento y la identificacin facial todava es una tarea difcil debido a: Baja calidad de video: normalmente la grabacin se hace en la calle, con una iluminacin inadecuada y, adems, las personas no son colaborativas, en el sentido de que no ayudan a ser reconocidas. Para solucionarlo, se pueden aplicar tcnicas de superresolucin. Imagen pequea de la cara: debido a las condiciones de adquisicin de la imagen, el tamao de la cara suele ser ms pequeo que los que hay en la base de datos. Eso no slo hace que la tarea sea ms difcil, si no que tambin afecta a la exactitud del proceso de segmentacin, as como a la deteccin de los puntos ms importantes utilizados en el reconocimiento. Hay aplicaciones en las que da buenos resultados, como en sistemas de control de acceso y en cajeros, donde el video se adquiere en un ambiente relativamente controlado y el tamao de la cara es aceptable. En estos casos, el reconocimiento basado en video ofrece algunas ventajas respecto el basado en imgenes: El video proporciona ms informacin, ya que tenemos ms frames para elegir en cual realizar la clasificacin. El video proporciona continuidad temporal, permitiendo reutilizar la informacin de clasificacin obtenida de los frames de alta cualidad para procesar los frames de baja calidad. El video permite hacer un seguimiento de las caras, as los cambios de pose y las expresiones faciales se pueden compensar. Aspectos tcnicos Debilidades El sistema de reconocimiento facial no es perfecto y a veces difcil de implementar en ciertas condiciones. Una de las principales debilidades de este sistema es debida a el ngulo en el que se encuentra el rostro que queremos reconocer. Estudios han confirmado que el reconocimiento acta correctamente hasta los 20, una vez superado este ngulo comienzan a surgir problemas. Es por este motivo que se est investigando el reconocimiento en 3D con el cual este inconveniente desaparecera. Otro inconveniente es el mal funcionamiento en situaciones de poca luz, adems, llevar el pelo largo, gafas de sol o otros objetos que cubran parte del rostro dificulta mucho la tarea. El algoritmo no siempre es capaz de distinguir los rostros si la expresin de este es diferente a la almacenada en la base de datos.

Ing. Erick Nehring

Pgina 39

Inteligencia Artificial Computacional

2011/Vision

Para solucionar algunos de estos problemas, aparte de hacer el reconocimiento sobre video, tambin se pueden utilizar tcnicas multimodales donde, a parte de la imagen de la persona, se incorpora tambin informacin de voz y audio, si esta se encuentra dentro del contenido. Principalmente, podemos distinguir dos problemas que causan una seria degradacin del rendimiento en la mayora de los sistemas existentes: Problema de iluminacin Los cambios provocados por la iluminacin son normalmente ms grandes que las diferencias entre personas, causando a los sistemas basados en comparacin a equivocarse al clasificar las imgenes de entrada. Se han propuesto algunas soluciones basadas en el conocimiento, en particular teniendo en cuenta que todas las caras pertenecen a una misma clase. Estas tcnicas estn divididas en 4 tipos: Mtodos heursticos: por ejemplo, cuando utilizamos los subespacios de eigenfaces, descartando las componentes principales. Mtodos de comparacin de imgenes: se utilizan representaciones apropiadas de la imagen y medidas de distancia. Mtodos basados en la clase: utilizan mltiples imgenes de la misma cara en una pose fija pero bajo diferentes condiciones lumnicas. Mtodos basados en el modelo: utilizan modelos 3D. Problema del cambio de pose El rendimiento de un sistema de reconocimiento facial tambin baja significativamente cuando hay presentes cambios en la pose. Hay diferentes mtodos propuestos para solucionarlo: Mtodos donde la base de datos incluye imgenes de una persona en diferentes poses. Mtodos hbridos, donde hay disponibles diferentes imgenes por persona durante el entrenamiento, pero slo una por persona en el reconocimiento. Es la ms utilizada. Mtodos basados en una nica imagen, donde no hay entrenamiento. No es popular. Efectividad Segn un estudio reciente el reconocimiento facial automtico da mejores resultados que en los humanos, pero todava no hay una tcnica que proporcione una solucin robusta para todo tipo de situaciones y para las diferentes aplicaciones que lo puedan necesitar. Segn la revista 'Science', utilizar imgenes compuestas por varias fotografas adquiridas en diferentes ngulos de una misma persona permite que el rendimiento del algoritmo llegue hasta un 100% en el mejor de los casos. Este es el resultado de estudios de psiclogos de la Universidad de Glasgow, donde se est tratando el tema y se ha llegado a la conclusin de que este nuevo sistema emula una de las claves de la capacidad humana para reconocer rostros. Aun as contina sin poder distinguir entre diferentes expresiones

Ing. Erick Nehring

Pgina 40

Inteligencia Artificial Computacional


faciales.

2011/Vision

Privacidad Aunque esta tecnologa nos aporta grandes beneficios, se cuestiona moralmente la privacidad del sujeto. Lo que a simple vista se considera como un avance tecnolgico se puede convertir en un arma. Dependiendo de su uso se puede controlar toda una sociedad entera sabiendo en todo momento donde se encuentran y qu estn haciendo. Ejemplo Facebook aade reconocimiento facial en fotos. Cada da se agregan ms de 100 millones de etiquetas a las imgenes, segn la red social. La titnica labor de etiquetar las fotos que son publicadas en Facebook pronto ser ms fcil, pues la red social dio a conocer en su blog que estrenarn una herramienta de reconocimiento facial que ayudar a mejorar esta experiencia. Aunque un mecanismo similar ya se haba implementado, la idea ahora automatizar ms la funcin. As, cuando el usuario est subiendo imgenes de un mismo evento, se sugerirn los nombres de quienes aparecen en todas las imgenes. Si subes fotos de una boda, vamos a agrupar las fotos de la novia y sugerir su nombre. En lugar de escribir su nombre 64 veces, todo lo que tienes que hacer es clic en guardar, seala Justin Mitchell, ingeniero del sitio en el blog. Adems, y para resguardar la seguridad, si el usuario no quiere que su nombre sea propuesto, se podr desactivar esta funcin en configuracin de privacidad. La herramienta -que se ha estado trabajando desde octubre-, primero estar disponible en Estados Unidos, y luego ser implementada en el resto de los pases.

Ing. Erick Nehring

Pgina 41

Inteligencia Artificial Computacional

2011/Vision

Conclusiones
Al finalizar nuestro trabajo de investigacin nos hemos llevado la gran satisfaccin de haber adquirido ms conocimientos sobre esta nueva rama de la informtica como lo es la inteligencia artificial y los campos donde esta se presenta, como grupo concluimos: La IA tiene muchas aplicaciones en la vida real. La IA no es como se ve, sino que an queda mucho mas por hacer. La visin computacin necesita de muchos conocimientos y comprensin visual. La IA es muy utilizada en las aplicaciones militares, pero se debe tener mucho cuidado en la puesta en marcha de estas. Son muchos los campos que son beneficiados por las aplicaciones de la IA. Gracias a la inteligencia artificial se ha logrado que una maquina sea capaz de desarrollar reas de conocimiento muy especificas y complicadas, haciendo que la maquina pueda simular procesos que el hombre realiza. Pero cabe destacar que an no se ha logrado que una mquina piense como un humano, esto se deber a que el hombre es irremplazable ya que los humanos contamos con caractersticas propias y una de ellas es el sentido comn. Es importante tener en cuenta que el uso que se le d a los nuevos avances o proyectos sean a favor de una actividad positiva, para bien y no destruccin de la misma humanidad.

Ing. Erick Nehring

Pgina 42

Inteligencia Artificial Computacional

2011/Vision

Bibliografia
Vision Computacional: http://es.wikipedia.org/wiki/Visi%C3%B3n_artificial http://robvis.mty.itesm.mx/~gordillo/Cursos/Sist-Vision-Compu-Prof/Vision-CompuGeneral.pdf http://atmsp.wordpress.com/category/vision-computacional/ http://www.google.com/search? q=vision+computacional&hl=es&prmd=ivns&ei=P3lITceyDYH78AbfuvTZBg&start=10&sa= N http://www.escet.urjc.es/~visionc/ http://industrial.unmsm.edu.pe/cema/archivos/VISION_COMPUTACIONAL.pdf Tcnicas de Procesamiento de Imgenes y Video: http://es.wikipedia.org/wiki/Procesamiento_digital_de_im%C3%A1genes http://revistas.ucm.es/fis/02144557/articulos/FITE9595110105A.PDF http://www.elai.upm.es/spain/Asignaturas/Robotica/PracticasROVA/ pr3ROVAProcesado.pdf http://www.itc.nl/external/unesco-rapca/Casos%20de%20estudios%20SIG/ 02%20Sensores%20remotos/sensores%20remotos.pdf http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/nieto_b_d/capitulo2.pdf http://www.cs.cinvestav.mx/Posgrado/Cursos/ProcsImages.html http://www.mappinginteractivo.com/plantilla-ante.asp?id_articulo=671 http://bdigital.eafit.edu.co/bdigital/PROYECTO/P658.562I76/conclusiones.pdf http://www.tuslibrospdf.com/131951/procesamiento-de-imagenes/ http://www.tuslibrospdf.com/buscar.php http://140.148.10.34/u_dl_a/tales/documentos/mel/gonzalez_g_ra/capitulo2.pdf http://www.hab2001.sld.cu/arrepdf/00365.pdf http://www.revistas.unal.edu.co/index.php/arh/article/viewFile/9313/9962 http://triton.javeriana.edu.co/carrera/tgrado/2000-2/videoemb.PDF http://newton.azc.uam.mx/mcc/02_ingles/11_tesis/tesis/terminada/ 050301_coronilla_contreras_ukranio.pdf Aplicaciones Militares: http://www.lockheedmartin.com/products/hulc/index.html http://www.tendencias21.net/Crean-el-primer-robot-capaz-de-inmovilizar-personas-conun-gas-letal_a1679.html http://www.uv.mx/cienciahombre/revistae/vol17num3/articulos/inteligencia/index.htm http://es.wikipedia.org/wiki/Robot http://proyectoa1.com/tag/inteligencia-artificial/ http://html.rincondelvago.com/aplicaciones-de-la-inteligencia-artificial_1.html

Ing. Erick Nehring

Pgina 43

Inteligencia Artificial Computacional

2011/Vision

http://www.elpais.com/articulo/tecnologia/EE/UU/introduce/inteligencia/artificial/ infraestructuras/defensa/militar/elpcibtec/20011018elpcibtec_3/Tes http://www.webxistence.com/2011/01/sobre-computadoras-e-inteligencia.html http://lacibernetica.blogspot.com/2009/08/cientificos-estan-preocupados-por-las.html http://scalab.uc3m.es/~dborrajo/pfcs/freeciv/pfc-freeciv.pdf http://www.ejercito.mil.co/?idcategoria=193451 IAD http://www.virtual.unal.edu.co/cursos/ingenieria/2001394/docs_curso/capitulo1/ leccion1.1.htm http://users.dsic.upv.es/grupos/ia/sma/publications/articulos/Dai-tr-final.pdf http://www.dia.fi.upm.es/~phernan/AgentesInteligentes/referencias/garcia98.pdf http://webdelprofesor.ula.ve/ingenieria/jacinto/ia/capitulo01.pdf http://cibernetica.wordpress.com/2007/05/31/inteligencia-artificial-distribuida-1/ Teora de los Juegos http://www.seccperu.org/?q=node/507 http://www.seccperu.org/files/ APLICACI%C3%93N%20DEL%20ALGORITMO%20PODA%20ALPHA.pdf http://es.wikipedia.org/wiki/Teor%C3%ADa_de_juegos http://www.wikiteka.com/apuntes/inteligencia-artificial/ http://www.mitecnologico.com/Main/TeoriaDeJuegosIntroduccion http://mate.dm.uba.ar/~jpinasco/t6.pdf http://www.info-ab.uclm.es/asignaturas/42542/IA-tema1-print.pdf Sintetizador de Voz y Reconocimiento Facial y Digital bgustavo.googlepages.com/IA-Agentes.pdf http://es.wikipedia.org/wiki/Sistema_de_reconocimiento_facial http://www.paisdigital.org/?p=4665 http://pagerankstudio.com/nuestrosalud/blog/?p=47059 http://es.wikipedia.org/wiki/S%C3%ADntesis_de_habla http://www.cavsi.com/preguntasrespuestas/que-un-sintetizador-de-voz/

Ing. Erick Nehring

Pgina 44

Inteligencia Artificial Computacional

2011/Vision

Apendice A
Glosario y Abreviaturas
VC: Visin Computacional TV: Televisin DARPA: Agencia de Investigacin de Proyectos Avanzados de Defensa IA: Inteligencia Artificial EART: Robot Tctico Energticamente Autnomo IAD: Inteligencia Artificial Distribuida SCPD: Solucin cooperativa de problemas distribuidos SMA: Sistemas multiagentes BDI:Belief, Desire, Intentions IO: Investigacion Operativa TTS: text-to-speech CTV: Conversores de Texto-Voz PCA: Partial Principal Component Analysis (Analisis de Componentes Principales Parcial ) FLD: Fisher Linear Discriminant LDA: LDA - Linear Discriminant Analysis ( Anlisis Linear Discriminante) EGM: Elastic graph matching

Ing. Erick Nehring

Pgina 45

Inteligencia Artificial Computacional

2011/Vision

Apendice B
Ilustraciones de Visin Computacional y Aplicaciones
Deteccin de Rostros

Reconocimiento de Actividad Humana y Objetos

Interpretacin de imgenes areas

Monitoreo de

Seguridad

Ing. Erick Nehring

Pgina 46

Inteligencia Artificial Computacional

2011/Vision

Aplicaciones de Inteligencia Artificial

Ing. Erick Nehring

Pgina 47

Você também pode gostar