Você está na página 1de 28

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin

Mdulos del sistema Conclusiones

Utilizacin de trifonemas como modelo acstico para el reconocimiento del habla


Proyecto informtico Daniel Garrido Garrochena
Escuela Tcnica Superior de Ingeniera Informtica

Junio 2009

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Sumario

Introduccin - Objetivos y alcance. Arquitectura del sistema. Fases del reconocimiento del habla. Objetivos del proyecto. Planicacin. Mdulos del sistema. Conclusiones.

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Introduccin - Objetivos y alcance

Desarrollo de un sistema reconocedor de voz (a nivel local). Entrenamiento del sistema con trifonemas. Ampliacin del sistema, agregando la posibilidad de reconocer a travs del protocolo TCP/IP. Permitir que mltiples usuarios puedan emplear el mismo sistema reconocedor, con las consiguientes ventajas que ello conlleva.

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Sistema reconocedor de voz Reconocimiento de voz sobre TCP/IP

Sistema reconocedor de voz

Reconocimiento de voz: proceso de convertir seales acsticas capturadas por, por ejemplo un micrfono, en texto.

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Sistema reconocedor de voz Reconocimiento de voz sobre TCP/IP

Reconocimiento de voz sobre TCP/IP

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin Extraccin de caractersticas Reconocimiento / clasicacin probabilstica Reconocimiento mediante fonemas Reconocimiento mediante trifonemas

Adquisicin

Sistema desde el cual se adquieren los datos de entrada al sistema reconocedor, la seal de voz. Por lo general, estos datos son adquiridos desde un micrfono. En este sistema sern adquiridos a travs de sockets. La fuente de generacin podra ser un micrfono en otro equipo, un chero de audio, . . .

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin Extraccin de caractersticas Reconocimiento / clasicacin probabilstica Reconocimiento mediante fonemas Reconocimiento mediante trifonemas

Extraccin de caractersticas

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin Extraccin de caractersticas Reconocimiento / clasicacin probabilstica Reconocimiento mediante fonemas Reconocimiento mediante trifonemas

Reconocimiento / clasicacin probabilstica

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin Extraccin de caractersticas Reconocimiento / clasicacin probabilstica Reconocimiento mediante fonemas Reconocimiento mediante trifonemas

Reconocimiento mediante fonemas

Sonidos distinguibles. 34 para el espaol. Representan secuencias de senones. Modelado con cadenas ocultas de Markov.

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin Extraccin de caractersticas Reconocimiento / clasicacin probabilstica Reconocimiento mediante fonemas Reconocimiento mediante trifonemas

Reconocimiento mediante trifonemas

343 = 39304 trifonemas para el espaol. En la prctica, alrededor de 5000. Es capaz de diferenciar los sonidos segn su contexto. Muy prctico para reconocimiento continuo del habla. Aumento de la tasa de aciertos.

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin Extraccin de caractersticas Reconocimiento / clasicacin probabilstica Reconocimiento mediante fonemas Reconocimiento mediante trifonemas

Reconocimiento mediante trifonemas

Cmo se modelan el resto de trifonemas?

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin Extraccin de caractersticas Reconocimiento / clasicacin probabilstica Reconocimiento mediante fonemas Reconocimiento mediante trifonemas

Reconocimiento mediante trifonemas

Cmo se modelan el resto de trifonemas?

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Objetivos del proyecto

Construir un sistema reconocedor de voz.


Entrenamiento. Reconocimiento.

Tecnologas inexploradas y en auge. Objetivos de carcter:


Tcnicos. Personales. Metodolgicos.

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Planicacin

Concepto Bsqueda de documentacin Planicacin Adquirir conocimientos sobre sistemas reconocedores del habla Elicitacin de requisitos Anlisis Diseo Implementacin

Estimado 8 das 8 das 40 das

Real 6 das 9 das 43 das

RE -33.33 % 11.11 % 6.97 %

10 20 30 60

das das das das

11 19 28 64

das das das das

9.09 % -5.26 % -7.14 % 6.25 %

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Planicacin

Concepto Documentacin Presentacin TOTAL

Estimado 18 das 2 das 196 das

Real 22 das 2 das 204 das

RE 18.18 % 0% 0.65 %

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin de datos Extraccin de caractersticas Modelos ocultos de Markov Entrenamiento Reconocimiento Gestor de bases de datos orales Gestin de la conguracin y log Comunicaciones

Mdulos del sistema

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin de datos Extraccin de caractersticas Modelos ocultos de Markov Entrenamiento Reconocimiento Gestor de bases de datos orales Gestin de la conguracin y log Comunicaciones

Adquisicin de datos

Adaptable a diferentes formas/dispositivos de adquisicin. Observador y fbrica simple.

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin de datos Extraccin de caractersticas Modelos ocultos de Markov Entrenamiento Reconocimiento Gestor de bases de datos orales Gestin de la conguracin y log Comunicaciones

Extraccin de caractersticas

Patrones de diseo observador y decorador. Encargado de:


Prenfasis. Hamming. MFCC. ...

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin de datos Extraccin de caractersticas Modelos ocultos de Markov Entrenamiento Reconocimiento Gestor de bases de datos orales Gestin de la conguracin y log Comunicaciones

Extraccin de caractersticas

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin de datos Extraccin de caractersticas Modelos ocultos de Markov Entrenamiento Reconocimiento Gestor de bases de datos orales Gestin de la conguracin y log Comunicaciones

Modelos ocultos de Markov

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin de datos Extraccin de caractersticas Modelos ocultos de Markov Entrenamiento Reconocimiento Gestor de bases de datos orales Gestin de la conguracin y log Comunicaciones

Entrenamiento

Algoritmo Baum-Welch. Clculos de avance-retroceso.

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin de datos Extraccin de caractersticas Modelos ocultos de Markov Entrenamiento Reconocimiento Gestor de bases de datos orales Gestin de la conguracin y log Comunicaciones

Reconocimiento

Algoritmo de Viterbi. Estructura esttica: palabras. Estructura dinmica: proceso del algoritmo.

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin de datos Extraccin de caractersticas Modelos ocultos de Markov Entrenamiento Reconocimiento Gestor de bases de datos orales Gestin de la conguracin y log Comunicaciones

Gestor de bases de datos orales

Albayzin. Posibilidad de gestionar otras bases de datos orales. Fbrica abstracta.

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin de datos Extraccin de caractersticas Modelos ocultos de Markov Entrenamiento Reconocimiento Gestor de bases de datos orales Gestin de la conguracin y log Comunicaciones

Gestin de la conguracin y log

Acceso a los parmetros de conguracin. Registro de errores, avisos, . . .

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Adquisicin de datos Extraccin de caractersticas Modelos ocultos de Markov Entrenamiento Reconocimiento Gestor de bases de datos orales Gestin de la conguracin y log Comunicaciones

Comunicaciones

Realizan las comunicaciones cliente-servidor/servidor-cliente.

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Posibles mejoras Gracias!

Conclusiones

Campo de conocimiento muy amplio y numerosas variantes.


Redes neuronales. Otro modelo acstico.

Motivacin personal satisfecha: adquisicin de nuevos conocimientos. Objetivos tcnicos y metodolgicos cumplidos en mayor o menor medida.

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Posibles mejoras Gracias!

Posibles mejoras

Implementacin para otras plataformas. Inmunidad al ruido de ambiente. Prosodia: expresar emociones. Questions revisadas por especialistas.

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Introduccin - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planicacin Mdulos del sistema Conclusiones

Posibles mejoras Gracias!

Gracias!

Daniel Garrido Garrochena

Utilizacin de trifonemas en el reconocimiento del habla

Você também pode gostar