Você está na página 1de 7

UNIVERSIDAD DE COSTA RICA

FACULTAD DE INGENIERA
ESCUELA DE CIENCIAS DE LA COMPUTACIN E
INFORMTICA
CI-2600 Temas Especiales para Inteligencia Artificial:
Procesamiento de Sonido
II ciclo 2011, Grupo 01
Requisitos: CI-1352 Probabilidad y Estadstica
Crditos: 4
Horario: lunes y jueves de 3:00 p.m. a 4:50 p.m
Aula: 103 IF
Docente: Dr. Arturo Camacho Lozano
Correo electrnico: arturo.camacho@ecci.ucr.ac.cr
Oficina: 243 IF
Telfono: 2511-5583
Consulta: por definir.

I. Descripcin del Curso


Este es un curso introductorio al procesamiento (anlisis, sntesis, modificacin y compresin)
del sonido por medio de computadora y sus aplicaciones al reconocimiento del habla y del
hablante, sntesis de voz e instrumentos musicales, recuperacin de informacin musical, y
codificacin del sonido. El curso es de ndole multidisciplinaria, ya que utiliza conocimientos
de Ingeniera Elctrica, Fsica, Matemtica, Estadstica, Msica, Neurociencia, Psicologa, y
Lingstica. En el curso se hace gran uso de la matemtica aprendida en los cursos de Clculo,
lgebra Lineal y Probabilidad y Estadstica. Adems, el curso da al estudiante la oportunidad de
aprender a usar Matlab (o alternativamente Octave), el cual es un ambiente y lenguaje de
programacin muy apto para el procesamiento de seales.
II. Objetivo general
Proveer al estudiante de las herramientas bsicas para el procesamiento de sonido (incluyendo el
uso de los ambientes y lenguajes de programacin Matlab y Octave), mostrarle el estado del arte
en algunas aplicaciones del mismo, y brindarle la oportunidad de desarrollar una aplicacin en la
que se que procese sonido.
III. Objetivos especficos
Al finalizar el curso, el estudiante:
Conocer sobre la produccin, propagacin y percepcin de la voz humana y el sonido de
algunos instrumentos musicales.
Conocer acerca de la representacin espectral del sonido.
Ser capaz de manipular el espectro de un sonido con un propsito dado.
1

Ser capaz de extraer informacin relevante a partir del espectro de un sonido.


Conocer y ser capaz de utilizar tcnicas bsicas para analizar la variacin del sonido a lo
largo del tiempo y extraer informacin a partir de ella.
Conocer tcnicas elementales para reconocer el habla y el hablante.
Conocer tcnicas para la recuperacin de informacin musical.
Conocer y ser capaz de utilizar tcnicas bsicas para la codificacin eficiente (compresin)
del sonido.
Ser capaz de crear sonidos que cumplan con ciertas caractersticas.
Ser capaz de utilizar los ambientes y lenguajes de programacin Matlab u Octave para
procesar sonido.
IV. Metodologa
(a) Clases
Las clases sern magistrales. La primera parte del curso (aproximadamente 2 meses) se
dedicar a cubrir las bases matemticas necesarias para el procesamiento de sonido y a estudiar
modelos fsicos de la produccin, propagacin y percepcin del sonido. Paralelamente a esto se
aprender el uso de los ambientes y lenguajes de programacin Matlab y Octave, pero esto se
har como estudio individual, con material recomendado por el docente. La segunda parte del
curso se dedicar a presentar aplicaciones y tcnicas utilizadas para resolver problemas en reas
que requieren procesamiento de sonido.
(b) Prcticas y exmenes cortos
Durante la primera parte del curso se propondrn muchos ejercicios de prctica para que
los estudiantes adquieran las destrezas matemticas y de programacin en Matlab u Octave
necesarias. Para procurar que esto se d, se realizarn exmenes cortos individuales en casi todas
las clases y sin previo aviso. En estos exmenes se pondrn a prueba el conocimiento y las
destrezas adquiridos en clase y durante la realizacin de las prcticas.
(c) Tareas y exmenes
Las tareas y exmenes sern individuales. En la primera parte del curso las tareas
contendrn un fuerte componente matemtico y poca programacin, pero luego estas sern ms
aplicadas y requerirn ms programacin. En las tareas se evaluar la materia vista en clase y las
lecturas asignadas. En los exmenes se evaluar tanto lo visto en clase como en las lecturas
asignadas, pero tambin se evaluarn conceptos adquiridos durante la realizacin de prcticas y
tareas.
(d) Proyecto
El proyecto final se realizar en grupos de 2 3 personas, dependiendo de la cantidad de
estudiantes activos en el curso. El proyecto consistir en expandir las tcnicas vistas en clase y
aplicarlas a la bsqueda de la solucin de algn problema que requiera de procesamiento de
sonido. El problema a elegir queda a completa libertad de los miembros del grupo, pero est
sujeto a la aprobacin del docente. Se recomienda resolver problemas que estn dentro de las
2

primeras dos grandes reas de aplicacin a cubrir en clase, ya que esto le permitir a los
estudiantes tener ms tiempo para resolver el problema. Para procurar que esto suceda para una
gran parte de la poblacin, el primer da de clase el docente introducir las cuatro reas de
aplicacin del procesamiento de sonido a cubrir en el curso, y luego someter a votacin el orden
en que estas se cubrirn. Para esto cada estudiante distribuir su voto entre las 4 reas (p. ej., 0.4,
0.2, 0.4, 0) y se escoger como primer tema el que tenga ms votos, como segundo tema el
segundo con ms votos, etc. Sin embargo, se recalca que cada grupo tendr libertad de escoger
su tema dentro de cualquier rea, inclusive dentro de reas no cubiertas en clase, siempre y
cuando el docente lo apruebe.
El proyecto deber contener una propuesta, la cual incluir un marco terico preliminar.
Si la propuesta no es aceptada por el docente, este propondr al grupo modificaciones necesarias
a la misma, o bien, sugerir un tema o enfoque ms adecuado, y solicitar al grupo una versin
corregida de la propuesta. Para poder desarrollar el proyecto, la propuesta debe haber sido
aprobada por el docente.
El proyecto debe contener un componente original. Por ejemplo, no basta con aplicar un
mtodo conocido a un nuevo conjunto de datos. Sin embargo, s es vlido combinar mtodos ya
existentes de una forma que no se hubiera realizado antes, siempre y cuando haya una
justificacin lgica para hacerlo (no es vlido combinarlos simplemente porque s y mostrar que
se logra una mejora [insignificante] con respecto a lo que ya exista). Siempre y cuando el
esfuerzo para lograrlo no sea excesivo, los resultados obtenidos utilizando el mtodo propuesto
deben ser comparados con los resultados obtenidos utilizando algn(os) otro(s) mtodo(s)
publicado(s) en fuente(s) de alta reputacin (p. ej., alguno de los incluidos en las referencias a
revistas). El formato del reporte debe ser el correspondiente a una revista arbitrada de alta
reputacin (se recomienda tomar como base alguno de los artculos recopilados).
En general, no se permitir que dos o ms grupos traten de resolver el mismo problema.
Sin embargo, se harn excepciones si las tcnicas a utilizar por cada uno de los grupos en
conflicto son suficientemente distintas. De no ser as, se les notificar a los grupos en cuestin
del conflicto y stos tendrn que llegar a un acuerdo para resolverlo. En caso de que ningn
grupo quiera ceder, se utilizar el mtodo de la moneda para decidir qu grupo debe cambiar de
tcnicas o de proyecto.
Habr tres entregables: una propuesta, una descripcin de la metodologa y un reporte
final. La propuesta y el reporte final irn acompaados de presentaciones orales. Tanto los
entregables como las presentaciones se pueden hacer en espaol o en ingls (nicos idiomas
conocidos por el docente).
1. Propuesta: Cada grupo deber hacer una presentacin oral y por escrito de su propuesta
de proyecto. En ellas se debe describir el problema especfico que se desea resolver,
mostrar un marco terico preliminar y sugerencias de (mejores) formas de solucionar el
problema. El marco terico preliminar debe incluir al menos 3 artculos en los cuales se
haya intentado resolver el problema en cuestin, un problema similar, o se presenten
tcnicas que los miembros del grupo consideren apropiadas para resolver el problema. Al
menos uno de los artculos debe provenir de una revista arbitrada de alta reputacin (un
journal, p.ej.: IEEE Transactions on Audio, Speech and Language Processing o Journal of
the Acoustical Society of America); el resto pueden provenir de actas (proceedings) de
conferencias.
2. Marco Terico, Metodologa y Plan de Trabajo: Cada grupo deber presentar un
documento que contenga el marco terico, la metodologa y el plan de trabajo para el
3

proyecto. El marco terico deber ser una extensin del marco terico preliminar y
deber incluir al menos 8 artculos, al menos 3 de ellos provenientes de revistas
arbitradas de alta reputacin. El marco terico deber mostrar el estado del arte en
cuanto a la solucin del problema en cuestin. La metodologa deber describir cmo se
va a implementar la solucin, con qu datos se va a evaluar y qu procedimientos y
mtricas de evaluacin sern utilizadas. El plan de trabajo describir cmo se va a
desarrollar el proyecto. Por ejemplo, si el proyecto tiene varios componentes a
desarrollar, en el plan de trabajo se debe describir cada componente, el orden en que se
van a desarrollar los componentes, y las dependencias entre los mismos. Adicionalmente,
el plan de trabajo debe incluir la divisin de trabajo que existir entre los miembros del
grupo y un cronograma que especifique la fecha de finalizacin de cada uno de los
componentes del proyecto.
3. Reporte Final: Cada grupo deber entregar un reporte final del proyecto, cuyo formato y
estilo corresponder a alguno de los artculos citados de alta reputacin (p. ej., journals).
Se sugiere que el reporte contenga las siguientes partes: Descripcin del Problema,
Marco Terico, Metodologa, Descripcin de la Implementacin, Descripcin de los
Experimentos, Resultados, Discusin de los Resultados, Conclusiones, Trabajo Futuro y
Referencias (Bibliografa). Sin embargo, el orden y los ttulos de estas partes podrn
variar de acuerdo al esquema utilizado en la revista escogida como patrn.
La presentacin oral del proyecto resumir la descripcin del problema resuelto,
los trabajos previos ms relevantes, el mtodo propuesto, los resultados obtenidos, las
conclusiones, y una posible extensin del proyecto (trabajo futuro). Todos los miembros
del grupo deben participar en la presentacin y deben estar preparados para contestar
preguntas, tanto relacionadas con las partes en las que contribuyeron como con las que
no.
Los criterios de evaluacin especficos para cada entregable o fase del proyecto se
proporcionarn oportunamente.
(e) Investigacin y presentacin de tema
Una seccin del curso ser presentada por los estudiantes. Para esto ellos se unirn en
grupos (pueden ser distintos de los grupos del proyecto) cuyo tamao ser determinado por el
docente. Cada grupo presentar al resto de los estudiantes un tema perteneciente a las reas de
plicacin 3 4, el cual puede ser propuesto por el grupo o asignado por el docente. En caso de
que sea propuesto por el grupo, este deber contar con la aprobacin del docente. Los estudiantes
debern hacer una investigacin bibliogrfica sobre el tema y recopilar, de al menos dos fuentes,
el material fundamental o ms relevante al tema. Los estudiantes debern enviar al docente el
material a presentar al menos 72 horas antes de la presentacin (p.ej., diapositivas o notas). El
docente revisar este material y les enviar a los estudiantes sugerencias o correcciones sobre el
mismo al menos 36 horas antes de la presentacin. La presentacin ser realizada por todos los
miembros del grupo, y se evaluar no solo la calidad de la presentacin sino tambin la del
material presentado.

(f) Material
El estudiante deber tener acceso a una computadora con parlantes o adfonos y un
micrfono de relativamente buena calidad, y la posibilidad de grabar su voz en en ambiente sin
ruido.
Todo trabajo escrito estar sujeto a evaluacin de su redaccin, ortografa y estilo. En
particular, se espera que el reporte final del proyecto sea de muy alta calidad en estos aspectos.
En general no se aceptarn trabajos despus de la fecha estipulada para su entrega. En
casos calificados se aceptarn trabajos despes de la fecha lmite, pero quedar a criteterio del
docente la aceptacin de los mismos y bajo ninguna circunstancia se aceptarn trabajos con ms
de tres (3) das de demora. Adems, la calificacin recibida por trabajos entregados tardamente
no ser ms alta que la calificacin recibida por cualquiera de los estudiantes que haya entregado
el trabajo a tiempo. Esto por cuanto los estudiantes que hayan entregado el trabajo a tiempo
podran argumentar que de haber tenido ms tiempo podran haber realizado un trabajo de mayor
calidad, y que por tanto hubieran podido obtener una mejor calificacin. Por su naturaleza de
sensibilidad al tiempo, se excluye de posibilidad de entrega tarda el material de investigacin
bibliogrfica [apartado (e)].
El plagio y la deshonestidad no sern tolerados en ninguno de los elementos de
evaluacin del curso (tareas, exmenes cortos, exmenes o proyecto) y sern castigados con la
anulacin del mismo, an cuando el plagio se haya dado en slo una parte del trabajo. (Por
ejemplo, si hubo plagio en uno de los ejercicios de una tarea, los estudiantes involucrados
recibirn un cero como nota de toda la tarea).
V. Contenido
Primera parte: Fundamentos:

Fundamentos de procesamiento de seales


Variable compleja
Series y transformadas de Fourier
Muestreo
Filtros
Procesos estocsticos
Fundamentos de acstica y modelos acsticos
Produccin del sonido
Instrumentos musicales
Voz humana
Transmisin del sonido
Percepcin del sonido
Sonoridad
Altura
Timbre

Segunda parte: reas de aplicacin:

Sntesis del sonido


Aditiva
Sustractiva
Frecuencia modulada
Modelamiento fsico
Granular
Reconocimiento del habla
Anlisis cepstral
Coeficientes cepstrales en escala mel (MFCC)
Modelos ocultos de Markov (HMM)
Reconocimiento del hablante
Recuperacin de informacin musical
Consulta por canto o tarareo
Reconocimiento automtico de gnero musical
Huellas dactilares en audio
Redes sociales
Codificacin del sonido
Modulacin por impulsos codificados (PCM)
Cuantificacin vectorial (VQ)
Prediccin lineal con excitacin codificada (CELP)
Codificacin perceptual (p. ej., MP3, AAC)
Codificacin Huffman

VI. Evaluacin
Exmenes (2)

30%

Proyecto

25%

Tareas (3)

20%

Exmenes cortos (quices)

15%

Investigacin y presentacin de un tema

10%

VIII. Bibliografa
Libros para la parte de fundamentos:
Irarrzaval, P., Anlisis de Seales, McGraw-Hill, 1999.
Rigden, J. S., Physics and the Sound of Music, 2.a ed., Wiley, 1985.
Libros para la parte de aplicaciones:
Cook, P. R., Real Sound Synthesis for Interactive Applications, AK Peters, 2002.
Rabiner, L. y Juang, B. H., Fundamentals of Speech Recognition, Prentice Hall, 1993.
Spanias, A., Painter, T. y Venkatraman, A. Audio Signal Processing and Coding, WileyInterscience, 2007.
6

Fuentes de consulta recomendadas:


Hamming, R. W., Digital filters, 3.a ed., Dover, 1997.
Bracewell, R., The Fourier Transform and its Applications, McGraw-Hill, 1999.
Steiglitz, K., A DSP Primer with Applications to Digital Audio and Computer Music,
Addison-Wesley, 1996.
Mitra, S. K., Digital Signal Processing Laboratory using MATLAB, McGraw-Hill, 1999.
Rabiner, L. R. y Schafer, R. W. Digital Processing of Speech Signals, Prentice Hall, 1978.
Quatieri, T. F., Discrete-Time Speech Signal Processing: Principles and Practice,
Prentice Hall, 2001.
Benade, A. H., Fundamentals of Musical Acoustics, 2.a ed., Wiley, 1990.
Fletcher, N. y Rossing, T., The Physics of Musical Instruments, 2.a ed., Springer, 1998.
O'Shaughnessy, D., Speech Communications: Human & Machine, 2.a ed., Wiley-IEEE
Press, 1999.
Moore, B. C. J., An Introduction to the Psychology of Hearing, 5.a ed., Academic Press,
2003.
Geisler, D., From Sound to Synapse: Physiology of the Mammalian Ear, Oxford
University Press, 1998.
Huang, X., Acero, A. y Hon, H. W. Spoken Language Processing: A Guide to Theory,
Algorithm, and System Development, Prentice Hall, 2001.

Você também pode gostar