Você está na página 1de 3

FACIAL RECOGNITION:

Hardware:
- Verificar que el lente sea motorizado
- http://www.dahuasecurity.com/products/ipc-hfw5231e-z12-12371.html
- http://www.dahuasecurity.com/products/ipc-hfw5231e-z12e-14191.html
- http://www.dahuasecurity.com/products/ipc-hdw5231r-z-3651.html
- http://www.dahuasecurity.com/products/ipc-hdbw8231e-z5-11641.html
Software:
- Facial_Recognition: Paquete con potencial para reemplazar AWS Rekognition
https://stackoverflow.com/questions/36431669/error-compiling-dlib-could-
not-find-boost
https://stackoverflow.com/questions/27457424/while-using-pip-install-
required-library-boost-not-found
http://www.boost.org/doc/libs/1_62_0/more/getting_started/windows.html
https://github.com/ageitgey/face_recognition
- OpenFace:
https://groups.google.com/forum/#!topic/cmu-openface/X6erXKckk0Q
https://www.youtube.com/watch?v=AYrmCB9NQpk
https://github.com/cmusatyalab/openface
http://openface-api.readthedocs.io/en/latest/index.html
https://zenodo.org/record/32041#.WfifLVuCyM9
https://arxiv.org/pdf/1503.03832.pdf
http://bamos.github.io/2016/01/19/openface-0.2.0/
http://cmusatyalab.github.io/openface/
- Amazon Rekognition: C:\users\admin2\Desktop\AWS
Todos los archivos demo son ejemplos puntuales para cada funcin de la API
Rekognition:
https://boto3.readthedocs.io/en/latest/reference/services/rekognition.html
Cv1.py: Reconocimiento en tiempo real usando OpenCV + AWS
Cv2lol.py: Programa para capturar fotos con la cmara web

SPEAKER RECOGNITION:

Python: C:\users\admin2\Desktop\Sidekit
- Demo1.py: Crea los modelos para las personas a identificar y se crean las carpetas:
gmm, features y data. Eliminar dichas 3 carpetas para correr el programa. En la lnea
56 se definen los archivos .wav con los que se entrenar el mdulo.
- Demo2.py: Graba una muestra de T segundos que se define en la lnea 23, se guarda
en la carpeta test2 y sus features en la carpeta features2 y predice quin es la persona
de la grabacin.
- Demo3.py: Programa para grabar una muestra de audio.
NOTA: Para cada grabacin se ha tomado 8000 muestras por segundos y 16 bits de cuantizacin
para Python y 24 bits para Matlab.

Matlab: C:\users\admin2\Desktop\Speaker Recognition


- Asr_sr.m: Programa que retorna un vector feature para cada trama de 20e-3 segundos
con 25 coeficientes de Mel para speaker recognition. (Entrenamiento de gmm)
- Asr_vad: Programa que retorna un vector feature para cada trama de 20e-3 segundos
con 25 coeficientes de Mel con un algoritmo ligeramente distinto al anterior para
entrenar un VAD (Voice Activity Detection).
- ClearZeros.m: Elimina valores igual a cero en un vector
- Demo12.m: Programa que retorna una seal de audio en donde se ha eliminado
partes del audio no habladas.
- Demo6.m: Programa que retorna un valor de densidad de probabilidad para un
modelo gmm y un vector feature M, es decir la confidencia que dicho vector feature
de un audio corresponda a cierto modelo gmm.
- Identificar.m: Acepta como parmetro, todos los modelos gmm a comparar y el vector
feature M, y retorna un ndice respectivo al modelo gmm.
- Identificar2.m: Carga un archivo .mat en donde se han guardado modelos anteriores e
identifica a quin le pertenece la voz de un archivo .wav que se ingresa como
parmetro de entrada.
- Imprimir.m: Archivo Callback para identificacin en tiempo real usado junto al script
micro2.m.
- Is_Speech.m: Carga un archivo theta.mat previamente hallado y retorna un booleano
que indica si la trama (Para este caso 20ms) es habla o silencio.
- Multiband.m: Archivo descargado de File Exchange para reducir ruido de una
grabacin usando el mtodo de substraccin espectral.
- Separar.m: Similar a demo12.m retorna una seal de audio en donde se ha eliminado
partes del audio en silencio.
- Demo10.m Halla el porcentaje de xito para cada seal de testeo, utilizando 2, 4, 8, 16
y 32 componentes para la distribucin gaussiana, combinando distintos tipos de
mtodos para mejorar la seal de audio (Reduccin de ruido, pre nfasis y separacin
de silencio), tanto para hallar el modelo gmm, como tambin para hallar el vector
feature del archivo a testear. Puede tardar varios das terminar de ejecutarse.
- Demo11.m: Crea un modelo ms preciso utilizando todas las muestras de audio
disponibles para cada hablador.
- Demo13.m: Similar a demo10.m pero para una nica combinacin de tcnicas de
mejoramiento de seal de audio. (Reduccin de ruido, pre nfasis y Separacin de
silencio)
- Demo3.m: Grafica la funcin de densidad de probabilidad para 1 dimensin.
- Demo5.m: Verifica la precisin de los coeficientes theta.mat hallados con el script
vad.m para Deteccin de Actividad de Voz para un archivo de audio que se
especifique.
- Grabar.m: Script para grabar una seal de audio.
- Identificar3.m: Script para reconocimiento de hablador en vivo con la excepcin que
previamente se graba un archivo .wav.
- Micro1.m: Ejemplo descargado de Mathworks para verificar la adquisicin en tiempo
real del micrfono.
- Micro2.m: Script para identificacin de hablador en tiempo real.
- Sr.m: Similar al archivo demo10.m, halla el porcentaje de xito para distintos mtodos
de mejoramiento de seal con un nmero de componentes especfico.
- Sr_akira.m: Halla la prediccin para todas las muestras tomadas para Akira.
- Sr_akira_jack: Halla la prediccin para todas las muestras de Akira y Jack.
- Vad.m: Script que halla los valores de theta (umbrales) que ayudan a discriminar si una
trama de audio es habla o silencio.
- La carpeta fail y misc samples contiene modelos y archivos de audio grabados en
distintas condiciones que no arrojaban un resultado aceptable.
- Cada archivo Acc.mat contiene los resultados de los porcentajes de xito generados
por los archivos demo10.m, demo13.m y sr.m.
- Cada archivo modelos.mat contiene modelos creados con el comando fitgmdist con
distintos parmetros.
- Cada archivo theta.mat contiene los umbrales hallados con el archivo vad.m para
detectar actividad de voz.

Cuenta de Amazon: willylopez07


Contrasea: Tgestiona2017

Você também pode gostar