Bem-vindo(a) ao Scribd!

Easy Does It: Robust Spectro-Temporal Many-Stream ASR Without Fine Tuning Streams

Enviado por

0% acharam este documento útil (0 voto)

47 visualizações28 páginas

A large percentage of neurons in the primary auditory cortex (A1) respond differently to upwardversus downward-moving ripples in the spectrogram of the input. Spectro-temporal receptive fields (STRFs) capture spectral and temporal modulations speech recognition and discrimination.

Descrição original:

Título original

Gabor presentation

Direitos autorais

Formatos disponíveis

PDF, TXT ou leia online no Scribd

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Denunciar este documento

Direitos autorais:

Attribution Non-Commercial (BY-NC)

Formatos disponíveis

Baixe no formato PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

0% acharam este documento útil (0 voto)

47 visualizações28 páginas

Easy Does It: Robust Spectro-Temporal Many-Stream ASR Without Fine Tuning Streams

Enviado por

Jom Kantapon

Direitos autorais:

Attribution Non-Commercial (BY-NC)

Formatos disponíveis

Baixe no formato PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

Pular para a página

Você está na página 1de 28

Pesquisar no documento

Easy Does It: Robust Spectro-Temporal ManyStream ASR without Fine Tuning Streams

Ravuri, Morgan, UC Berkeley

Presented by JJ

Motivation
Physiological experiments in different mammal species : a large percentage of neurons in the primary auditory cortex (A1) respond differently to upwardversus downward-moving ripples in the spectrogram of the input (Depireux et al., 2001).

Spectro-temporal receptive fields (STRFs) : individual neurons are sensitive to specific spectrotemporal modulation frequencies in the incoming sound signal

Introduction
Cortically-inspired TF features, which capture spectral and temporal modulations speech recognition and discrimination. Basically, spectro-temporal features are derived from filtering spectrograms with particular filters. In this case, the GABOR filter is applied to the auditory spectrogram.

Example

Gabor Filters

Example
Gaussian envelope

Gabor Filters

complex sinusoid s(n, k)

1D Gabor

Gaussian envelope

complex sinusoid s(n, k)

Gaussian envelope

2D Gabor
complex sinusoid s(n, k)

Example
Gaussian envelope

Gabor Filters

complex sinusoid s(n, k)

Their Gabor Filters

Dummy

parameters

indices

Tons of Combinations!

System
Stream

Stream

Merge MLP outputs

PCA

MFCC

Output

System
Stream

Stream

Merge MLP outputs

PCA

MFCC

Output

System
Stream

Stream

MLP (Multilayer Perceptron) The structure of the MLP depends on the type of feature and corpus.
Number of input units Spectral 567 9 Cepstral 351 9

56D Merge MLP outputs 56D

frames of context

hidden units

160 for Aurora2 500 for Number95 56

PCA
32D 45D MFCC Output
output units

System
Stream

Stream

56D Merge MLP outputs 56D

The outputs of the MLP stream provide an estimate of the posterior probability distribution for phones. Then, combine each of these phone probability estimates across streams by inverse entropy.

PCA
32D 71D MFCC Output

System
Stream

Stream

then apply the KL Transform to the log probabilities of the merged MLPs

56D Merge MLP outputs 56D

PCA
32D 71D MFCC Output Principal Components Analysis

System
Stream

Stream

56D Merge MLP outputs 56D

PCA
32D 71D MFCC Output

then apply the KL Transform to the log probabilities of the merged MLPs reduced to 32D orthogonalized the features are mean and variance normalized by utterance finally appended to the MFCC feature

System
Features HMM
Stream

Stream

56D Merge MLP outputs 56D

PCA
32D 71D MFCC 39D Output 32D

Experiments
Database Aurora 2 (0 20 dB) Numbers95 consists of various numeric portions extracted from telephone dialogues . vocabulary size of 32 words training set contains 3590 utterances of clean data, totaling roughly 3 hrs 2 test sets contains 1227 utterances. The first contains only clean data The second contains the same utterances with noise added at five SNR (20dB, 15dB, 10dB, 5dB, and 0dB). Additive noise Baseline 39 MFCC 4-stream system 28-stream system

Uni-modulation system 150 stream spectral only and spectral/cepstral

Metric: Word Error Rate (WER)

Results
Aurora 2

Numbers 95

Results
Aurora 2

Numbers 95

Results
Aurora 2

Numbers 95

Results
Aurora 2

Discussion 1

Numbers 95

Results
Aurora 2

Discussion 2

Numbers 95

Results
Aurora 2

Discussion 3

Numbers 95

Results
Aurora 2

Numbers 95

Future Work
Stream

Stream

56D Merge MLP outputs 56D

Not just additive noise Another TF feature might not work Log-mel filterbank? Or power like PNCC? How to combine MLP? Inverse Entropy?

PCA
32D 71D MFCC 39D Output 32D

Você também pode gostar

Audio Source Separation and Speech Enhancement
No Everand
Audio Source Separation and Speech Enhancement
Emmanuel Vincent
Ainda não há avaliações
CELP
Documento23 páginas
CELP
ANeek181
Ainda não há avaliações
Software Radio: Sampling Rate Selection, Design and Synchronization
No Everand
Software Radio: Sampling Rate Selection, Design and Synchronization
Elettra Venosa
Ainda não há avaliações
ELEC301x Review Lecture Notes
Documento12 páginas
ELEC301x Review Lecture Notes
erdoganaaa
Ainda não há avaliações
Some Case Studies on Signal, Audio and Image Processing Using Matlab
No Everand
Some Case Studies on Signal, Audio and Image Processing Using Matlab
Dr. Hedaya Mahmood Alasooly
Ainda não há avaliações
Speech Recognition: Harshavardhana T G
Documento7 páginas
Speech Recognition: Harshavardhana T G
Envi Sustainers
Ainda não há avaliações
Robust Pitch Detection Using DCT Based Spectral Autocorrelation
Documento20 páginas
Robust Pitch Detection Using DCT Based Spectral Autocorrelation
sudhakar rai
Ainda não há avaliações
Speech Coders For Wireless Communication
Documento53 páginas
Speech Coders For Wireless Communication
Vikas Ps
Ainda não há avaliações
Fundamentals of Digital Signal Processing: Dr. D. K. Mohanta
Documento48 páginas
Fundamentals of Digital Signal Processing: Dr. D. K. Mohanta
Kalamchety Ravikumar Srinivasa
100% (1)
DTSP
Documento4 páginas
DTSP
Babloo Pandey
Ainda não há avaliações
Scs Mit Feb18
Documento38 páginas
Scs Mit Feb18
pavan2446
Ainda não há avaliações
Master's Thesis Defense: Comparison of Noncoherent Detectors For SOQPSK and GMSK in Phase Noise Channels
Documento55 páginas
Master's Thesis Defense: Comparison of Noncoherent Detectors For SOQPSK and GMSK in Phase Noise Channels
Haider Asadi
Ainda não há avaliações
Lecture - 01 - Introduction
Documento33 páginas
Lecture - 01 - Introduction
Ali Hassan
Ainda não há avaliações
Sistem Telekomunikasi
Documento30 páginas
Sistem Telekomunikasi
Cindy Putry Maharani
Ainda não há avaliações
EEE3218 New
Documento116 páginas
EEE3218 New
Eclipse GAMING
Ainda não há avaliações
DEMO PPT
Documento35 páginas
DEMO PPT
shuklchitrank
Ainda não há avaliações
Echo Cancellation Using Adaptive Filtering: by Thanis Tridhavee and Steve Vuco
Documento25 páginas
Echo Cancellation Using Adaptive Filtering: by Thanis Tridhavee and Steve Vuco
Èmøñ AlesandЯo Khan
Ainda não há avaliações
Elec9123 DSP Design
Documento7 páginas
Elec9123 DSP Design
Sydney Finest
Ainda não há avaliações
A Comparison - Of.acoustic - Absortion.coefficient - Measuring.in - Situ.method (Andrew.R.barnard)
Documento8 páginas
A Comparison - Of.acoustic - Absortion.coefficient - Measuring.in - Situ.method (Andrew.R.barnard)
Raphael Lemos
Ainda não há avaliações
Demon Analysis PDF
Documento21 páginas
Demon Analysis PDF
Bùi Trường Giang
100% (1)
Lecture 7 - Automatic Speech Recognition
Documento58 páginas
Lecture 7 - Automatic Speech Recognition
Rhona Hazel
Ainda não há avaliações
Digital Signal Processing & Applications: Subject Code - ECN-312
Documento24 páginas
Digital Signal Processing & Applications: Subject Code - ECN-312
surendra parla
Ainda não há avaliações
Bae LPC10
Documento18 páginas
Bae LPC10
Juanchu Soto
Ainda não há avaliações
Eee2005 Digital-Signal-Processing Eth 2.0!0!40 Eee 2005 Digital Signal Processing
Documento3 páginas
Eee2005 Digital-Signal-Processing Eth 2.0!0!40 Eee 2005 Digital Signal Processing
Anhilesh
Ainda não há avaliações
We Are Intechopen, The World'S Leading Publisher of Open Access Books Built by Scientists, For Scientists
Documento19 páginas
We Are Intechopen, The World'S Leading Publisher of Open Access Books Built by Scientists, For Scientists
Curso Comando 092
Ainda não há avaliações
306 - 06599672-Icee 2013
Documento6 páginas
306 - 06599672-Icee 2013
Ali Dehghan Firoozabadi
Ainda não há avaliações
Speaker Recognition System Based On VQ in MATLAB Environment
Documento8 páginas
Speaker Recognition System Based On VQ in MATLAB Environment
manishscry
Ainda não há avaliações
Bae LPC10
Documento18 páginas
Bae LPC10
Adnan Shehzad
Ainda não há avaliações
IOSRJEN (WWW - Iosrjen.org) IOSR Journal of Engineering
Documento5 páginas
IOSRJEN (WWW - Iosrjen.org) IOSR Journal of Engineering
IOSRJEN : hard copy, certificates, Call for Papers 2013, publishing of journal
Ainda não há avaliações
Linear & Non-Linear Filtering, Fast Fourier Transformation Theory, State Estimation, Pattern Recognition, Identification Theory
Documento34 páginas
Linear & Non-Linear Filtering, Fast Fourier Transformation Theory, State Estimation, Pattern Recognition, Identification Theory
A. Andaya Lestari
Ainda não há avaliações
Introduction To Telephony: Eric Fleischman
Documento22 páginas
Introduction To Telephony: Eric Fleischman
Tarek Al Ashhab
Ainda não há avaliações
Temporal Patterns (Traps) in Asr of Noisy Speech
Documento4 páginas
Temporal Patterns (Traps) in Asr of Noisy Speech
Susanta Sarangi
Ainda não há avaliações
EC2307 Questions
Documento7 páginas
EC2307 Questions
Asokan Chinnasamy
Ainda não há avaliações
University of Kentucky: EE 422G - Signals and Systems Laboratory
Documento5 páginas
University of Kentucky: EE 422G - Signals and Systems Laboratory
amina sayah
Ainda não há avaliações
PRINCIPLES OF COMMUNICATION SYSTEMS Syllabus
Documento3 páginas
PRINCIPLES OF COMMUNICATION SYSTEMS Syllabus
Ravishankara Maritammanahally
0% (1)
Lab1 Filter Design 2024
Documento5 páginas
Lab1 Filter Design 2024
KT Chan
Ainda não há avaliações
Development of A Novel Voice Verification System Using Wavelets
Documento22 páginas
Development of A Novel Voice Verification System Using Wavelets
Babu Shaik
Ainda não há avaliações
Wavelet Analysis of Circadian Oscillations: Tanya Leise Mathematics Amherst College
Documento33 páginas
Wavelet Analysis of Circadian Oscillations: Tanya Leise Mathematics Amherst College
Karthik Patamata
Ainda não há avaliações
Epoch-Modeling and Simulation of An All
Documento40 páginas
Epoch-Modeling and Simulation of An All
raducu2009
Ainda não há avaliações
Implementing Loudness Models in Matlab
Documento5 páginas
Implementing Loudness Models in Matlab
Pro Acoustic
Ainda não há avaliações
Multimedia Systems: Sreeraj K. P. Asst. Professor, Dec, Rset
Documento27 páginas
Multimedia Systems: Sreeraj K. P. Asst. Professor, Dec, Rset
sujith_mathew
Ainda não há avaliações
ZCR Based Identification of Voiced Unvoiced and Silent Parts of Speech Signal in Presence of Background Noise
Documento30 páginas
ZCR Based Identification of Voiced Unvoiced and Silent Parts of Speech Signal in Presence of Background Noise
Sivaranjan Goswami
Ainda não há avaliações
Digital Filter Design (FIR) Using Frequency Sampling Method: Abstract
Documento10 páginas
Digital Filter Design (FIR) Using Frequency Sampling Method: Abstract
RaviKiran
Ainda não há avaliações
Automatic Recognition of Analog and Digital Modulation Signals Using Doe Filter
Documento6 páginas
Automatic Recognition of Analog and Digital Modulation Signals Using Doe Filter
Ahmed Refaey
Ainda não há avaliações
Application of Microphone Array For Speech Coding in Noisy Environment
Documento5 páginas
Application of Microphone Array For Speech Coding in Noisy Environment
scribd1235207
Ainda não há avaliações
Review On ELEC333: Spring 2011 Nico & Wilber
Documento63 páginas
Review On ELEC333: Spring 2011 Nico & Wilber
Kevin Chen
Ainda não há avaliações
Assignment #1
Documento1 página
Assignment #1
Omar
Ainda não há avaliações
1.DSP Introduction
Documento16 páginas
1.DSP Introduction
Shubham Bhalerao
Ainda não há avaliações
Digital Signal Processing
Documento2 páginas
Digital Signal Processing
Anonymous HyOfbJ6
0% (1)
LAB 1: Overview of DSP LAB (EEE 3218) Objectives
Documento16 páginas
LAB 1: Overview of DSP LAB (EEE 3218) Objectives
mjrahimi.eee2020
Ainda não há avaliações
T - C S E I C: WO Hannel Peech Nhancement AND Mplementation Onsiderations
Documento180 páginas
T - C S E I C: WO Hannel Peech Nhancement AND Mplementation Onsiderations
pravin2275767
Ainda não há avaliações
Unit 4
Documento58 páginas
Unit 4
Sugumar Sar Durai
Ainda não há avaliações
System Design RF
Documento47 páginas
System Design RF
write2arshad_m
Ainda não há avaliações
IJCER (WWW - Ijceronline.com) International Journal of Computational Engineering Research
Documento6 páginas
IJCER (WWW - Ijceronline.com) International Journal of Computational Engineering Research
International Journal of computational Engineering research (IJCER)
Ainda não há avaliações
CE I - Module 4 - Part 2
Documento31 páginas
CE I - Module 4 - Part 2
Renjeesh bkl
Ainda não há avaliações
Equalization Ed Us at
Documento50 páginas
Equalization Ed Us at
Ignatious Mohan
Ainda não há avaliações
Signal Analysis For Radio Monitoring
Documento40 páginas
Signal Analysis For Radio Monitoring
Nectaria Gizani
Ainda não há avaliações
EE-432 Wireless Communications (3+0) : Instructor Dr. Shahryar Saleem Week 11 Lecture 3
Documento26 páginas
EE-432 Wireless Communications (3+0) : Instructor Dr. Shahryar Saleem Week 11 Lecture 3
Akira Mannahel
Ainda não há avaliações
Digital Signal Processing Notes
Documento159 páginas
Digital Signal Processing Notes
uttam
Ainda não há avaliações
Word Recognition Device: C.K. Liang & Oliver Tsai ECE 345 Final Project TA: Inseop Lee Project Number: 22
Documento21 páginas
Word Recognition Device: C.K. Liang & Oliver Tsai ECE 345 Final Project TA: Inseop Lee Project Number: 22
Bruno Garcia Tejada
Ainda não há avaliações
PESTEL Analysis
Documento2 páginas
PESTEL Analysis
Sayantan Nandy
Ainda não há avaliações
Ev Conversion PDF
Documento2 páginas
Ev Conversion PDF
Shannon
Ainda não há avaliações
SCI Annual Report 2017
Documento32 páginas
SCI Annual Report 2017
The Seamen's Church Institute
100% (2)
Contemporary Arts
Documento16 páginas
Contemporary Arts
antoinette
100% (2)
Product Data Sheet: Type: P25-34/0D
Documento1 página
Product Data Sheet: Type: P25-34/0D
Alejandro Rustrian
Ainda não há avaliações
Fruit Brearing Crops
Documento177 páginas
Fruit Brearing Crops
Joshua G. Sapin
100% (1)
OXE Training - Complete (2011)
Documento94 páginas
OXE Training - Complete (2011)
Dhexter Villa
75% (4)
5CT PDVSA em - 18!00!05 English
Documento27 páginas
5CT PDVSA em - 18!00!05 English
Juan Gutierrez
100% (1)
Kbli 2017 - 1
Documento50 páginas
Kbli 2017 - 1
Putri Nadia
Ainda não há avaliações
Alma Matter Speech
Documento1 página
Alma Matter Speech
lariza gallego
Ainda não há avaliações
Lithium Dongjin 48v100ah
Documento5 páginas
Lithium Dongjin 48v100ah
mk7718
100% (1)
Pex 03 02
Documento5 páginas
Pex 03 02
aexillis
0% (1)
2002PCDFCA
Documento78 páginas
2002PCDFCA
Tin Nguyen
Ainda não há avaliações
Chapter 3 Rotation and Revolution Notes
Documento12 páginas
Chapter 3 Rotation and Revolution Notes
MERLIN ANTHONY
Ainda não há avaliações
Appendix h6 Diffuser Design Investigation
Documento51 páginas
Appendix h6 Diffuser Design Investigation
Veena Nagesh
Ainda não há avaliações
Hard Rock Tunnelling Methods
Documento20 páginas
Hard Rock Tunnelling Methods
kiranism
0% (1)
Islami Bank Bangladesh Limited: Ibbl Ibanking Service
Documento2 páginas
Islami Bank Bangladesh Limited: Ibbl Ibanking Service
Shaikat Alam
Ainda não há avaliações
IOTA Observers Manual All Pages
Documento382 páginas
IOTA Observers Manual All Pages
Marcelo Martins
Ainda não há avaliações
ACO 201 - (Section) - Spring 2021
Documento8 páginas
ACO 201 - (Section) - Spring 2021
George Beaino
Ainda não há avaliações
Stock Trak Assignment
Documento4 páginas
Stock Trak Assignment
Pat Parisi
Ainda não há avaliações
Adherence Tradeoff To Multiple Preventive Therapies and All-Cause Mortality After Acute Myocardial Infarction
Documento12 páginas
Adherence Tradeoff To Multiple Preventive Therapies and All-Cause Mortality After Acute Myocardial Infarction
Roberto López Mata
Ainda não há avaliações
1353apni Kaksha
Documento43 páginas
1353apni Kaksha
Arush Gautam
Ainda não há avaliações
The Messenger 190
Documento76 páginas
The Messenger 190
European Southern Observatory
Ainda não há avaliações
Mastering The Art of Self Hypnosis: by Dr. Kenneth Grossman
Documento46 páginas
Mastering The Art of Self Hypnosis: by Dr. Kenneth Grossman
guilhermeosiris
Ainda não há avaliações
AI Lab
Documento17 páginas
AI Lab
Tripti Jain
Ainda não há avaliações
16.3 - Precipitation and The Solubility Product - Chemistry LibreTexts
Documento14 páginas
16.3 - Precipitation and The Solubility Product - Chemistry LibreTexts
There
Ainda não há avaliações
Marichu Gonzales: Work Experience
Documento2 páginas
Marichu Gonzales: Work Experience
Mich Navor
Ainda não há avaliações
Civil Engineering Construction Manager in ST Louis MO Resume Mark Jensen
Documento3 páginas
Civil Engineering Construction Manager in ST Louis MO Resume Mark Jensen
Mark Jensen
Ainda não há avaliações
SpeechGeek H.I.-larious Volume 3
Documento9 páginas
SpeechGeek H.I.-larious Volume 3
SpeechGeek
Ainda não há avaliações
2017-Process Tracing in Social Sciences
Documento28 páginas
2017-Process Tracing in Social Sciences
Tudor Cherhat
Ainda não há avaliações