Algoritmos de Separação Cega de Sinais de Áudio

ALGORITMOS DE SEPARAO CEGA DE SINAIS DE UDIO NO DOMNIO
DA FREQUNCIA EM AMBIENTES REVERBERANTES: ESTUDO E

COMPARAES
Luiz Victorio de Menezes Laporte
Dissertao de Mestrado apresentada ao
Programa de Ps-graduao em Engenharia
Eltrica, COPPE, da Universidade Federal
do Rio de Janeiro, como parte dos requisitos
necessrios obteno do ttulo de Mestre
em Engenharia Eltrica.
Orientadora: Mariane Rembold Petraglia
Rio de Janeiro
Outubro de 2010
COMPARAES
DISSERTAO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO
ALBERTO LUIZ COIMBRA DE PS-GRADUAO E PESQUISA DE
ENGENHARIA (COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE
JANEIRO COMO PARTE DOS REQUISITOS NECESSRIOS PARA A
OBTENO DO GRAU DE MESTRE EM CINCIAS EM ENGENHARIA
ELTRICA.
Examinada por:
Prof. Mariane Rembold Petraglia, Ph.D.
Prof. Jos Gabriel Rodriguez Carneiro Gomes, Ph.D.
Prof. Tadeu Nagashima Ferreira, D.Sc.
RIO DE JANEIRO, RJ BRASIL
OUTUBRO DE 2010
Laporte, Luiz Victorio de Menezes
Algoritmos de Separao Cega de Sinais de udio
no Domnio da Frequncia em Ambientes Reverberantes:
Estudo e Comparaes/Luiz Victorio de Menezes Laporte.
Rio de Janeiro: UFRJ/COPPE, 2010.
XV, 128 p.: il.; 29, 7cm.
Dissertao (mestrado) UFRJ/COPPE/Programa de
Engenharia Eltrica, 2010.
Referncias Bibliogrcas: p. 111 119.
1. separao cega de fontes. 2. reverberao. 3.
anlise de componentes independentes. 4. direo de
chegada. 5. algoritmos no-supervisionados. I.
Petraglia, Mariane Rembold. II. Universidade Federal do
Rio de Janeiro, COPPE, Programa de Engenharia Eltrica.
III. Ttulo.
iii
A Jesus Cristo, meu Senhor e
Salvador, que me deu muito
mais do que eu merecia.
iv
Agradecimentos
Seria injusto dizer que esta dissertao minha, quando tantas pessoas contri-
buram para que ela terminasse, e no estou falando dos autores cujo nome est
citado na bibliograa, mas sim dos amigos, familiares e professores. Tenho muito
a agradecer minha esposa Aislan, pela pacincia nos momentos em que tive que
abdicar de sua companhia para me dedicar dissertao, e por seu encorajamento
quando pensei em desistir. Sem essa ajuda, seria impossvel continuar. Prometo que
compensarei o tempo perdido.
Agradeo ao meu amigo Diego Haddad, pelas inmeras dicas dadas e pelo rduo
trabalho de reviso desta dissertao, alm de ter sido o responsvel por eu estar
aqui. Ao meu colega Daniel Mendes, pelos e-mails me lembrando da inscrio em
disciplinas do PEE. Meus chefes tambm foram de imensa valia, e sem sua permisso
no conseguiria cursar as matrias ou escrever a dissertao. Por isso, agradeo ao
Bruno Jouan, da poca em que cursava as disciplinas, e Luciano Diniz, pelo tempo
concedido nas ltimas semanas para terminar a escrita da dissertao.
Da minha orientadora, Mariane Petraglia, posso dizer que a melhor orientadora
que este mundo j viu. Sua compreenso innita, e ela foi um suporte em todas as
fases deste projeto. Ela prefere orientar e incentivar, a cobrar. Este um atributo
raro. Adicionalmente, seu conhecimento tecnolgico indiscutvel.
Porm, em primeiro lugar, agradeo a Deus, por ter realizado alguns pequenos
milagres para que esta dissertao pudesse ser concluda.
v
Resumo da Dissertao apresentada COPPE/UFRJ como parte dos requisitos
necessrios para a obteno do grau de Mestre em Cincias (M.Sc.)
COMPARAES
Outubro/2010
Programa: Engenharia Eltrica
Recentemente, temos visto um interesse crescente em Separao Cega de Fontes,
especialmente no caso reverberante, que est longe de ter uma soluo completa,
mas tem evoludo num passo incrivelmente rpido. Nesta dissertao, apresentamos
os algoritmos no domnio da frequncia do estado da arte para resolver este pro-
blema, e fazemos uma comparao entre eles. Modicamos vrios parmetros de
todos os diferentes algoritmos para separao e alinhamento da permutao a m
de compararmos seus desempenhos. Tambm propomos algumas modicaes nos
mesmos, como mudar o tipo de janela na transformao de frequncia e o passo de
ps-processamento, ou trocar o algoritmo de clusterizao em algumas das propostas
de alinhamento da permutao, este ltimo com ganhos signicativos de desempe-
nho. Conduzimos os testes em um ambiente reverberante simulado, o que nos deu
mais liberdade para modicar os parmetros do ambiente e analisar o desempenho
dos algoritmos frente a essas mudanas.
vi
Abstract of Dissertation presented to COPPE/UFRJ as a partial fulllment of the
requirements for the degree of Master of Science (M.Sc.)
FREQUENCY DOMAIN BLIND AUDIO SEPARATION IN REVERBERANT
ENVIRONMENTS: STUDY AND COMPARISON
October/2010
Advisor: Mariane Rembold Petraglia
Department: Electrical Engineering
Recently, we have seen an increasing interest in Blind Source Separation, espe-
cially in the reverberant case, which is far from a complete solution, but has evolved
in an amazingly fast pace. In this dissertation, we present the state-of-the-art fre-
quency domain algorithms for solving this problem, and make a comparison among
them. We change various parameters of all the dierent algorithms for separation
and permutation alignment and compare their performances. We also propose some
modications to them, like changing the window type in the frequency transfor-
mation and the postprocessing step, or changing the clustering algorithm in some
of the permutation alignment proposals, the last case with signicant performance
gains. We conducted the tests in a simulated reverberant environment, which gave
us more freedom in changing the parameters of the environment and analysing the
performance of the algorithms with these changes.
vii
Sumrio
Lista de Figuras x
Lista de Tabelas xiv
1 Introduo 1
1.1 Organizao da Dissertao . . . . . . . . . . . . . . . . . . . . . . . 3
2 Introduo Separaco Cega de Fontes 5
2.1 Mistura Linear e Instantnea . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Caso Convolutivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Ambiguidades de BSS . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Estatsticas amostrais de nmeros complexos . . . . . . . . . . . . . . 11
2.5 Anlise de Componentes Independentes . . . . . . . . . . . . . . . . . 18
2.5.1 Conceitos bsicos . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5.2 Utilizando maximizao da no-gaussianidade . . . . . . . . . 21
2.5.3 Utilizando a estimativa por ML . . . . . . . . . . . . . . . . . 30
2.6 Avaliao de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . 35
3 Mtodos de Separao Cega de Fontes no Domnio da Frequncia 37
3.1 Viso Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Transformao Tempo-Frequncia . . . . . . . . . . . . . . . . . . . . 38
3.3 Branqueamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4 Separao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4.1 Outros Algoritmos de Separao . . . . . . . . . . . . . . . . . 59
3.5 Permutao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6 Escalamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.7 Suavizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4 Mtodos para Resolver o Problema da Permutao 67
4.1 Localizao das Fontes . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.1.1 Padres de Diretividade . . . . . . . . . . . . . . . . . . . . . 74
4.1.2 Direo de Chegada (DOA) . . . . . . . . . . . . . . . . . . . 79
viii
4.1.3 Diferena entre Tempos de Chegada (TDOA) . . . . . . . . . 81
4.2 Correlao Espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.3 Unindo Abordagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.4 Simulaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5 Concluses 106
5.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Referncias Bibliogrcas 111
A Ambiente de Teste 120
B Descobrindo Convergncia dos Algoritmos ICA 124
C Mtodos Supervisionados para Resolver o Problema da Permuta-
o 127
ix
Lista de Figuras
1.1 Ilustrao do Cocktail Party Eect. O interesse captar o sinal dos
locutores, mas muitas outras interferncias so capturadas. O crebro
humano no encontra problemas em focar sua ateno em apenas
uma fonte de som, mas um algoritmo de reconhecimento de fala no
funciona na presena de interferncias. . . . . . . . . . . . . . . . . . 2
2.1 Ilustrao da ambiguidade da soluo BSS. As sadas do algoritmo de
separao apresentam escalamentos aleatrios e esto desordenadas
em relao s fontes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Comparao entre distribuies subgaussianas e supergaussianas. . . 16
2.3 Observaes do vetor de fontes s(n). Cada fonte s
i
um sinal de voz
de 2 segundos de durao. . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Observaes do vetor de misturas x(n) instantneas. . . . . . . . . . 20
2.5 Observaes do vetor branqueado z(n), que foi gerado atravs do
branqueamento do vetor x(n). . . . . . . . . . . . . . . . . . . . . . . 20
2.6 Observaes do vetor de sada y(n). . . . . . . . . . . . . . . . . . . . 20
2.7 Distribuies das fontes da Tabela 2.1. A distribuio gaussiana a
tracejada, para comparao. . . . . . . . . . . . . . . . . . . . . . . . 23
3.1 Diagrama geral do algoritmo completo de Separao de Fontes no
Domnio da Frequncia. . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Ilustrao do OLA com a janela de Hanning, que atende COLA
para J =
L
4
. A janela tem tamanho de 2048 amostras, e est indicada
pela linha tracejada, e o Overlap-Add com salto de 512 amostras est
indicado pela linha contnua. . . . . . . . . . . . . . . . . . . . . . . . 42
3.3 Ilustrao do OLA com a janela de Kaiser ( = 0.5), que no atende
COLA. A janela tem tamanho 2048 amostras, e est indicada pela
linha tracejada, e o Overlap-Add com salto de 512 amostras est
indicado pela linha contnua. . . . . . . . . . . . . . . . . . . . . . . . 42
3.4 Resposta em frequncia da janela de Hanning. . . . . . . . . . . . . . 45
3.5 Resposta em frequncia da janela de Blackman-Harris. . . . . . . . . 46
x
3.6 Resposta em frequncia da janela retangular. . . . . . . . . . . . . . . 47
3.7 Comparao de algumas janelas no tempo. A retangular est re-
presentada para comparao, e a que tem a melhor resoluo na
frequncia e pior resoluo temporal. Quanto mais estreita a janela,
melhor sua resoluo temporal e pior sua resoluo na frequncia. . . 47
3.8 Convergncia tpica do Natural ICA utilizando funes score calcula-
das atravs do modelo cartesiano. . . . . . . . . . . . . . . . . . . . . 54
3.9 Convergncia tpica do Natural ICA utilizando funes score calcula-
das atravs do modelo polar. . . . . . . . . . . . . . . . . . . . . . . . 54
3.10 Gaussiana generalizada complexa para r = 0.5. . . . . . . . . . . . . . 55
3.11 Gaussiana generalizada complexa para r = 1. . . . . . . . . . . . . . . 55
3.12 Gaussiana generalizada complexa para r = 4. . . . . . . . . . . . . . . 55
3.13 Curtose da distribuio gaussiana generalizada em funo de r, para
distribuies supergaussianas. . . . . . . . . . . . . . . . . . . . . . . 57
3.14 Curtose da distribuio gaussiana generalizada em funo de r, para
distribuies subgaussianas. . . . . . . . . . . . . . . . . . . . . . . . 57
4.1 Modelo de campo prximo (ignorando reverberao). . . . . . . . . . 69
4.2 Modelo de campo prximo visualizado atravs dos atrasos entre os
sensores e a fonte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.3 Modelo de campo distante (ignorando reverberao). . . . . . . . . . 72
4.4 Modelo de campo distante (ignorando reverberao). . . . . . . . . . 73
4.5 Montagem em linha de microfones, no modelo de campo distante.
Assume-se que os ngulos de chegada de uma mesma fonte so os
mesmos para todos os sensores. . . . . . . . . . . . . . . . . . . . . . 74
4.6 Padres de diretividade
i
de dois sinais de voz i para 3 frequncias
diferentes em um ambiente com T
60
= 130 ms. Os padres foram ge-
rados aps o BSS ter sido realizado com sucesso e com o problema
da permutao resolvido, utilizando a expresso (4.17) com os w
ij
(k)
encontrados. Para frequncias baixas ou altas demais, ca difcil en-
contrar o mnimo, pois a reverberao comea a fazer diferena no
modelo. Ambas as fontes estavam a 1 metro da montagem de micro-
fones. O DOA real da fonte 1 era 40
e o da fonte 2, 135
. . . . . . . 76
4.7 Padres de diretividade quando h 3 fontes presentes, o que gera
mnimos locais no padro de diretividade. O DOA real da fonte 1
135
, da fonte 2 40
e da fonte 3 280
(80
na realidade, por causa

da ambiguidade do modelo de campo distante). . . . . . . . . . . . . 77
xi
4.8 Mdia dos padres de diretividade
i
(k, ) para todas as frequncias
k. O DOA real da fonte 1 135
, da fonte 2 40
e da fonte 3 280
(80
na realidade, por causa da ambiguidade do modelo de campo

distante). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.9 DOA encontrados em funo da frequncia para o caso de 2 fontes.
O DOA real da fonte 1 45
e o da fonte 2 100
. . . . . . . . . . . . 80
4.10 DOA encontrados em funo da frequncia para o caso de 3 fontes,
relativamente mais difcil do que o caso de 2 fontes. O DOA real da
fonte 1 40
, da fonte 2 80
e da fonte 3 135
. . . . . . . . . . . 81
4.11 Resultado da clusterizao dos TDOAs de 3 fontes em uma sala com
T
60
= 100 ms utilizando K-means. . . . . . . . . . . . . . . . . . . . . 83
4.12 TDOAs de 3 fontes em uma sala com T
60
= 250 ms. A clusterizao
no produz resultados bons neste caso. . . . . . . . . . . . . . . . . . 84
4.13 Espectrograma de um sinal de voz de 6 segundos, em comparao com
sua representao no domnio do tempo. O espectrograma est numa
escala logartmica e foi escalado, para melhor visualizao. Foram
utilizados K = 1024, L = 512 e J = 128 com uma janela de Hanning. 88
4.14 Envelope de um sinal de voz de 6 segundos, nas frequncias adjacentes
429, 7 Hz e 437, 5 Hz, na frequncia 632, 8 Hz e sua harmnica 1266Hz.
Foram utilizados K = 1024, L = 512 e J = 128 com uma janela de
Hanning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.15 Correlao entre frequncias de um mesmo locutor. A correlao foi
escalada de forma que o branco correspondesse a 1 e o preto a 0.4.
Hanning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.16 Correlao entre frequncias de locutores diferentes. A correlao foi
escalada de forma que o branco correspondesse a 1 e o preto a 0.4.
Hanning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.17 Espectro de frequncia do envelope powRatio de duas fontes, aps a
separao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.18 Correlao entre envelopes powRatio de frequncias de um mesmo
locutor. A correlao foi escalada de forma que o branco correspon-
desse a 1 e o preto a 0.4. Foram utilizados K = 4096, L = 2048 e
J = 512 com uma janela de Hanning. . . . . . . . . . . . . . . . . . . 94
4.19 Correlao entre entre envelopes powRatio de frequncias de locutores
diferentes. A correlao foi escalada de forma que o branco corres-
pondesse a 1 e o preto a 0.4. Foram utilizados K = 4096, L = 2048
e J = 512 com uma janela de Hanning. . . . . . . . . . . . . . . . . . 95
xii
4.20 Comparao entre os mtodos DOA + ConjCorr, DOA + HarmCorr,
e DOA + GlobalCorr + LocalCorr, utilizando a disposio da Figura
A.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.21 Desempenho do mtodo ConjCorr, utilizando a disposio da Figura
A.3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.22 Desempenho do mtodo DOA + GlobalCorr + LocalCorr, utilizando
a disposio da Figura A.3, com o arranjo em cluster e com o arranjo
(modicado) em linha. . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.23 Comparao entre os mtodos TDOA, DOA + GlobalCorr + Local-
Corr, e GlobalCorr + LocalCorr, utilizando o arranjo da Figura A.3
(no caso do DOA + GlobalCorr + LocalCorr, o arranjo de microfones
foi modicado para um arranjo em linha). . . . . . . . . . . . . . . . 105
A.1 Congurao da sala utilizada nos testes quando h dois microfones
e duas fontes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
A.2 Congurao da sala utilizada nos testes quando h trs microfones
e trs fontes, e o arranjo de microfones em linha. . . . . . . . . . . . 122
A.3 Congurao da sala utilizada nos testes quando h trs microfones
e trs fontes, e o arranjo de microfones em cluster. . . . . . . . . . . 123
B.1 Convergncia tpica do FastICA. . . . . . . . . . . . . . . . . . . . . . 125
B.2 Convergncia do Natural ICA em algumas raias de frequncia, onde
o valor nal ca oscilando. . . . . . . . . . . . . . . . . . . . . . . . . 126
xiii
Lista de Tabelas
2.1 Curtose de alguns sinais e da mistura destes . . . . . . . . . . . . . . 22
2.2 Funes comuns utilizadas no FastICA . . . . . . . . . . . . . . . . . 31
2.3 Funes score para diferentes densidades de probabilidade de fontes
reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1 Janelas que obedecem COLA. . . . . . . . . . . . . . . . . . . . . . 43
3.2 Comparao do desempenho em BSS quando a janela win
a
da STFT
modicada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3 Desempenho em BSS utilizando a janela retangular como janela win
a
da STFT, para diferentes saltos J. . . . . . . . . . . . . . . . . . . . 48
3.4 Comparao entre as funes score de coordenadas cartesianas e po-
lares, utilizando o Natural ICA usual e o no-holonmico. . . . . . . . 52
3.5 Comparao entre as funes score de coordenadas cartesianas e po-
lares em nmero de iteraes para convergir em cada raia de frequncia. 53
3.6 Comparao entre vrias abordagens de separao, tanto Natural ICA
como o mtodo conjugando FastICA e Natural ICA. . . . . . . . . . . 58
3.7 Coecientes da resposta de frequncia truncada de algumas janelas.
O coeciente 0 sempre o coeciente do meio. . . . . . . . . . . . . . 65
3.8 Comparao entre vrias abordagens de separao, tanto Natural ICA
como o mtodo conjugando FastICA e Natural ICA. . . . . . . . . . . 66
4.1 Exemplo das distncias |
i
(k) c
(i)|
2
entre centrides e vetores com
estimativas dos TDOAs. Os nmeros em negrito representam os va-
lores escolhidos pela heurstica apresentada no texto. . . . . . . . . . 85
4.2 Comparao entre os mtodos de otimizao TDOAclust e
TDOAKmeans, para 3 fontes e 3 misturas, com tempo de reverbera-
o 150 ms. Foram utilizados K = 4096 e L = 2048. O resultado a
mdia de 10 realizaes. . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.3 Comparao dos diferentes mtodos de correlao para alinhamento
das permutaes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
xiv
4.4 Comparao da SIR utilizando a janela de Hanning ou a retangular
na transformao para o domnio da frequncia. O mtodo de resolver
a permutao foi variado. Foi utilizado um salto J =
L
4
para ambas
as janelas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.5 Condies dos testes dos mtodos de alinhamento de permutao. . . 103
xv
Captulo 1
Introduo
Recentemente, interfaces automticas de conversao [1] para mquinas inteli-
gentes como robs e computadores receberam muita ateno da comunidade cient-
ca, porque elas facilitam o controle dos usurios, bem como permitem um dilogo
natural e simples, independentemente da sosticao intrnseca ao sistema. O in-
teresse pelo desenvolvimento de tais sistemas, que podem ouvir, entender e falar
em uma linguagem natural, no nova [2]. Entretanto, nas ltimas duas dcadas
a pesquisa se intensicou. De fato, os avanos nas tcnicas de reconhecimento de
voz, reconhecimento de locutor e desenvolvimento de softwares ecientes de reco-
nhecimento de fala automtica, aceleraram a demanda por sistemas ativados por
voz.
Embora as tcnicas de reconhecimento automtico de fala estejam bem avan-
adas, muitas restries dicultam sua aplicao em ambientes reais. O principal
problema a qualidade do sinal de voz que o sistema processa. Se o sinal estiver
limpo e livre de distores, o sistema funciona razoavelmente bem, mas medida
que a qualidade do sinal piora, o desempenho de um sistema de reconhecimento de
voz cai dramaticamente. O caminho do sinal de voz at o sensor de recepo com-
plexo, sendo comum sua contaminao por rudos de fundo, vozes de outras pessoas,
msica, ou at mesmo por verses atrasadas do prprio sinal de voz devido a ree-
xes em paredes ou mveis (reverberao). Tudo isso depende de onde o sistema
foi instalado, e de qual o seu propsito. Porm, mesmo que o sistema seja instalado
em um ambiente livre de rudo e outras contaminaes de udio, a reverberao
quase inevitvel, a no ser que a sala seja transformada em um ambiente anecico
1
,
o que em geral no prtico. Porm, de uma forma geral, no possvel evitar a
contaminao do sinal de voz com outros sinais de udio, que tambm sofrem com
1
Um ambiente anecico um ambiente livre de reverberao, onde, por denio, a absoro
do som completa. Em geral, estdios de gravao, ou laboratrios de teste possuem um ambiente
quase anecico, atravs de tratamento das paredes, piso e teto com materiais com um alto coeci-
ente de absoro do som. Num ambiente desse tipo, o nico caminho que o sinal de som percorre
o caminho direto entre a fonte de som e o sensor.
1
a reverberao, e h necessidade de algoritmos que possam separar o sinal desejado
de voz de outros sinais indesejados, antes de realizar o resto do processamento.
A idia de equipar uma mquina com um sistema de reconhecimento de voz
baseada no sistema natural humano. O problema da separao de sinais de voz bem
comum em nossa vida diria e fazemos isso frequentemente sem nos darmos conta.
Os humanos so capazes de manter sua ateno em um locutor particular, mesmo
na presena de inmeras outras fontes de udio e rudo. Esta habilidade bem
conhecida na literatura como o Cocktail Party Eect [3], traduzido ao p da letra
como efeito (festa de) coquetel. Infelizmente, muito pouco conhecido sobre nosso
processamento cerebral de sinais de voz. De um ponto de vista de engenharia, esse
problema est mostrado na Figura 1.1, onde h vrias fontes de sinais acsticos e os
sinais de todas elas se misturam nos sensores (os microfones). O sinal do microfone
gravado nas condies da gura intil para um sistema de reconhecimento de voz,
e necessita de processamento adicional para separar as fontes umas das outras.
Figura 1.1: Ilustrao do Cocktail Party Eect. O interesse captar o sinal dos
locutores, mas muitas outras interferncias so capturadas. O crebro humano no
encontra problemas em focar sua ateno em apenas uma fonte de som, mas um
algoritmo de reconhecimento de fala no funciona na presena de interferncias.
Hoje, a maior limitao dos sistemas de reconhecimento de voz a separao des-
tas fontes, quando esto disponveis as misturas dos sons, captadas pelos microfones.
Com este problema resolvido, a implementao de uma mquina que entenda huma-
nos se torna plausvel. Recentemente, muitos artigos tm sido publicados sobre este
assunto e muitas tcnicas diferentes para resolver tal problema foram apontadas. A
separao de tais fontes, tendo disponveis apenas os sinais dos sensores, chamada
2
de BSS (Separao Cega de Fontes, do ingls Blind Source Separation), sendo deno-
minada cega devido ausncia de informaes prvias acerca tanto das fontes, como
do ambiente, que responsvel pelas funes de transferncia dos modelos acsticos
envolvidas no processo de gravao.
Em ambientes livres de reverberao e com atrasos desprezveis de propagao
entre sensores, tal problema j est resolvido. A idia tentar separar as componen-
tes independentes de um sinal, supondo que cada uma das fontes estatisticamente
independente das outras; este algoritmo chamado de ICA (Anlise de Compo-
nentes Independentes, do ingls Independent Component Analysis). Na prtica, a
reverberao costuma estar presente, o que torna o problema muito mais complicado
e ainda sem soluo denitiva. A grande maioria das abordagens utiliza esta supo-
sio de que os sinais so independentes, pois, sem isso, no h forma de separar
as fontes com ICA. O problema que, em ambientes reverberantes, o ICA se torna
muito complexo, porque cada sinal ltrado pela resposta de frequncia do ambi-
ente (sala). Essa alta complexidade se traduz em maior tempo de processamento.
Uma forma de aliviar esta complexidade tratar os sinais no domnio da frequncia,
o que diminui drasticamente o tempo de processamento. Essa abordagem conhe-
cida como FDBSS (Separao Cega de Fontes no Domnio da Frequncia, do ingls
Frequency-Domain Blind Source Separation) [4]. Infelizmente, esse tratamento traz
outros problemas, como o chamado problema da permutao, o qual passa a no ser
mais trivial. Formas de resolver este problema tm sido propostas, ainda que sejam
necessrias muitas contribuies para o reno destas tcnicas.
O objetivo desta dissertao estudar os algoritmos FDBSS propostos na lite-
ratura, e destacar as vantagens e desvantagens de cada um, alm de comparar seus
desempenhos. Todos os testes foram realizados com sinais reais de voz, gravados
em ambiente anecico (estdio), aplicados simulao de uma sala reverberante. A
opo pela simulao da sala justicada pela exibilidade de se modicar os par-
metros do ambiente, sem necessitar de intervenes fsicas. Alm disso, os algorit-
mos de simulao de resposta de frequncia de um ambiente emulam razoavelmente
diversas caractersticas de respostas reais de um ambiente acstico [5, 6].
1.1 Organizao da Dissertao
No Captulo 2, deniremos o problema da separao cega de fontes de uma forma
matemtica, tanto na forma instantnea (livre de reverberao), quanto na forma
convolutiva (ambientes reverberantes), e mostraremos as ambiguidades inerentes
ao problema. Tambm apresentaremos a Anlise de Componentes Independentes.
Adicionalmente, discutiremos as estatsticas amostrais de nmeros complexos, que
sero muito teis, por causa da implementao no domnio da frequncia. Por m,
3
deniremos as medidas de avaliao de desempenho dos algoritmos utilizada ao longo
da dissertao.
No Captulo 3, apresentamos a soluo para o problema de separao cega de
fontes em ambientes reverberantes, utilizando a transformada de Fourier. O ICA
estendido para o domnio da frequncia, e so descritos os problemas adicionais
decorrentes da transformao de domnio, e as formas de tentar resolv-los. Uma
viso geral de um sistema de separao cega de fontes no domnio da frequncia
mostrada, e cada um dos passos detalhado a seguir.
No Captulo 4, focamos no problema da permutao, que ser inicialmente apre-
sentado no Captulo 3, e inerente a implementaes no domnio da frequncia.
Hoje, este o problema mais difcil de se resolver nestas implementaes, para
ambientes reverberantes. As propostas encontradas na literatura so descritas e
comparadas, destacando suas limitaes.
Por m, o Captulo 5 apresenta algumas concluses e perspectivas de trabalho
futuro.
O Apndice A descreve nosso ambiente de testes, e contm mais informaes
sobre os sinais de voz utilizados e a simulao da resposta de frequncia da sala. O
Apndice B mostra a maneira que utilizamos para testar a convergncia do ICA,
e, dessa forma, diminuir o tempo de processamento do sistema de separao cega
de fontes como um todo. O Apndice C apresenta um mtodo supervisionado para
resolver o problema da permutao, para que possamos estimar o quo eciente um
algoritmo seria se no houvesse permutao.
4
Captulo 2
Introduo Separaco Cega de
Fontes
Este captulo introduz o problema de BSS, apresentando primeiramente as de-
nies de misturas lineares e instantneas para ento abordar as conguraes de
misturas convolutivas, cuja separao constitui o principal objetivo desta disser-
tao. Na Seo 2.4, so descritas estatsticas amostrais de nmeros complexos,
um tema pouco abordado na literatura, mas de suma importncia para a aplicao
prtica de algoritmos de BSS no domnio da frequncia. A seguir, descrevemos o
algoritmo mais utilizado para soluo de problemas de BSS e a forma utilizada na
dissertao para avaliar o desempenho dos algoritmos.
2.1 Mistura Linear e Instantnea
Sejam N fontes s
i
(n), i = 1, , N. O vetor s(n) compreende as fontes s
i
no
instante n:
s(n) =
_
_
s
1
(n)
s
2
(n)
.
.
.
s
N
(n)
_
_
(2.1)
Seja H uma matriz (de dimenses M N) denominada matriz de mistura. Con-
siderando a mistura linear, instantnea e no-ruidosa, podemos expressar o vetor
x(n) que contm as n-simas observaes (ou amostras
1
) das M misturas pela equa-
o:
x(n) = Hs(n) (2.2)
1
A nomenclatura amostra ser evitada neste captulo para evitar confuso, devido s discus-
ses sobre estatstica amostral, que considera que uma amostra um conjunto de observaes. Nos
prximos captulos, retomaremos esta nomenclatura.
5
A matriz de mistura H denida por:
H =
_
_
h
11
h
12
h
1N
h
21
h
22
h
2N
.
.
.
.
.
.
.
.
.
.
.
.
h
M1
h
M2
h
MN
_
_
(2.3)
onde cada escalar h
ji
determina o quanto da fonte i est presente na mistura j.
Podemos concatenar os vetores x(n) e obter a matriz das misturas X (no confundir
com a matriz de mistura H), segundo mostrado em (2.4), onde N
amost
o nmero
total de observaes de cada fonte.
X =
_
_
x
1
(1) x
1
(2) x
1
(N
amost
)
x
2
(1) x
2
(2) x
2
(N
amost
)
.
.
.
.
.
.
.
.
.
.
.
.
x
M
(1) x
M
(2) x
M
(N
amost
)
_
_
(2.4)
O mesmo pode ser feito com o vetor s(n) e obter a matriz das fontes S. Essas
representaes s so vlidas para processamento em bloco, i.e, quando todas as
observaes de todas as fontes esto disponveis.
S =
_
_
s
1
(1) s
1
(2) s
1
(N
amost
)
s
2
(1) s
2
(2) s
2
(N
amost
)
.
.
.
.
.
.
.
.
.
.
.
.
s
N
(1) s
N
(2) s
N
(N
amost
)
_
_
(2.5)
No caso MLI (Mistura Linear e Instantnea), cada mistura (linhas da matriz das
misturas X) uma combinao linear das fontes (linhas da matriz das fontes S), ou
seja:
x
j
(n) =

i
h
ji
s
i
(n), i = 1, , N, j = 1, , M (2.6)
O objetivo recuperar as fontes s
i
(n) a partir das misturas x
j
(n). Para isso,
denimos a matriz separadora W, e o sinal y
i
(n), que a estimativa do sinal s
i
(n).
Dessa forma, temos:
_
_
y
1
(n)
y
2
(n)
.
.
.
y
N
(n)
_
_
= W
_
_
x
1
(n)
x
2
(n)
.
.
.
x
M
(n)
_
_
(2.7)
6
A matriz W, de dimenses N M, denida por:
W =
_
_
w
11
w
12
w
1M
w
21
w
22
w
2M
.
.
.
.
.
.
.
.
.
.
.
.
w
N1
w
N2
w
NM
_
_
(2.8)
Concatenando todas as observaes das fontes estimadas y
i
(n), como feito em
(2.4) e (2.5), chegamos matriz Y de fontes estimadas :
Y =
_
_
y
1
(1) y
1
(2) y
1
(N
amost
)
y
2
(1) y
2
(2) y
2
(N
amost
)
.
.
.
.
.
.
.
.
.
.
.
.
y
N
(1) y
N
(2) y
N
(N
amost
)
_
_
(2.9)
Se a matriz H fosse conhecida, a soluo para o problema seria simplesmente
W = H
1
, se N = M, ou W = H
, se M > N, onde o operador

simboliza a
pseudo-inversa [7]. Porm, em BSS s conhecemos os sinais x
j
das misturas, por-
tanto, a matriz separadora deve ser estimada de outra forma. O mtodo mais
utilizado para este m a Anlise de Componentes Independentes, que ser vista
na Seo 2.5.
2.2 Caso Convolutivo
O modelo MLI no suciente para modelar um cenrio acstico. Nesse tipo de
cenrio, as misturas so convolutivas, por causa dos atrasos que resultam da propa-
gao do som atravs do espao e do fenmeno de mltiplos percursos (multipath)
gerado por reexes do som em diferentes objetos (reverberao). Como resultado
disto, cada uma das M misturas ltrada por um sistema multicanal:
x
j
(n) =
N
i=1
_
_
l=
h
ji
(l)s
i
(n l)
_
_
, (2.10)
onde o ltro h
ji
(l) tem comprimento P, i.e, apenas P coecientes no-nulos. Repre-
sentando de outra forma, onde denota convoluo:
x
j
(n) =
N
i=1
(h
ji
s
i
)(n) (2.11)
A matriz H em (2.3) redenida em (2.12), onde cada elemento
h
ji
= [h
ji
(0), h
ji
(1), , h
ji
(P 1)] um ltro FIR (Resposta ao Impulso Finita,
7
do ingls Finite Impulse Response) de comprimento P. A notao V foi utilizada
para manter consistncia com trabalhos anteriores, em especial as denies de l-
gebra Linear FIR em [8], onde uma matriz ou vetor sublinhado simboliza uma matriz
ou vetor em que cada elemento um ltro FIR. Estenderemos esta denio para
indicar no somente um ltro FIR, mas qualquer sinal nito, como o vetor s
i
que
contm todas as N
amost
observaes da fonte i.
H =
_
_
h
11
h
12
h
1N
h
21
h
22
h
2N
.
.
.
.
.
.
.
.
.
.
.
.
h
M1
h
M2
h
MN
_
_
(2.12)
A Equao (2.2) substituda por (2.13), onde o operador funciona como
a multiplicao de matrizes, porm as multiplicaes escalares so substitudas por
convolues entre vetores, novamente seguindo as denies de lgebra Linear FIR
de [8]. Cumpre notar nesta equao a concatenao das misturas, como em (2.4),
assim como das fontes (ver Equao (2.5)). O vetor s = [s
1
, s
2
, , s
N
]
T
segue a
notao estabelecida acima, onde cada vetor-linha s
i
contm as N
amost
observaes
da fonte s
i
(s
i
= [s
i
(1), s
i
(2), , s
i
(N
amost
)]).
X = H s (2.13)
X =
_
_
h
11
s
1
h
12
s
2
h
1N
s
N
h
21
s
1
h
22
s
2
h
2N
s
N
.
.
.
.
.
.
.
.
.
.
.
.
h
M1
s
1
h
M2
s
2
h
MN
s
N
_
_
A matriz separadora W similar a H, porm contm os ltros
w
ij
= [w
ij
(0), w
ij
(1), , w
ij
(Q1)] separadores, de comprimento Q e tem dimen-
so N M:
W =
_
_
w
11
w
12
w
1M
w
21
w
22
w
2M
.
.
.
.
.
.
.
.
.
.
.
.
w
N1
w
N2
w
NM
_
_
(2.14)
Depois de estimada a matriz, cada sinal estimado y
i
encontrado da seguinte
forma:
y
i
(n) =
M
j=1
_
_
l=
w
ij
(l)x
j
(n l)
_
_
(2.15)
ou na forma matricial, da mesma forma que feito em (2.13), onde
8
x = [x
1
, x
2
, , x
M
]
T
, e x
j
= [x
j
(1), x
j
(2), , x
j
(N
amost
)]:
Y = W x (2.16)
Y =
_
_
w
11
x
1
w
12
x
2
w
1M
x
M
w
21
x
1
w
22
x
2
w
2M
x
M
.
.
.
.
.
.
.
.
.
.
.
.
w
N1
x
1
w
N2
x
2
w
NM
x
M
_
_
Encontrar a matriz W um problema muito mais difcil do que encontrar a
matriz W do caso MLI. O mtodo de Anlise de Componentes Independentes, uti-
lizado com sucesso no caso MLI, deve ser alterado para tratar o caso convolutivo.
No Captulo 3 este caso ser tratado com mais detalhes, e suas especicidades sero
abordadas ao longo da dissertao.
2.3 Ambiguidades de BSS
Mesmo que a separao seja bem-sucedida, algumas ambiguidades so inerentes
soluo:
Ambiguidade do Escalamento As varincias (energias) das componentes inde-
pendentes no podem ser encontradas.
Isto acontece porque, como no conhecemos nem a fonte s
i
nem o compo-
nente h
ji
da matriz de mistura, qualquer fator k multiplicado a s
i
poderia ser
cancelado multiplicado-se h
ji
por
1
k
, e a mistura x
j
(que a nica informao
disponvel) seria a mesma, e torna-se impossvel recuperar este valor de k. Isto
tambm leva ambiguidade do sinal. Um tratamento desta ambiguidade ser
dado na Seo 3.6.
Ambiguidade da Permutao No possvel determinar a ordem das compo-
nentes independentes.
Isto tambm acontece porque no conhecemos nem o vetor das fontes s nem
a matriz de mistura H em (2.2). A propriedade de comutao da soma de
diversos termos torna irrelevante para esta operao a ordem destes. Isto
implica a arbitrariedade do ordenamento, o qual, portanto, no passvel de
recuperao na ausncia de conhecimentos a priori acerca da matriz de mistura
ou das fontes. Esta ambiguidade discutida brevemente na Seo 3.5, e uma
discusso detalhada aparece no Captulo 4.
A Figura 2.1 ilustra melhor este problema. Note que a sada y
2
apresentou a
ambiguidade do sinal, i.e, sua fase foi alterada de 180
.
9
Figura 2.1: Ilustrao da ambiguidade da soluo BSS. As sadas do algoritmo de
separao apresentam escalamentos aleatrios e esto desordenadas em relao s
fontes.
Quando trabalhamos em cenrios com transmisso de ondas acsticas no domnio
do tempo, tais ambiguidades no constituem um problema grave, pois a ordem (per-
mutao) das fontes no uma informao importante, e o volume (escalamento)
pode ser facilmente alterado. Quando trabalhamos no domnio da frequncia, entre-
tanto, como ser visto no Captulo 3, torna-se crtica a soluo destas ambiguidades.
A ambiguidade de escalamento pode ser modelada multiplicando-se a matriz das
fontes estimadas por uma matriz diagonal de ganhos :
=
_
1
0 0
0
2
0
.
.
.
.
.
.
.
.
.
0
0 0
N
_
_
(2.17)
Da mesma forma, a ambiguidade da permutao pode ser modelada
multiplicando-se a matriz Y por uma matriz de permutao P, que consiste em
uma matriz de zeros e uns, onde apenas um elemento de cada linha 1. Um exem-
plo mostrado em (2.18), para N = 3. Algumas vezes, utilizaremos a notao
direita em (2.18), que simboliza que a primeira e segunda linha da matriz devem ser
10
permutadas.
P
33
=
_
_
0 1 0
1 0 0
0 0 1
_
_

_
_
2
1
3
_
_
(2.18)
O exemplo (2.19) esclarece melhor estes conceitos. A operao PV permuta as
linhas de V, como mostrado no exemplo, e a operao VP
T
permuta as colunas de
V.
_
_
0 1 0
1 0 0
0 0 1
_
_
_
_
y
1
y
2
y
3
_
_
=
_
_
y
2
y
1
y
3
_
_
(2.19)
Resumindo, se a separao foi bem sucedida, podemos armar que existem e
P tais que:
S = PY (2.20)
2.4 Estatsticas amostrais de nmeros complexos
Em todas as aplicaes prticas de processamento de sinais, incluindo BSS, no
possvel obter estatsticas exatas sobre as variveis. As mdias, varincias, curtose,
e outras estatsticas de maior ordem devem ser estimadas utilizando-se as observa-
es disponveis. Estas estimativas devem ser o mais prximo possvel dos valores
reais para que o processamento seja efetivo. Nesta seo sero mostradas algumas
denies utilizadas ao longo da dissertao envolvendo estimativas de estatsticas
atravs das observaes disponveis, i.e, estatsticas amostrais. importante rever
alguns conceitos e introduzir outros que esto implcitos na maior parte da litera-
tura de BSS disponvel e so essenciais para o bom entendimento dos algoritmos
e, principalmente, para sua implementao na prtica. Adicionalmente, falaremos
de estatsticas de nmeros complexos, tema que normalmente no abordado, por
causa de sua aplicao limitada.
Para calcular o valor esperado E. de uma varivel, necessitamos de conheci-
mento acerca de sua densidade de probabilidade. Na prtica, aproximamos o valor
esperado utilizando as observaes disponveis. A mdia = Ex(n), por exem-
plo, calculada atravs de sua mdia amostral x, onde N
amost
o nmero total de
observaes:
x
1
N
amost
N
amost
n=1
x(n) (2.21)
Se N
amost
tende a innito e as amostras disponveis so iid (independente e
identicamente distribudas), ento x =
x
. No nosso caso, isto impossvel e o
conceito de populao se torna puramente terico. O que temos uma amostra da
populao, que supomos ser representativa. A mdia amostral complexa calculada
11
da mesma forma que em (2.21).
A mdia amostral uma medida no-polarizada. Isto signica que o valor espe-
rado da mdia amostral igual mdia real. Segundo [9] mostra em seu Captulo
5 (modicando a notao para car consistente com a nossa):
Se x = (x
1
+ x
2
+ + x
N
)/N com Ex
i
=
x
para i = 1, 2, , N,
E x =
x
(2.22)
Se x
1
, x
2
, x
N
tambm forem independentes, com varincia
2
x
,
x
=

x
N
(2.23)
O resultado acima diz que, se considerarmos que cada observao tem mdia real
x
, ento o valor esperado da mdia amostral idntico mdia real. Consideramos
que cada um dos valores obtidos pelo sensor do microfone uma varivel aleatria
de uma observao s, com mdia e varincia especcas. Adicionalmente, se consi-
derarmos que as observaes so independentes umas das outras, podemos derivar
a varincia da mdia amostral. Embora este resultado tenha sido derivado para
nmeros reais, como a operao de adio de nmeros reais igual de nmeros
complexos, este resultado pode ser estendido para nmeros complexos. Na verdade,
a expresso (2.21) pode ser utilizada para calcular o valor esperado de qualquer
funo da seguinte forma:
Ef(x) =
1
N
amost
N
amost
n=1
f(x(n)) (2.24)
A varincia de uma varivel dada por
2
x
E(x Ex)
2
= Ex
2

2
x
(2.25)
ou, no caso de nmeros complexos, por
2
x
E(x Ex)(x Ex)
= E[x[
2
[
x
[
2
(2.26)
onde

denota complexo conjugado. Utilizando a mesma abordagem, a varincia
pode ser estimada atrves da varincia amostral s
2
x
(considerando-se nmeros com-
plexos), dada por:
s
2
x

1
N
amost
N
amost
n=1
(x(n) x)(x(n) x)
(2.27)
onde x a mdia amostral de x, dada por (2.21), que diferente da mdia estatstica
x
(embora o valor esperado de x seja, segundo (2.22)). Como na prtica s temos
12
acesso a uma amostra da populao, a medida acima considerada polarizada.
Para entender porque isto acontece, vejamos o valor esperado da varincia amostral,
segundo mostrado em (2.27):
Es
2
x
= E
_
1
N
amost
N
amost
n=1
(x(n) x)(x(n) x)
_
=
1
N
amost
_
_
E
_
N
amost
n=1
x(n)x
(n)
_
+ E
_
N
amost
n=1
x x
_
E
_
N
amost
n=1
x(n) x
_
E
_
N
amost
n=1
x
(n) x
_
_
_
De (2.21), e como x constante:
Es
2
x
=
1
N
amost
_
N
amost
n=1
Ex(n)x
(n) N
amost
E x x
_
Considerando (2.26), i.e, E[x(n)[
2
= Ex(n)x
(n) =
2
x
+[
x
[
2
, e (2.23) apli-
cado a nmeros complexos, i.e, E[ x[
2
=

2
x
N
amost
+[
x
[
2
, temos:
Es
2
x
=
1
N
amost
_
N
amost
n=1
(
2
x
+[
x
[
2
) N
amost
_

2
x
N
amost
+[
x
[
2
__
=
N
amost
1
N
amost

2
x
Portanto a Equao (2.27) representa uma medida polarizada da varincia real
2
x
. medida que N
amost
tende ao innito, entretanto, a equao tende varincia
real. Porm, uma medida no-polarizada da varincia pode ser escrita da seguinte
forma:
s
2
x
=
1
N
amost
1
N
amost
n=1
(x(n) x)(x(n) x)
(2.28)
a qual bem parecida com a anterior, com uma diferena sutil. Na prtica, em BSS,
nos clculos em que se utiliza varincia, essa diferena irrelevante, segundo os testes
feitos, portanto, pode-se escolher qualquer uma das duas denies. Optamos pela
denio no-polarizada (2.28).
A varincia calculada segundo (2.28) sempre real, e isto pode ser visto
expandindo-se essa expresso. Observando a Equao (2.26), percebemos que o
valor da varincia segundo esta equao de uma varivel complexa x(n) similar
varincia calculada segundo (2.25) a partir do mdulo [x[ desta varivel, o que
garante que a varincia seja sempre real. Colocando de outra forma, se substituir-
mos o valor interno da soma em (2.28) por [x(n) x[
2
, o resultado ser o mesmo.
H outra forma de calcular a varincia de nmeros complexos, a qual [10] chama de
13
pseudovarincia. Basta retirar o complexo conjugado da expresso (2.28), e o valor
interno da soma em (2.28) ca (x(n) x)
2
, o que no garante que a varincia seja
sempre real.
O clculo de estatsticas de maior ordem, como obliquidade (skewness, em in-
gls), a qual uma estatstica de terceira ordem, e curtose, tambm sofre do pro-
blema de medidas polarizadas, e no caso destas, mais difcil chegar a medidas
no-polarizadas. A medida no-polarizada da curtose, por exemplo, em geral
polarizada [11]. A denio de obliquidade que utilizaremos aqui (denotada por )
dada por (2.29), no caso de variveis reais, e sua verso amostral (denotada por
skew, para diferenciar) dada por (2.30).
y

E(y
y
)
3
3
(2.29)
skew(x)
1
N
amost
N
amost
n=1
(x(n) x)
3
_
1
N
amost
N
amost
n=1
(x(n) x)
2
_
3
2
(2.30)
Esta medida amostral polarizada
2
, entretanto optamos por utiliz-la. Assim
como no caso da varincia, e no da curtose, mostrado a seguir, a diferena irrele-
vante.
A denio de obliquidade para o caso complexo mais complicada. A denio
(2.29) considera que a obliquidade o momento central de terceira ordem dividido
pelo cubo do desvio padro. O problema com nmeros complexos que h ceil(
p+1
2
)
formas de se calcular o momento central de ordem p, onde ceil(r) arredonda o nmero
real r para o maior nmero natural que no supera o argumento. Lembremos que
a varincia (que igual ao momento central de segunda ordem) pode ser calculada
de 2 formas (onde a segunda a pseudovarincia). O momento central de terceira
ordem pode ser calculado como E(y
y
)
3
ou E(y
y
)
2
(y
y
)
, portanto, h
mais de uma forma de se calcular a obliquidade. Em [12], o autor dene o que ele
chama de momento central absoluto de ordem p, que dado por E[y
y
[
p
, e esta
ser a denio que utilizaremos. Note que o momento central absoluto de segunda
ordem fornece um resultado idntico varincia que utilizamos, segundo discutido
2
A medida no-polarizada multiplicada por
N
amost
(N
amost
1)
N
amost
2
.
14
acima. De acordo com estas denies, a obliquidade para nmeros complexos :
skew(x)
1
N
amost
N
amost
n=1
[x(n) x[
3
_
1
N
amost
N
amost
n=1
[x(n) x[
2
_
3
2
(2.31)
A denio de curtose (denotada por curt) utilizada aqui, dada pelo momento
central de quarta ordem dividido pelo quadrado da varincia, segundo a Equao
(2.32), e sua verso amostral (denotada por curt
am
) dada por (2.33).
curt(x)
E[y
y
[
4
4
(2.32)
curt
am
(x)
1
N
amost
N
amost
n=1
[x(n) x[
4
_
1
N
amost
N
amost
n=1
[x(n) x[
2
_
2
(2.33)
A medida de curtose mostrada tambm polarizada. A verso mostrada em
(2.32) diferente da comumente usada na literatura estatstica, onde se diminui o
valor de 3, para que a curtose de uma distribuio gaussiana seja 0, e esta curtose
chamada de curtose em excesso. No utilizaremos esta denio, portanto, a curtose
de uma distribuio gaussiana ser 3. A curtose muito til na diferenciao do
tipo de distribuio de uma varivel aleatria. Na literatura de BSS, comum
fazer distino entre variveis com distribuio gaussiana, variveis com distribuio
subgaussiana (a curtose neste caso menor do que a curtose de uma varivel com
distribuio gaussiana) e variveis com distribuio supergaussiana (a curtose neste
caso maior do que curtose de uma varivel com distribuio gaussiana). Os sinais
de voz, em geral, tem distribuio supergaussiana, i.e, sua curtose, segundo nossa
denio, maior do que 3. A Figura 2.2 ilustra melhor esta diferena. Na gura,
todas as distribuies representadas tem varincia 1.
Na literatura estatstica, os nomes subgaussiana, gaussiana e supergaussiana
so substitudos por platicrtica, mesocrtica e leptocrtica, respectivamente. As
distribuies supergaussianas so mais concentradas em torno da mdia, enquanto
que as subgaussianas so mais espalhadas. Um exemplo clssico de distribuio
supergaussiana a distribuio de Laplace (curt = 6) e um exemplo de distribuio
subgaussiana a distribuio uniforme (curt = 1, 8). O valor mnimo
3
para a curtose
1, e o valor mximo .
3
Este valor atingido com uma distribuio discreta de dois pontos, de mdia zero, e simtrica
em relao ao zero.
15
Figura 2.2: Comparao entre distribuies subgaussianas e supergaussianas.
A covarincia, que uma generalizao da varincia, entre duas variveis x e y
dada por:
cov
xy
E(x
x
)(y
y
)
(2.34)
A covarincia de nmeros complexos tambm pode ser calculada de outra forma,
chamada de pseudocovarincia [10], e similar pseudovarincia citada anterior-
mente. O clculo da covarincia em sua forma amostral (denotada por cov) utilizado
aqui feito da seguinte forma:
cov
xy

1
N
amost
1
N
amost
n=1
(x(n) x)(y(n) y)
=
1
N
amost
1
_
N
amost
n=1
x(n)y
(n)
_
N
amost
N
amost
1
x y
(2.35)
que uma medida no-polarizada. A matriz de covarincia entre dois vetores-coluna
aleatrios x = [x
1
, x
2
, , x
N
]
T
e y = [y
1
, y
2
, , y
M
]
T
a matriz em que o elemento
ij contm a covarincia cov
x
i
y
j
.
xy
xy
H
y
H
=
_
_
cov
x
1
y
1
cov
x
1
y
2
cov
x
1
y
M
cov
x
2
y
1
cov
x
2
y
2
cov
x
2
y
M
.
.
.
.
.
.
.
.
.
.
.
.
cov
x
N
y
1
cov
x
N
y
2
cov
x
N
y
M
_
_
(2.36)
onde
x
= [
x
1
,
x
2
, ,
x
N
] e
y
= [
y
1
,
y
2
, ,
y
M
]. A matriz de covarincia
16
amostral similar, mas o operador cov substitudo por sua verso amostral cov:
xy

_
_
cov
x
1
y
1
cov
x
1
y
2
cov
x
1
y
M
cov
x
2
y
1
cov
x
2
y
2
cov
x
2
y
M
.
.
.
.
.
.
.
.
.
.
.
.
cov
x
N
y
1
cov
x
N
y
2
cov
x
N
y
M
_
_
(2.37)
Em processamento de sinais, em geral, a covarincia substituda pelo coeciente
de correlao (sendo estatisticamente rigoroso, do produto-momento Pearson), que
chamaremos simplesmente de correlao (assim como chamado na literatura de
BSS). A correlao entre duas variveis x e y dada por:
r
xy

Exy ExEy
_
E(x Ex)
2
E(y Ey)
2
=
cov
xy
y
(2.38)
Por denio, r
ij
varia entre -1 e 1. A sua verso amostral dada por:
xy

cov
xy
s
x
s
y
(2.39)
A matriz de correlao entre dois vetores aleatrios coluna x e y a matriz com
as correlaes entre as variveis aleatrias dos vetores, ou seja:
R
xy

xy

x

y
T
=
_
_
r
x
1
y
1
r
x
1
y
2
r
x
1
y
M
r
x
2
y
1
r
x
2
y
2
r
x
2
y
M
.
.
.
.
.
.
.
.
.
.
.
.
r
x
N
y
1
r
x
N
y
2
r
x
N
y
M
_
_
(2.40)
onde
x
= [
_
2
x
1
,
_
2
x
2
, ,
_
2
x
N
]
T
o vetor-coluna com os desvios padres do
vetor aleatrio x, e
y
o similar de y. O operador implementa o produto Hada-
mard entre duas matrizes. O produto Hadamard realiza a multiplicao elemento
a elemento entre duas matrizes de mesmas dimenses, i.e, (A B)
ij
= (A)
ij
(B)
ij
[13]. O operador

A implementa a inversa de Hadamard, que a inversa elemento-a-
elemento da matriz A, i.e, (
A)
ij
=
1
(A)
ij
. A operao conjunta A

B uma diviso
elemento-a-elemento da matriz A sobre a matriz B de mesmas dimenses.
A verso amostral da matriz de correlao similar a (2.40), com as correlaes
r
ij
substitudas por suas verses amostrais
ij
:
R
xy

xy
s
x
s
y
T
=
_
x
1
y
1

x
1
y
2

x
1
y
M
x
2
y
1

x
2
y
2

x
2
y
M
.
.
.
.
.
.
.
.
.
.
.
.
x
N
y
1

x
N
y
2

x
N
y
M
_
_
(2.41)
17
2.5 Anlise de Componentes Independentes
Anlise de Componentes Independentes, ou ICA, um mtodo para encontrar
componentes ou fatores (no nosso caso, as fontes) de dados estatsticos multidimen-
sionais (no nosso caso, as misturas), atravs de uma busca por componentes esta-
tisticamente independentes e no-gaussianos. O mtodo tenta encontrar a matriz
separadora W de forma que as fontes estimadas y sejam estatisticamente indepen-
dentes.
Para que os componentes possam ser separadas por ICA, eles devem atender a
trs condies [14]:
1. As componentes a serem encontradas (as fontes) devem ser estatisticamente
independentes;
2. As componentes devem ser no-gaussianas
4
;
3. A matriz separadora deve ser quadrada, i.e, o nmero de fontes e o de misturas
devem ser iguais (N = M)
5
.
Os algoritmos ICA podem ser derivados atravs da maximizao da no-
gaussianidade [1618] ou da estimativa da ML (mxima verossimilhana) [1921].
Embora tambm se possa utilizar InfoMax [22], o algoritmo resultante similar ao
obtido por estimativa da mxima verossimilhana (segundo apontado em [23]). A
maioria dos algoritmos ICA so desenvolvidos para trabalhar com nmeros reais,
entretanto eles podem ser estendidos para trabalhar com nmeros complexos, bas-
tando para isso escolher apropriadamente a funo G (no caso da maximizao da
no-gaussianidade) ou a funo score (no caso da estimativa de ML), as quais sero
abordadas a seguir.
Nas prximas sees, mostraremos os principais conceitos dos algoritmos ICA,
suas limitaes e algumas derivaes. Derivaes algbricas mais detalhadas de cada
algoritmo ICA podem ser encontradas em [14, 17, 18, 24, 25].
2.5.1 Conceitos bsicos
O grande desao do ICA medir a independncia entre os componentes e
maximiz-la. O primeiro desao descobrir quando dois componentes, no nosso
caso variveis aleatrias, so independentes.
4
No mximo, uma das componentes pode ser gaussiana. Se isto no for verdade, a separao
no vai alm do branqueamento do vetor de misturas (ver Seo 2.5.1).
5
Se M > N (mais misturas que fontes), pode ser aplicada uma reduo dimensional antes de se
aplicar o ICA. O caso em que N > M muito mais difcil, e requer algoritmos especcos, alguns
citados em [15], e est fora do escopo desta dissertao.
18
Podemos relacionar independncia entre variveis aleatrias (as nossas fontes es-
timadas y
i
) com alguns conceitos, para entender melhor o problema. A descorrelao
entre as variveis (doravante chamadas de fontes) um destes conceitos, e est rela-
cionada com independncia da seguinte forma: se N fontes y
i
(n), i = 1, , N so
independentes, ento elas so descorrelacionadas, i.e, a covarincia entre qualquer
par delas zero. Isto no signica que fontes descorrelacionadas so necessaria-
mente independentes. Outro conceito (mais forte, como veremos) relacionado com
independncia o de vetor aleatrio branco. Seja y = [y
1
(n), , y
N
(n)]
T
o vetor
das sadas (fontes estimadas). Este vetor branco quando seu vetor de mdias
y
= [
y
1
,
y
2
, ,
y
N
]
T
= [Ey
1
(n), Ey
2
(n), , Ey
N
(n)]
T
um vetor de ze-
ros e a matriz de covarincia
yy
(que contm a covarincia cov
y
i
y
j
entre todos os
pares de sadas e as varincias
2
y
i
das sadas na diagonal principal) a matriz iden-
tidade, segundo mostrado em (2.42). Isto signica que a covarincia cruzada entre
as fontes estimadas nula, e a varincia de cada fonte 1.
yy
= Ey(n)y
H
(n)
y
, mas
y
= 0
yy
=
_
_
Ey
2
1
(n) Ey
1
(n)y
2
(n) Ey
1
(n)y
N
(n)
Ey
2
(n)y
1
(n) Ey
2
2
(n) Ey
2
(n)y
N
(n)
.
.
.
.
.
.
.
.
.
.
.
.
Ey
N
(n)y
1
(n) Ey
N
(n)y
2
(n) Ey
2
N
(n)
_
_
= I
(2.42)
Perceba que a propriedade de branqueza mais forte do que a de descorrelao,
pois se um vetor de fontes branco, ento todas as fontes so descorrelacionadas
entre si. Na verdade, esta propriedade impe
N(N+1)
2
restries [24], porm a matriz
W possui N
2
parmetros a serem encontrados, ento sobram
N(N1)
2
parmetros
a serem determinados por outra informao estatistca. Branqueando o vetor das
fontes, fazemos aproximadamente metade do trabalho e s utilizamos estatsticas de
no mximo segunda ordem.
Para esclarecer melhor o poder do branqueamento, considere a Figura 2.3. Cada
ponto uma observao do vetor-coluna de fontes s(n) = [s
1
(n), s
2
(n)]
T
, onde cada
fonte s
i
um sinal de voz de 2 segundos de durao amostrado com uma frequncia de
amostragem f
s
= 16 kHz. A Figura 2.4 mostra as observaes do vetor de misturas
x(n), aps as fontes serem misturadas com uma matriz H de dimenses 2 2,
caracterizando uma mistura linear instantnea, i.e, o caso MLI.
A Figura 2.5 mostra o vetor z(n), que consiste nas misturas x
j
da Figura 2.4
aps passar por um branqueamento. Observe que basta uma rotao para que as
fontes sejam separadas, ou seja, o branqueamento j fez metade do trabalho, como
dito anteriormente. A Figura 2.6 mostra as sadas do ICA (as fontes estimadas).
Isso pode ser matematicamente mostrado da seguinte forma [24]: suponha, por
19
Figura 2.3: Observaes do vetor de
fontes s(n). Cada fonte s
i
um sinal
de voz de 2 segundos de durao.
misturas x(n) instantneas.
Figura 2.5: Observaes do vetor
branqueado z(n), que foi gerado atra-
vs do branqueamento do vetor x(n).
sada y(n).
20
simplicidade, que o vetor de fontes s branco, i.e, sua matriz de covarincia a
matriz identidade
6
. Suponha tambm que o branqueamento realizado atravs de
uma matriz branqueadora V tal que z(n) = Vx(n). A matriz composta VH uma
rotao, pois z(n) = VHs(n), ou seja, ela relaciona dois vetores brancos s(n) e z(n)
(como o mdulo deles unitrio, apenas o ngulo no plano i-dimensional muda, i.e,
eles so rotacionados). A matriz separadora W = (VH)
1
, tal que y(n) = Wz(n),
tambm uma rotao. Isso mostra que aproximadamente metade do trabalho j
foi feito pela matriz de branqueamento V, e o ICA somente precisa encontrar uma
matriz de rotao.
importante ressaltar que no estatisticamente eciente manter a restrio
de que o vetor de fontes estimadas seja branco durante a adaptao, pois isto pode
implicar uma limitao no desempenho do algoritmo (ver Seo VI-B de [24] e [26]),
i.e, a soluo nal no ser a tima. Por outro lado, branquear o vetor que contm
as misturas antes de realizar a separao em si pode acelerar muito a convergncia
do algoritmo, pois, como dito acima, aproximadamente metade do trabalho j foi
feito, e o algoritmo de branqueamento mais rpido (computacionalmente falando)
do que um algoritmo ICA de separao. Se as fontes s
i
forem gaussianas, no h
mais nada que se possa fazer alm do branqueamento (ver Seo 7.5 de [14]), pois
variveis gaussianas descorrelacionadas j so independentes, e portanto o conceito
de independncia no pode ser utilizado para separ-las.
Para separar variveis no-gaussianas, aps o branqueamento, necessrio uti-
lizar informaes estatsticas de maior ordem, o que ser explicado nas prximas
sees. Se considerarmos outras suposies alm da independncia, podem-se utili-
zar informaes estatsticas de segunda ordem para separar as variveis (ver Seo
3.4.1).
2.5.2 Utilizando maximizao da no-gaussianidade
Uma forma de medir independncia entre duas estimativas de fontes recorrer
sua no-gaussianidade, pois o Teorema Central do Limite em teoria da probabilidade
diz (traduzido de [27]):
Dadas n variveis aleatrias independentes x
i
, formamos sua
soma x = x
1
+ + x
n
. Esta uma varivel aleatria com mdia
=
1
+ +
n
e varincia
2
=
2
1
+ +
2
n
. O Teorema Central
do Limite diz que, dentro de certas condies gerais, a distribuio F(x)
de x se aproxima de uma distribuio normal com a mesma mdia e
varincia medida que n cresce.
6
Mesmo que o vetor s(n) no seja branco, h uma matriz A tal que s(n) = As
(n), onde s
(n)
o vetor de fontes branco (segundo nossa suposio). Se considerarmos que x(n) = HAs
(n), a
suposio continua sendo verdade, e nossa matriz de mistura HA, e o vetor de fontes s
(n).
21
Portanto, quanto mais misturadas estiverem as fontes em determinada mistura,
mais gaussiana ela estar. Duas formas so comumente utilizadas para medir a
no-gaussianidade: uma a curtose e a outra a negentropia.
Curtose
A denio de curtose que utilizaremos nesta seo (2.43), que chamaremos de
curt
ICA
7
.
curt
ICA
(y) E(y
y
)
4
3
4
y
, onde
y
= Ey e
2
y
= E(y
y
)
2
(2.43)
Segundo a denio (2.43), se a curtose for nula, a varivel tem distribuio
gaussiana, se a curtose for positiva, a distribuio da varivel chamada de super-
gaussiana, e se a curtose for negativa, a distribuio subgaussiana. A diferena
entre essas distribuies ilustrada na Figura 2.2.
A denio de curtose mostrada aqui diferente da Seo 2.4, que a denio
que utilizaremos no trabalho, por isso modicamos a notao. A denio mostrada
aqui foi elaborada para que uma varivel com distribuio gaussiana tenha curtose
zero. Baseado nisso, devemos maximizar o mdulo do valor da curtose de uma das
fontes estimadas para maximizar a no-gaussianidade desta. Para comprovar que a
medida em (2.43) uma boa medida de no-gaussianidade, a Tabela 2.1 mostra a
medida para alguns sinais e para a mistura destes. A medida foi normalizada apenas
para que os nmeros sejam mais tratveis, e a Figura 2.7 mostra as distribuies
das fontes em comparao com a distribuio gaussiana.
Tabela 2.1: Curtose de alguns sinais e da mistura destes
Sinal de voz de 6 segundos
curt
ICA
4
Fonte 1 (voz feminina) 4, 007
Fonte 2 (voz feminina) 2, 305
Fonte 3 (voz masculina) 17, 553
Fonte 4 (voz masculina) 2, 634
Fonte 1 + Fonte 2 1, 584
Fonte 1 + Fonte 3 4, 006
Fonte 1 + Fonte2 + Fonte 3 1, 691
Fonte 1 + Fonte2 + Fonte 3 + Fonte 4 1, 143
7
Essa denio diz que a curtose o quarto cumulante
4
de y. A denio mais comum o
quarto cumulante dividido pelo quadrado do segundo cumulante (que igual varincia)

4
2
2
=

4
4
,
chegando na expresso curt =
E{(y
y
)
4
}
2
3, que a mais utilizada na literatura estatstica.
22
Figura 2.7: Distribuies das fontes da Tabela 2.1. A distribuio gaussiana a
tracejada, para comparao.
23
Primeiramente apresentaremos algoritmos de uma unidade, i.e, algoritmos que
apenas estimam uma das fontes. Por isso, a matriz separadora ser substituda pelo
vetor separador, que consiste em apenas uma linha da matriz separadora:
w
i
=
_
w
i1
w
i2
w
iM
_
(2.44)
Aps a derivao dos algoritmos de uma unidade, sero apresentadas extenses
destes que estimam todas as fontes desconhecidas.
Branquear as misturas antes de maximizar a curtose e aplicar a restrio de que
o vetor separador deve ser unitrio diminui o espao de busca de solues, o que faz
com que o algoritmo seja mais rpido (embora a soluo nal possa no ser a tima,
como visto na Seo 2.5.1), alm de facilitar a derivao do algoritmo. Uma expli-
cao grca da necessidade do branqueamento e restrio no vetor separador pode
ser vista na Seo 8.2.1 de [14]. Utilizar o branqueamento como pr-processamento
um pr-requisito do algoritmo de maximizao do mdulo da curtose.
Para derivar o algoritmo de maximizao da curtose, segundo denida em (2.43),
basta lembrar que nosso objetivo descobrir a alterao no vetor w
i
que aponta
para a direo onde o mdulo da curtose de y
i
(n) cresce mais, i.e, descobrir o
gradiente do mdulo da curtose em funo da matriz separadora, considerando a
restrio anterior. Seja z(n) o vetor das misturas x(n) aps passar por um bran-
queamento. Sabemos que
y
i
= 0, pois y
i
(n) = w
i
z(n), ou seja, uma combina-
o linear (onde os pesos so os coecientes do vetor w
i
) das misturas branquea-
das z
1
(n), z
2
(n), , z
M
(n), todas com mdia zero (
z
j
= 0, j = 1, 2, , M). Ora,
y
i
= Ey
i
(n) = w
i1
Ez
1
(n) + w
i2
Ez
2
(n) + + w
iM
Ez
M
(n) = 0. A partir
disso,
2
y
i
= E(w
i
z(n))
2
= |w
i
|
2
, pois Ez(n) = 1
M1
para sinais branqueados.
Da, o gradiente
[curt
ICA
(w
i
z(n))[
w
i
= 4 sign(curt
ICA
(w
i
z(n)))[Ez
T
(n)(w
i
z(n))
3
3w
i
|w
i
|
2
]
(2.45)
O algoritmo baseado no gradiente consiste em, a cada iterao, somar o gradiente
da curtose em (2.45) ao vetor de separao w
i
. Note que, se expandirmos o gradiente,
o ltimo termo (12 sign(curt
ICA
(w
i
z(n)))w
i
|w
i
|
2
), quando somado ao vetor w
i
,
somente altera o valor de sua norma, e no de sua direo, e por isso tal termo pode
ser omitido, anal o algoritmo deve projetar w
i
na esfera unitria a cada iterao
(o valor da norma de w
i
, |w
i
|, deve ser 1). Assim, encontramos o algoritmo de
adaptao da matriz separadora baseado na maximizao da curtose, que dado
pela Equao (2.46), onde o passo de adaptao e a segunda equao do algoritmo
24
serve para manter a restrio |w
i
| = 1.
w
i
w
i
+ sign(curt
ICA
(w
i
z(n))Ez
T
(n)(w
i
z(n))
3
(2.46)
w
i

w
i
|w
i
|
(2.47)
Deste ponto em diante, nesta seo, para simplicar a notao, (n) ser omitido.
Como dito na Seo 2.5.1, a restrio de manter a matriz separadora unitria
pode limitar o desempenho do algoritmo. Isto uma limitao de todos os algoritmos
que se utilizam de maximizao da no-gaussianidade. A utilizao destes algoritmos
justicada, porm, porque existem verses de ponto xo de rpida convergncia
disponveis, chamadas de FastICA.
O problema do algoritmo baseado no gradiente mostrado em (2.46) que o
passo de adaptao deve ser sabiamente escolhido, ou o algoritmo pode sofrer de
convergncia lenta (se for muito pequeno), ou chegar a um resultado muito diferente
do timo (se for muito grande), ou ainda acabar divergindo. Esses problemas podem
ser resolvidos utilizando-se verses de iterao para ponto xo. Descreveremos um
algoritmo de iterao para ponto xo.
Seja f uma funo denida para todos os nmeros reais. A partir de um ponto
inicial x
0
, a iterao para ponto xo dada por:
x
n+1
= f(x
n
), n = 0, 1, 2, (2.48)
que gera uma sequncia x
0
, x
1
, x
2
, , que deve convergir para um ponto xo da
funo. Um ponto xo na funo f um ponto onde
f(x
FP
) = x
FP
(2.49)
Para que o algoritmo baseado no gradiente da curtose possa convergir para um
ponto estvel (o ponto xo), o gradiente deve apontar na direo de w
i
. Apenas
neste caso, quando adicionarmos o gradiente a w
i
em (2.46), o vetor w
i
manter
sua direo, embora sua norma |w
i
| seja modicada. Como em cada iterao, w
i
dividido pela sua norma, quando o gradiente apontar na mesma direo de w
i
, o
algoritmo convergiu para um ponto xo.
Da equao do gradiente (2.45), chegamos seguinte expresso:
w
i
Ez
T
(w
i
z)
3
3w
i
|w|
2
(2.50)
A expresso (2.50) a condio de convergncia do algoritmo, como discutido
acima. O termo 4 sign(curt
ICA
(w
i
z(n))) irrelevante, pois no altera a direo de
w
i
, apenas sua norma. O lado direito da expresso (Ez
T
(w
i
z)
3
3w
i
) a nossa
25
funo f em (2.48), e quando o algoritmo convergir, f(w
i
) = w
i
, onde um
escalar que somente altera a norma de w
i
. Como aplicamos a restrio |w
i
| = 1
em cada iterao, eliminado depois de dividirmos w
i
pela sua norma.
O algoritmo pode ser ainda mais simplicado, considerando que |w
i
|
2
= 1,
chegando na forma nal do algoritmo FastICA [16]:
w
i
Ez
T
(w
i
z)
3
3w
i
(2.51)
w
i

w
i
|w
i
|
(2.52)
sabido que o algoritmo que utiliza curtose possui alguns problemas na prtica,
quando seu valor deve ser estimado a partir das observaes disponveis, e os valores
esperados em (2.43) devem ser substitudos por suas estimativas, segundo (2.24). O
principal problema destas estimativas sua falta de robustez com relao a outliers,
que so observaes da amostra que se desviam completamente de outras observaes
da mesma amostra (por exemplo, um 10 em uma amostra de 1000 observaes onde
todas as outras observaes so menores do que 1). Um outlier altera completamente
o valor da medida de curtose. Por este motivo, o algoritmo que utiliza curtose no
muito utilizado.
Negentropia
A negentropia uma medida mais robusta do que a curtose, porm compu-
tacionalmente mais intensiva, embora haja aproximaes mais simples que obtm
resultados satisfatrios.
A entropia uma medida advinda da Teoria da Informao relacionada ao grau
de incerteza do resultado de uma varivel aleatria. Quanto maior o seu valor,
mais aleatria (ou seja, imprevisvel e sem estrutura determinada) a varivel. Um
resultado fundamental de Teoria da Informao que uma varivel contnua com
distribuio gaussiana tem a maior entropia diferencial entre todas as variveis de
igual varincia. A entropia diferencial H(y) de um vetor de variveis aleatrias y
com densidade de probabilidade q(y) dada por:
H(y)
_
q(y) log(q(y))dy (2.53)
Um problema da entropia diferencial que seu valor alterado quando a varivel
aleatria multiplicada por uma constante. Para resolver este problema, introduzi-
mos a negentropia. A negentropia J(y) dada por:
J(y) H(y
gauss
) H(y) (2.54)
26
onde y
gauss
um vetor com distribuio gaussiana e de mesma matriz de covarincia
yy
que y. A entropia H(y
gauss
) :
H(y
gauss
) =
1
2
log([det(
yy
)[) +
N
2
[1 + log(2)] (2.55)
onde N a dimenso de y. Adicionalmente, a negentropia invariante a qualquer
transformao linear invertvel. Isto pode ser provado facilmente, lembrando que
y
= 0, da
(My)(My)
= M
yy
M
H
, onde M uma matriz (transformao linear)
quadrada. A negentropia de My :
J(My) =
1
2
log[det(M
yy
M
H
)[ +
N
2
[1 + log(2)] (H(y) + log([det(M)[))
=
1
2
log[det(
yy
)[ + 2
1
2
log([det(M)[) +
N
2
[1 + log(2)] H(y) log([det(M)[)
=
1
2
log[det(
yy
)[ +
N
2
[1 + log(2)] H(y)
= H(y
gauss
) H(y) = J(y)
o que prova a armao feita. Como a distribuio gaussiana y
gauss
tem uma en-
tropia H maior do que y, segundo apontado anteriormente, a negentropia sempre
positiva, e nula quando a distribuio de y gaussiana. As vantagens citadas
tornam esta medida preferida em detrimento da entropia diferencial.
Diferentemente da entropia, quanto maior a negentropia de uma varivel aleat-
ria, mais previsvel a varivel e mais distante a sua distribuio da distribuio
gaussiana. Nosso objetivo, ento, maximizar a negentropia.
Calcular a negentropia diretamente pela denio computacionalmente muito
difcil. Na prtica, s necessria uma aproximao unidimensional, que chegue
prximo do valor real. A aproximao utilizada na literatura a (2.56), onde G
uma funo no-quadrtica tal que EG uma aproximao da entropia em (2.53).
J(y) [EG(y
gauss
) EG(y)]
2
(2.56)
Com uma boa escolha de G, esta aproximao provou ser bastante til. O algo-
ritmo de adaptao da matriz separadora utilizando a maximizao da negentropia
derivado tomando-se o gradiente de (2.56) em funo da matriz separadora, assim
como foi feito no caso da curtose. Este algoritmo possui as mesmas restries do
algoritmo que utiliza a curtose, ou seja, o vetor das misturas deve ser branqueado e
27
mantm-se |w
i
| = 1 a cada iterao:
w
i
w
i
+ [EG(y
gauss
) EG(w
i
z)]Ez
T
g(w
i
z) (2.57)
w
i

w
i
|w
i
|
(2.58)
onde g = G
a derivada da funo no-quadrtica G, e y

gauss
uma varivel com
distribuio gaussiana e de mesma varincia que w
i
z.
Da mesma forma que feito com a curtose, pode-se derivar um algoritmo de
ponto xo para maximizao da negentropia. De acordo com a discusso feita
anteriormente, o algoritmo converge quando o gradiente apontar para a mesma
direo que w
i
. Na expresso (2.57), o termo EG(y
gauss
) EG(w
i
z) um
escalar, e no altera a direo do gradiente, e uma primeira iterao para ponto xo
seria:
w
i
Ez
T
g(w
i
z) (2.59)
seguido da normalizao de w
i
.
O problema de uma iterao como (2.59) que a no-linearidade g no garante
que o algoritmo venha a convergir rpido como no caso do FastICA usando curtose.
Portanto, ele deve ser modicado. Somar w
i
a ambos os lados da equao no
altera o ponto xo, da:
w
i

1
1 +
Ez
T
g(w
i
z) +

1 +
w
i
(2.60)
Com uma boa escolha de , o algoritmo pode ter boas propriedades de conver-
gncia. Esse parmetro pode ser encontrado partindo-se de outro ponto, segundo
[16]. Basta lembrarmos que nosso objetivo maximizar a negentropia, ou minimizar
a entropia, que foi aproximada por EG(w
i
z). Com a restrio de que |w
i
| = 1,
podemos minimizar esta funo objetivo (a estimativa da entropia) utilizando mul-
tiplicadores de Lagrange. A funo de Lagrange a minimizar :
L(w
i
, ) = EG(w
i
z) (|w
i
|
2
1) (2.61)
Podemos utilizar o mtodo de Newton
8
para minimizar a funo (2.61). As
derivadas so:
L
(w
i
, ) = Ez
T
g(w
i
z) w
i
(2.62)
8
O mtodo de Newton um mtodo iterativo onde o mnimo de uma funo encontrado atravs
da iterao (aplicando ao nosso caso) w
i
= w
i

f
(w
i
)
f
(w
i
)
, sendo que f(w
i
) a funo objetivo a
minimizar.
28
L
(w
i
, ) = Ezz
T
g
(w
i
z) I
Ezz
T
Eg
(w
i
z) I
= Eg
(w
i
z)I I
= [Eg
(w
i
z) ]I
(2.63)
A aproximao feita em (2.63) serve para tornar mais simples a inverso da
matriz resultante de L
(w
i
, ). Utilizando o mtodo de Newton, temos:
w
i
w
i
Ez
T
g(w
i
z) w
i
Eg
(w
i
z)
(2.64)
Multiplicando ambos os lados por Eg
(w
i
z) :
[Eg
(w
i
z) ]w
i
Eg
(w
i
z)w
i
w
i
Ez
T
g(w
i
z) + w
i
[Eg
(w
i
z) ]w
i
Eg
(w
i
z)w
i
Ez
T
g(w
i
z)
(2.65)
Como o termo esquerda em (2.65) um escalar (no altera a direo de w
i
),
e o vetor w
i
normalizado a cada iterao, ele pode ser eliminado. Perceba que
chegamos a uma verso parecida com (2.60), por um caminho diferente. Enm,
chegamos verso rpida de ponto xo do algoritmo (2.57), que o FastICA:
w
i
Eg
(y
i
)w
i
Ez
T
g(y
i
) (2.66)
w
i

w
i
|w
i
|
(2.67)
onde y
i
= w
i
z a fonte i estimada, e g
a derivada de g.
Este algoritmo s encontra uma das fontes independentes. Para encontrar todas
as fontes, nos utilizamos do fato que cada vetor w
i
que corresponde separao da
i-sima fonte independente ortogonal a todos os outros. Isto ocorre porque, para
que as fontes y
i
e y
i
sejam independentes, elas devem ser no correlacionadas, ou
seja, Ey
i
y
i
= Ew
i
zw
i
z = 0. Como o vetor z branco, i.e, Ez
j
z
j
=j
= 0, e
Ez
j
z
j
= 1, conclumos que Ey
i
y
i
= Ew
i
w
T
i
= 0, i.e, os vetores w
i
e w
i
so
ortogonais.
Assim sendo, podemos utilizar o algoritmo (2.66) para encontrar todas as fontes
paralelamente, e, a cada iterao, nos certicarmos que a matriz W ortogonal. A
forma usual utilizada para ortogonalizar uma matriz [28] :
W(WW
H
)
1
2
W, (2.68)
operao que deve ser feita a cada iterao. Isto nos leva ao algoritmo FastICA em
29
forma matricial:
WEg(y)z
H
diag(Eg
(y))W (2.69)
W(WW
H
)
1
2
W (2.70)
onde diag(v) simboliza uma matriz diagonal (todos os elementos fora da diagonal
principal so nulos) cuja diagonal principal dada pelo vetor v.
Resta agora escolher uma funo G apropriada que tenha boas propriedades de
convergncia e ao mesmo tempo seja uma boa aproximao da entropia. A escolha
mais natural, observando (2.53), seria G(s
i
) = log(q(s
i
)), segundo [17], onde q(s
i
)
a densidade de probabilidade estimada da fonte s
i
. Este resultado se parece com
o resultado do Natural ICA [19], visto adiante, do algoritmo InfoMax [22], que
similar a ele, e com o resultado independente de [21] (onde chamado de Relative
Gradient). O problema agora se torna estimar a densidade de probabilidade das
fontes. Devido similaridade com o Natural ICA, algumas densidades, juntamente
com a funo g resultante, so mostradas na Tabela 2.3, onde a funo g chamada
de funo score. Como o ICA trabalha somente com nmeros reais, estas funes
no so indicadas para trabalhar com nmeros complexos. A Seo 3.4 mostrar
como estender essas funes para trabalhar com nmeros complexos.
Em [25], o autor prope uma aproximao bottom-up para descobrir a fun-
o G, ou seja, estima funes no-lineares arbitrrias, que sejam de fcil clculo
e possuam boas propriedades de convergncia, e depois prova que seus extremos
coincidem com as fontes independentes. Algumas funes utilizadas na literatura
so mostradas na Tabela 2.2, onde o simbolo

denota complexo conjugado. Estas
funes foram escolhidas para trabalhar com nmeros complexos (pode-se observar
que todas se baseiam no mdulo de y, menos a ltima), que o nosso principal foco.
Existem outras funes para trabalhar com nmeros reais utilizadas na literatura,
que no sero citadas.
2.5.3 Utilizando a estimativa por ML
Os algoritmos que utilizam estimativa por ML no colocam nenhuma restrio na
matriz separadora, portanto teoricamente chegam a resultados mais precisos. Eles
so baseados na maximizao da verossimilhana da matriz W dadas as misturas
observadas x(n). Lembrando que a verossimilhana de um conjunto de parmetros
de um modelo estatstico dadas as observaes (L( [ x)) tem relao com a densi-
dade de probabilidade destas observaes dados os parmetros (q(x [ )). No nosso
caso, os parmetros so os elementos da matriz separadora e as observaes so as
misturas. A verossimilhana da matriz separadora W dadas N
amost
observaes de
30
Tabela 2.2: Funes comuns utilizadas no FastICA
G(y) g(y)
_
[y[
2
+
1
2
_
[y[
2
+
log([y[
2
+ )
1
[y[
2
+
1
log(cosh([y[
2
)) tanh([y[
2
)
exp
_
[y[
2
2
_
y
exp
_
[y[
2
2
_
um vetor de misturas x(n) :
L(W[ x(n)) =
N
amost
n=1
q(x(n) [ W) (2.71)
A expresso (2.71) assume que as observaes x(n) so independentes entre
si. Mesmo que na prtica estas observaes no sejam independentes, a tcnica
ainda obtm resultados razoavelmente precisos. Podemos entender que ela opta por
no utilizar as dependncias entre observaes para o propsito de separao [29].
Lembrando do modelo ICA em (2.2), a probabilidade q(x(n)) pode ser dada por
(assumindo que W = H
1
):
q(x(n) [ W) = [det(W)[q(s(n)) = [det(W)[
N
i=1
q(s
i
(n)) = [det(W)[
N
i=1
q(w
i
x(n))
(2.72)
Substituindo em (2.71), chegamos expresso de verossimilhana da matriz W:
L(W[ x(n)) = L(W) =
N
amost
n=1
N
i=1
q(w
i
x(n))[det(W)[ (2.73)
Normalmente utilizado o logaritmo da verossimilhana, pois o mximo en-
contrado no mesmo ponto, e ele algebricamente mais simples, pois o produto se
transforma em soma. Para tornar a notao consistente com o que foi feito anteri-
ormente, a expresso (2.74) teve a soma

N
amost
n=1
substituda pelo operador E, que
simboliza (somente neste caso) a estimativa do valor esperado, ou valor esperado
amostral. Na prtica, todos os valores esperados devem ser estimados, ento essa
substituio no tem consequncias graves.
log(L(W)) = E
N
i=1
log(q(w
i
x(n))) + N
amost
log([det(W)[) (2.74)
31
O mximo da verossimilhana encontrado iterativamente, utilizando-se o gra-
diente estocstico da verossimilhana. Dois algoritmos que se utilizam do princpio
da estimativa da ML so o Natural ICA [19] e o algoritmo Bell-Sejnowski [20].
A derivao do algoritmo Bell-Sejnowski parte direto do gradiente de (2.73), que
dado por:
1
N
amost
log(L(W))
W
= [W
H
]
1
E(Wx(n))x
H
(n) (2.75)
onde a funo dada por (2.81), explicada melhor adiante. A matriz separadora
adaptada por (2.76), onde y = WX simboliza as fontes estimadas.
WW+ ((W
H
)
1
E(y)x) (2.76)
Este algoritmo converge muito lentamente, por causa da inverso da matriz W,
que uma operao computacionalmente intensiva, e deve ocorrer a cada iterao.
Se os sinais de entrada forem branqueados antes de aplicar o algoritmo, a convergn-
cia melhora [14], mas o Natural ICA possui uma convergncia melhor sem necessitar
de nenhum pr-processamento (embora, em geral, os sinais sejam branqueados, de
uma forma que ser explicada abaixo), fato que tornou o algoritmo Bell-Sejnowski
obsoleto.
O gradiente segundo a denio matemtica usual aponta para a direo de maior
inclinao em um espao Euclidiano. Porm, o espao de busca de parmetros no
ICA no sempre Euclidiano, mas tem uma estrutura mtrica Riemaniana [30],
tambm chamada de geometria elptica. Neste caso, deve ser utilizado o chamado
gradiente natural, que aplicado verossimilhana em (2.73), d origem ao algoritmo
Natural ICA. O gradiente natural de uma funo objetivo (no nosso caso (2.74))
em funo do parmetro que se deseja obter, que no nosso caso a matriz separadora
W, dado por (2.77). Ele difere do gradiente usual, mostrado em (2.78) para
comparao, apenas pela multiplicao por W
H
W, que o quadrado do parmetro
W.
N
=
(W)
W
W
H
W (2.77)
=
(W)
W
(2.78)
Aplicando o gradiente natural (2.74), chegamos a um resultado parecido com
(2.75), mas sem a inverso de matriz, o que torna o algoritmo resultante computa-
cionalmente muito mais simples:
1
N
amost
log(L(W))
W
W = [I Eg(Wx(n))Wx
H
(n)]W (2.79)
32
Este algoritmo o mais utilizado na soluo de problemas convolutivos, que
sero tratados com mais detalhes no Captulo 3. Uma derivao mais completa dele
matematicamente complexa, e pode ser vista com detalhes em [19] para o caso
real, e uma derivao para o caso complexo (que chega no mesmo resultado) pode
ser vista em [31].
A atualizao da matriz separadora dada por (2.80). Este algoritmo possui uma
importante vantagem: enquanto que o desempenho da maioria dos algoritmos do
tipo ICA depende bastante da matriz de mistura H [32], o Natural ICA se comporta
bem mesmo quando H mal condicionada. Isto ocorre porque (2.80) no contm
nenhuma restrio (como a restrio de manter a matriz W unitria) e depende
apenas dos sinais estimados y das fontes. Na Seo VI-C de [24], o autor prova
matematicamente a armao anterior, com a condio de que o rudo possa ser
negligenciado
9
, o que em geral verdade, anal, em casos onde o rudo poderia ser
relevante (por possuir uma varincia alta), o problema de BSS j difcil demais
por si s, e provavelmente nenhum algoritmo trar resultados satisfatrios.
WW+ (I E(y)y
H
)W (2.80)
A funo chamada de funo score, e calculada baseada na densidade de
probabilidade das fontes. A Equao (2.81) mostra a relao entre a funo score e
a densidade de probabilidade estimada q(y
i
) das fontes estimadas y
i
, considerando
que y
i
um sinal real. A derivao da funo (y
i
) para y
i
complexo ser tratada
na Seo 3.4.
(y
i
) =

y
i
log(q(y
i
)) (2.81)
A densidade de probabilidade das fontes deve ser estimada, e deve ser no-
gaussiana. Estas densidades no precisam ser exatas, porm h um limite para o
quo erradas elas podem estar. Uma anlise quantitativa deste erro dada em [24],
considerando o algoritmo Bell-Sejnowski, e para passos de adaptao pequenos.
As condies de estabilidade discutidas pelo autor no sero repetidas aqui, visto
que o algoritmo Bell-Sejnowski no ser utilizado.
A suposio de que a distribuio das fontes conhecida uma desvantagem dos
algoritmos baseados em ML em relao aos algoritmos que utilizam maximizao
da no-gaussianidade. Se a distribuio estimada for muito diferente da distribui-
o real, os algoritmos baseados em ML tero desempenho inferior aos algoritmos
anteriores, mesmo sem a restrio de que a matriz separadora seja unitria.
A Tabela 2.3 relaciona algumas das densidades de probabilidade para fontes
reais utilizadas no algoritmo Natural ICA e suas respectivas funes score, onde
9
A matriz de covarincia de s deve ser bem maior do que a matriz de covarincia de H
1
n,
onde cada linha de s uma fonte, n o rudo, e H a matriz de mistura.
33
o desvio padro estimado da densidade de probabilidade. Encontrar a funo score
para fontes complexas ser discutido na Seo 3.4. Os nomes dados s funes score
so apenas para futuras referncias nesta dissertao.
Tabela 2.3: Funes score para diferentes densidades de probabilidade de fontes
reais
Nome da distribuio Densidade de probabilidade q(y) Nome da funo score Funo score (y)
Laplace
1
2
exp
_
|y|
_
sign
sign(y)
Laplace generalizada
1
B
exp
_
_
|y|
2
+
_
genLaplace
y
2
_
|y|
2
+
Cosseno hiperblico
1
cosh
_
y
2
_ tanh tanh
_
y
2
_
Unimodal
exp
_
2s
2
_
_
1 + exp
_
2s
2
__
2
tanh tanh
_
y
2
_
Gaussiana generalizada
r
2
_
1
r
_ exp
_
1
r
r
_
genGaussian
|y|
r1
r
sign(y)
Na maioria dos algoritmos ICA, os sinais a serem separados so branqueados e
o algoritmo aplicado aos sinais branqueados (no caso do FastICA) ou a matriz
branqueadora utilizada como matriz inicial (no caso do Natural ICA) (a Seo
3.3 resume as vantagens do branqueamento). O algoritmo Natural ICA pode ser
modicado para incluir o branqueamento simultaneamente separao [33]. Tal
algoritmo mostrado em (2.82). Os testes iniciais realizados com este algoritmo
mostraram que ele no tem um desempenho superior ao branqueamento seguido de
Natural ICA, portanto ele no foi utilizado.
WW+ (I EYY
H
E(Y)Y
H
+ EY[(Y)]
H
)W (2.82)
Como o algoritmo Natural ICA baseado em um gradiente, se a potncia da fonte
variar muito de um instante de tempo para outro, o algoritmo pode ter problemas
de convergncia (se for implementado na forma on-line). Para resolver esse tipo
de problema, em [34], o autor deriva o Natural ICA de uma forma ligeiramente
diferente, com restries que ele chama de no-holonmicas, e chega expresso
(2.83), onde o operador maindg(V) extrai a diagonal principal da matriz V.
WW+ (diag(maindg(E(y)y
H
)) E(y)y
H
)W (2.83)
No nosso caso, sempre branqueamos o sinal antes de aplicar o algoritmo e a
atualizao realizada com um algoritmo em batelada, i.e, que utiliza todas as
34
amostras de uma vez s, o que elimina esse tipo de preocupao. O Natural ICA
no-holonmico pode vir a ser til, no entanto, se for necessria uma aplicao on-
line (lembrando que o fato de nosso algoritmo funcionar em batelada no impede
que este seja em tempo real, contanto que ele consiga convergir rpido o suciente).
2.6 Avaliao de Desempenho
Utilizamos ao longo desta dissertao a avaliao de desempenho proposta por
[35]. Neste artigo, os autores decompem a sada das fontes estimadas y
i
(n) como:
y
i
(n) = [s
target
]
i
(n) + [e
interf
]
i
(n) + [e
noise
]
i
(n) + [e
artif
]
i
(n) (2.84)
onde s
target
a fonte real, com alguma distoro aceitvel, e
interf
a parcela do erro
proveniente de interferncias de outras fontes i
,= i na estimativa y
i
da fonte, e
noise
a parcela do erro proveniente de rudo dos sensores, e e
artif
a parcela do erro que
no provm nem de interferncias nem de rudo.
O autor prope 4 medidas de avaliao, das quais utilizaremos 3
10
:
1. SIR (Razo Sinal-Interferncia) - mede a razo entre o sinal da fonte desejada
e a interferncia de outras fontes;
2. SDR (Razo Sinal-Distoro) - mede a razo entre o sinal desejado e as dis-
tores provenientes de rudo, janelamento, transformaes no-lineares, e in-
clusive interferncia de outras fontes;
3. SAR (Razo Sinal-Artefatos) - mede a razo entre o sinal de sada (com inter-
ferncias e rudo) e os artefatos, que so todas as distores do sinal excludas
as interferncias de outras fontes e o rudo dos sensores.
Essas medidas, considerando (2.84), so encontradas da seguinte forma:
SIR
i
10 log
10
|[s
target
]
i
|
2
|[e
interf
]
i
|
2
(2.85)
SDR
i
10 log
10
|[s
target
]
i
|
2
|[e
interf
]
i
+ [e
noise
]
i
+ [e
artif
]
i
|
2
(2.86)
SAR
i
10 log
10
|[s
target
]
i
+ [e
interf
]
i
+ [e
noise
]
i
|
2
|[e
artif
]
i
|
2
(2.87)
onde todas as denies utilizam os vetores coluna s
x
e e
x
que contm todas as N
amost
observaes dos sinais. Resta agora encontrar os valores de s
target
, e
interf
, e
noise
e
e
artif
. O autor prope projees ortogonais sobre os vetores das fontes estimadas
10
O autor tambm dene o SNR, que trata apenas dos rudos dos sensores, desconsiderados por
ns.
35
y
i
, que so os vetores coluna N
amost
dimensionais que contm todas as observaes
de uma determinada fonte. So denidos um subespao de vetores, que contm
todos os vetores y
i
das fontes estimadas, e trs projees ortogonais. Uma projeo
ortogonal pode ser entendida de forma anloga a uma projeo de um vetor v sobre
um outro vetor u num espao bidimensional. No caso bidimensional, a projeo de v
sobre u v
proj(u)
= vcos(), onde o ngulo entre v e u. No caso N-dimensional,
as projees so um pouco mais complicadas, e suas dedues fogem ao escopo desta
dissertao. O que precisamos saber o resultado que provm dessas projees. O
autor dene os valores desejados em funo dessas projees e depois as expande,
chegando aos seguintes resultados:
[s
target
]
i
= (y
T
i
s
i
)
s
i
|s
i
|
2
(2.88)
[e
interf
]
i
=

i
=i
_
(y
T
i
s
i
)
s
i
|s
i
|
2
_
(2.89)
[e
noise
]
i
= (y
T
i
n
j
)
n
j
|n
j
|
2
(2.90)
[e
artif
]
i
= y
i
[s
target
]
i
[e
interf
]
i
[e
noise
]
i
(2.91)
onde n
j
o sinal com o rudo dos sensores, que desconsideramos nesta dissertao,
fazendo e
noise
= 0. Estas equaes denem o mtodo de avaliao utilizado ao longo
da dissertao.
36
Captulo 3
Mtodos de Separao Cega de
Fontes no Domnio da Frequncia
Em um ambiente real, os sinais de udio so convoludos com a resposta ao im-
pulso de um ltro, que representa o caminho entre a fonte e os sensores. Ou seja,
cada elemento da matriz separadora um ltro (assim como mostrado na Seo
2.2). Sabendo que podemos aproximar uma convoluo no domnio do tempo por
uma multiplicao no domnio da frequncia, uma forma de resolver este problema
aplicar a transformada de Fourier ao sinal, e resolver mltiplos problemas de mis-
turas instantneas. Em seguida, aplica-se a transformada inversa de Fourier para
retornar ao domnio do tempo. Neste caso, qualquer algoritmo ICA que trabalhe
com nmeros complexos e misturas instantneas pode ser utilizado, e o tempo de
computao do algoritmo reduzido consideravelmente. Entretanto, as ambiguida-
des de permutao e escalamento inerentes soluo de BSS (Seo 2.3) passam a
ser relevantes, e precisam ser resolvidas, notadamente a da permutao. Embora
ICA gere componentes independentes em cada raia de frequncia, as componentes
de frequncia de uma mesma fonte devem ser agrupadas consistentemente antes que
se aplique a transformada inversa de Fourier. Esta ambiguidade bem conhecida
na literatura como o problema da permutao de BSS no domnio da frequncia (ou
FDBSS). Resolver este problema essencial para que a soluo seja aceitvel.
Outro problema relevante a circularidade da representao da Transformada
Discreta de Fourier (DFT). A multiplicao no domnio da frequncia equivalente
convoluo circular no domnio do tempo, ou seja, o ltro no domnio do tempo
deve ser peridico, o que no corresponde realidade. Para que a multiplicao da
resposta de um ltro no domnio da frequncia por um trecho de sinal seja equi-
valente convoluo linear no domnio do tempo, a representao no domnio da
frequncia deve ter um nmero de raias maior ou igual ao tamanho do ltro somado
ao tamanho do trecho do sinal, e o sinal inteiro deve ser reconstrudo atravs da tc-
nica Overlap-Add [3639]. Esta tcnica chamada de FFT Filtering, utilizada para
37
fazer a convoluo rpida de um ltro com um sinal muito longo, e detalhada em
[39]. Se estes critrios no forem obedecidos, o sinal resultante da multiplicao no
domnio da frequncia seguida de IDFT (Transformada Inversa Discreta de Fourier,
do ingls Inverse Discrete Fourier Transform) ser uma verso distorcida do sinal
obtido se a convoluo fosse feita no domnio do tempo.
Neste captulo, descreveremos todas as etapas do mtodo FDBSS, discorrendo
sobre as abordagens encontradas na literatura para resolver cada um dos proble-
mas descritos acima. Testes comparam a eccia dos mtodos, e modicaes so
propostas em algumas etapas para tentar melhorar os resultados.
3.1 Viso Geral
Uma viso geral do algoritmo de separao de fontes no domnio da frequncia
pode ser vista na Figura 3.1. O primeiro passo transformar cada um dos sinais
x
j
(n), j = 1, , M em suas representaes x
j
(m, k), k = 0, , K 1 (onde m
o ndice do frame e K o nmero de raias) no domnio da frequncia, utilizando
a Transformada de Fourier de Curto Termo (STFT, do ingls Short Time Fourier
Transform) para este propsito. Aps este passo, realizado um pr-processamento,
que consiste no branqueamento dos sinais, gerando os sinais branqueados z
j
(m, k)
e a matriz branqueadora V(k), seguido da separao propriamente dita. Esta se-
parao supe que os sinais s
i
(k), i = 1, , N no domnio da frequncia so inde-
pendentes para cada raia de frequncia. Aps a separao, gerada uma matriz
separadora W(k) em cada raia de frequncia k, e o vetor com as sadas separadas
y(m, k) = [y
1
(m, k), , y
N
(m, k)]
T
, ambos permutados e escalados. So ento re-
solvidos os problemas de permutao e escalamento, atravs das matrizes P(k) e
(k) e feito um ps-processamento opcional, que consiste na suavizao da ma-
triz separadora W(k). No m, utilizada a Transformada Inversa de Fourier de
Curto Termo (ISTFT) para converter os sinais estimados das fontes no domnio
da frequncia em sinais no domnio do tempo. Estes passos sero detalhados nas
prximas sees.
3.2 Transformao Tempo-Frequncia
A STFT de um sinal de uma mistura x (rigorosamente, x
j
, porm o ndice j
ser omitido nesta seo) dada por (3.1), onde cada k = 0, , K 1 representa
uma frequncia discreta f
k

_
0,
_
1
K
_
f
s
, ,
_
K1
K
_
f
s
_
, K o nmero de raias de
frequncia da DFT, L o tamanho da janela, J o salto (deslocamento da janela),
e f
s
a frequncia de amostragem. O smbolo representa a unidade imaginria,
i.e, =
1. A janela de anlise win

a
(n) denida como sendo no-nula apenas
38
Figura 3.1: Diagrama geral do algoritmo completo de Separao de Fontes no Do-
mnio da Frequncia.
no intervalo [0, (L 1)]. O salto J obviamente menor ou igual a L, ou haver
perda de observaes (doravante chamadas de amostras). Este salto deve ser bem
escolhido para que no haja distoro na sntese dos sinais.
X(m, k) =

n
x(n)win
a
(n mJ) exp
_

2kn
K
_
, k = 0, , K 1 (3.1)
Observando a a Equao (3.1), vemos que K = L, mas h casos em que K > L,
que so chamados de superamostrados (oversampled). Nestes casos, o sinal deve ser
preenchido com zeros antes de passar para o domnio da frequncia [40], o que
chamado na literatura de zero-padding.
Na prtica, a STFT calculada como em (3.2), onde DFT(v) simboliza a
Transformada Discreta de Fourier do vetor v, que pode ser realizada de forma
rpida atravs da FFT [36] (Transformada Rpida de Fourier, do ingls Fast Fou-
rier Transform). O vetor X(m) = [X(f
0
, m), , X(f
K1
, m)]
T
, de comprimento
K o vetor com a representao em frequncia do quadro (ou frame) m, e o
vetor x
frame
(m) = [x(mJ), , x(mJ + L 1)]
T
, de comprimento L, representa o
frame m no domnio do tempo. O vetor win
a
contm os elementos no nulos
da janela win
a
(n) mostrada em (3.1), ou seja, tem comprimento L. O produto
diag(x(mJ))win
a
gera um vetor de comprimento L, e portanto, se K > L, so
inseridas K L amostras nulas no nal do vetor antes de ser aplicada a DFT, i.e,
39
aplicado o zero-padding no sinal.
X(m) = DFT(diag(x
frame
(m))win
a
) (3.2)
A STFT inversa, ou ISTFT, dada por (3.3), onde o ndice i da fonte foi omitido.
Os frames superpostos so adicionados para formar o sinal completo [40]. Esta
tcnica chamada de Overlap-Add, doravante denominada OLA. A ISTFT tambm
pode ser realizada segundo a Equao (3.4), onde utilizada uma janela de sntese
win
s
(n), que no-nula apenas no intervalo [0, (L 1)], assim como a janela de
anlise. Ambas so aplicadas no domnio do tempo. Esta tcnica chamada de
WOLA (Weighted Overlap-Add) [39], e na verdade uma generalizao da OLA
1
.
y(n) =

m
_
k
Y (m, k) exp
_

2kn
K
__
(3.3)
y(n) =

m
_
win
s
(n mJ)
k
Y (m, k) exp
_

2kn
K
__
(3.4)
A ISTFT calculada na prtica por (3.5) e (3.6), onde o vetor
y
frame
(m) = [y
frame
(0, m), , y
frame
(K 1, m)] tem comprimento K, assim como
o vetor Y(m). IDFT(v) simboliza a DFT inversa do vetor v. A janela win
s
contm
os L elementos no-nulos de win
s
(n), e mais K L valores adicionados ao nal do
vetor, para que a janela tenha comprimento K [39], no caso de K > L (superamos-
tragem).
A operao WOLA realizada em (3.6). O sinal y(n) tem comprimento igual
ao nmero total N
amost
de amostras do sinal, e a operao SHIFT(v, a, c) desloca
o vetor v de a amostras e aumenta seu comprimento para c, de forma que o vetor
resultante tenha apenas len
v
elementos no-nulos, onde len
v
o tamanho do vetor v.
Ou seja, em (3.6), o vetor resultante de SHIFT(y
frame
(m), mJ, N
amost
) tem apenas
K elementos no-nulos, que so os nicos elementos nos quais a soma realizada na
prtica.
y
frame
(m) = diag(win
s
)IDFT(Y(m)) (3.5)
y(n) =

m
SHIFT(y
frame
(m), mJ, N
amost
) (3.6)
Se o sinal no sofrer nenhuma modicao no domnio da frequncia, o vetor
IDFT(Y(m)) (a DFT inversa do frame) ter K L amostras nulas, portanto os
valores adicionados janela so irrelevantes, e podem ser nulos. Entretanto, se o
sinal sofrer alguma modicao, as KL amostras podem no ser nulas. Em geral,
1
A OLA nada mais que uma WOLA com a janela de sntese retangular, ou seja, pesos iguais.
40
h dois tipos de modicaes feitas no domnio da frequncia:
FFT Filtering - uma transformao linear, que consiste em fazer uma con-
voluo no domnio do tempo entre um ltro e um sinal longo atravs de
multiplicaes no domnio da frequncia entre a resposta na frequncia do
ltro e trechos do sinal (que posteriormente so somados utilizando OLA).
Algumas consideraes devem ser satisfeitas (ver (3.7) e (3.8)).
Transformao No-Linear - a no-linearidade se refere ao domnio do tempo,
i.e, transformaes lineares nos trechos de sinal no domnio da frequncia po-
dem resultar em transformaes no-lineares, se alguns cuidados no forem
tomados.
No caso de FFT Filtering, a janela win
s
deve ser uma janela retangular de com-
primento K, i.e, deve ser aplicado OLA ao invs de WOLA, pois os frames de entrada
de comprimento L foram expandidos para um comprimento K, devido oscilao
do ltro, e uma janela diferente da retangular descartaria amostras importantes ou
distorceria o sinal, no gerando o resultado desejado [39]. Para que o FFT Filtering
gere o resultado esperado, as condies (3.7) e (3.8) devem ser satisfeitas, onde Q
o comprimento do ltro. A condio (3.8) chamada de condio COLA (Constant
Overlap-Add). Se no houver transformao ou a transformao for no-linear, a
condio a (3.9), onde a janela de sntese levada em considerao. Na prtica,
estas condies no so satisfeitas nas bordas do sinal, como visto na Figura 3.2.
K L + Q1 (3.7)
m
win
a
(n mJ) = c, c constante, n Z (3.8)
m
win
a
(n mJ)win
s
(n mJ) = c, c constante, n Z (3.9)
Em geral, na literatura, utiliza-se a janela de Hanning como janela de anlise,
denida por (3.10), que atende COLA quando J igual a
L
2
ou
L
4
. A janela de
sntese normalmente a retangular, pelos motivos descritos acima. Na literatura,
comum encontrarmos a nomenclatura 25% Overlap quando J =
3L
4
, 50% Overlap
quando J =
L
2
e 75% Overlap quando J =
L
4
, que indicam o quanto uma janela em
um determinado instante de tempo n se sobrepe janela do instante de tempo ad-
jacente n + mJ para determinado salto J. A Figura 3.2 mostra a janela de Hanning
com um salto J =
L
4
, e, para comparao, a Figura 3.3 mostra a janela de Kaiser,
41
Figura 3.2: Ilustrao do OLA com a janela de Hanning, que atende COLA para
J =
L
4
. A janela tem tamanho de 2048 amostras, e est indicada pela linha tracejada,
e o Overlap-Add com salto de 512 amostras est indicado pela linha contnua.
Figura 3.3: Ilustrao do OLA com a janela de Kaiser ( = 0.5), que no atende
COLA. A janela tem tamanho 2048 amostras, e est indicada pela linha tracejada,
e o Overlap-Add com salto de 512 amostras est indicado pela linha contnua.
42
que no atende COLA para nenhum valor de J
2
. Observe que no caso da janela
de Hanning, a constante no 1 quando J =
L
4
, mas na prtica, escalamos as jane-
las para que esta constante seja 1 (no caso da janela de Hanning, basta multiplicar
(3.10) por 0, 5, como mostrado em (3.11)).
w
hanning
(n) = 0, 5
_
1 cos
2n
L
_
(3.10)
[w
hanning
(n)]
scale
= 0, 5w
hanning
(n) = 0, 25
_
1 cos
2n
L
_
(3.11)
Qualquer janela que obedea COLA para um determinado salto J pode ser
utilizada como janela de anlise. Alguns exemplos so mostrados na Tabela 3.1.
Para ilustrar o efeito de uma janela que no obedea esta condio no desempenho
do algoritmo, foi realizado um teste com a janela Blackman-Harris com salto de
J =
L
4
(atende COLA) e J =
L
2
(no atende COLA) e o resultado mostrado
na Tabela 3.2. Foi simulada a resposta de frequncia de uma sala segundo a Figura
A.1. Os resultados so a mdia de 10 simulaes. Maiores detalhes sobre o ambiente
de teste podem ser vistos no Apndice A.
Tabela 3.1: Janelas que obedecem COLA.
Janela Equao
Pulo J para
atender
COLA
Hanning 0, 5
_
1 cos
_
2n
L
__
L
2
ou
L
4
Chebyshev IDFT
_
_
cos
_
Lcos
_
cos
_
n
L
__
1
_
cosh(Lcosh(Lcosh()
1
)
1
)
_
_
,
= cosh
1
L
cosh 10
1
, = 5, no nosso caso
L
4
Blackman-
Harris mnima
de 4 termos
[41]
0, 358750, 48829 cos
_
2
n
L
_
+0, 14128 cos
_
2
2n
L
_
+
0, 01168 cos
_
2
3n
L
_
L
4
Nuttall m-
nima de 4
termos [42]
0, 3635819 0, 4891775 cos
_
2
n
L
_
+
0, 1365995 cos
_
2
2n
L
_
+ 0, 0106411 cos
_
2
3n
L
_
L
4
Embora a janela de Hanning seja a mais utilizada, no signica que outras no
sejam empregadas. Para avaliar o desempenho de cada janela, foram realizados
testes utilizando janelas diferentes e os resultados esto mostrados na Tabela 3.2.
2
A maior aplicao da janela de Kaiser no projeto de ltros FIR, onde a condio COLA no
importante.
43
Foram escolhidas aleatoriamente 10 combinaes 2 a 2 dentre 8 locutores dispon-
veis, ou seja, foram feitas 10 realizaes e foi tirada a mdia para cada janela. Foram
realizados mais testes modicando-se o mtodo para resolver a permutao, tama-
nho da janela, nmero de raias da FFT e nmero de realizaes que chegaram a
resultados similares
3
, e portanto no sero mostrados aqui. O mtodo para resolver
a permutao explicado no Captulo 4, e indiferente para a anlise realizada aqui.
Ele foi colocado simplesmente para futura referncia. A janela de Hanning obteve
resultados melhores. Segue-se uma possvel explicao para isso.
Tabela 3.2: Comparao do desempenho em BSS quando a janela win
a
da STFT
modicada.
Nmero de fontes e misturas - N = M = 2
Tempo de reverberao - T
60
= 130 ms
Nmero de raias da FFT - K = 4096
Tamanho da janela - L = 2048
Separao - Natural ICA com sign ( = 0, 1)
Mtodo para resolver a permutao - DOA + HarmCorr
Nmero de realizaes - 10
Disposio dos microfones e fontes - Figura A.1
Janela Pulo J Atende COLA? SIR mdio SDR mdio SAR mdio
Retangular 2048 Sim 17, 2 dB 9, 8 dB 10, 9 dB
Hanning 1024 Sim 17, 6 dB 10, 4 dB 11, 7 dB
Hanning 512 Sim 18, 7 dB 11, 4 dB 12, 9 dB
Chebyshev 512 Sim 18, 0 dB 11, 0 dB 12, 5 dB
Blackman-Harris 512 Sim 17, 9 dB 10, 9 dB 12, 5 dB
Blackman-Harris 1024 No 17, 4 dB 7, 6 dB 8, 3 dB
Nuttall 512 Sim 17, 8 dB 10, 9 dB 12, 4 dB
Como sabido, multiplicar uma janela por um trecho de sinal equivalente a
ltrar a resposta em frequncia desse trecho com a resposta em frequncia da janela,
que o mesmo que dizer que uma multiplicao no domnio do tempo equivale a
uma convoluo no domnio da frequncia. Pensando assim, o ideal seria encontrar
uma janela que tenha como resposta em frequncia um impulso, pois, desta forma, a
resposta em frequncia do nosso sinal (que a informao desejada) caria intacta.
claro que uma janela desse tipo irrealizvel, pois a transformada inversa de
Fourier de um impulso um sinal igual a 1 para todo tempo n. Isso signica que
uma janela perfeita trata o sinal todo de uma vez s, e isso exatamente o que
no queremos fazer, pois no teramos nenhuma resoluo temporal: cada raia de
3
Por resultados similares, quero dizer que as concluses tiradas no so diferentes, i.e, embora
a SIR seja diferente, as mesmas janelas obtiveram melhores resultados.
44
frequncia conteria a informao de todo o sinal, e seria intil do ponto de vista
estatstico. Logo, necessrio sacricar a resoluo na frequncia para conseguir
alguma resoluo temporal [43], e o compromisso entre as duas depende da aplicao
especca.
A resposta de frequncia normalizada da janela de Hanning mostrada na Figura
3.4, onde a escala do eixo das ordenadas logartmica para facilitar a visualizao
dos lbulos. A escala utilizada a de decibis (10 log([win
a
(f)[
2
), no domnio da
frequncia). comum normalizar a resposta para que o pico esteja em 0 dB. O
eixo das abcissas mostra uma medida adimensional, de frequncia sobre frequncia
(
f
f
s
/L
), onde f
s
a frequncia de amostragem da representao no domnio do tempo
da janela e L o comprimento da janela em nmero de amostras
4
. Esta normalizao
foi cuidadosamente escolhida para que o valor L no eixo corresponda frequncia de
amostragem f
s
, pois dessa forma, a escala do eixo est em raias de frequncia, e isso
facilita muito a visualizao e entendimento do grco. Existem trs parmetros
importantes que denem uma janela, baseado na resposta de frequncia desta: a
largura do lbulo principal, a amplitude no primeiro lbulo lateral e o decaimento
com a frequncia. Os trs esto representados na gura. A largura do lbulo prin-
cipal multiplicada por 2 porque a resposta de frequncia tambm se estende para
as frequncias negativas.
Figura 3.4: Resposta em frequncia da janela de Hanning.
4
Sendo mais criterioso, como esta resposta de frequncia est no domnio da frequncia contnua,
a normalizao deveria ser substituda por f T
0
, onde T
0
o tempo (em segundos) da janela. Se a
janela for amostrada no tempo com frequncia f
s
, ento T
0
=
L
f
s
, e chegamos ao mesmo resultado.
Na literatura comum encontrar a notao T
0
, mas achamos mais claro utilizar f
s
/L.
45
Figura 3.5: Resposta em frequncia da janela de Blackman-Harris.
Existem diferentes tipos de janelas para vrias aplicaes, e estes trs parme-
tros do uma idia geral de aplicao de uma determinada janela. Em aplicaes
onde h interferncias (rudo) em frequncias distantes da frequncia de interesse,
um decaimento rpido preferido. Em aplicaes onde as interferncias esto em
frequncias mais prximas, a altura do primeiro lbulo lateral importante. Um
lbulo principal largo melhora a preciso da medida de amplitude, mas, em con-
trapartida, diminui a resoluo de frequncia. Se um sinal contm componentes de
frequncia muito prximas umas das outras, deve ser escolhida uma janela com um
lbulo principal estreito. A Figura 3.5 mostra a janela Blackman-Harris, cuja altura
do primeiro lbulo lateral bem mais baixa (71 dB) do que a da janela de Han-
ning (32 dB). A Figura 3.6 mostra a janela retangular. E por m, se for necessrio
uma boa resoluo temporal, a janela deve ser estreita no domnio do tempo (em
geral isso signica um lbulo principal mais largo no domnio da frequncia), e a
Figura 3.7 mostra a resposta no tempo de algumas janelas utilizadas, onde se v
que a janela retangular a que tem a pior resoluo temporal dentre todas, mas
em compensao, a que tem a melhor resoluo de frequncia (lbulo lateral mais
estreito).
Na Tabela 3.2, observa-se que quanto mais estreito o lbulo principal, melhor
foi o desempenho da janela. Com uma exceo: a janela retangular obteve um
desempenho inferior ao da janela de Hanning. Como o salto utilizado foi J = L, a
resoluo temporal foi prejudicada, e talvez por isso o desempenho tenha sido pior.
Entretanto, a janela retangular possui uma propriedade interessante: ela atende
46
Figura 3.6: Resposta em frequncia da janela retangular.
Figura 3.7: Comparao de algumas janelas no tempo. A retangular est repre-
sentada para comparao, e a que tem a melhor resoluo na frequncia e pior
resoluo temporal. Quanto mais estreita a janela, melhor sua resoluo temporal
e pior sua resoluo na frequncia.
47
COLA para qualquer salto J (com a condio de que J < L, obviamente). Com
isso em mente, foram realizados testes com trs valores de saltos diferentes para
vericar se a janela retangular obtm desempenho melhor, e o resultado est na
Tabela 3.3. Como era de se esperar, a janela retangular com salto J =
L
4
obteve o
melhor desempenho dentre todas.
Tabela 3.3: Desempenho em BSS utilizando a janela retangular como janela win
a
da STFT, para diferentes saltos J.
60
= 130 ms
Mtodo para resolver a permutao - DOA + HarmCorr
Janela win
a
- Retangular
Salto J SIR mdio SDR mdio SAR mdio
2048 17, 2 dB 9, 8 dB 10, 9 dB
1024 18, 6 dB 11, 3 dB 12, 9 dB
512 19, 2 dB 12, 3 dB 14, 0 dB
Resta saber se este resultado vlido para qualquer mtodo para resolver a
permutao (abordados no Captulo 4) ou somente para o mtodo utilizado (DOA
+ HarmCorr). Na Seo 4.4 sero realizados mais testes para chegarmos a uma
concluso.
3.3 Branqueamento
Branquear o sinal antes de aplicar o algoritmo de separao traz algumas vanta-
gens separao, alm de ser pr-requisito em alguns casos. De uma forma geral,
branquear o vetor de misturas uma boa idia, pois faz uma parte signicativa
do trabalho de separao (a descorrelao). No caso dos algoritmos rpidos que se
utilizam de maximizao da no-gaussianidade (FastICA), o branqueamento um
pr-processamento obrigatrio. J no caso dos algoritmos que utilizam estimativa
da ML (como o Natural ICA), o branqueamento apenas torna a varincia das mis-
turas (energia) unitria. Isto torna a convergncia do ICA no domnio da frequncia
rpida e robusta. Sem a normalizao do vetor de misturas, a convergncia no seria
uniforme de frequncia para frequncia, pois os sinais de udio em geral so muito
coloridos, i.e, a energia varia muito de uma frequncia para outra. Isto signica
48
que, para um passo de adaptao xo, a convergncia seria muito mais rpida em
algumas frequncias do que em outras.
Resumindo, o branqueamento necessrio porque:
1. Faz aproximadamente metade do trabalho de separao, com um menor custo
computacional;
2. pr-requisito dos algoritmos FastICA;
3. Faz com que a convergncia seja uniforme em cada raia de frequncia, para
um passo de adaptao xo.
O branqueamento realizado no domnio da frequncia, portanto as misturas
agora so representadas da seguinte forma: x
k
(m), onde k o ndice da frequncia e
m o ndice do frame. O primeiro passo para branquear o vetor de misturas x
k
(m)
tornar sua mdia zero. Isso pode ser feito fazendo com que a mdia de cada uma
das misturas x
jk
(m) seja zero. Ou seja:
_
_
x
1k
(m)
x
2k
(m)
.
.
.
x
Mk
(m)
_
_
x
1k
(m)
x
2k
(m)
.
.
.
x
Mk
(m)
_
_
Ex
1k
Ex
2k
.
.
.
Ex
Mk
_
(3.12)
Aps centralizar o vetor de misturas, precisamos tornar sua matriz de covarincia
a matriz identidade. Como Ex = 0, a matriz de covarincia do vetor de misturas
pode ser dada por:
x
k
x
k
= Ex
k
x
H
k
(3.13)
O branqueamento feito em cada frequncia por uma matriz V, ou seja:
z
k
(m) = V
k
x
k
(m) (3.14)
de forma que
z
k
z
k
= I. Como
z
k
z
k
= V
k
x
k
x
k
V
H
k
, se decompormos
x
k
x
k
de
forma que
x
k
x
k
= EDE
H
, temos que:
z
k
z
k
= V
k
z
k
z
k
V
H
k
V
k
EDE
H
V
H
k
= I V
k
= D
1
2
E
H
(3.15)
A matriz E a matriz de autovetores de R
x
k
x
k
, onde cada coluna um autovetor,
e D uma matriz diagonal que contm os autovalores de
x
k
x
k
. Uma propriedade
importante que se permutarmos D e E com a mesma permutao, o produto
D
1
2
E
H
se mantm. Seja P
k
uma matriz de permutao qualquer, segundo denido
49
em (2.18). Temos:
D
1
2
P
E
H
P
= (DP
T
k
)
1
2
(EP
T
k
)
H
)
= D
1
2
P
T
k
P
k
E
H
P
T
k
P
k
= I
D
1
2
E
H
= (DP
k
)
1
2
(EP
T
k
)
H
) = D
1
2
P
E
H
P
(3.16)
A Equao (3.16) nos diz que podemos alterar a ordem dos autovalores vontade,
contanto que alteremos a ordem dos autovetores correspondentes, e a matriz V
k
continuar sendo uma matriz branqueadora. Isso signica que podemos ordenar os
autovalores da matriz D = diag([d
1
, d
2
, , d
M
]) de forma que d
1
> d
2
> > d
M
,
e ordenar os autovetores correspondentes da matriz E = [e
1
, e
2
, , e
M
], de forma
que o autovetor e
j
corresponda ao autovalor d
j
. Isto til para realizar reduo
dimensional, pois as componentes principais de x
k
(m) correspondero s primeiras
linhas de z
k
(m), ento a reduo dimensional realizada mantendo-se as N primeiras
linhas de z
k
(m) = [z
1k
(m), , z
Nk
(m), , z
Mk
(m)], de acordo com o valor do
autovalor d
j
correspondente. Este mtodo de reduo dimensional conhecido como
Anlise de Componente Principais (PCA, do ingls Principal Component Analysis).
3.4 Separao
A separao dos sinais realizada em cada raia de frequncia, utilizando um
algoritmo ICA que trabalhe com nmeros complexos. O algoritmo Natural ICA
preferido, porque no possui restries com relao matriz separadora (ver Seo
2.5.2), embora o FastICA tambm seja utilizado, por causa de sua simplicidade e
baixo custo computacional. Outra vantagem do FastICA a independncia do seu
desempenho com relao distribuio das fontes. Se as distribuies das fontes fo-
rem difceis de estimar corretamente, o FastICA em geral apresenta um desempenho
superior ao Natural ICA (ver Seo 2.5.3).
No caso do FastICA, o algoritmo de separao aplicado nos sinais branqueados
z
k
(m), em forma matricial, segundo mostrado em (2.69), e, aps a adaptao,
gerada uma matriz separadora unitria U
k
. Podemos encontrar ento a matriz
separadora W
k
da seguinte forma:
W
k
= U
k
V
k
(3.17)
onde V
k
a matriz branqueadora de (3.14). Esta matriz W
k
utilizada para
encontrar as fontes estimadas independentes y
k
(m) em cada raia de frequncia,
50
utilizando a Equao (2.7).
No algoritmo Natural ICA, aps o branqueamento, a matriz V
k
utilizada como
soluo inicial W
k
= V
k
e a matriz W
k
atualizada iterativamente utilizando o
algoritmo (2.80). As funes score mostradas na Tabela 2.3 trabalham somente com
nmeros reais. Em [44, 45], o autor prope que a funo seja aplicada s partes real
e imaginria separadamente:
(y
ik
) = ('(y
ik
)) + ((y
ik
)) (3.18)
que conhecido como funo score de coordenadas cartesianas. A funo deri-
vada considerando-se que os sinais so reais, segundo a Equao (2.81). Em [31, 46],
os autores derivam o algoritmo que utiliza ML (o Natural ICA) diretamente no dom-
nio complexo, denindo a derivada no domnio complexo e encontrando o gradiente.
Em [46], a derivao matemtica mais simples, mas ambos chegam ao mesmo
resultado: utilizar o Natural ICA como denido anteriormente em (2.80) com n-
meros complexos diretamente e aplicar a funo score s partes real e imaginria
separadamente.
Se analisarmos o algoritmo de adaptao do Natural ICA na Equao (2.80), per-
ceberemos que ele converge para um ponto que satisfaz a condio E(y
ik
)y
ik
= 1.
Analisando apenas a parte imaginria desta equao (que deve ser nula), temos a
condio (3.19), que indica uma restrio adicional: que as partes real e imaginria
de y
ik
devem ser independentes.
E((y
ik
))'(y
ik
) ('(y
ik
))(y
ik
) = 0 (3.19)
O uso do Natural ICA no-holonmico (Equao (2.83)) alivia essa restrio,
mas em [47], o autor prope outra forma de aplicar a funo score fonte y
ik
. Se a
distribuio q(y
ik
) for independente da fase, i.e, se q(y
ik
) = q([y
ik
[), ento a funo
score pode ser aplicada da seguinte forma:
(y
ik
) = ([y
ik
[)e
(y
ik
)
(3.20)
onde a funo dada por:
(y
i
) =

[y
i
[
log(q([y
i
[)) (3.21)
que conhecido como funo score de coordenadas polares. A considerao feita
parece bastante natural para sinais de udio no domnio da frequncia, onde a fase
depende da posio das janelas e pode ser modicada arbitrariamente. Sendo mate-
maticamente mais rigoroso, a independncia da fase signica que a varivel complexa
51
y
ik
circular, ou seja, para qualquer valor real , y
ik
e exp( )y
ik
tm a mesma dis-
tribuio. Foram realizados testes utilizando ambos os mtodos, onde a permutao
foi resolvida de maneira supervisionada para que no houvesse inuncia da permu-
tao nos resultados, e o resultado est na Tabela 3.4. Foram testados os algoritmos
usual (2.80) e o no-holonmico (2.83). Os nomes das funes score foram denidos
na Tabela 2.3.
Tabela 3.4: Comparao entre as funes score de coordenadas cartesianas e polares,
utilizando o Natural ICA usual e o no-holonmico.
60
= 130 ms
Mtodo para resolver a permutao - Supervisionado
Janela win
a
- Hanning
Natural ICA funo score Coordenadas SIR mdio SDR mdio SAR mdio
Usual sign Cartesianas 24, 1 dB 20, 4 dB 22, 9 dB
Usual sign Polares 23, 4 dB 20, 1 dB 22, 8 dB
Usual tanh Cartesianas 21, 9 dB 18, 6 dB 21, 4 dB
Usual tanh Polares 22, 3 dB 18, 9 dB 21, 8 dB
Usual genLaplace ( = 0, 1) Cartesianas 22, 8 dB 19, 5 dB 22, 3 dB
Usual genLaplace ( = 0, 1) Polares 22, 9 dB 19, 7 dB 22, 6 dB
No-holonmico sign Cartesianas 24, 8 dB 20, 9 dB 23, 2 dB
No-holonmico sign Polares 24, 5 dB 20, 8 dB 23, 2 dB
No-holonmico tanh Cartesianas 21, 5 dB 18, 2 dB 20, 9 dB
No-holonmico tanh Polares 21, 9 dB 18, 5 dB 21, 3 dB
No-holonmico genLaplace ( = 0, 1) Cartesianas 22, 7 dB 19, 2 dB 21, 9 dB
No-holonmico genLaplace ( = 0, 1) Polares 23, 1 dB 19, 5 dB 22, 0 dB
O que primeiro se percebe nesta tabela que a escolha entre coordenadas pola-
res ou cartesianas depende da funo score utilizada. Por exemplo, as coordenadas
polares obtiveram melhores resultados para as funes tanh e genLaplace, mas ob-
tiveram resultados piores para a funo sign, porm, a diferena no passa de 1 dB
em nenhum dos casos. Portanto, para tomar uma deciso, importante comparar
as abordagens de outra maneira, como por exemplo, a convergncia. A Tabela 3.5
mostra o nmero de iteraes necessrio para convergncia, com as mesmas condi-
es da tabela anterior, e utilizando o Natural ICA usual. Para detalhes sobre como
descobrir o nmero de iteraes para convergncia, ver Apndice B.
Claramente, utilizar coordenadas polares nos d uma convergncia mais rpida, o
que acaba sendo preferido. Com relao ao custo computacional, tudo vai depender
52
Tabela 3.5: Comparao entre as funes score de coordenadas cartesianas e polares
em nmero de iteraes para convergir em cada raia de frequncia.
Funo score Coordenadas Iteraes mdias por frequncia
sign Cartesianas 113
sign Polares 77
tanh Cartesianas 156
tanh Polares 70
genLaplace Cartesianas 129
genLaplace Polares 76
do custo da funo score contra o custo do operador [.[ acrescido de duas multi-
plicaes. Por exemplo, a funo sign tem menor custo computacional no modelo
cartesiano e a funo tanh apresenta menor complexidade quando usado o modelo
polar.
Outro motivo para utilizar as coordenadas polares sua convergncia mais re-
gular. As Figuras 3.8 e 3.9 mostram a convergncia tpica do Natural ICA em um
caso de duas fontes e duas misturas. A convergncia mostrada apenas para uma
raia de frequncia, escolhida aleatoriamente (o resultado o mesmo para todas as
raias de frequncia), e a funo score utilizada foi a sign. Apenas o valor do mdulo
mostrado, pois, no caso cartesiano, tanto a parte real como a imaginria gerariam
um grco similar, e no caso polar, a parte imaginria irrelevante. Percebe-se a
convergncia mais suave do modelo polar, o que favorece sua utilizao. Por estes
motivos, utilizaremos sempre o modelo polar com o Natural ICA.
A funo score pode tambm ser diferente em cada raia de frequncia. A funo
genGaussian da Tabela 2.3, baseada na gaussiana generalizada, possui um parmetro
r ajustvel, que modica a funo, e repetida aqui, com varincia normalizada para
1:
q(y) =
r
2
_
1
r
_ exp
_
1
r
[y[
r
_
(3.22)
onde (.) a funo Gamma, que denida como:
(z) =
_

0
x
z1
e
x
dx (3.23)
Como exemplos, quando z = 1, (z) = 1, e quando z = 4, (z) = 6. A funo
score correspondente, obtida atravs de

y
i
log(q(y
i
)), :
(y) = [y[
r1
sign(y) (3.24)
53
Figura 3.8: Convergncia tpica do Natural ICA utilizando funes score calculadas
atravs do modelo cartesiano.
Figura 3.9: Convergncia tpica do Natural ICA utilizando funes score calculadas
atravs do modelo polar.
54
No caso especial em que r = 1, a distribuio (3.22) se reduz laplaciana, e
a funo (3.24), funo sign. Da mesma forma, quando r = 1, a distribuio se
torna a cbica, que ecaz em BSS quando os sinais so subgaussianos [33]. As
Figuras 3.10, 3.11 e 3.12 mostram a distribuio gaussiana generalizada de nmeros
complexos para trs valores de r diferentes, onde a varincia foi normalizada para 1
( = 1).
Figura 3.10: Gaussiana generalizada
complexa para r = 0.5.
Figura 3.11: Gaussiana generalizada
complexa para r = 1.
Figura 3.12: Gaussiana generalizada complexa para r = 4.
A idia utilizar funes diferentes dependendo da distribuio estimada das fon-
tes ou pelo menos, diferenciar as funes score quando a distribuio subgaussiana
55
ou supergaussiana. Podemos medir a gaussianidade de uma distribuio, como visto
na Seo 2.5.2, atravs de sua curtose, calculada de (2.32). Para encontrar a cur-
tose da distribuio gaussiana generalizada, primeiro denamos a seguinte frmula
integral, derivada em [48]:
_

0
y
v1
e
y
a
dy =
1
a
1
v
_
v
a
_
(3.25)
Considerando sinais de mdia zero, a varincia (2.26) da distribuio gaussiana
generalizada (considerando a denio de valor esperado [27]):
2
y
=
_

[y[
2
q(y, r)dy
= 2
_

[y[
2
r
2
_
1
r
_
exp([y[
r
)dy
(3.26)
Como o valor de y em (3.26) s pode ser positivo, retiramos os mdulos das
integrais, para facilitar:
2
y
= 2
r
2(
1
r
)
_

0
y
2
exp(y
r
)dy
(3.27)
Utilizando a frmula (3.25),com v = 3, = 1 e a = r:
2
y
=

_
3
r
_
_
1
r
_
(3.28)
Utilizando a mesma derivao, chegamos ao quarto momento central
E(y
y
)
4
para o caso de
y
= 0:
E(y
y
)
4
=

_
5
r
_
_
1
r
_
(3.29)
De (3.28) e (3.29), podemos chegar curtose (2.32):
curt(y) =

_
5
r
_
_
1
r
_
2
_
3
r
_
(3.30)
A curtose da distribuio gaussiana generalizada em funo do parmetro r pode
ser vista nas Figuras 3.13 e 3.14.
Decidimos escolher 3 valores de r diferentes, dependendo da curtose da distri-
buio estimada das fontes. Para distribuies subgaussianas, suciente esco-
lher um valor s. Se curt(y) < 3 (distribuio subgaussiana), escolhemos r = 4. Se
curt(y) < 10, zemos r = 1 (Laplace), e, nalmente, se a distribuio tiver uma
56
Figura 3.13: Curtose da distribuio
gaussiana generalizada em funo de
r, para distribuies supergaussianas.
Figura 3.14: Curtose da distribuio
gaussiana generalizada em funo de
r, para distribuies subgaussianas.
curtose muito alta, curt(y) > 10, escolhemos r = 0.5. Como no temos os valores
da curtose, decidimos utilizar os valores das misturas branqueadas z(m), que ob-
viamente tem uma curtose mais prxima da gaussiana do que as fontes separadas
y(m), e isso limita o desempenho do algoritmo. Pr-separar as fontes com outro
mtodo de separao para obter os valores reais das curtoses e depois aplicar o
algoritmo acima no mostrou muita melhora, at por causa do erro permitido na
estimativa da distribuio das fontes, segundo apontado na Seo 2.5.3. Portanto,
decidimos utilizar a curtose dos sinais branqueados.
Tambm se pode aliar a velocidade do FastICA com a preciso do Natural ICA.
Em [4], o autor utiliza o FastICA com uma distribuio de Laplace generalizada e
depois utiliza o Natural ICA. A distribuio de Laplace generalizada a segunda da
Tabela 2.3, e repetida aqui:
q(y
i
) =
1
B
exp
_
_
_
[y
i
[
2
+
2
_
_
(3.31)
onde
2
a varincia da distribuio, e o parmetro B existe somente para que
a integral da distribuio seja a unidade, segundo a denio de densidades de
probabilidade. Essa normalizao irrelevante no ICA. A varincia tambm no
far muita diferena, pois apenas afeta a escala da fonte estimada y
i
, que ser
ajustada no estgio de escalamento. Dessa forma, fazemos B = 1 e
2
= 1. A
funo G(y
i
) encontrada fazendo-se G(y
i
) = log(q(y
i
)), segundo apontado na
Seo 2.5.2, e a primeira da Tabela 2.2, juntamente com sua derivada g(y
i
).
Primeiramente so branqueados os sinais, obtendo-se uma matriz V
k
, segundo
(3.14). Depois aplica-se o FastICA ao sinal branqueado, como explicado anterior-
mente, e obtm-se a matriz separadora unitria U
k
. Atravs da Equao (3.17),
57
obtida a matriz separadora W
k
, que ser utilizada como soluo inicial do algo-
ritmo Natural ICA, que no tem a restrio de que a matriz separadora seja unitria,
melhorando o desempenho.
A Tabela 3.6 mostra uma sequncia de testes realizados com vrias abordagens
diferentes, e comparando os valores de SIR, SDR, SAR e iteraes necessrias para
convergncia. Foi utilizada uma sala segundo a Figura A.2. Maiores detalhes podem
ser encontrados no Apndice A. O mtodo Natural ICA utilizado o usual, para
vrias funes score diferentes. O FastICA + Natural ICA a abordagem que
une os dois mtodos, e utiliza a funo genLaplace no FastICA com = 0, 1 e
funes variadas no Natural ICA. O mtodo Natural ICA adaptvel o que utiliza
genGaussian, o qual apresentamos anteriormente.
Tabela 3.6: Comparao entre vrias abordagens de separao, tanto Natural ICA
como o mtodo conjugando FastICA e Natural ICA.
60
= 130 ms
Mtodo para resolver a permutao - Supervisionado
Janela win
a
- Hanning
Mtodo Funo score SIR mdio SDR mdio SAR mdio
Natural ICA sign 22, 9 dB 17, 3 dB 21, 0 dB
Natural ICA tanh 21, 3 dB 15, 8 dB 20, 1 dB
Natural ICA genLaplace 22, 3 dB 16, 9 dB 20, 9 dB
FastICA +
Natural ICA
sign 21, 9 dB 16, 5 dB 20, 7 dB
FastICA +
Natural ICA
tanh 21, 3 dB 15, 8 dB 20, 1 dB
FastICA +
Natural ICA
genLaplace 21, 7 dB 16, 3 dB 20, 6 dB
Natural ICA
adaptvel
genGaussian 23, 5 dB 17, 9 dB 21, 8 dB
Como pode ser visto na tabela, a funo genGaussian apresentou resultados
marginalmente superiores s outras, porm a complexidade computacional extra
provavelmente no vale o ganho em desempenho. Se mesmo com a complexidade
extra, o algoritmo conseguir convergir em tempo real, ento vale a pena utiliz-lo
em detrimento dos outros. A conjugao do FastICA com o Natural ICA obteve re-
sultados inferiores ao Natural ICA em todos os casos, porm, o algoritmo conjugado
converge muito mais rpido, o que um ponto a favor dele. A escolha do algoritmo
de separao depende, ento, da aplicao especca e do hardware disponvel. Se
no houver muito poder computacional disponvel, a melhor opo o ICA conju-
58
gado utilizando sign. Se ele for muito grande, o Natural ICA adaptvel preferido.
Um meio termo seria utilizar o Natural ICA com a funo sign.
Nota-se na tabela que a funo sign obteve melhores resultados do que as outras.
Isso indica que ela uma boa estimativa mdia de um sinal de voz. Realmente, o
parmetro r no Natural ICA adaptvel foi 1 para quase todas as frequncias, o que
indica a utilizao da funo sign.
3.4.1 Outros Algoritmos de Separao
Alm do ICA, existem outros algoritmos de separao que utilizam outras abor-
dagens, alm da no-gaussianidade (o caso do ICA), para denir a independncia
das fontes. De uma forma geral, em [49], o autor separa as abordagens encontradas
na literatura para separao de fontes independentes em trs categorias:
1. Espectro colorido. Supe que as fontes no so sinais brancos, e tenta dia-
gonalizar a matriz de correlao das sadas, com diferentes atrasos de tempo
(lags);
2. No-estacionaridade. Supe que as fontes so sinais quase-estacionrios, e
tenta diagonalizar a matriz de correlao das sadas em diferentes janelas de
tempo;
3. No-gaussianidade. Supe que os sinais so no-gaussianos, e utiliza estats-
ticas de maior ordem (ICA).
Percebe-se que as duas primeiras abordagens apenas utilizam informaes esta-
tsticas at segunda ordem. A primeira abordagem, proposta por [50, 51], consiste
primeiro em diagonalizar matrizes de correlao

R
y
i
y
i
N N, calculadas segundo
(2.41), com y
i
(n) = [y
i
(n), y
i
(n lag
1
), , y
i
(n lag
D
)], onde lag
d
, d = 1, , D,
so os D atrasos considerados. Se as fontes no forem sinais brancos, ento, a di-
agonal principal de

R
y
i
y
i
deve conter apenas 1s e todos os outros elementos devem
ser zero, pois
y(n)y(nlag)
= 0.
A segunda abordagem utilizada em [5255]. Para trechos de sinais de voz
menores do que 10 ms, os sinais so considerados estacionrios, mas para trechos
maiores (perto de 100 ms), os sinais so quase-estacionrios, e a suposio de no-
estacionaridade vale. As matrizes de correlao

R
yy
a serem diagonalizadas so
calculadas segundo (2.41), mas considerando apenas N
bloco
amostras para computar
as correlaes amostrais
yy
. Existem, ento,
N
amost
N
bloco
matrizes a serem diagonalizadas,
uma para cada bloco. Diagonalizar cada matriz (zerar os elementos fora da diagonal
principal) similar a realizar um branqueamento em cada bloco (ver a Equao
(2.42)), porm a diferena que, neste caso, deve ser encontrada uma mesma matriz
59
W tal que todas as
N
amost
N
bloco
matrizes estejam diagonalizadas, portanto no pode se
utilizar a mesma abordagem que utilizamos na Seo 3.3. Esta abordagem tambm
s utiliza informaes de segunda ordem.
A limitao de que utilizar estatsticas de maior ordem torna o algoritmo ICA
muito sensvel a outliers, dita em [53], no acontece com os algoritmos ICA que
utilizam negentropia como medida de no-gaussianidade, segundo dito na Seo
2.5.2, que possui maior robustez, nem nos algoritmos ICA baseados em ML, que
utilizam uma suposio a mais: que a distribuio das fontes conhecida. A maior
vantagem dos algoritmos que s utilizam informaes estatsticas de segunda ordem
o menor custo computacional.
Em [56], o autor utiliza uma abordagem que une as trs suposies acima (es-
pectro colorido, no-estacionaridade e no-gaussianidade), num algoritmo que ele
chama de TRINICON [57] (TRiple INdependent component analysis for CONvo-
lutive mixtures). Este algoritmo funciona no domnio do tempo, e portanto, no
sofre do problema da permutao. Uma transformao das equaes do TRINICON
para o domnio da frequncia de uma forma rigorosa mostrada em [49], que te-
oricamente no sofre com os problemas da permutao, pois leva em considerao
informaes sobre todas as frequncias de uma vez s ( um algoritmo de banda
larga). A desvantagem o maior custo computacional, que limitante em uma
aplicao em tempo real. Com o poder de processamento dos computadores au-
mentando consideravelmente, num futuro prximo talvez essa abordagem possa ser
utilizada em tempo real, com a vantagem de evitar o problema da permutao.
3.5 Permutao
O estgio da permutao o mais crtico em qualquer algoritmo FDBSS. Ele
consiste em encontrar a matriz de permutao P
k
, segundo denida na Seo 2.3,
onde o ndice k representa a raia de frequncia, de forma que o as fontes quem
ordenadas em cada frequncia, e a ISTFT gere resultados consistentes (ou seja, que
todas as raias de frequncia pertenam mesma fonte). O Captulo 4 dedicado a
este assunto.
Este problema pode ser abordado de diferentes formas, que podem ser classica-
das em trs abordagens. A primeira consiste em utilizar informaes sobre o sistema
de mistura, testando a consistncia dos coecientes dos ltros separadores, ou seja,
a matriz separadora W
k
, k = 0, , K 1; a segunda abordagem utiliza informa-
es sobre o espectro na frequncia dos sinais recuperados, i.e, as fontes estimadas
y
ik
(m); e a terceira utiliza informaes do domnio tempo-frequncia, por exemplo,
empregando um ICA multidimensional, que atue em todas as frequncias e frames
ao mesmo tempo. Outra opo unir duas ou mais destas abordagens em uma abor-
60
dagem conjugada, que alie as vantagens de todas elas. Todas as abordagens tentam
obter informaes que classiquem as fontes para que elas possam ser identicadas
em cada frequncia, ou seja, se tratam de algoritmos de reconhecimento de padres
no-supervisionados, o qual um problema bem difcil.
Com relao primeira abordagem (utilizar a matriz separadora), uma primeira
proposta tornar os ltros W suaves no domnio da frequncia durante a adaptao
do algoritmo. Em [44], o autor prope utilizar um fator de inuncia durante a
adaptao, de forma que o W
k
(a atualizao da matriz separadora da frequncia
k) seja uma combinao linear entre W
k
e W
k+1
(a atualizao da frequncia
adjacente). O problema que isso modica a matriz separadora, e acaba degra-
dando o desempenho do algoritmo ICA em cada raia de frequncia. Em [54], o
autor utiliza a suposio de que K Q, i.e, o nmero de raias utilizado na FFT
muito maior que o comprimento Q do ltro separador no domnio do tempo. Por
exemplo, se K = 10Q, h 10 raias de frequncia para cada coeciente w
ij
(l) do ltro
no domnio do tempo. Utilizando essa suposio, ele aplica uma projeo sobre os
ltros da matriz separadora a cada iterao. Obviamente, essa projeo aplicada
a todas as frequncias de uma s vez, e torna os ltros w
ij
(k) suaves no domnio
da frequncia. Mais uma vez, este procedimento altera o resultado da separao,
e muitas vezes a suposio K Q no verdadeira, causando degradao no de-
sempenho da separao (que no caso de [54], no feita atravs de ICA, mas sim
utilizando informaes estatsticas de segunda ordem).
Outra proposta relacionada com a matriz separadora encontrar o DOA (direo
de chegada), que consiste no ngulo de chegada das fontes. Por limitaes do DOA,
entretanto, possvel que duas fontes tenham o mesmo DOA. Isso acontece porque
a estimativa de DOA utilizada funciona num plano 2D, e fontes cujos ngulos de
chegada tenham o mesmo valor de cosseno esto, para o algoritmo, na mesma posi-
o, o que nos deixa com uma limitao de ngulos entre 0 e 180
. Para resolver este

problema, pode-se tentar estimar a posio num espao tridimensional das fontes
(DOA 3D), mas um problema computacionalmente mais difcil.
Uma proposta mais robusta que o DOA tentar encontrar a diferena entre
tempos de chegada (TDOA) de cada fonte a dois sensores. Ela no sofre da limitao
de ngulo que o DOA sofre, e no computacionalmente muito intensiva. Atravs
do TDOA de cada fonte entre todos os pares de sensores, pode-se identic-las em
cada raia de frequncia. Essa proposta abordada em [4].
Com relao segunda abordagem (utilizar as fontes estimadas), uma proposta
utilizar a AM (modulao de amplitude) dos sinais das fontes, proposto primei-
ramente por [58]. A idia calcular a correlao entre duas raias de frequncia da
mesma fonte. Um coeciente de valor alto indica que as fontes no so descorrela-
cionadas, ou seja, no so independentes. O autor tambm utiliza este coeciente
61
para realizar a separao, ou seja, o problema da permutao e da separao so
resolvidos simultaneamente. Em [59], o autor utiliza outro mtodo para separao
e resolve o problema da permutao separadamente, utilizando a correlao entre
frequncias. Ele calcula a correlao para todas as permutaes possveis, entre
frequncias adjacentes. A permutao que obtiver o maior valor de correlao in-
dica a permutao correta.
A terceira abordagem consiste em modicar o estgio de separao, e, neste caso,
o estgio de permutao deixa de existir, pois resolver o problema da permutao j
est implcito no algoritmo de separao. Em geral, abordagens desse tipo consistem
em derivar uma funo custo que leve em considerao todas as raias de frequncia
ao mesmo tempo, o que aumenta o tempo computacional, mas ainda o mantm
menor do que o tempo computacional de um algoritmo ICA no domnio do tempo,
por exemplo. Essa abordagem pode ser encontrada em [6062], e est fora do escopo
desta dissertao.
Mesmo que consigamos resolver com sucesso o problema da permutao em cada
raia de frequncia, de forma que o sinal y
ik
(m) esteja na mesma posio em todas as
raias de frequncia k, ainda teremos o problema da permutao global. Isto signica
que descobrimos as fontes independentes e podemos at descobrir a posio delas
(ver Seo 4.1), mas no saberemos qual fonte pertence a qual posio original-
mente. Entretanto, para descobrir a posio de cada fonte, podemos tentar utilizar
a esparsidade destas, da seguinte forma: supondo que as fontes so vozes (conforme
o foco desta dissertao), no momento que apenas uma das pessoas estiver falando,
o algoritmo BSS adapta e tenta descobrir a posio de todas as fontes, que no caso
uma s, e assim, no h problema de ambiguidade. Quando rodarmos o algoritmo
novamente com as duas fontes, a posio de uma delas j conhecida. Se as pessoas
estiverem se movimentando, entretanto, a situao mais complicada. Descobrir
posio das fontes foge ao escopo deste trabalho, que se preocupa somente em se-
parar as fontes. A posio s nos interessante a partir do ponto em que ajuda na
separao, como veremos na Seo 4.1.
3.6 Escalamento
O estgio do escalamento tenta encontrar a matriz diagonal
k
em (2.20), em
cada raia de frequncia k, de forma que o sinal de udio da fonte estimada que
consistente no domnio do tempo. Para isso utilizado o MDP (Princpio da Mnima
Distoro) [63], mostrado em (3.32), onde T uma matriz escolhida arbitrariamente
que indica a distoro aceitvel, e H
k
a resposta de frequncia da matriz de mistura
62
(denida em (2.12)) na raia de frequncia k.
k
= diag(TH
k
) (3.32)
Normalmente, utilizada T = I, mas H
k
no conhecida. Assumindo que o ICA
foi bem sucedido e a inversa da matriz separadora corresponde matriz de mistura
a menos de um escalamento, i.e, W
1
Pk
D
k
= H
k
, onde D
k
uma matriz diagonal, e o
ndice
P
simboliza que o problema da permutao foi resolvido, podemos aproximar
H
k
por W
1
Pk
, e a Equao (3.32) modicada para que ela possa ser calculada na
prtica:
k
= diag(W
1
Pk
) (3.33)
Substituindo a Equao (3.33) nos modelos instntaneos (2.2) e (2.7) aplicados
a uma raia de frequncia do caso convolutivo, e lembrando que W
1
Pk
D
k
= H
k
e
W
Pk
= P
k
W
k
, temos:
y
k
(m) =
k
P
k
W
k
H
k
s
k
(m)
= diag(W
1
Pk
)W
Pk
W
1
Pk
D
k
s
k
(m)
= diag(W
1
Pk
D
k
)s
k
(m)
= diag(H
k
)s
k
(m)
(3.34)
Ou seja, em cada raia de frequncia, y
ik
= h
ii
s
ik
. Isto signica que o sinal da
fonte estimada no tempo y
i
(n) equivalente fonte s
i
(n) vista pelo sensor i, uma
verso ltrada da fonte real. Esta uma suposio razovel, e no inuencia na
separao entre as fontes.
Tambm poderamos escolher outro valor para a matriz T em (3.32), como por
exemplo, T = 1, onde 1 uma matriz onde todos os elementos so 1. Seguindo
os passos anteriores para descobrir a distoro aceita nas fontes estimadas para
esta matriz T, chegamos ao resultado y
ik
=

M
j=1
h
ji
s
ik
. Nesse caso, no domnio do
tempo, a fonte estimada a soma das contribuies da fonte s
i
(n) em cada um dos
sensores j.
Por mais que se modique T, pelo MDP s possvel recuperar verses ltradas
das fontes. Outro ponto importante que embora possamos resolver o problema
do escalamento em cada raia de frequncia, para que a fonte estimada y
i
(m) que
com o mesmo escalamento em todas as raias de frequncia, no podemos resolver o
escalamento global, i.e, as fontes y
i
(n) no domnio do tempo ainda tero escalamen-
tos arbitrrios. Por exemplo, suponhamos que a fonte s
1
esteja longe dos sensores,
e, portanto, com um volume baixo em relao a s
2
, que est muito prxima destes.
Aps o BSS, a sada y
1
(supondo que ela corresponde a s
1
, ver problema de permu-
tao global na Seo 3.5) pode estar com um volume muito mais alto que y
2
(que
63
corresponde a s
2
), por causa do problema do escalamento global.
3.7 Suavizao
A ltima etapa consiste na suavizao (ou no) do sinal. A suavizao tenta
resolver o problema da circularidade descrito no incio do captulo. Uma forma
de mitigar este problema fazer com que K > L, segundo visto na Seo 3.2. O
problema que no conhecemos o tamanho real P dos ltros da matriz de mistura.
Para que no haja distoro nenhuma, como o trecho da mistura tem L amostras, o
ltro deveria ter tamanho P = K L 1 amostras. Em geral, isso no verdade,
e os ltros tm comprimento innito. Isso gera distoro no domnio do tempo, e,
para mitigar este efeito, [64] prope que o ltro seja janelado no tempo, de forma
que seus coecientes prximos das bordas sejam pequenos. O objetivo controlar
a resposta de frequncia destes ltros, de forma que ele tenha tamanho nito no
domnio do tempo e valores pequenos nas bordas, aplicando a janela no domnio da
frequncia.
O autor escolhe a janela de Hanning no domnio do tempo. Lembrando que
uma multiplicao no domnio do tempo equivale a uma convoluo no domnio
da frequncia, precisamos descobrir a resposta de frequncia da janela de Hanning
e ltrar o trecho do sinal utilizando esta resposta de frequncia. Ora, a resposta
de frequncia da janela de Hanning possui somente trs coecientes (os outros so
teoricamente nulos, e na prtica, muito prximos de zero), e dada por
w
hanning
(k) = 0, 25(k 1) + 0, 5(k) + 0, 25(k + 1) (3.35)
no domnio da frequncia discreta, onde (.) a funo delta de Dirac. Observe
que este ltro no causal, o que no problema para ns, pois temos todas as
amostras de frequncia ao mesmo tempo. Podemos representar (3.35) em forma
vetorial como [0.25, 0.5, 0.25], e utilizando este ltro, recalculamos cada elemento da
matriz separadora como:
W
ij
(k) 0, 25W
ij
(k 1) + 0, 5W
ij
(k) + 0, 25W
ij
(k + 1) (3.36)
ou, alternativamente:
W
ij
(k) W
ij
(k) w
hanning
(k) (3.37)
onde denota convoluo. Perceba que este mtodo tem um problema: ele altera o
valor da soluo ICA, e isso pode piorar o desempenho ainda mais. Se a circularidade
tiver uma inuncia muito grande na soluo, ento talvez valha a pena perder de
64
um lado (a matriz separadora ser diferente da soluo tima do ICA) para ganhar
de outro (mitigar o efeito da circularidade). Embora o autor utilize a janela de
Hanning, nada impede que outras janelas sejam utilizadas. A Tabela 3.7 mostra
os coecientes da resposta de frequncia de algumas janelas, na forma vetorial. As
respostas mostradas no so analticas, pois algumas das janelas possuem respostas
em frequncia analticas muito complicadas, ento truncamos estas respostas no
domnio da frequncia. Os coecientes esto centralizados, i.e, o coecente 0
sempre o do meio, pois nenhuma das respostas de frequncia causal.
Tabela 3.7: Coecientes da resposta de frequncia truncada de algumas janelas. O
coeciente 0 sempre o coeciente do meio.
Janela Coecientes
Hanning [0, 25 0, 5 0, 25]
Chebyshev [0, 003 0, 0602 0, 2516 0, 3902 0, 2516 0, 0602 0, 003]
Blackman [0, 01 0, 0817 0, 24 0, 3363 0, 24 0, 0817 0, 01]
Nuttall [0, 0092 0, 0795 0, 2407 0, 3409 0, 2407 0, 0795 0, 0092]
Kaiser [0, 0014 0, 0032 0, 0129 0, 9787 0, 0129 0, 0032 0, 0014]
A Tabela 3.8 mostra os resultados de utilizar suavizao aps o algoritmo conver-
gir. H um ganho de desempenho marginal utilizando-se suavizao, o que mostra
que a circularidade no o problema maior que enfrentamos, sendo este a permu-
tao. O maior ganho est na SAR, porque os artefatos decorrentes do efeito da
circularidade diminuem, mas como a suavizao altera a soluo ICA, o ganho que
esta poderia dar na SIR acaba sendo perdido por causa da alterao da soluo. O
tipo de janela utilizado, entretanto, no altera muito o desempenho, porm, a janela
de Hanning no a tima, e tem um desempenho inferior ao de outras janelas. Op-
tamos por utilizar a janela de Chebyshev, embora a diferena de desempenho entre
ela e as janelas da famlia Blackman seja mnima.
Aplicar a suavizao importante por causa dos ganhos marginais que ela pro-
porciona ao SAR, ou seja, no perdemos nada e ganhamos algum desempenho, com
um custo computacional desprezvel.
65
Tabela 3.8: Comparao entre vrias abordagens de separao, tanto Natural ICA
como o mtodo conjugando FastICA e Natural ICA.
60
= 150 ms
Mtodo para resolver a permutao - DOA + ConjCorr
Janela win
a
- Hanning
Janela Suavizao? SIR mdio SDR mdio SAR mdio
No 14, 9 dB 10, 3 dB 16, 9 dB
Hanning Sim 15, 2 dB 12, 3 dB 18, 3 dB
Chebyshev Sim 15, 1 dB 12, 4 dB 19, 1 dB
Blackman Sim 14, 9 dB 12, 3 dB 18, 9 dB
Nuttall Sim 14, 9 dB 12, 2 dB 19, 0 dB
Kaiser Sim 15, 0 dB 11, 2 dB 17, 1 dB
66
Captulo 4
Mtodos para Resolver o
Problema da Permutao
O principal desao do ICA no domnio da frequncia , sem dvida, o pro-
blema da permutao. Vrias tcnicas foram e ainda esto sendo desenvolvidas
para resolv-lo. O foco deste captulo estudar e comparar os mtodos mais recen-
tes, que esto divididos em dois grupos. Seguindo o que foi introduzido na Seo
3.5, o primeiro grupo tenta estimar a localizao das fontes, utilizando informaes
sobre o sistema de mistura, e classicar as fontes em cada raia de frequncia ba-
seado na sua localizao. O segundo grupo utiliza as informaes do espectro de
frequncia dos sinais estimados, mais especicamente, estudando a correlao entre
raias de frequncia deste, de forma a classicar as fontes em cada raia de frequn-
cia baseado nesta correlao. Dentro do primeiro grupo, se destacam os mtodos
que tentam descobrir a direo de chegada (DOA) ou a diferena entre tempos de
chegada (TDOA) das fontes em cada sensor. No segundo grupo, os mtodos se di-
ferenciam no grupo de frequncias a ser utilizado e na forma de medir a correlao.
Tudo isto ser abordado neste captulo.
importante agora introduzir os vetores-base, para facilitar a notao, que nada
mais so do que as colunas da inversa da matriz separadora em cada raia de frequn-
cia. Consideraremos que eles so vetores linha para car consistente com nossa no-
tao de ltros utilizada ao longo do trabalho. Os vetores-base so formados pelas
colunas da matriz dada na Equao (4.1), com a condio de que M N. Se
N = M, a pseudoinversa se reduz inversa.
A
MN
(k) =
_
a
T
1
(k) a
T
2
(k) a
T
N
(k)
_
= W
NM
(k) (4.1)
Se a BSS foi bem sucedida, os vetores-base so uma boa estimativa (a no ser
67
de uma permutao e escalamento) dos elementos da matriz de mistura, ou seja:
a
i
(k)
ik
_
h
1i
P
(k) h
2i
P
(k) hMi
P
(k)
_
(4.2)
onde i
P
indica que falta resolver o problema da permutao, e
ik
o escalamento
da fonte i na raia de frequncia k.
4.1 Localizao das Fontes
Algumas abordagens (padres de diretividade, DOA, TDOA) utilizam a infor-
mao da localizao do locutor em cada raia de frequncia para resolver o problema
da permutao. Elas se baseiam nos modelos de campo prximo e campo distante.
O primeiro no tem nenhuma restrio, mas o segundo assume que as fontes esto
distantes dos sensores. Ambos assumem que no h reverberao (direct-path) na
sala, entretanto isso no impede que eles sejam aplicados a ambientes reverberan-
tes. Aqui iremos mostrar primeiro o modelo mais geral e depois o mais especco,
e no caso dos mtodos, comearemos pelo mais simples e seguiremos mostrando os
mais complexos. Seguindo esta idia, primeiro consideraremos o modelo de campo
prximo. A Figura 4.1 mostra o modelo de campo prximo. O vetor q
i
especica a
posio da fonte i e o vetor p
j
especica a posio do microfone j. A distncia entre
o sensor j e a fonte i dada por |q
i
p
j
|, a distncia da fonte origem o dada
por |q
i
|, e a distncia do sensor origem |p
j
|. A origem o = [0, 0, 0]
T
pode ser
arbitrada, como por exemplo, o centro do arranjo de microfones. Uma observao
importante sobre esta gura que deveramos ter utilizado o vetor p
j
q
i
ao invs
do vetor q
i
p
j
, pois o som se origina das fontes em direo aos sensores, e na
frente, como utilizaremos o conceito de velocidade de propagao, o sentido deste
vetor importante. Mesmo assim, na literatura se costuma utilizar este sentido,
principalmente por causa do modelo de campo distante, onde o ngulo de direo
de chegada (DOA) das fontes mais facilmente deduzido e visualizado desta forma.
Outra forma de ver este modelo, considerando os atrasos
ji
entre o sensor j e a
fonte i, mostrado na Figura 4.2. Baseado nesta gura, podemos denir o TDOA
(diferena entre tempos de chegada) de uma fonte i a dois sensores j e j
como:
jj
(i) =
ji
i
(4.3)
A restrio anterior de no-reverberao implica que o canal de propagao da
onda de som s introduz uma atenuao e um atraso, e portanto, no domnio do
tempo contnuo, o sinal no microfone j originado pela fonte i pode ser dado por [65]:
68
Figura 4.1: Modelo de campo prximo (ignorando reverberao).
Figura 4.2: Modelo de campo prximo visualizado atravs dos atrasos entre os
sensores e a fonte.
69
x
j
(t)
ji
s
i
(t
ji
) (4.4)
onde
ji
a atenuao do caminho entre a fonte i e o sensor j e
ji
o atraso
mostrado na Figura 4.2. Utilizamos o operador para indicar que o modelo uma
aproximao do caso real, onde h reverberao. Passando (4.4) para o domnio da
frequncia, temos:
x
j
(f)
ji
exp( 2f
ji
)s
i
(f) = h
ji
(f)s
i
(f) (4.5)
onde h
ji
(f) a resposta de frequncia do caminho entre a fonte i e o sensor j. Ora,
se chamarmos de c a velocidade de propagao da onda no meio, temos que:
ji
= c
1
|q
i
p
j
| (4.6)
onde o sinal de foi colocado para car consistente com a denio feita anterior-
mente
1
. Dessa forma, obtemos a resposta em frequncia h
ji
(f) [66]:
h
ji
(f)
1
|q
i
p
j
|
exp( 2fc
1
(|q
i
p
j
|)) (4.7)
Observe que nesta expresso o sinal de (4.5) foi substitudo por um sinal +, por
causa do sentido que denimos para o vetor que liga a fonte ao sensor. Essa resposta
no considera a reverberao, e o sinal atenuado por um fator que dependente
da distncia entre a fonte e o sensor. Para que a Equao (4.7) seja til, precisamos
da informao de mais de um sensor, e utilizamos a informao destes mltiplos
sensores em conjunto. Fazemos isso porque, mesmo que estimarmos corretamente
h
ji
(f), ainda temos o problema do escalamento. No entanto, o escalamento altera
igualmente os elementos de uma mesma coluna da matriz de mistura, i.e, a razo
h
ji
(f)
h
j
i
(f)
, mostrada em (4.8) no sofre com este problema, onde j e j
indicam dois
sensores diferentes.
h
ji
(k)
h
j
i
(k)
=
(W
1
k

1
k
)
ji
(W
1
k

1
k
)
j
i
=
(W
1
k
)
ji
(W
1
k
)
j
i
=
(a
i
)
j
(a
i
)
j
(4.8)
O modelo mostrado lida com a frequncia contnua f, porm, no nosso caso,
utilizaremos a frequncia discreta k, como nos captulos anteriores. Aplicando (4.7)
1
Na verdade c um vetor que aponta para o sentido de propagao, e como alteramos o sentido
do vetor entre as fontes e sensores, c deve ser negativo.
70
em (4.8):
h
ji
(k)
h
j
i
(k)
=
|q
i
p
j
|
|q
i
p
j
|
exp( 2f
k
c
1
(|q
i
p
j
| |q
i
p
j
|))
=
|q
i
p
j
|
|q
i
p
j
|
exp( 2f
k
jj
(i))
(4.9)
onde
jj
(i) o TDOA da fonte i aos sensores j e j
. Esse modelo sofre de aliasing

espacial, que similar ao aliasing temporal, mas aplicado ao espao. Relembrando
o aliasing temporal, segundo Nyquist, um sinal amostrado no tempo com perodo
T
s
deve ser limitado em banda por
1
2T
s
. Colocando de outra forma, no domnio
da transformada de Fourier, este sinal no pode possuir componentes acima de
f
s
2
, pois isso gera ambiguidade. Por exemplo, uma senide de frequncia 3 kHz
amostrada a f
s
= 8 kHz e uma senide de frequncia 5kHz amostrada a f
s
= 8 kHz
geram sequncias iguais, da a ambiguidade. Da mesma forma, um sinal no espao
amostrado por microfones a uma distncia d deve ser limitado em banda. A anlise
desse limite de banda no modelo de campo prximo complexa, e em [67], o autor
mostra que no h como evitar aliasing completamente neste modelo. Entretanto,
na prtica, comum utilizar neste modelo a mesma restrio que no modelo de
campo distante, onde o limite de banda em funo da distncia d mais simples de
se encontrar, como mostraremos a seguir.
O modelo de campo distante consiste em simplicar a expresso (4.9) conside-
rando que a fonte est distante dos sensores. A Figura 4.3 ilustra esse caso. Se a
fonte estiver sucientemente distante, os vetores q
i
p
j
e q
i
p
j
so quase para-
lelos. A condio para que este modelo sej vlido que |q
i
p
j
| |p
j
p
j
|,
i.e, a distncia entre os sensores seja muito menor do que a distncia entre o arranjo
de sensores e a fonte i.
Na Figura 4.3, vemos que o TDOA (de acordo com (4.3) e (4.6))
jj
(i) =
ji
j
i = c
1
(|q
i
p
j
| |q
i
p
j
|) pode ser dado por
jj
(i) = c
1
(p
j
p
j
)
T
u
ji
, onde u
ji
um vetor unitrio que aponta do sen-
sor j na direo da fonte i, i.e, u
ji
=
q
i
p
j
q
i
p
j
. Da, a expresso (4.9) pode ser

reescrita como [66]:
h
ji
(k)
h
j
i
(k)
= exp( 2f
k
c
1
(p
j
p
j
)
T
u
ji
) (4.10)
onde
q
i
p
j

q
i
p
j
foi omitido pois, nesse modelo, |q

i
p
j
| |q
i
p
j
|. O modelo
resumido pela Equao (4.10) pode ser utilizado entre quaisquer dois pares de sen-
sores. Se estivermos interessados apenas no ngulo
jj
(i), podemos simplicar este
71
Figura 4.3: Modelo de campo distante (ignorando reverberao).
modelo:
cos(
jj
(i)) =
(p
j
p
j
)
T
u
ji
|p
j
p
j
|

h
ji
(k)
h
j
i
(k)
= exp( 2f
k
c
1
(|p
j
p
j
|) cos(
jj
(i)))
= exp( 2f
k
c
1
d
jj
cos(
jj
(i)))
(4.11)
onde d
jj
a distncia entre os sensores j
e j. Algumas literaturas trocam o cos(.)

pelo sen(.) na expresso (4.11), principalmente as relacionadas a beamforming, como
[68]. Isso muda a denio de
jj
(i), que passa a ser 0
quando a fonte est per-

pendicular ao eixo do arranjo de microfones, em vez de ser 90
, como no nosso caso

(ver Figura 4.3). H uma verso da Equao (4.7) para o modelo de campo distante
muito utilizada, onde se desconsidera a atenuao, pois esta informao s nos diz a
distncia entre a fonte e o arranjo de sensores (no modelo de campo distante, a fonte
est to distante dos sensores que a distncia entre ela e qualquer um dos sensores
praticamente a mesma), e idealmente, no modelo de campo distante, essa distncia
tende a . Tambm arbitrada uma origem o onde a fase zero, e desta forma,
obtemos a fase relativa a esta origem, para que no precisemos da distncia entre a
fonte e os sensores. Estas consideraes so ilustradas na Figura 4.4.
Com essas consideraes, a resposta em frequncia h
ji
(f) no modelo de campo
distante ca:
h
ji
(f) exp( 2fc
1
|p
j
| cos(
j
(i))) (4.12)
72
Figura 4.4: Modelo de campo distante (ignorando reverberao).
Utilizando este modelo, podemos derivar o limite de banda em funo da dis-
tncia dos microfones. Denamos um eixo que passa exatamente pela linha dos
microfones, ou seja, pelo vetor p
j
p
j
. Seja l o nmero real que dene a posio
neste eixo. Seja x
i
(l) o sinal da fonte i assim como visto no ponto l desse eixo,
que dado por:
x
i
(l)
li
exp( 2fc
1
l cos(
l
(i)))s
i
(t) (4.13)
onde
li
representa a atenuao do sinal vindo da fonte i que chega no ponto l
e cos(
l
(i)) o cosseno do ngulo DOA da fonte i no ponto l, similar ao ngulo
cos(
j
(i)) em (4.12). A transformada de Fourier de (4.13) em funo de l dada
por (4.14), onde
ji
uma constante, a frequncia espacial (relacionada
dimenso l) e (.) a funo delta de Dirac.
X
i
() =
ji
( fc
1
cos(
l
(i))) (4.14)
Utilizando Nyquist, para no haver aliasing espacial, a mxima frequncia que
pode ser representada
1
2d
s
, onde d
s
a distncia de amostragem, no nosso caso, a
distncia d entre os microfones. Isto similar a dizer que, para no haver aliasing
temporal, a frequncia f do sinal no pode ser maior que
1
2T
s
=
f
s
2
. De (4.14), para
que isso acontea,
fc
1
cos(
l
(i)) <
1
2d
f <
c
2d cos(
l
(i))
f <
c
2d
(4.15)
73
onde a ltima simplicao foi possvel porque o pior caso ocorre no mximo valor de
cos(
l
(i)), ou seja, quando ele 1. A condio (4.15) bem conhecida na literatura,
e tambm utilizada no caso de campo prximo, como dito acima, pois mesmo que
essa condio no seja suciente para evitar aliasing no caso de campo prximo,
a condio diminui bastante seu efeito. Para que esta anlise de banda estreita
seja vlida, consideramos implicitamente que podemos descrever a resposta de um
arranjo de microfones a uma onda plana de banda larga linearmente e utilizando a
transformada de Fourier. Para uma anlise matemtica mais precisa sobre o assunto,
ver [69]. Neste trabalho, o autor realiza a anlise acima em banda larga, e chega
concluso de que o aliasing espacial depende tambm da resposta do sinal, de seus
harmnicos, estacionaridade e outros fatores.
4.1.1 Padres de Diretividade
Para derivar o algoritmo de padres de diretividade, assumimos que os sensores
(microfones) esto montados em linha, como na Figura 4.5, e equiespaados, i.e,
d
j
d
j
, para dois sensores adjacentes, igual. Tambm assumimos, como dito
anteriormente, que no h reverberao na sala. Mesmo com essa restrio, em [70],
o autor comparou este mtodo com os mtodos de correlao e chegou concluso
de que se obtm resultados melhores em ambientes reverberantes com o mtodo de
padres de diretividade.
Figura 4.5: Montagem em linha de microfones, no modelo de campo distante.
Assume-se que os ngulos de chegada de uma mesma fonte so os mesmos para
todos os sensores.
74
Segundo mostrado na gura, assumimos o modelo de campo distante, e da
os ngulos de chegada DOA de uma mesma fonte so os mesmos para todos os
sensores j. Os escalares d
j
representam a posio dos sensores em cima do eixo de
montagem destes. A origem do eixo pode ser arbitrada, como por exemplo, o centro
da montagem ou um dos microfones.
Aps o BSS, cada sada y
i
(k) pode ser dada por (onde o ndice k foi omitido,
para simplicar):
y
i
= w
11
x
1
+ w
12
x
2
+ + w
1M
x
M
= (w
11
h
11
s
1
+ w
11
h
12
s
2
+ + w
11
h
1N
s
N
)+
+ (w
12
h
21
s
1
+ w
12
h
22
s
2
+ + w
12
h
2N
s
N
) + +
+ (w
1M
h
M1
s
1
+ w
1M
h
M2
s
2
+ + w
1M
h
MN
s
N
)
= (w
11
h
11
+ + w
1M
hM1)s
1
+ (w
11
h
12
+ + w
1M
hM2)s
2
+ +
+ (w
11
h
1N
+ + w
1M
h
MN
)s
N
(4.16)
De acordo com o modelo utilizado, cada h
ji
(k) dado por (4.12), onde |p
j
| = d
j
.
Ento, a nica diferena entre h
1i
, h
2i
, , h
Mi
a distncia d
j
, pois, como dito
acima, o ngulo (DOA) de uma fonte i o mesmo para todos os sensores j. Ora,
denamos ento o padro de diretividade
i
como:
i
(k, ) =
M
j=1
w
1j
(k)h
ji
(k) =
M
j=1
w
ij
(k) exp( 2fc
1
d
j
cos()) (4.17)
onde o ngulo uma varivel. Substituindo (4.17) em (4.16), temos:
y
i
=
i
((1))s
1
+
i
((2))s
2
+ +
i
((N))s
N
(4.18)
Fica claro em (4.18) que a funo
i
((i)) referente fonte i deve ser mxima
e, idealmente, todas as outras
i
((k)), k ,= i devem ser nulas. Ou seja, se traar-
mos um grco de
i
em funo de , os ngulos correspondentes s outras fontes
devem ser nulos (mnimos da funo, na prtica). A Figura 4.6 mostra o padro
de diretividade para 2 fontes, aps o BSS ter sido realizado com sucesso e com o
problema da permutao j resolvido. O mnimo do padro de diretividade da fonte
1 representa o DOA da fonte 2, pois
1
((2)) na expresso (4.18) deve ser nulo e,
de forma similar, o mnimo do padro de diretividade da fonte 2 representa o DOA
da fonte 1. A simulao foi feita num ambiente reverberante, ento o modelo de
campo distante no representa com exatido o modelo da sala. Por isto, os padres
de diretividade de algumas frequncias mais baixas, ou altas demais, comeam a
sofrer com a inexatido do modelo, e ca difcil estimar os mnimos, como pode ser
visto na gura.
75
Figura 4.6: Padres de diretividade
i
de dois sinais de voz i para 3 frequncias
diferentes em um ambiente com T
60
= 130 ms. Os padres foram gerados aps o BSS
ter sido realizado com sucesso e com o problema da permutao resolvido, utilizando
a expresso (4.17) com os w
ij
(k) encontrados. Para frequncias baixas ou altas
demais, ca difcil encontrar o mnimo, pois a reverberao comea a fazer diferena
no modelo. Ambas as fontes estavam a 1 metro da montagem de microfones. O
DOA real da fonte 1 era 40
e o da fonte 2, 135
.
76
Encontrar o mnimo de uma funo no uma tarefa computacionalmente sim-
ples, e a situao piora quando h mais de duas fontes, pois, nesse caso, existem
mnimos locais. A Figura 4.7 mostra o padro de diretividade num caso deste tipo,
para uma dada frequncia. Para que a abordagem funcione neste caso, necessrio
estimar dois mnimos para cada fonte em cada raia de frequncia k. Esta gura
tambm ilustra outro problema, inerente ao modelo de campo distante. Acontece
que o ngulo
j
(i) em (4.12) deve estar no intervalo [0, ], e se no estiver, isto gera
uma ambiguidade, por causa da simetria do cosseno. Se o cos(
j
(i)) de duas fontes
for o mesmo, no modelo de campo distante, as fontes esto na mesma posio e pos-
suem o mesmo DOA. O modelo de campo prximo tambm possui suas limitaes,
como por exemplo, duas fontes com o mesmo TDOA
jj
(i). No modelo de campo
prximo, essas duas fontes esto na mesma posio. Porm, no caso do campo pr-
ximo, isso pode ser remediado colocando-se mais sensores, da mesmo que os TDOAs
de duas fontes 1 e 2 sejam iguais, i.e,
jj
(1) =
jj
(2), o TDOA utilizando sensores
diferentes pode ser diferente,
jj
(1) ,=
jj
(2), resolvendo-se a ambiguidade.
Figura 4.7: Padres de diretividade quando h 3 fontes presentes, o que gera mnimos
locais no padro de diretividade. O DOA real da fonte 1 135
, da fonte 2 40
e
da fonte 3 280
(80
na realidade, por causa da ambiguidade do modelo de campo

distante).
O procedimento para resolver o problema da permutao utilizando padres de
diretividade consiste em encontrar os valores de que minimizam a funo
i
(k, )
para todas as fontes i e raias de frequncia k, e compar-los para decidir se houve
permutao ou no. Primeiramente, deve-se calcular o DOA mdio para todas as
frequncias k, que deve ser bem prximo do DOA real, mesmo que em algumas
frequncias o mnimo de
i
(k, ) esteja obscuro. Um exemplo da mdia entre os
padres de diretividade de todas as frequncias mostrado na Figura 4.8, que mostra
77
o mesmo caso da Figura 4.7. Observe que os mnimos so bem prximos dos valores
de DOA reais.
Figura 4.8: Mdia dos padres de diretividade
i
(k, ) para todas as frequncias k.
O DOA real da fonte 1 135
, da fonte 2 40
e da fonte 3 280
(80
na realidade,
por causa da ambiguidade do modelo de campo distante).
Em posse do DOA mdio, pode-se decidir, em cada raia de frequncia, se houve
permutao ou no, comparando-se os valores de DOA de cada frequncia com os va-
lores reais encontrados anteriormente. Este mtodo possui algumas desvantagens
que inibiram sua utilizao, em favor do mtodo mostrado na prxima seo, que
utiliza DOA calculado de outra forma. As duas desvantagens bsicas deste modelo
so:
1. DOAs no podem ser bem estimados em algumas frequncias, principalmente
as frequncias baixas, onde a diferena de fase, causada pelo espaamento do
sensor, muito pequena
2
;
2. Calcular os padres de diretividade computacionalmente intensivo;
3. Estimar os DOAs atravs de padres de diretividade, quando h mais que duas
fontes, difcil (por causa dos mnimos locais).
A primeira desvantagem inerente ao DOA, no interessando de que forma foi
encontrado (inclusive a mostrada na Seo 4.1.2, a seguir). As outras duas ocorrem
porque estamos encontrando o DOA utilizando padres de diretividade, e a prxima
2
Em frequncias mais baixas, o comprimento de onda =
c
f
grande, por exemplo, em
f = 150Hz ele 2, 28m, o que signica que para um espaamento de sensor de 4cm, a fase s
varia de 6, 3
. Como calculamos o DOA baseado nesta diferena de fase (ver (4.11)), pequenos
erros nmericos ou de estimativa da matriz de mistura levam a valores errados de DOA.
78
abordagem corrige estes problemas. Embora essa abordagem no seja utilizada,
entend-la essencial para compreender e analisar outras abordagens.
4.1.2 Direo de Chegada (DOA)
O mtodo DOA tenta encontrar a direo de chegada das fontes, mais precisa-
mente, o ngulo
j
(i) em (4.12). As suposies so as mesmas do mtodo de padres
de diretividade, isto , considera-se um ambiente sem reverberao, os sensores es-
to montados em linha, e as fontes esto sucientemente distantes destes para que
possamos considerar que
j
(i) =
j
(i), j, j
= 1, , M, e s precisamos encontrar
o ngulo de cada fonte (i), que o mesmo para qualquer sensor.
O mtodo de padres de diretividade, como citado acima, computacionalmente
intensivo, e ca complicado se houver mais que duas fontes, pois comeam a aparecer
mnimos locais nas funes. Em [71], o autor props uma forma mais simples de
encontrar cada DOA. Ele props uma abordagem algbrica, que por no envolver
algoritmos de minimizao, muito mais rpida. O DOA encontrado atravs da
Equao (4.11), que pode ser simplicada pelas condies citadas acima:
h
ji
(k)
h
j
i
(k)
= exp( 2f
k
c
1
(d
j
d
j
) cos(
k
(i)))
arg
_
h
ji
(k)
h
j
i
(k)
_
= 2f
k
c
1
(d
j
d
j
) cos(
k
(i))
cos(
k
(i)) =
arg
_
h
ji
(k)
h
j
i
(k)
_
2f
k
c
1
(d
j
d
j
)
De (4.8):
k
(i) = arccos
_
_
_
_
_
_
arg
_
(a
i
(k))
j
(a
i
(k))
j
_
2f
k
c
1
(d
j
d
j
)
_
_
_
_
_
_
(4.19)
onde o operador arg(c) retorna a fase de um nmero complexo c, e o sub-ndice k
adicionado ao ngulo no signica que o ngulo muda com a frequncia. Teorica-
mente, o ngulo
k
(i) deve ser o mesmo para toda frequncia k. A Equao (4.19)
representa uma forma analtica de se encontrar o DOA de uma fonte, utilizando os
vetores-base a
i
. H um problema, no entanto. O valor de arccos(.) no denido
para valores fora do intervalo [1, 1], ento, se o termo dentro de arccos(.) em (4.19)
estiver fora deste intervalo, o DOA no pode ser encontrado. Isso acontece para va-
lores pequenos de f
k
, por exemplo. Obviamente, a expresso indenida quando
f
k
= 0. Se o valor de arccos(.) for indenido, o que se faz na prtica escolher
outro valor para j
, se houver mais do que 2 sensores. Todas as combinaes [j, j
]
79
so testadas, at que se encontre um valor para o qual o DOA possa ser calculado.
Em [71], o autor demonstrou que quando o nmero de fontes igual a 2, utilizar
esta expresso obtm os mesmos resultados do que utilizar o mtodo de padres de
diretividade.
As Figuras 4.9 e 4.10 mostram os DOAs encontrados para 2 e 3 fontes, respec-
tivamente. O DOA estimado foi bem parecido com o DOA real. Nos dois casos, o
problema da permutao foi resolvido de forma supervisionada e depois foi encon-
trado o DOA de cada fonte. As linhas nos grcos so a mediana de cada fonte.
Na literatura, comum utilizar-se a mdia. Porm, como pode ser observado nos
grcos, a medida de DOA possui muitos outliers, e, portanto, a mediana se torna
uma medida muito mais robusta. Na prtica, utilizar a mediana resulta em valores
de DOA mais prximos dos valores reais, como foi observado em alguns testes. De
acordo com alguns testes, em cerca de 2% a 5% das raias de frequncia, a medida
de DOA no pode ser encontrada, pois o valor de arccos(.) em (4.19) indenido.
Figura 4.9: DOA encontrados em funo da frequncia para o caso de 2 fontes. O
DOA real da fonte 1 45
e o da fonte 2 100
.
Para utilizar a informao do DOA e resolver o problema da permutao, pri-
meiro se encontra o DOA de cada uma das fontes em cada raia de frequncia k
segundo (4.19). Depois eles so ordenados em cada raia de frequncia, e essa or-
denao determina a permutao. Utilizar simplesmente o DOA para resolver o
problema da permutao no produz resultados satisfatrios. O ideal que se uti-
lize outro mtodo em conjunto com ele, como por exemplo, a correlao espectral
(Seo 4.2).
Em [72], o autor argumenta que utilizar espaamentos de sensores maiores me-
lhora a resoluo do DOA, pois aumenta a quantidade de posies discretas onde
80
Figura 4.10: DOA encontrados em funo da frequncia para o caso de 3 fontes,
relativamente mais difcil do que o caso de 2 fontes. O DOA real da fonte 1 40
,
da fonte 2 80
e da fonte 3 135
podem haver fontes (esse nmero discreto por causa da amostragem). Contudo,
no mesmo artigo, o autor depois conclui que no obtm resultados melhores aumen-
tando muito a distncia d entre os sensores pois esbarra na condio (4.15), o que
limita as frequncias onde se pode estimar o DOA, e, portanto, polarizando demais
as estimativas. Em suma, mtodos que se utilizam de localizao de uma forma
geral no ganham muito com espaamentos grandes entre sensores.
4.1.3 Diferena entre Tempos de Chegada (TDOA)
Outra abordagem que se utiliza da localizao das fontes estima o TDOA das
fontes em cada par de sensores e depois clusteriza os resultados, utilizando um
algoritmo qualquer de clusterizao. O TDOA dado por (4.3), e utiliza o mo-
delo de campo prximo. Na Figura 4.2, ca claro que para M sensores, temos
1
2
M(M 1) combinaes diferentes entre os atrasos, e consequentemente, o mesmo
nmero de TDOAs diferentes. Entretanto, eles so redundantes, por exemplo
1i
2i
= (
3i
2i
) + (
1i
3i
), i.e,
12
(i) =
32
(i) +
13
(i) (um TDOA uma com-
binao linear de outros dois, e, portanto, no traz nenhuma informao a mais).
Para M sensores, existem apenas M 1 TDOAs nicos, portanto, vamos denir os
TDOAs como:
j
(i) =
ji
Ji
(4.20)
81
onde J um microfone de referncia. Omitiremos a dependncia de J em para
simplicar.
O TDOA encontrado diretamente da Equao (4.9):
h
ji
(k)
h
Ji
(k)
=
|q
i
p
J
|
|q
i
p
j
|
exp( 2f
k
j
(i))
arg
_
h
ji
(k)
h
Ji
(k)
_
= 2f
k
j
(i)
j
(i) =
arg
_
h
ji
(k)
h
Ji
(k)
_
2f
k
De (4.8):
j
(i) =
arg
_
(a
i
(k))
j
(a
i
(k))
J
_
2f
k
(4.21)
onde vemos a dependncia de com a frequncia. Obviamente, se f
k
for zero, no
h estimativa de TDOA. Da mesma forma, para frequncias pequenas, a estimativa
no muito estvel [4]. A faixa de frequncias para a qual o mtodo aplicvel
ainda (4.15), com uma pequena modicao:
f <
c
2d
max
(4.22)
onde d foi substitudo por d
max
, que a distncia mxima entre os sensores, pois o
TDOA calculado entre pares de sensores que no necessariamente precisam estar
adjacentes. A distncia d
max
representa, ento, o pior caso. Deste resultado, j
podemos pensar em montagens de sensores mais ecientes para este mtodo. Uma
montagem em linha certamente no eciente, pois d
max
= Md, o que limita muito
a faixa de frequncias que podemos trabalhar. Uma montagem em cluster 2D,
como desenhar um polgono em um plano com os sensores, uma soluo melhor,
pois, para M = 4, por exemplo, d
max
=
2d, e para M = 6, d
max
= (1 +
3)d, o
que aumenta muito a faixa de frequncias que podemos trabalhar. Uma soluo
ainda melhor utilizar um polgono 3D para isso. Observe tambm que indepen-
dentemente do mtodo de montagem, medida que se aumenta o nmero M, mais
dcil ca nossa estimativa dos TDOAs. Em [73], o autor prope uma alternativa
para melhorar o desempenho quando o espaamento entre sensores grande. No
nosso caso, utilizaremos espaamentos pequenos, e no avaliaremos esta proposta,
entretanto, importante cit-la.
Denamos um vetor-linha de tamanho M 1 que contenha todos os TDOAs de
82
uma determinada fonte em uma determinada frequncia:
i
(k) =
_
1
(i, k)
2
(i, k)
M1
(i, k)
_
[
i=P
k
(i)
(4.23)
onde [
i=P
k
(i)
simboliza que o problema da permutao ainda no foi resolvido.
Ora, existem N vetores c
(i) (centrides) que denem a posio real das fontes.

Se o ICA funcionou bem, nossas estimativas em cada frequncia devem formar N
clusters de vetores ao redor destes N centrides c
(i). No conhecemos a posi-

o real das fontes, porm, podemos estim-las atravs dos vetores
i
(k) encon-
trados, utilizando algum algoritmo de clusterizao. Um algoritmo de clusteriza-
o encontra os centrides de um conjunto de vetores, no nosso caso, o conjunto
i
(k), i = 1, , N , k = 1, , K
lim
, formado por N K
lim
amostras de vetores.
O nmero de raias de frequncia K
lim
ao invs de K por causa da limitao (4.22).
O nmero de centrides que o algoritmo precisa encontrar uma entrada deste al-
goritmo, e no nosso caso, N. A Figura 4.11 mostra um exemplo de estimativas de
TDOA e o resultado de sua clusterizao. Claramente se observam os 3 clusters, um
para cada fonte. Nesta situao o tempo de reverberao T
60
foi de 100 ms, mas a
clusterizao no to simples assim para salas mais reverberantes. A Figura 4.12
mostra os valores de TDOA para uma sala com T
60
= 250 ms. Observe que muito
mais difcil clusterizar os TDOAs, porque o modelo considera apenas o caminho
direto do som, e invalidado medida que a reverberao aumenta.
Figura 4.11: Resultado da clusterizao dos TDOAs de 3 fontes em uma sala com
T
60
= 100 ms utilizando K-means.
83
Figura 4.12: TDOAs de 3 fontes em uma sala com T
60
= 250 ms. A clusterizao
no produz resultados bons neste caso.
Os algoritmos de clusterizao constituem uma parte de um grupo mais geral
de tcnicas de aprendizagem no-supervisionada, e qualquer um deles pode ser uti-
lizado para encontrar os agrupamentos em torno dos TDOAs reais. Aqui optamos
por utilizar o K-means [74], que um dos mais simples mtodos de clusterizao.
Os N centrides so inicializados amostrando-se arbitrariamente N vetores do con-
junto, e depois computa-se a distncia entre estes centrides e cada um dos vetores
do conjunto. Essa distncia em geral o quadrado da distncia Euclidiana, isto
, |
i
(k) c
(i)|
2
. Cada vetor classicado de acordo com essa distncia, e en-
quadrado no grupo (cluster) i cujo centride c
(i). Aps todos os vetores serem

classicados, os centrides c
(i) so calculados novamente, atravs da mdia de to-

dos os vetores
i
(k) pertencentes quele cluster i. A seguir, o processo recomea,
calculando-se as distncias novamente para classicar mais uma vez os vetores, agora
baseando-se nos novos centrides encontrados. A clusterizao termina quando no
houver modicaes na classicao dos vetores quando os centrides forem recal-
culados.
Aps aplicar o K-means, obtemos os N centrides c
(i) de dimenso M 1,
e, similarmente, o quadrado das distncias Euclidianas entre cada estimativa
i
(k)
e o respectivo centride c
(i), que independente da frequncia. Utilizar outras

medidas que no a Euclidiana no melhoraram o desempenho do algoritmo, por isso
utilizamos a distncia Euclidiana. Agora resta resolver a permutao. Ora, aps
a convergncia do algoritmo K-means, obtemos uma matriz T formada por NK
lim
vetores linha d
ik
, cada um com comprimento N. Cada um destes vetores contm a
84
distncia do TDOA na frequncia k da fonte i estimada a cada um dos centrides
c
(i):
d
ik
=
_
|
i
(k) c
(1)|
2
|
i
(k) c
(2)|
2
|
i
(k) c
(N)|
2
_
(4.24)
Essa matriz pode ser separada em K matrizes T
k
de comprimento N N, cujas
linhas so as fontes permutadas e as colunas so as fontes reais (os centrides):
T
k
=
_
_
|
1
(k) c
(1)|
2
|
1
(k) c
(2)|
2
|
1
(k) c
(N)|
2
|
2
(k) c
(1)|
2
|
2
(k) c
(2)|
2
|
2
(k) c
(N)|
2
.
.
.
.
.
.
.
.
.
.
.
.
|
N
(k) c
(1)|
2
|
N
(k) c
(2)|
2
|
N
(k) c
(N)|
2
_
_
(4.25)
Cada elemento contm a distncia entre uma das fontes permutadas e as fontes
reais, ento agora preciso descobrir a correlao entre estas frequncias. A tabela
4.1 mostra dois exemplos, para duas frequncias diferentes, de distncias encontra-
das, no caso N = 3 e M = 3. Em [4], o autor prope uma heurstica para escolher
estas fontes. Ele primeiro escolhe a menor distncia da matriz T
k
e atribui esta li-
nha fonte real da coluna correspondente. Na Tabela 4.1 esquerda, na frequncia
922Hz, por exemplo, a distncia 0, 019 a menor, portanto, atribumos a linha 1
da respectiva raia de frequncia fonte 3. Depois, ele elimina a respectiva linha e
coluna da escolha, nesse caso, a primeira linha e terceira coluna. O prximo passo
escolher a prxima menor distncia, com as linhas e colunas que sobraram. A
prxima menor 0, 035, e, da mesma forma, a segunda linha atribuda segunda
fonte. Procede-se desta forma at que todas as permutaes tenham sido resolvidas.
Nesse primeiro caso, a matriz de permutao obtida P = 3 2 1
T
.
Tabela 4.1: Exemplo das distncias |
i
(k) c
(i)|
2
entre centrides e vetores com
estimativas dos TDOAs. Os nmeros em negrito representam os valores escolhidos
pela heurstica apresentada no texto.
c
(1) c
(2) c
(3)
1
(f
k
= 922Hz) 0, 135 0, 237 0, 019
2
(f
k
= 922Hz) 0, 620 0, 035 0, 119
3
(f
k
= 922Hz) 0, 063 0, 760 0, 397
c
(1) c
(2) c
(3)
1
(f
k
= 445Hz) 0, 218 0, 014 0, 035
2
(f
k
= 445Hz) 0, 013 0, 312 0, 123
3
(f
k
= 445Hz) 1, 005 0, 249 0, 516
Nem sempre se obtm o melhor resultado com esta heurstica. Um exemplo est
na mesma Tabela 4.1 direita, para a raia de frequncia de 445Hz. O resultado
obtido est em negrito, ou seja, a matriz de permutao P = 2 1 3
T
. O
problema que o valor da soma das distncias neste caso 0, 543, o qual no a
soluo tima. A melhor soluo seria P = 3 1 2
T
, pois a soma das distncias
85
0, 297.
Uma forma alternativa de realizar a clusterizao utilizar um algoritmo simi-
lar ao K-means, mas modicado para atender s nossas necessidades. Embora o
K-means encontre o nmero de clusters certo, ele no considera uma restrio im-
portante: que o nmero de TDOAs por cluster deve ser igual, e que em cada raia de
frequncia, s pode haver uma amostra de TDOA para cada cluster. Como ele no
leva isso em considerao, acaba encontrando clusters errados algumas vezes, como
vimos quando realizamos alguns testes. Apresentaremos ento, uma clusterizao
que considere as restries do nosso problema especco.
Primeiramente vamos denir os centrides c
(i) como:
c
(i) =
1
K
lim
K
lim
k=1
d
ik
[
i=P
k
(i)
(4.26)
onde, novamente, o [
i=P
k
(i)
indica que a permutao no foi resolvida, e, portanto, o
centride no est corretamente posicionado por causa das permutaes. O primeiro
passo calcular os N centrides iniciais segundo (4.26). Depois, em cada raia
de frequncia k, calculamos o respectivo vetor d
ik
, vrias vezes, uma para cada
permutao possvel. Se N = 3, por exemplo, h 3 permutaes possveis, ento
calculamos 3 vezes cada vetor, e depois escolhemos a permutao que obteve a
menor soma. Ou seja:
P
k
= argmin
P
k
[d
ik
[
1
P
k
(4.27)
onde argmin
P
f simboliza que estamos encontrando a funo f para todos os valores
de P e depois escolhendo o P para o qual o valor de f foi o menor possvel. A
matriz P a matriz de permutao. O operador [.[
1
simboliza a norma-1 de um
vetor, que simplesmente a soma dos mdulos dos elementos deste. Aps realizar
a operao (4.27) para cada raia de frequncia, calculamos novamente os centrides
c
(i), segundo (4.26), de acordo com as novas permutaes, e repetimos esses dois
passos at a convergncia, que acontece quando no houver mais mudanas nas
matrizes de permutao P
k
. Para referncias futuras, chamaremos este algoritmo
de TDOAclust, e o mtodo que utiliza o K-means e a heurstica de TDOAKmeans.
Comparamos os dois e obtemos os resultados mostrados na Tabela 4.2, onde ca
clara a vantagem do TDOAclust sobre o TDOAKmeans.
4.2 Correlao Espectral
Uma outra abordagem para tentar resolver o problema da permutao supor
que um mesmo sinal de voz possui alguma correlao entre raias de frequncia. A
Figura 4.13 mostra um espectrograma de um sinal de voz com durao de 6 segundos.
86
Tabela 4.2: Comparao entre os mtodos de otimizao TDOAclust e
TDOAKmeans, para 3 fontes e 3 misturas, com tempo de reverberao 150 ms.
Foram utilizados K = 4096 e L = 2048. O resultado a mdia de 10 realizaes.
Algoritmo SIR mdio SDR mdio SAR mdio
TDOAclust 19, 9 dB 14, 5 dB 17, 1 dB
TDOAKmeans 11, 8 dB 8, 9 dB 11, 0 dB
Um espectrograma uma representao espectral (no domnio da frequncia) de um
sinal que mostra como a densidade de potncia deste varia com o tempo. O eixo das
abcissas mostra o tempo, e o eixo das ordenadas mostra a frequncia, e a cor mostra
a densidade de potncia (quanto mais claro, maior a densidade de potncia). Ele
obtido encontrando-se a densidade de potncia de cada elemento de X(m) (que
um vetor de nmeros complexos), obtido por (3.2), e formando uma coluna do
espectrograma. Fazendo-se isso para todo m, encontramos sua variao ao longo do
tempo. Obviamente, uma STFT de um espectrograma deve ter J = L, i.e, o salto
tem o mesmo comprimento que a janela da STFT, para que no haja sobreposio, e
a gura do espectrograma seja consistente. A informao da fase do sinal (o ngulo
dos sinais complexos) perdida no espectrograma, mas a fase em sinais de udio no
muito importante, e portanto um espectrograma de fase no contm nenhuma
informao importante.
Percebe-se nesta gura, que existem similaridades entre frequncias, mesmo entre
frequncias distantes, e esta informao pode ser utilizada para tentar corrigir o
problema da permutao. As similaridades ntidas so entre frequncias adjacentes e
entre harmnicos. Utilizou-se a densidade de potncia em cada frequncia, calculada
em cada frame como X(m) X
(m), onde o produto Hadamard, assim como

explicado na Seo 2.4. Nada impede de se utilizarem outras medidas, como o
mdulo de cada elemento de X(m), como veremos a seguir.
Em [58], o autor utiliza a modulao de amplitude (AM) dos sinais na frequncia,
que nada mais do que o envelope de cada raia da frequncia, i.e, cada linha do
espectrograma mostrado na Figura 4.13. Neste caso, o envelope a magnitude dos
sinais complexos no domnio da frequncia. O autor chama este envelope de envelope
AM porque cada raia pode ser considerada como uma frequncia portadora e a
variao de amplitude em cima desta frequncia o envelope AM, assim como em
transmisso AM. Aqui, chamaremos simplesmente de envelope, assim como em [75,
76]. Para comparao, mostramos o envelope de algumas frequncias especcas na
Figura 4.14. notria a grande similaridade entre frequncias adjacentes (429, 7 Hz
e 437, 5 Hz), e uma similaridade mais sutil entre frequncias harmnicas (632, 8 Hz
e 1266 Hz).
87
Figura 4.13: Espectrograma de um sinal de voz de 6 segundos, em comparao
com sua representao no domnio do tempo. O espectrograma est numa escala
logartmica e foi escalado, para melhor visualizao. Foram utilizados K = 1024,
L = 512 e J = 128 com uma janela de Hanning.
88
Figura 4.14: Envelope de um sinal de voz de 6 segundos, nas frequncias adjacen-
tes 429, 7 Hz e 437, 5 Hz, na frequncia 632, 8 Hz e sua harmnica 1266Hz. Foram
utilizados K = 1024, L = 512 e J = 128 com uma janela de Hanning.
O primeiro passo decidir qual a medida de correlao que ser utilizada. No
artigo [58], citado anteriormente, o autor utiliza a covarincia entre os envelopes
das duas raias de frequncia, segundo a expresso (2.34), considerando que cada
uma das raias uma varivel aleatria, e cada um dos instantes m representa uma
observao, e na prtica, calculada por (2.35). O problema de utilizar a covarincia
que ela dependente da potncia dos sinais, o que pode gerar resultados falsos.
Por exemplo, suponhamos o caso de duas fontes s
1
e s
2
, onde
2
s
1

2
s
2
. Ora,
se a varincia de s
1
muito maior, ento, cov
s
1
s
2
> cov
s
2
s
2
, e isto exatamente
o contrrio do que deveria ocorrer. Utilizando covarincia, corremos o risco de
escolher erradamente as permutaes. Claro que normalizar os sinais em cada raia de
frequncia resolve este problema, mas mais robusto utilizar a medida de correlao,
que no adiciona praticamente nenhum custo computacional, segundo a expresso
(2.38). Por denio, como dito na Seo 2.4, este valor varia entre -1 e 1, sendo
que 1 signica que a similaridade entre os sinais mxima. Esta medida utilizada
em [55, 59, 71, 77, 78].
A Figura 4.15 mostra um grco da correlao entre pares de frequncia de um
mesmo locutor. Obviamente, a correlao mxima (1) na diagonal principal da
gura, que corresponde mesma frequncia. Mas ao redor da diagonal principal, h
uma faixa onde a correlao ainda alta, como tnhamos observado anteriormente.
A matriz (4.28) apresenta alguns valores retirados da Figura 4.15, onde a diagonal
89
principal est em negrito. Como foram utilizados K = 4096 pontos na FFT, a reso-
luo de frequncia
min
f =
f
s
K
= 1, 95 Hz. Para uma diferena de f = 6 Hz,
a correlao ainda ca acima de 0, 5. Tambm pode-se observar na gura algumas
retas de correlao mais alta com inclinao diferente da diagonal principal. Es-
tas retas representam as correlaes harmnicas, inerentes a um sinal de voz, que
tambm podem ser utilizadas para diferenciar locutores.
Figura 4.15: Correlao entre frequncias de um mesmo locutor. A correlao foi
escalada de forma que o branco correspondesse a 1 e o preto a 0.4. Foram utilizados
K = 4096, L = 2048 e J = 512 com uma janela de Hanning.
_
_
1, 0000 0, 9656 0, 8704 0, 6742 0, 4376 0, 3186 0, 2176
0, 9656 1, 0000 0, 9536 0, 7825 0, 5527 0, 4269 0, 3083
0, 8704 0, 9536 1, 0000 0, 9230 0, 7401 0, 6168 0, 4819
0, 6742 0, 7825 0, 9230 1, 0000 0, 9343 0, 8273 0, 6758
0, 4376 0, 5527 0, 7401 0, 9343 1, 0000 0, 9461 0, 8126
0, 3186 0, 4269 0, 6168 0, 8273 0, 9461 1, 0000 0, 9499
0, 2176 0, 3083 0, 4819 0, 6758 0, 8126 0, 9499 1, 0000
_
_
(4.28)
Para comparao, na Figura 4.16 temos a correlao entre pares de frequncia
de locutores diferentes. Agora, diferente do caso anterior, a correlao baixa na
maioria das frequncias, e no se v uma diagonal principal ou retas com diferentes
inclinaes como visto na Figura 4.15. A matriz (4.29) apresenta alguns valores
90
retirados da Figura 4.15, onde a diagonal principal est em negrito. Os valores so,
na sua maioria, negativos ou prximos de zero, o que qualica a correlao entre
frequncias como uma forma de diferenciar locutores diferentes.
Figura 4.16: Correlao entre frequncias de locutores diferentes. A correlao foi
escalada de forma que o branco correspondesse a 1 e o preto a 0.4. Foram utilizados
K = 4096, L = 2048 e J = 512 com uma janela de Hanning.
_
_
0, 2421 0, 2366 0, 1967 0, 1752 0, 1897 0, 1834 0, 1572
0, 2530 0, 2432 0, 2013 0, 1792 0, 1917 0, 1814 0, 1540
0, 2829 0, 2737 0, 2327 0, 2070 0, 2131 0, 1988 0, 1707
0, 2789 0, 2718 0, 2404 0, 2202 0, 2234 0, 2093 0, 1853
0, 2401 0, 2319 0, 2119 0, 2081 0, 2182 0, 2064 0, 1882
0, 2361 0, 2233 0, 1998 0, 2035 0, 2255 0, 2162 0, 1978
0, 1916 0, 1731 0, 1444 0, 1495 0, 1772 0, 1684 0, 1513
_
_
(4.29)
No obrigatrio utilizar envelopes de frequncia com a magnitude dos sinais.
De uma forma geral, a correlao pode ser aplicada a um envelope qualquer dos
sinais, ou seja:
r(
x
,
y
) =
cov
y
(4.30)
91
onde, no caso da magnitude:
y
i
(m) = [y
i
(m)[ (4.31)
Em [79], o autor prope uma medida diferente, a qual ele chama de powRatio,
utilizada ao invs da magnitude, e dada por (4.32), que aplicada a cada raia
de frequncia k. Esta medida, por denio, est contida no intervalo [0, 1], e
prxima de 1 se o i-simo termo a
i
y
i
(m) for dominante em relao aos outros termos
a
i
y
i
(m), i
,= i, e zero onde os outros termos so dominantes.
y
i
(m) = powRatio
i
(m) =
|a
i
y
i
(m)|
2
N
i
=1
|a
i
y
i
(m)|
2
(4.32)
importante notar que, na expresso (4.32) o vetor a
i
simboliza a resposta
de frequncia do caminho entre a fonte i e todos os sensores j, onde cada elemento
corresponde a um sensor. Encontrar |a
i
y
i
(m)|
2
, portanto, signica encontrar a soma
das energias da fonte y
i
como vista em cada um dos M sensores. Sua vantagem em
relao medida simples de magnitude que ela aproveita melhor a esparsidade
dos sinais, o que comum em sinais de voz misturados. Em geral, a componente
de um sinal de voz em determinado instante de tempo muito maior do que a dos
outros sinais, como pode ser visto na Figura 4.17, que mostra o envelope em (4.32)
aplicado a duas fontes j separadas, onde as permutaes foram resolvidas de um
modo supervisionado (ver Apndice C). Duas importantes caractersticas podem ser
vericadas nesta gura. A primeira, que a medida limitada, e os sinais ativos so
representados como valores prximos de 1, mesmo que a potncia deles seja baixa.
Um sinal ativo o sinal de voz do locutor que est falando no instante considerado.
A segunda, que os valores das fontes so exclusivos, i.e, se powRatio
1
(m) prximo
de 1, ento com certeza powRatio
2
(m) prximo de 0, para o caso de duas fontes.
Isto pode ser facilmente estendido para N fontes.
Para vericar se esta medida pode melhorar o desempenho do algoritmo, plo-
tamos, na Figura 4.18, a correlao entre pares de frequncia do mesmo locutor, e
na Figura 4.19, a correlao entre pares de frequncia de locutores diferentes, utili-
zando o envelope powRatio. Comparando estas guras com as Figuras 4.15 e 4.16,
notvel a diferena que, para uma mesma fonte, a correlao entre frequncias
maior de uma forma geral e, entre fontes diferentes, a correlao bem menor.
Uma observao curiosa que, utilizando o powRatio no se vem mais as retas
que correspondem s correlaes harmnicas, como utilizando a magnitude. Isto
signica que, dependendo do envelope utilizado, a gama de frequncias nas quais a
correlao uma boa medida de similaridade muda.
Aps escolher qual medida de correlao ser utilizada, resta escolher o algoritmo
92
Figura 4.17: Espectro de frequncia do envelope powRatio de duas fontes, aps a
separao.
93
Figura 4.18: Correlao entre envelopes powRatio de frequncias de um mesmo
locutor. A correlao foi escalada de forma que o branco correspondesse a 1 e o
preto a 0.4. Foram utilizados K = 4096, L = 2048 e J = 512 com uma janela de
Hanning.
94
Figura 4.19: Correlao entre entre envelopes powRatio de frequncias de locutores
diferentes. A correlao foi escalada de forma que o branco correspondesse a 1 e o
preto a 0.4. Foram utilizados K = 4096, L = 2048 e J = 512 com uma janela de
Hanning.
95
de otimizao. A primeira abordagem consiste em realizar uma otimizao global
baseada nas correlaes. Isto signica calcular um envelope global para cada fonte e
comparar a fonte permutada de cada frequncia com esse envelope global para decidir
se h permutao na frequncia especca ou no. Utilizaremos um algoritmo de
clusterizao similar ao utilizado na Seo 4.1.3, com a diferena que as correlaes
sero a medida de distncia. Primeiro obtemos N envelopes globais (centrides) de
todas as frequncias de uma determinada fonte:
c
i
=
1
K
K
k=1
r(
ik
) (4.33)
onde c
i
um vetor linha com todas as N
fsamp
amostras do centride, e
ik
um
vetor linha com todas as N
fsamp
amostras do envelope da fonte i na frequncia k.
Depois, escolhe-se a permutao em cada frequncia atravs da correlao entre o
envelope dessa frequncia de determinada fonte i
P
(onde o problema da permutao
ainda no foi resolvido) e o envelope global, encontrado anteriormente. Isto ,
P
k
= argmax
P
k
_
N
i=1
r(
P(i)k
, c
i
)
_
(4.34)
onde argmax
P
f simboliza que estamos encontrando a funo f para todos os
valores de P e depois escolhendo o P para o qual o valor de f foi o maior possvel, e
P(i) simboliza a fonte i permutada pela matriz P. Em cada frequncia, o envelope
que obtiver maior correlao com um centride de determinada fonte i deve pertencer
a esta fonte i. Depois de decididas as permutaes P
k
em cada raia de frequncia,
o envelope global em (4.33) calculado novamente, e estas duas operaes so
repetidas at a convergncia. Esse algoritmo ser chamado de GlobalCorr.
Outro algoritmo de otimizao que pode ser utilizado consiste em maximizar a
soma das correlaes entre um grupo selecionado de frequncias, ou seja:
P
k
= argmax
P
k
_
_
_
G(f)
N
i=1
r(
P(i)k
,
P(i)k
)
_
_
_
(4.35)
onde o grupo ((f) deve consistir de frequncias que tenham uma correlao alta
entre si, para uma mesma fonte. Como vimos anteriormente, as frequncias adja-
centes e harmnicas possuem uma boa correlao entre si. Se chamarmos o grupo
de frequncias adjacentes /(f) e o grupo de frequncias harmnicas ](f), ento
((f) = /(f) ](f). Utilizamos:
/(f) = f 3f, f 2f, f f, f + f, f + 2f, f + 3f (4.36)
](f) = ceil(f/2 f), ceil(f/2), ceil(f/2 + f), 2f f, 2f, 2f + f (4.37)
96
onde f =
f
s
K
. Os valores acima esto em Hertz, e necessrio index-los, referenci-
ando cada frequncia f a um ndice k. A maximizao de (4.35) acontece com uma
frequncia k de cada vez. Torna-se importante, ento, denir a ordem em que as
frequncias sero atualizadas. Deniremos aqui trs formas diferentes de atualizar
as frequncias.
A primeira atualiza comeando
3
com k = 0 at k = K 1. Alinha-se a frequn-
cia k e depois a k + 1, notando-se que a alterao da permutao P
k
altera a soma
em (4.35) para a raia de frequncia k + 1. Aps varrer todas as frequncias, inicia-se
a segunda iterao, e todas as frequncias so varridas novamente. Continua-se at
que no haja alterao em nenhuma P
k
, k = 0, , K 1 para uma dada iterao
em relao a iterao anterior. Esse algoritmo ser chamado de LocalCorr.
A segunda forma introduz uma nova equao. Adicionalmente a encontrar a
matriz P
k
, tambm encontramos o r
max
(k) para cada frequncia, obtido da seguinte
forma:
r
max
(k) =

k
G(f)
N
i=1
r(
P(i)k
,
P(i)k
)[
P=P
k
(4.38)
aps permutar as fontes i de acordo com a matriz P
k
encontrada. Primeiro encon-
tramos a matriz P
k
para todas as frequncias sem, no entanto, alterar nenhuma
permutao, como feito no caso anterior. Ou seja, alinha-se a frequncia k e depois
a k + 1, sem considerar a permutao P
k
encontrada. Depois comparamos os va-
lores de r
max
(k) e alinhamos somente a permutao da frequncia k onde r
max
(k)
foi mximo. Nesta frequncia a permutao classicada como convel, e a ma-
ximizao (4.35) no realizada nesta frequncia. Na segunda iterao, portanto,
encontramos a matriz P
k
para as K 1 frequncias restantes. O processo se repete
at que todas as frequncias sejam classicadas como conveis. Representando ma-
tematicamente, existe um conjunto T
conf
que contm todas as raias de frequncia k
consideradas como conveis. Esse algoritmo ser chamado de ConjCorr.
A terceira forma muito parecida com a segunda (ConjCorr), com a diferena
que dividido em trs etapas. A primeira etapa considera ((f) = /(f), i.e, so-
mente a correlao entre frequncias adjacentes calculada, e estabelece um limite
th
adj
para r
max
(k). Se o maior valor de r
max
(k) encontrado em uma determinada
iterao for menor que esse limite, ento a primeira etapa termina. Em geral grande
parte das permutaes j estaro alinhadas (claro, com uma boa escolha de th
adj
), e
foram classicadas como conveis, e partimos para a segunda etapa. Como agora
((f) = /(f), ento somente a correlao entre frequncias harmnicas calculada,
e outro limite th
harm
estabelecido. Esta segunda etapa mais parecida com o al-
3
Na verdade, mesmo que a permutao em k = 0 no esteja alinhada, isso pouco altera os
resultados, porque modicar a componente DC de um sinal de udio no tm inuncia nem sobre
a forma como ouvimos nem sobre o desempenho de algoritmos de reconhecimento de fala, por
exemplo. Ento, pode-se comear de k = 1 e deixar a componente DC desalinhada.
97
goritmo LocalCorr. As matrizes P
k
so encontradas para todas as frequncias ainda
no conveis, mas somente nas frequncias onde r
max
(k) > th
harm
as permutaes
so alinhadas, e estas frequncias so classicadas como conveis. Aps varrer to-
das as frequncias somente uma vez, segue-se a ltima etapa. A terceira e ltima
etapa quase idntica primeira, com a nica diferena de que th
adj
= 0, ou seja,
no h limite estabelecido. Este algoritmo ser chamado de HarmCorr. A justica-
tiva para o HarmCorr, segundo [71], que utilizar as frequncias harmnicas para
calcular as correlaes s funciona se a maioria das permutaes j estiver resolvida.
A Tabela 4.3 mostra os resultados de testes realizados com diferentes mtodos
de correlao para alinhamento das permutaes, e com o mtodo supervisionado.
Nota-se que os mtodos ConjCorr, HarmCorr e LocalCorr no apresentam resulta-
dos muito bons. Isso acontece por causa da falta de robustez dos algoritmos que
utilizam correlao. Uma permutao desalinhada em uma frequncia acaba impac-
tando vrias outras frequncias. Por este motivo, normalmente se utiliza o DOA
antes da correlao, como ser visto na Seo 4.3. Outra forma de pr-alinhar as
permutaes para evitar o problema citado utilizar o GlobalCorr, que alinha todas
as frequncias de uma vez s. Nota-se na tabela que este mtodo obteve resultados
satisfatrios sem precisar do DOA. Pode-se tambm integrar os mtodos GlobalCorr
e LocalCorr. Inicialmente as permutaes so pr-alinhadas com o algoritmo Glo-
balCorr, obtendo-se uma matriz de permutao para cada frequncia. Em seguida,
utilizando esta matriz obtida como matriz inicial, aplica-se o LocalCorr, e percebe-
se uma melhora signicativa. Na verdade, o desempenho foi similar ao do mtodo
supervisionado, o que impressionante. Com relao ao tipo de envelope utilizado,
nota-se a superioridade do envelope powRatio em relao ao mdulo, como j foi
discutido anteriormente.
primeira vista, pode-se pensar que outros mtodos de correlao, alm do Lo-
calCorr, podem tambm ser utilizados aps o GlobalCorr, mas isto no verdade.
Os mtodos ConjCorr e HarmCorr so diferentes do LocalCorr, no sentido de que
a cada iterao o LocalCorr realinha todas as permutaes de todas as frequn-
cias, enquanto os dois primeiros s realinham uma permutao de uma frequncia
a cada iterao, que no alinhada novamente depois (a frequncia passa a per-
tencer ao conjunto T
conf
). Ou seja, para utilizar o pr-alinhamento do GlobalCorr
de forma eciente nestes dois mtodos, algumas frequncias devem ser classica-
das como conveis, e colocadas no conjunto T
conf
, e estas frequncias no sero
mais realinhadas. Podemos classicar estas frequncias baseado na correlao entre
elas e o respectivo centride, porm os resultados obtidos no foram encorajadores.
Analisando do ponto de vista de otimizao, se considerarmos que cada um dos
mtodos consiste na minimizao de uma funo objetivo cujos parmetros so as
matrizes de permutao em cada frequncia, o mtodo LocalCorr converge para o
98
Tabela 4.3: Comparao dos diferentes mtodos de correlao para alinhamento das
permutaes.
60
= 200ms
Janela win
a
- Retangular
Mtodo utilizado Envelope SIR mdio
Supervisionado N.A. 24, 1 dB
ConjCorr Mdulo 3, 8 dB
ConjCorr powRatio 3, 7 dB
HarmCorr Mdulo 8, 0 dB
HarmCorr powRatio 8, 5 dB
GlobalCorr Mdulo 12, 2 dB
GlobalCorr powRatio 16, 0 dB
LocalCorr Mdulo 4, 1 dB
LocalCorr powRatio 3, 6 dB
GlobalCorr + LocalCorr Mdulo 15, 8 dB
GlobalCorr + LocalCorr powRatio 24, 0 dB
mnimo, porm, se no for bem inicializado, ele acaba convergindo para um mnimo
local. J os mtodos ConjCorr e HarmCorr, por causa da heurstica inerente, no
convergem da forma usual, como um algoritmo que utiliza gradiente, que atualiza
gradativamente seus parmetros na direo do mnimo mais prximo do ponto atual.
Eles provavelmente saltam na funo objetivo, no necessariamente na direo do
mnimo mais prximo (talvez na direo do mnimo global, mas isso carece de uma
anlise mais profunda), assim como alguns mtodos estatsticos. Isso permite que
eles tenham um desempenho melhor, mas no conseguem convergir para o mnimo
global, independentemente da inicializao. Esta foi apenas uma anlise supercial
para esclarecer a diferena entre os mtodos; no nosso foco realizar uma an-
lise matemtica mais profunda sobre a convergncia destes algoritmos, o que bem
complexo, por sinal, por causa da no-linearidade dos parmetros da funo objetivo
(as matrizes de permutao, que alteram a ordem das fontes), e da diculdade de
se analisar heursticas.
99
4.3 Unindo Abordagens
possvel conjugar os mtodos mostrados anteriormente, unindo suas vantagens.
Os algoritmos baseados em localizao, em geral, no so muito precisos, principal-
mente em ambientes reverberantes. Em compensao, so mtodos robustos, no
sentido de que, se errarmos o valor do DOA para uma frequncia, isso no afetar
frequncias adjacentes. No caso do TDOA, onde calculamos os centrides, um va-
lor calculado errado pode alterar o valor dos centrides, principalmente quando se
utiliza a clusterizao K-means. Entretanto, quando se utiliza a clusterizao TDO-
Aclust, se o nmero de valores errados no for muito grande, a classicao por
frequncia no ser muito alterada.
Os algoritmos baseados em correlao entre frequncias so algoritmos mais pre-
cisos, se as frequncias forem bem escolhidas. Em compensao, uma escolha errada
de permutao em uma frequncia afeta todas as frequncias adjacentes. So al-
goritmos pouco robustos, pois um alinhamento errado em uma frequncia causa
desalinhamentos consecutivos. Em [71], o autor prope uma forma de unir as duas
abordagens.
A idia primeiro utilizar o DOA para alinhar as permutaes, porm, deve-se
utilizar um critrio para decidir se a permutao decidida pelo algoritmo convel
ou no. Aps decidir quais permutaes alinhadas pelo DOA so conveis, as
restantes so alinhadas por outro algoritmo. O autor indica o HarmCorr, explicado
na Seo 4.2, mas outros podem ser utilizados. H trs critrios utilizados para
decidir se a permutao decidida pelo algoritmo DOA convel ou no. O DOA
de uma determinada frequncia no convel se:
1. No foi possvel encontr-lo segundo a expresso (4.19) para nenhuma combi-
nao [j, j
];
2. Seu valor muito diferente da mdia (ou mediana
4
) dos DOA encontrados
para determinada fonte, i.e, [
k
(i)

(i)[ > th
DOA
(i);
3. Os ngulos
k
(i
,= i) encontrados no so os mnimos do pa-

dro de diretividade da fonte i, ou seja, para toda fonte i,
[
i
(k,
k
(i))[
2
<

i
=i
[
i
(k,
k
(i
))[
2
. Na prtica, utilizamos a condio
N
i=1
_
10 log
10
([
i
(k,
k
(i))[
2
) 10 log
10
(
=i
[
i
(k,
k
(i
))[
2
)
_
< th
.
Se o DOA no se encaixar em nenhuma destas restries, ele considerado
como convel e a permutao alinhada de acordo com a ordenao do DOA.
As frequncias no conveis so alinhadas, ento, utilizando algum algoritmo de
correlao citado anteriormente.
4
Nos nossos testes, optamos por utilizar a mediana, por razes explicadas na Seo 4.1.2.
100
4.4 Simulaes
Nesta seo realizaremos alguns testes nais, comparando todos os mtodos para
alinhamento das permutaes. Resumimos aqui todos os algoritmos testados para
alinhamento das permutaes:
DOA + GlobalCorr
DOA + GlobalCorr + LocalCorr
DOA + ConjCorr
DOA + HarmCorr
TDOAclust
GlobalCorr + LocalCorr
ConjCorr
Para os limites, foram utilizados os seguintes valores:
th
DOA
(i) = 1, 5 s
(i)
(4.39)
th
= 0 dB (4.40)
th
adj
= 30%max(r
max
(f))[
G(f)=A(f)
= 0, 3 6 N (4.41)
th
harm
= 10%max(r
max
(f))[
G(f)=H(f)
= 0, 1 6 N (4.42)
onde max(r
max
(f)) so os valores mximos possveis para (4.38), considerando os
conjuntos /(f) e ](f). Estes valores podem ser facilmente calculados, pois sabemos
que o valor mximo da correlao r 1, e sabemos o nmero de frequncias de cada
conjunto. O desvio padro s
(i)
calculado variando-se a frequncia k.
Primeiramente vamos conrmar os resultados da Seo 3.2 com relao janela
utilizada na STFT. A Tabela 4.4 mostra a comparao entre utilizar a janela de Han-
ning e utilizar a janela retangular. Podemos concluir que os mtodos de alinhamento
de permutao funcionam melhor com a janela retangular (resoluo de frequncia
maior). Entretanto, a separao em si no tima utilizando a janela retangular
(no mtodo supervisionado, a janela de Hanning teve um melhor desempenho).
Os mtodos de alinhamento da permutao foram realizados para vrios tempos
de reverberao diferentes, e as condies de teste esto na Tabela 4.5. As pr-
ximas guras mostram a variao da SIR de vrios mtodos em funo do tempo
de reverberao T
60
da sala. Quando T
60
= 0 ms, a sala anecica, ou seja, no
h reverberao (embora ainda haja o atraso e atenuao do sinal). A Figura 4.20
compara os mtodos DOA + ConjCorr, DOA + HarmCorr, e DOA + GlobalCorr +
101
Tabela 4.4: Comparao da SIR utilizando a janela de Hanning ou a retangular na
transformao para o domnio da frequncia. O mtodo de resolver a permutao
foi variado. Foi utilizado um salto J =
L
4
para ambas as janelas.
60
= 150 ms
Mtodo para resolver a permutao Hanning Retangular
Supervisionado 28, 2 dB 25, 7 dB
TDOAclust 19, 9 dB 20, 4 dB
DOA + ConjCorr 16, 8 dB 18, 5 dB
DOA + HarmCorr 16, 6 dB 16, 2 dB
DOA + GlobalCorr 16, 2 dB 17, 6 dB
DOA + GlobalCorr + LocalCorr 16, 9 dB 18, 5 dB
ConjCorr 3, 2 dB 4, 0 dB
GlobalCorr + LocalCorr 20, 6 dB 24, 5 dB
LocalCorr, todos baseados em localizao seguida de correlao (o mtodo robusto
e preciso). Percebe-se que o desempenho deles similar, com uma ligeira vantagem
do mtodo DOA + GlobalCorr + LocalCorr, principalmente quando o tempo de
reverberao maior. Em tempos de reverberao pequenos, o DOA + ConjCorr
apresenta um desempenho melhor. Os resultados de utilizar somente a correlao,
como era de se esperar, so muito ruins, e no variam muito com o tempo de rever-
berao. Eles so mostrados na Figura 4.21. A Figura 4.22 compara o mtodo DOA
+ GlobalCorr + LocalCorr quando utilizado um arranjo em cluster e um arranjo
em linha. Como esperado, o arranjo em linha obtm um desempenho melhor, pois
a teoria do DOA foi formulada tendo como suposio um arranjo deste tipo. Final-
mente, a Figura 4.23 compara os mtodos TDOA (o melhor dentre os mtodos de
localizao das fontes), GlobalCorr + LocalCorr (melhor dentre os mtodos de cor-
relao espectral) e DOA + GlobalCorr + LocalCorr (o melhor dentre os mtodos
conjugados).
Observando o desempenho do mtodo TDOA, ca clara a limitao em mto-
dos que utilizam localizao das fontes em ambientes muito reverberantes. J o
desempenho de mtodos baseados em correlao espectral no varia muito com o
aumento da reverberao. Com isso, em ambientes pouco reverberantes, o TDOA
102
Tabela 4.5: Condies dos testes dos mtodos de alinhamento de permutao.
60
= varivel
Arranjo de microfones - Figuras A.2, A.3 e A.3 com o arranjo
de microfones modicado para um arranjo em linha
Janela win
a
- Retangular
teve o melhor desempenho dentre todos, mas em ambientes mais reverberantes, ele
no produz resultados conveis, e o mtodo GlobalCorr + LocalCorr superou to-
dos os outros. O mtodo DOA + GlobalCorr + LocalCorr, quando a reverberao
pequena, apresentou resultados piores do que o TDOA, mas, medida que a rever-
berao aumenta, a parte precisa (correlao GlobalCorr + LocalCorr) do mtodo
comea a sobressair, e para tempos de reverberao altos, ele apresenta resultados
melhores do que o TDOA. Nota-se que, medida que aumenta a reverberao, o
resultado timo (caso supervisionado) tambm piora, porque os ltros que represen-
tam o caminho entre a fonte e os sensores cam maiores.
Figura 4.20: Comparao entre os mtodos DOA + ConjCorr, DOA + HarmCorr,
e DOA + GlobalCorr + LocalCorr, utilizando a disposio da Figura A.2.
103
Figura 4.21: Desempenho do mtodo ConjCorr, utilizando a disposio da Figura
A.3.
Figura 4.22: Desempenho do mtodo DOA + GlobalCorr + LocalCorr, utilizando
a disposio da Figura A.3, com o arranjo em cluster e com o arranjo (modicado)
em linha.
104
Figura 4.23: Comparao entre os mtodos TDOA, DOA + GlobalCorr + Local-
Corr, e GlobalCorr + LocalCorr, utilizando o arranjo da Figura A.3 (no caso do
DOA + GlobalCorr + LocalCorr, o arranjo de microfones foi modicado para um
arranjo em linha).
105
Captulo 5
Concluses
Essa dissertao abordou o tema de separao de fontes cegas no domnio da
frequncia em ambientes reverberantes. As conguraes das misturas pertencem,
obviamente, ao caso convolutivo, e os testes foram feitos em uma simulao de sala
reverberante.
No Captulo 2, foram contemplados os casos instantneo e convolutivo de BSS.
Os problemas de ambiguidade, inerentes BSS, foram apresentados, e viu-se que
no h como recuperar a ordem das fontes nem sua amplitude, a no ser que se
utilize alguma informao a priori sobre as fontes. Ainda neste captulo, algumas
propriedade estatsticas importantes foram estendidas para trabalhar com nmeros
complexos, o que normalmente no encontrado na literatura. Foi visto que, para
estatsticas de ordem maior de que 1, como varincia e obliquidade, h mais de
uma forma de calcul-las, mais especicamente, h ceil(
p+1
2
) formas de se calcular o
momento central de ordem p. Em nossas aplicaes, a medida mais consistente de se
calcular o momento utilizar o momento central absoluto de ordem p, que utilizamos
para estatsticas de ordem maior do que 1. Tambm mostramos os clculos amostrais
destas estatsticas, que um conceito indispensvel em aplicaes prticas. Existem
medidas amostrais polarizadas ou no-polarizadas, porm, para um nmero grande
de amostras, elas convergem para o mesmo valor, e podemos optar por qualquer
uma das duas medidas. Uma estatstica importante, e muito utilizada em BSS,
a correlao, mas no h consenso sobre sua denio na literatura de BSS. O
conceito estatstico o mais correto, mas muitas vezes se considera implicitamente
que a mdia dos sinais zero e sua varincia 1, e a correlao ca idntica
covarincia de dois sinais de mdia zero.
Os algoritmos ICA trabalham com o conceito de independncia, que est inti-
mamente relacionado com a no-gaussianidade, que deve ser maximizada para que
os sinais sejam independentes. Foram derivados os algoritmos que utilizam curtose
e negentropia para maximizao da no-gaussianidade, chegando nos mesmos resul-
tados. Um algoritmo de ponto xo pode ser obtido, que converge rapidamente e
106
com um baixo custo computacional. Este algoritmo conhecido como FastICA. Pa-
ralelamente, o ICA pode ser derivado atravs da maximizao da verossimilhana,
obtendo-se o algoritmo conhecido como Natural ICA. Este ltimo necessita da esti-
mativa da distribuio das fontes, que vimos no ser um fator muito crucial. Mesmo
com uma estimativa grosseira, o algoritmo obtm bons resultados. Ele tambm pos-
sui uma importante propriedade: relativamente independente do valor da matriz
de mistura H, no sentido de que converge bem mesmo para uma matriz de mistura
mal condicionada. Estes dois algoritmos formam a base da separao no domnio
da frequncia. O FastICA mais rpido e no necessita de passo de adaptao,
enquanto que o Natural ICA obtm resultados melhores. Ainda neste captulo, foi
mostrada a forma de avaliao de desempenho utilizada, atravs do SIR, SDR e
SAR.
O Captulo 3 tratou da Separao Cega de Fontes no Domnio da Frequncia,
que transforma os sinais para o domnio da frequncia, transformando o ICA convo-
lutivo em K ICAs instantneos, onde K o nmero de raias da FFT. Isso torna as
ambiguidades de escalamento e permutao um grande problema a ser resolvido. A
ambiguidade do escalamento pode ser facilmente resolvida atravs do MDP (Prin-
cpio da Mnima Distoro), segundo detalhado na Seo 3.6, o que nos deixa com
o problema da permutao a resolver. Foi mostrado com detalhes como a trans-
formao tempo-frequncia realizada, inclusive na prtica. comum utilizar-se
uma janela de anlise, que deve atender COLA para que no haja distoro, o que
afeta o desempenho do BSS, como foi visto na Seo 3.2. Citamos vrias janelas
que atendem COLA para determinado salto J, e foi feita uma comparao entre
elas, para vericar qual obtm o melhor desempenho. Foi observado que a janela
retangular com J =
L
4
obteve o melhor desempenho. Foram feitos testes adicionais
no Captulo 4, que mostraram que a janela retangular no a tima para a sepa-
rao, mas funciona melhor para todos os mtodos de resolver a permutao, o que
incentiva o seu uso.
As janelas de anlise podem ser aplicadas em qualquer situao, mas as jane-
las de sntese no fazem sentido se o objetivo for a implementao de convolues
lineares, que o caso de BSS. Neste caso, a restrio de que o nmero de raias K
deve ter aproximadamente o tamanho da janela somado ao tamanho do ltro deve
ser seguido, para que a reconstruo seja perfeita. Vimos, no entanto, que no co-
nhecemos o tamanho do ltro (que a resposta de frequncia da sala), e, portanto,
essa condio no ser satisfeita, gerando o efeito da circularidade. Uma forma de
mitigar esta distoro usar um nmero de raias maior do que a janela, atravs de
zero-padding. Outra forma suavizar os ltros da matriz separadora W, segundo
visto na Seo 3.7. Esta suavizao se mostrou ecaz, aumentando o SDR e SAR
das sadas. Testamos a suavizao com vrias janelas diferentes para vericar qual
107
obtm um melhor desempenho, e a janela de Hanning, comumente utilizada na li-
teratura nesta etapa, no se mostrou a melhor opo. Janelas com maior resoluo
temporal se mostraram melhores, como a de Chebyshev e as da famlia Blackman.
Vimos a importncia do branqueamento antes de realizar a separao dos sinais
propriamente dita, que essencial no caso do FastICA e um passo muito til se uti-
lizado o Natural ICA. Como o Natural ICA baseado em gradiente, ele acaba sendo
muito inuenciado pelo passo de adaptao. Se a potncia do sinal for muito dife-
rente de uma raia pra outra, necessrio ajustar o passo de adaptao por raia para
que a convergncia seja uniforme. Branqueando os sinais, esta potncia normali-
zada, e no precisamos lidar com este problema. Adicionalmente, o branqueamento
faz aproximadamente metade do trabalho de separao, como visto na Seo 2.5.1,
por um custo computacional muito menor do que o do ICA. Uma outra vantagem do
branqueamento que pode ser realizado PCA para reduo dimensional (no caso de
mais sensores que fontes M > N) sem nenhum custo adicional, pois os autovetores
e autovalores j foram calculados.
Com relao separao dos sinais propriamente dita, foi apresentado um algo-
ritmo que une a velocidade do FastICA preciso do Natural ICA. Primeiramente
aplicado o FastICA, que rapidamente converge, e a matriz separadora resultante
utilizada como matriz inicial no algoritmo Natural ICA, que aumenta a preciso do
FastICA ajustando a matriz separadora. Comparamos a aplicao da funo score
do Natural ICA na forma cartesiana e na forma polar, chegando concluso de
que a forma polar a melhor opo. Vericamos isto atravs de testes e anlise da
convergncia dos algoritmos. Tambm apresentamos um algoritmo do tipo Natural
ICA adaptvel, cuja funo score pode ser modicada de acordo com a curtose da
distribuio dos sinais a serem separados. Vericamos que ele obteve um resultado
superior a outros algoritmos de separao, porm com um custo computacional mais
elevado, o que restringe sua aplicao.
No Captulo 4, focamos no problema da permutao, o principal problema do
ICA no domnio da frequncia. As solues para este problema se classicam em dois
grupos (excluindo as abordagens que modicam a etapa de separao para incluir
todas as frequncias de uma vez s na adaptao): as baseadas em localizao das
fontes e as baseadas em correlao de envelope.
Os dois modelos utilizados para localizao de fontes so o de campo distante e
campo prximo, mas nas solues, s utilizamos o modelo de campo distante. Os
modelos de localizao de fontes possuem uma limitao com relao distncia en-
tre microfones. Embora o desempenho com uma distncia maior entre eles deveria
ser melhor, ele acaba piorando devido ao aliasing espacial. Na prtica utilizamos
microfones com espaamento de 4 cm entre eles. A primeira abordagem derivada da
localizao de fontes utiliza os padres de diretividade de cada fonte, cujos mnimos
108
indicam o DOA das outras fontes. O problema que encontrar mnimos de uma fun-
o no fcil, e para N fontes, h N 1 mnimos em cada padro de diretividade,
i.e, para N > 2, aparecem mnimos locais, o que diculta ainda mais a localizao
dos mnimos globais. Felizmente, existe uma forma analtica de encontrar esses n-
gulos mnimos, que torna a aplicao muito mais simples. Deve-se tomar cuidado
com a ambiguidade do DOA, entretanto, pois se o cosseno de dois ngulos DOA
de duas fontes diferentes for o mesmo, no conseguimos distinguir entre elas. Esta
ambiguidade no existe no mtodo TDOA, que tambm utiliza localizao das fon-
tes, mas em vez de utilizar o ngulo de chegada, utiliza a diferena entre tempos de
chegada do sinal da fonte a dois microfones. Esse mtodo necessita de um algoritmo
de clusterizao, e foram apresentados dois. O primeiro utiliza o K-means, mas no
o preferido, pois no considera restries inerentes ao nosso problema. O segundo
considera estas restries, e apresentou resultados superiores. Infelizmente, me-
dida que a reverberao da sala aumenta, as estimativas de TDOA passam a no
ser sucientes para classicar as fontes.
A correlao, no entanto, no sofre deste problema, e se comporta bem medida
que a reverberao da sala aumenta. A correlao de envelope feita entre frequn-
cias adjacentes ou harmnicas, pois foi visto que uma mesma fonte possui correlao
alta entre estas frequncias. Pode ser utilizado o envelope AM, i.e, o mdulo dos
valores complexos de uma determinada raia em funo do frame, ou ento uma me-
dida que foi chamada de powRatio, que apresentou resultados melhores de acordo
com os testes realizados. H mais de um algoritmo de otimizao disponveis em
funo das medidas de correlao interfrequncias. Apresentamos quatro: Harm-
Corr, LocalCorr, GlobalCorr e ConjCorr, e vericamos seu desempenho. Todos eles,
com exceo do GlobalCorr, s apresentam resultados satisfatrios se algumas raias
de frequncia j estiverem com permutao alinhada. Isso nos leva a utilizar o DOA
antes de algum dos outros trs mtodos, ou ainda o prprio GlobalCorr (no caso
de ser seguido pelo LocalCorr). Fica destacada ento a falta de robustez dos m-
todos de correlao, pois uma permutao desalinhada provoca um efeito cascata,
desalinhando todas as frequncias adjacentes a ela.
Os dois grupos de solues para resolver o problema da permutao podem ser
unidos em um algoritmo que se benecie da preciso da correlao e da robustez
da localizao das fontes. Primeiramente o DOA encontrado, mas somente nas
frequncias onde a medida convel a permutao alinhada. Nas outras frequn-
cias, as permutaes so alinhadas atravs de algum dos mtodos de correlao.
Vimos que os mtodos que combinam as abordagens funcionam muito bem, embora
seu desempenho degrade bastante medida que a reverberao aumenta. Este no
um problema do mtodo conjugado, mas sim da localizao de fontes. O mtodo que
utiliza a combinao de GlobalCorr com LocalCorr foi o que obteve o melhor desem-
109
penho para salas reverberantes, chegando muito perto do desempenho do mtodo
supervisionado.
5.1 Trabalhos Futuros
Separao Cega de Sinais de udio um trabalho relativamente recente, e por
isso a gama de trabalhos futuros muito extensa. Esporadicamente, realizada
uma campanha de avaliao de desempenho de algoritmos de separao de fontes
do mundo todo. Inclusive, os sinais de udio utilizados nos testes nesta disserta-
o foram obtidos no site da campanha de 2007 [80]. Recentemente, em 2010, foi
realizada uma outra campanha deste tipo [81], que mostrou que ainda h muito
que avanar em ambientes reverberantes. Essa campanha focou em ambientes com
bastante reverberao. O resultado dos algoritmos que resolvem o problema da per-
mutao utilizando GlobalCorr + LocalCorr superou o dos outros algoritmos, o que
era de se esperar, visto sua robustez com relao reverberao da sala. Melhorias
em mtodos baseados em correlao parecem ser um bom caminho para trabalhos
futuros. Na nossa opinio, a localizao das fontes provavelmente se tornar um
m, ao invs de um meio. Utilizar a localizao das fontes para resolver problemas
de separao ser substitudo por utilizar a separao das fontes para resolver pro-
blemas de localizao destas. Pensando assim, as tcnicas de localizao de fontes
apresentadas aqui continuam sendo importantes, mesmo com esta mudana de foco.
Em [57], o autor prope utilizar o algoritmo TRINICON, introduzido na Seo 3.4.1,
para encontrar os TDOAs e descobrir a localizao da fonte.
Explorar casos onde h mais misturas que fontes tambm um caminho pro-
missor, e merece ser explorado. Se a informao extra puder ser utilizada para me-
lhorar o desempenho da separao, ao invs de ser descartada, aumentar o nmero
de microfones ajudaria a resolver problemas mais difceis. Unicar os algoritmos de
separao com algoritmos de reconhecimento de fala, e realizar testes de desempe-
nho, pode ajudar a avaliar os algoritmos de separao, de um ponto de vista mais
prtico.
Existem, alm dos citados, muitos outros trabalhos que podem ser explorados,
bastando apenas uma mente inspirada de um pesquisador astuto. Finalizando, esse
tpico tm um futuro brilhante pela frente, e aguardamos o dia em que poderemos
conversar com mquinas assim como conversamos com pessoas, em um cenrio digno
de um lme de James Cameron.
110
Referncias Bibliogrcas
[1] ZUE, V., GLASS, W., JAMES, R. Conversational Interfaces: Advances and
Challenges, Proc. IEEE, v. 88, n. 8, pp. 11661180, 2000.
[2] PRASAD, R. K., SARUWATARI, H., SHIKANO, K. Robots That Can Hear,
Understand and Talk, Advanced Robotics, v. 18, n. 5, pp. 533564, 2004.
[3] BRONKHORST, A. W. The Cocktail Party Phenomenon: A Review on Speech
Inteligibility in Multiple-Talker Conditions, Acta Acustica united with
Acustica, v. 86, pp. 117128, 2000.
[4] MAKINO, S., ARAKI, S., SAWADA, H. Frequency-Domain Blind Source Se-
paration. In: S. Makino, T. Lee, H. S. (Ed.), Blind Speech Separation,
Springer, cap. 2, pp. 4778, 2007.
[5] LEHMANN, E. A., JOHANSSON, A. M. Prediction of Energy Decay in Room
Impulse Responses Simulated with an Image-Source Model, The Journal
of the Acoustic Society of America, v. 124, n. 1, pp. 269277, Julho 2008.
[6] LEHMANN, E. A., JOHANSSON, A. M., NORDHOLM, S. Reverberation-
Time Prediction Method for Room Impulse Responses Simulated with
the Image-Source Model. In: 2007 IEEE Workshop on Applications of
Signal Processing to Audio and Acoustics, New Paltz, NY, 2007.
[7] GROSSMAN, S. I. Elementary Linear Algebra. Wadsworth, 1984.
[8] LAMBERT, R. H. Multichannel Blind Deconvolution: FIR Matrix ALgebra
and Separation of Multipath Mixtures. Ph.D. dissertation, University of
Southern California, Maio 1996.
[9] MONTGOMERY, D. C., RUNGER, G. C. Applied Statistics and Probability for
Engineers. John Wiley & Sons, 2002.
[10] ERIKSSON, J. O., KOIVUNEN, V. E. Complex Random Vectors and ICA
Models: Identiability, Uniqueness, and Separability, IEEE Transactions
on Information Theory, v. 52, n. 3, pp. 10171029, Maro 2006.
111
[11] JRESKOG, K. G. Formulas for Skewness and Kurtosis, .
[12] ERIKSSON, J. O., KOIVUNEN, V. E. Statistics for Complex Random Va-
riables Revisited. In: IEEE Int. Conf. Acoustics, Speech, Signal Proc.
(ICASSP 2009), pp. 35653568, Taipei, Abril 2009.
[13] MATHIAS, R. Matrix Completions, Norms, and Hadamard Products, Pro-
ceedings of the American Mathematical Society, v. 117, n. 4, pp. 905918,
Abril 1993.
[14] HYVRINEN, A., KARHUNEN, J., OJA, E. Independent Component Analy-
sis. John Wiley & Sons, 2001.
[15] PEDERSEN, M. S., LARSEN, J., KJEMS, U., et al. A Survey of Convolu-
tive Blind Source Separation Methods. In: J. Benesty, Y. Huang, M. S.
(Ed.), Springer Handbook of Speech Processing, Springer Press, pp. 134,
Novembro 2007.
[16] HYVRINEN, A., OJA, E. A Fast Fixed-Point Algorithm for Independent
Component Analysis, Neural Computation, v. 9, n. 7, pp. 14831492,
1997.
[17] HYVRINEN, A. Fast and Robust Fixed-Point Algorithms for Independent
Component Analysis, IEEE Transactions on Neural Networks, v. 10, n. 3,
pp. 626634, 1999.
[18] DOUGLAS, S. C., GUPTA, M., SAWADA, H., et al. Spatio-Temporal Fas-
tICA Algorithms for the Blind Separation of Convolutive Mixtures, IEEE
Trans. Acoustics, Speech, Signal Proc., v. 15, n. 5, pp. 15111520, Julho
2007.
[19] AMARI, S., CICHOCKI, A., YANG, H. H. A New Learning Algorithm for
Blind Signal Separation. In: Advances in Neural Information Processing
Systems, v. 8, pp. 757763, 1996.
[20] BELL, A. J., SEJNOWSKI, T. J. An Information-Maximization Approach to
Blind Separation and Blind Deconvolution, Neural Computation, v. 7,
pp. 11291159, 1995.
[21] CARDOSO, J. F., LAHELD, B. H. Equivariant Adaptive Source Separation,
IEEE Trans. Signal Proc., v. 44, n. 12, pp. 30173030, Dezembro 1996.
[22] BELL, A. J., SEJNOWSKI, T. J. An Information-Maximization Approach to
Blind Separation and Blind Deconvolution, Neural Computation, v. 7,
pp. 11291159, 1995.
112
[23] CARDOSO, J. F. Infomax and Maximum Likelihood for Blind Source Sepa-
ration, IEEE Signal Proc. Letters, v. 4, n. 4, pp. 112114, Abril 1997.
[24] CARDOSO, J. F. Blind Signal Separation: Statistical Principles, Proc. IEEE,
v. 86, n. 10, pp. 20092025, Outubro 1998.
[25] BINGHAM, E., HYVRINEN, A. A Fast Fixed-Point Algorithm for Inde-
pendent Component Analysis of Complex Valued Signals, International
Journal of Neural Systems, v. 10, n. 1, pp. 18, Fevereiro 2000.
[26] CARDOSO, J. F. On the Performance of Orthogonal Source Separation Al-
gorithms, Proc. EUSIPCO, pp. 776779, Setembro 1994.
[27] PAPOULIS, A. Probability, Random Variables and Stochastic Processes. Mc-
Graw Hill, 1991.
[28] COVER, T. M. Elements of Information Theory. John Wiley & Sons, 1991.
[29] FVOTTE, C., GODSILL, S. J. A Bayesian Approach for Blind Separation
of Sparse Sources, IEEE Transactions on Audio and Speech Processing,
v. 14, n. 6, pp. 21742188, 2006.
[30] AMARI, S. Natural Gradient Works Eciently in Learning, Neural Compu-
tation, v. 10, n. 2, pp. 251276, 1998.
[31] LI, H., ADALI, T. Complex-Valued Adaptive Signal Processing using Non-
linear Functions, EURASIP Journal on Advances in Signal Processing,
v. 2008, 2008.
[32] BUCHNER, H., AICHNER, R., KELLERMAN, W. A Generalization of Blind
Source Separation Algorithms for Convolutive Mixtures Based on Second-
Order Statistics, IEEE Trans. Speech Audio Proc., v. 13, n. 1, pp. 120
134, Janeiro 2005.
[33] CICHOCKI, A., AMARI, S. Adaptive Blind Signal and Image Processing -
Learning Algorithms and Applications. cap. 6, pp. 231272, John Wiley
& Sons, 2002.
[34] AMARI, S., CHEN, T. P., CICHOCKI, A. Nonholonomic Orthogonal Lear-
ning Algorithm for Blind Source Separation, Neural Computation, v. 12,
n. 6, pp. 14631484, 2000.
[35] VINCENT, E., GRIBONVAL, R., FVOTTE, C. Performance Measurement
in Blind Audio Source Separation, IEEE Trans. Audio, Speech, Language
Proc., v. 14, n. 4, pp. 14621469, Julho 2006.
113
[36] OPPENHEIM, A. V., SCHAFER, R. W. Discrete-Time Signal Processing.
Prentice Hall, 1999.
[37] ALLEN, J. B. Short-term Spectral Analysis, Synthesis and Modication by
Discrete Fourier Transform, IEEE Trans. Acoustics, Speech, Signal Proc.,
v. ASSP-25, n. 3, pp. 235238, Junho 1977.
[38] ALLEN, J. B. Applications of the Short-Time Fourier Transform to Speech
Processing and Spectral Analysis. In: IEEE Int. Conf. on Acoustics,
Speech and Signal Proc, ICASSP82, pp. 10121015, Maio 1982.
[39] SMITH, J. O. Spectral Audio Signal Processing, October 2008 Draft. http:
//ccrma.stanford.edu/~jos/sasp/, acessado em julho de 2010.
[40] ALLEN, J. B., RABINER, L. R. A Unied Approach to Short-Time Fou-
rier Analysis and Synthesis, Proc. IEEE, v. 65, n. 11, pp. 15581564,
Novembro 1977.
[41] HARRIS, F. J. On the Use of Windows for Harmonic Analysis with the
Discrete Fourier Transform, Proc. IEEE, v. 66, pp. 5184, Janeiro 1978.
[42] ALLEN, J. B., RABINER, L. R. Some Windows with Very Good Sidelobe
Behavior, IEEE Trans. Acoustics, Speech, Signal Proc., v. ASSP-29, n. 1,
pp. 8491, Fevereiro 1981.
[43] RABINER, L. R., SCHAFER, R. W. Digital Processing of Speech Signals.
Prentice Hall, 1978.
[44] SMARAGDIS, P. BLind Separation of Convolved Mixtures in the Frequency
Domain, Neurocomputing, v. 22, pp. 2134, 1998.
[45] SMARAGDIS, P. Ecient Blind Separation of Convolved Sound Mixtures,
Applications Signal Proc. Audio Acoustics, Outubro 1997.
[46] ADALI, T., LI, H. A Practical Formulation for Computation of Complex
Gradients and Its Application to Maximum Likelihood ICA. In: Proc.
IEEE Int. Conf. Acoustics, Speech, Signal Proc. (ICASSP07), v. 2, pp.
633636, Honolulu, Hawaii, USA, 2007.
[47] SAWADA, H., MUKAI, R., ARAKI, S., et al. Polar Coordinate based Non-
linear Function for Frequency Domain Blind Separation, IEICE Trans.
Fund., v. E86-A, n. 3, pp. 590596, Maro 2003.
[48] CHOI, S., CICHOCKI, A., AMARI, S. Flexible Independent Component
Analysis, Journal of VLSI Signal Processing, v. 26, pp. 2538, 2000.
114
[49] BUCHNER, H., AICHNER, R., KELLERMAN, W. Blind Source Separation
for Convolutive Mixtures: A Unied Treatment. In: Y. Huang, J. B.
(Ed.), Audio Signal Processing for Next-Generation Multimedia Commu-
nication Systems, Kluwer Academic Publishers, cap. 10, pp. 255293, Fe-
vereiro 2004.
[50] MOLGEDEY, L., SCHUSTER, H. G. Separation of a Mixture of Independent
Signals using Time Delayed Correlations, Physical Review Letters, v. 72,
pp. 36343636, 1994.
[51] TONG, L., LIU, R. W., SOON, V. C., et al. Indeterminacy and Identiability
of Blind Identication, IEEE Trans. on Circuits and Systems, v. 38,
pp. 499509, 1991.
[52] KAWAMOTO, M., MATSUOKA, K., OHNISHI, N. A Method of Blind Se-
paration for Convolved Non-Stationary Signals, Neurocomputing, v. 22,
pp. 157171, 1998.
[53] IKEDA, S., MURATA, N. An Approach to Blind Source Separation of Speech
Signals. In: Proc. Int. Symposium on Nonlinear Theory and its Applica-
tions, Crans-Montana, Switzerland, 1998.
[54] PARRA, L., SPENCE, C. Convolutive Blind Separation of Non-Stationary
Sources, IEEE Trans. Speech Audio Proc., v. 8, n. 3, pp. 320327, Maio
2000.
[55] SCHOBBEN, D. W. E., SOMMEN, P. C. W. A Frequency Domain Blind
Signal Separation Method Based on Decorrelation, IEEE Trans. Signal
Proc., v. 50, n. 8, pp. 18551865, Agosto 2002.
[56] BUCHNER, H., AICHNER, R., KELLERMAN, W. Blind Source Separation
for Convolutive Mixtures Exploiting Nongaussianity, Nonwhiteness, and
Nonstationarity. In: Proc. Int. Workshop on Acoustic Echo and Noise
Control (IWAENC), Kyoto, Japan, Setembro 2003.
[57] BUCHNER, H., AICHNER, R., KELLERMANN, W. TRINICON-based
Blind System Identication with Application to Multiple-Source Loca-
lization and Separation. In: S. Makino, T. Lee, H. S. (Ed.), Blind Speech
Separation, Springer, cap. 4, pp. 101147, 2007.
[58] ANEMLLER, J., KOLLMEIER, B. Amplitude Modulation Decorrelation for
Convolutive Blind Source Separation. In: Proc. ICA 2000, pp. 215220,
Junho 2000.
115
[59] RAHBAR, K., REILLY, J. P. A Frequency Domain Method for Blind Source
Separation of Convolutive Audio Mixtures, IEEE Trans. Speech Audio
Proc., v. 13, n. 5, pp. 832844, Setembro 2005.
[60] LEE, I., KIM, T., LEE, T.-W. Complex FastIVA: A Robust Maximum Li-
kelihood Approach of MICA for Convolutive BSS, ICA06, pp. 625632,
2006.
[61] KIM, T., ATTIAS, H., LEE, S.-Y., et al. Blind Source Separation Exploi-
ting Higher-Order Frequency Dependencies, IEEE Trans. Audio, Speech,
Lang. Proc., v. 15, n. 1, Janeiro 2007.
[62] HIROE, A. Solution of Permutation Problem in Frequency Domain ICA, using
Multivariate Probability Density Functions, ICA06, pp. 601608, Abril
2006.
[63] MATSUOKA, K., NAKASHIMA, S. Minimal Distortion Principle for Blind
Source Separation, Proc. ICA, pp. 722727, Dezembro 2001.
[64] SAWADA, H., MUKAI, R., DE LA K. DE RYHOVE, S., et al. Spectral
Smoothing for Frequency-Domain Blind Source Separation. In: Interna-
tional Workshop on Acoustic Echo and Noise Control (IWAENC03), pp.
311314, Kyoto, Japan, Setembro 2003.
[65] BENESTY, J., CHEN, J., HUANG, Y. Microphone Array Signal Processing.
cap. 3, pp. 3966, Springer, 2008.
[66] MUKAI, R., SAWADA, H., ARAKI, S., et al. Frequency-Domain Blind Source
Separation of Many Speech Signals Using Near-Field and Far-Field Mo-
dels, EURASIP Journal on Applied Signal Processing, 2006. Article ID
83683.
[67] ABHAYAPALA, T. D., KENNEDY, R. A., WILLIAMSON, R. C. Spatial
Aliasing for Near-Field Sensor Arrays, Eletronics Letters, v. 35, n. 10,
pp. 764765, Maio 1999.
[68] VEEN, B. D. V., BUCKLEY, K. M. Beamforming: a Versatile Approach to
Spatial Filtering, IEEE ASSP Magazine, pp. 224, Abril 1988.
[69] DMOCHOWSKI, J., BENESTY, J., AFFS, S. On Spatial Aliasing in Mi-
crophone Arrays, IEEE Trans. Signal Proc., v. 57, n. 4, pp. 13831395,
Abril 2009.
116
[70] KURITA, S., SARUWATARI, H., KAJITA, S., et al. Evaluation of Blind
Signal Separation Method using Directivity Pattern under Reverberant
Conditions. In: Proc. of IEEE Int. Conf. Acoustics, Speech, Signal Proc.,
2000 (ICASSP00), v. 5, pp. 31403143, Istanbul, Turquia, Agosto 2000.
[71] SAWADA, H., MUKAI, R., ARAKI, S., et al. A Robust and Precise Method
for Solving the Permutation Problem of Frequency-Domain Blind Source
Separation, IEEE Trans. Speech, Audio Proc., v. 12, n. 5, pp. 530538,
Setembro 2004.
[72] IKRAM, M. Z., MORGAN, D. R. A Beamforming Approach to Permuta-
tion Alignment for Multichannel Frequency-Domain Blind Speech Sepa-
ration. In: Proc. IEEE Int. Conf. Acoustics, Speech, Signal Proc. 2002
(ICASSP02), v. 1, pp. I881I884, Orlando, Florida, USA, Maio 2002.
[73] MUKAI, R., SAWADA, H., ARAKI, S., et al. Solving the Permutation
Problem of Frequency-Domain BSS when Spatial Aliasing Occurs with
Wide Sensor Spacing, IEEE Int. Conf. Acoustics, Speech, Signal Proc.
(ICASSP06), v. 5, pp. V77V80, Maio 2006.
[74] DUDA, R. O., HART, P. E., STORK, D. G. Pattern Classication. Wiley
Interscience, 2000.
[75] MURATA, N., IKEDA, S. An On-line Algorithm for Blind Source Separation
on Speech Signals, Proceedings of 1998 Int. Symposium on Nonlinear
Theory and Its Applications (NOLTA98), v. 3, pp. 923926, Setembro
1998.
[76] MURATA, N., IKEDA, S. A Method of ICA in Time-Frequency Domain,
Proc. Int. Workshop Independent Comp. Analysis and Blind Signal Sepa-
ration (ICA99), pp. 365371, Janeiro 1999.
[77] SERVIRE, C., PHAM, D. T. Permutation Correction in the Frequency Do-
main in Blind Separation of Speech Mixtures, EURASIP Journal on
Applied Signal Processing, 2006. Article ID 75206.
[78] SAWADA, H., ARAKI, S., MAKINO, S. Measuring Dependence of Bin-wise
Separated Signals for Permutation Alignment in Frequency-Domain BSS.
In: IEEE Int. Symp. Circuits Systems (ISCAS07), pp. 32473250, Maio
2007.
[79] SAWADA, H., ARAKI, S., MAKINO, S. Measuring Dependence of Bin-Wise
Separated SIgnals for Permutation Alignment in Frequency-Domain BSS.
117
In: IEEE Int. Symp. Circuits and Systems, 2007 (ISCAS07), pp. 3247
3250, New Orleans, LA, Maio 2007.
[80] VINCENT, E., SAWADA, H., BOFILL, P., et al. First Stereo Audio Source Se-
paration Evaluation Campaign: Data, Algorithms and Results. In: Proc.
Int. Conf. on Independent Component Analysis and Signal Separation,
2007.
[81] ARAKI, S., OZEROV, A., GOWREENSUNKER, V., et al. The 2010 Sig-
nal Separation Evaluation Campaign (SiSEC2010): Audio Source Separa-
tion. In: Lectures Notes in Computer Science, 2010 (LNCS10), v. 6365,
pp. 114122, 2010.
[82] HADDAD, D. B. Propostas para Separao Cega e Supervisionada de Fon-
tes. Dissertao de mestrado, COPPE - Universidade Federal do Rio de
Janeiro, Junho 2008.
[83] COMON, P. Independent Component Analysis, a new concept? Signal Pro-
cessing, v. 36, pp. 287314, 1994.
[84] BOASHASH, B. Time Frequency Signal Analysis and Processing: A Com-
prehensive Reference. Elsevier, 2003.
[85] VAIDYANATHAN, P. P. Multirate Systems and Filter Banks. Prentice Hall,
1993.
[86] MUKAI, R., SAWADA, H., ARAKI, S., et al. Frequency Domain Blind Source
Separation Using Small and Large Sensor Pairs, Proc. of the 2004 Int.
Symp. on Circuits and Systems (ISCAS04), v. 5, pp. V1V4, Maio
2004.
[87] SAWADA, H., ARAKI, S., MUKAI, R., et al. Blind Extraction of a Dominant
Source Signal from Mixtures of Many Sources. In: Proc. IEEE Int. Conf.
Acoustics, Speech, Signal Proc. 2005 (ICASSP05), v. 3, pp. iii/61iii/64,
Maro 2005.
[88] WEIHUA, W., FENGGANG, H. Improved Method for Solving Permutation
Problem of Frequency Domain Blind Source Separation. In: 6th IEEE
Int. Conf. Industrial Informatics, 2008 (INDIN08), pp. 703706, Dae-
jeon, Julho 2008.
[89] IKRAM, M. Z., MORGAN, D. R. Exploring Permutation Inconsistency in
Blind Separation of Speech Signals in a Reverberant Environment. In:
118
Proc. IEEE Int. Conf. Acoustics, Speech, Signal Proc. (ICASSP), v. 2,
pp. 10411044, Istanbul, Turkey, Junho 2000.
119
Apndice A
Ambiente de Teste
Simulamos a resposta de frequncia de uma sala utilizando o algoritmo chamado
de Image-Source Model, detalhado em [5, 6], ambos do mesmo autor. Detalhes de
como funciona o algoritmo esto fora do escopo desta dissertao; o que nos interessa
o seu funcionamento.
A sala utilizada nas simulaes tem dimenses 4, 45 m3, 55 m2, 5 m
(largura comprimento altura). Todos os lados da sala (paredes, teto e cho)
no possuem portas nem janelas, para ns de simulao. Alm disso, o coeciente
de absoro de todos os lados o mesmo, como se todos fossem feitos do mesmo
material. O material utilizado varia com o tempo de reverberao, e o algoritmo
de simulao calcula o coeciente de absoro de cada lado da sala dependendo do
tempo de reverberao escolhido. O arranjo de microfones, em todas as simula-
es, foi montado em torno do ponto Mic
c
= [2 1, 5 1, 6]
T
. Independentemente
do arranjo, o centro de massa do arranjo de microfones era sempre o mesmo. As
fontes foram distribudas em torno do centro do arranjo, com dois parmetros para
identic-las: o DOA de cada uma, e a distncia delas at o arranjo. O parmetro
mais importante da sala o tempo de reverberao desta. O tempo utilizado nesta
dissertao o T
60
, que o tempo requerido para que as reexes cheguem a 60 dB
abaixo do nvel do som direto.
As fontes utilizadas foram do SASSEC [80], e so trechos de sinal de voz de
10 segundos de durao cada, amostrados a 16 kHz. Decimamos os sinais para
que a frequncia de amostragem casse para 8 kHz, portanto, a no ser que dito o
contrrio, em todos os testes os sinais de voz utilizados foram amostrados a 8 kHz.
Em testes com duas fontes e dois microfones, o ambiente de teste est representado
na Figura A.1. Em testes com trs fontes e trs microfones, dois ambientes de teste
foram utilizados. O primeiro considera que os microfones foram montados em linha,
segundo mostrado na Figura A.2 e o segundo considera que os microfones foram
montados em cluster, segundo mostrado na Figura A.3.
120
Figura A.1: Congurao da sala utilizada nos testes quando h dois microfones e
duas fontes.
121
Figura A.2: Congurao da sala utilizada nos testes quando h trs microfones e
trs fontes, e o arranjo de microfones em linha.
122
Figura A.3: Congurao da sala utilizada nos testes quando h trs microfones e
trs fontes, e o arranjo de microfones em cluster.
123
Apndice B
Descobrindo Convergncia dos
Algoritmos ICA
Aqui descreveremos a forma que utilizamos para descobrir a convergncia dos
algoritmos FastICA e Natural ICA. importante utilizar um critrio de convergncia
em vez de um nmero xo de iteraes, pois isso diminui bastante o tempo de
processamento do algoritmo, e no conseguimos encontrar um critrio na literatura
para o Natural ICA.
No caso do FastICA, o critrio de convergncia mais simples. Segundo o desen-
volvimento do algoritmo de ponto xo feito na Seo 2.5.2, quando o vetor separador
w
i
apontar na mesma direo do gradiente, ou seja, quando ele no mudar mais de
direo aps uma iterao. Como o algoritmo FastICA (mostrado em (2.66)) res-
tringe o vetor separador a ser unitrio, a condio de parada :
[w
i
(it)[[w
H
i
(it 1)[ 1 [w
i
(it)[[w
H
i
(it 1)[ = 1 (B.1)
onde w
i
(it) o valor da iterao atual e w
i
(it 1) o valor da iterao anterior,
e um valor muito pequeno. O [.[ aparece porque estamos trabalhando com
nmeros complexos. Como os vetores so unitrios, seu produto interno no pode
ser maior do que 1, e eles convergem para 1, que acontece quando sua direo
igual. O valor dene a condio de parada. Nas simulaes, utilizamos = 0 sem
maiores complicaes. Um ponto importante a se notar que tivemos que denir
um nmero mnimo de iteraes, pois em algumas raias de frequncia, a adaptao
inicial muito lenta, e o vetor w
i
mudava muito pouco de direo de uma iterao
para outra, como pode ser observado na Figura B.1. Um valor mnimo de 8 iteraes
foi suciente para que o algoritmo convergisse sem problemas.
No caso do Natural ICA, se a funo score foi aplicada de forma cartesiana, as
partes real e imaginria dos elementos de w
i
convergem para um valor xo, e se ela
foi utilizada a forma polar, apenas o mdulo dos elementos converge. Utilizamos o
124
Figura B.1: Convergncia tpica do FastICA.
mdulo para testar convergncia, por dois motivos: o mdulo converge em ambas
as formas e utilizamos sempre a forma polar, como explicado na Seo 3.4.
tpico utilizar como condio de convergncia um pequeno valor , e se a
diferena entre o mdulo do elemento do vetor separador da iterao anterior e o da
atual for menor que , o algoritmo convergiu, como mostrado em (B.2).
[w
ij
(it)[ [w
ij
(it 1)[ < (B.2)
Entretanto, h ocasies em que, na convergncia do Natural ICA, ele ca osci-
lando entre dois valores, como mostrado na Figura B.2. Dessa forma, no podemos
escolher um valor de muito pequeno, ou a condio de convergncia no vai funcio-
nar. Porm, se escolhermos um valor de grande, isso pode afetar o desempenho de
outras raias de frequncia, onde esse problema no acontece, e o algoritmo pararia
antes de realmente convergir.
Para resolver este problema, denimos uma janela w
err
de tamanho E
w
, par,
que preenchida com os valores da diferena entre os mdulos dos elementos do
vetor separador das ltimas E
w
iteraes (erros). A diferena entre os mdulos,
obviamente, pode ser negativa. Ento, denimos a condio de parada como sendo
a soma dos erros das ltimas iteraes. Sabendo que [.[
1
simboliza a norma-1 de um
125
Figura B.2: Convergncia do Natural ICA em algumas raias de frequncia, onde o
valor nal ca oscilando.
vetor, ou seja, a soma dos mdulos de seus elementos, ento:
[w
err
[
1
<
w
(B.3)
w
err
=
_
_
[w
ij
(it)[ [w
ij
(it 1)[
[w
ij
(it 1)[ [w
ij
(it 2)[
.
.
.
[w
ij
(it E
w
+ 1)[ [w
ij
(it E
w
)[
_
_
(B.4)
Se a soluo estiver oscilando, a soma entre os E
w
valores de erros, onde E
w

par, dar 0, e o algoritmo convergiu. E se a soluo no oscilar, e ir somente em
uma direo, esta condio similar a (B.2). O algoritmo ter um nmero mnimo
de iteraes igual a E
w
, para encher a janela, e, se houver oscilaes durante a
convergncia, deve-se garantir que o perodo dessas oscilaes seja maior do que
E
w
, seno pode ser indicada falsa convergncia. Na prtica, escolhemos E
w
= 8 e
w
= 0, 01, para um passo de adaptao = 0, 2 (embora o valor de no seja muito
dependente de ).
126
Apndice C
Mtodos Supervisionados para
Resolver o Problema da
Permutao
Aqui apresentaremos dois mtodos supervisionados utilizados para resolver o pro-
blema da permutao. Eles foram utilizados quando se queria fazer uma comparao
sem que o problema da permutao inuenciasse ou quando se queria descobrir qual
a mxima SIR obtido se o problema da permutao estivesse perfeitamente resolvido.
bom ressaltar que este mtodo visa resolver apenas o problema da permutao,
ento ele no inuencia na separao das fontes. Ele no altera a matriz separadora
de nenhuma forma a no ser permutar suas linhas. Ambos os mtodos obtiveram
os mesmos resultados, ento, quando na dissertao estiver escrito que algum pro-
blema de permutao foi resolvido de forma supervisionada, pode ter sido utilizado
qualquer um dos dois mtodos.
O primeiro mtodo chamado de MaxSIR, e foi proposto por Makino, em [71].
Ele utiliza as observaes da fonte em cada microfone:
q
ji
(n) =

l=
h
ji
(l)s
i
(n l) (C.1)
O mtodo consiste em maximizar a SIR em cada raia de frequncia. Primeiro
aplicada a STFT a (C.1), segundo j explicado na Seo 3.2, utilizando qualquer
janela, embora o salto J tenha que ser igual ao salto utilizado para passar as misturas
para o domnio da frequncia. Para manter a consistncia, utilizada a mesma janela
que foi utilizada nas misturas:
q
ji
(m, k) =

n
q
ji
(n)win
a
(n mJ) exp
_

2kn
K
_
(C.2)
127
onde win
a
(n) a janela utilizada na STFT das misturas. Seja Q
k
(m) a matriz
M N formada pelos elementos Q
ji
(m, k), isto , cada linha corresponde a um
sensor e cada coluna, a uma fonte. Ento, a permutao na frequncia k dada por:
P
k
= argmax
P
trace(EP
k
W
k
Q
k
(m)) (C.3)
onde, obviamente, o valor esperado E. calculado em sua forma amostral, segundo
(2.24), e trace(V) calcula o trao da matriz V, i.e, a soma dos elementos de sua
diagonal principal. A diagonal principal de W
k
Q
k
(m), se a permutao estiver
correta, contm o sinal das fontes, e os outros elementos, em cada linha i, contm
as interferncias das fontes i
,= i na fonte i, para a matriz separadora W. Ento, a

permutao que obtiver o maior trao a permutao correta.
O outro mtodo consiste em utilizar os sinais das fontes s
i
(n) diretamente, mais
especicamente, sua representao s
ik
(m) no domnio da frequncia. O mtodo
consiste em calcular a soma da correlao (segundo (2.38)) entre o sinal real da fonte
s
ik
(m) e a sada y
ik
(m), para i = 1, , N, para todas as permutaes possveis. A
maior soma representa a matriz de permutao correta.
P
k
= argmax
P
_
N
i=1
r
sy
(s
i
k, y
i
P
k
)
_
(C.4)
onde o ndice i
P
simboliza a fonte i depois de ser permutada pela matriz P. Podemos
interpretar (C.4) (para car similar ao mtodo (C.3)) como o clculo do trao da
matriz de correlao (ver (2.40)) entre o vetor coluna s
k
, que contm os valores de
todas as fontes da raia de frequncia k, e o vetor Py
k
. O maior trao corresponde
permutao correta, pois a correlao entre s
ik
e y
ik
quando a permutao est
correta mxima.
P
k
= argmax
P
trace(R
sy
(s
k
, Py
k
)) (C.5)
Poderamos utilizar o sinal q
ji
(m, k) ao invs do sinal da fonte, pois, como visto
na Seo 3.6, a sada y
i
(n) ca no mximo igual a s
i
(n) ltrada, entretanto, no faz
diferena. O nico requerimento para o algoritmo funcionar bem que a correlao
entre fontes iguais seja maior do que entre fontes diferentes, para todas as raias
de frequncia, i.e, r
s
1k
y
1k
> r
s
1k
y
2k
, o que verdade, seno o algoritmo de BSS no
funcionaria.
128

Algoritmos de Separação Cega de Sinais de Áudio

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Algoritmos de Separação Cega de Sinais de Áudio

Enviado por

Direitos autorais:

Formatos disponíveis

ALGORITMOS DE SEPARAO CEGA DE SINAIS DE UDIO NO DOMNIO

DA FREQUNCIA EM AMBIENTES REVERBERANTES: ESTUDO E

na realidade, por causa

na realidade, por causa da ambiguidade do modelo de campo

, se M > N, onde o operador

a derivada da funo no-quadrtica G, e y

1. A janela de anlise win

. Para resolver este

. Esse modelo sofre de aliasing

. Da, a expresso (4.9) pode ser

foi omitido pois, nesse modelo, |q

e j. Algumas literaturas trocam o cos(.)

quando a fonte est per-

, como no nosso caso

na realidade, por causa da ambiguidade do modelo de campo

, se houver mais do que 2 sensores. Todas as combinaes [j, j

(i) (centrides) que denem a posio real das fontes.

(i). No conhecemos a posi-

(i). Aps todos os vetores serem

(i) so calculados novamente, atravs da mdia de to-

(i), que independente da frequncia. Utilizar outras

(m), onde o produto Hadamard, assim como

,= i, e zero onde os outros termos so dominantes.

,= i) encontrados no so os mnimos do pa-

,= i na fonte i, para a matriz separadora W. Ento, a

Você também pode gostar