Escolar Documentos
Profissional Documentos
Cultura Documentos
TESE DE DOUTORADO:
MODELAGEM ACUSTICA
DA VOZ UTILIZANDO
DA PRODUC
AO
TECNICAS
DE VISUALIZAC
AO
DE IMAGENS MEDICAS
ASSOCIADAS
A METODOS
NUMERICOS.
Professores Orientadores:
Prof. Dr. Edson Luiz Cataldo Ferreira (GMA/UFF)
Profa. Dra. Fabiana Rodrigues Leta (TEM/UFF)
Niteroi
2011
ALEXANDRE DE SOUZA BRANDAO
TESE DE DOUTORADO:
DA VOZ
MODELAGEM ACUSTICA
DA PRODUC
AO
DE
UTILIZANDO TECNICAS
DE VISUALIZAC
AO
IMAGENS MEDICAS
ASSOCIADAS A METODOS
NUMERICOS.
Essa Tese de Doutorado foi julgada adequada e aprovada em sua forma final pela
Banca Examinadora abaixo relacionada.
Banca Examinadora:
Resumo
O objetivo desta tese e simular a propagacao de ondas ac
usticas atraves do
trato vocal humano usando o metodo das Matrizes de Linhas de Transmissao (MLT).
A malha para o modelo numerico foi reconstruda tridimensionalmente a partir de
segmentacoes de imagens medicas obtidas por ressonancia magnetica. Para isso, foi
desenvolvido um aplicativo codigo-aberto na linguagem C++, o qual foi utilizado nas
tarefas inerentes `a reconstrucao dos modelos tridimensionais de trato vocal e simulacao usando o MLT. Adicionalmente, um fator de compensacao foi desenvolvido
visando a eliminacao da dispersao numerica dependente da topologia em malhas
MLT tridimensionais do tipo grade uniforme. Inicialmente foram construdos modelos simples de um e dois tubos para o trato vocal, cujos resultados analticos sao
conhecidos, nos quais foi simulada a propagacao de um sinal com frequencias de 0
a 10000 Hz. Posteriormente, este mesmo sinal foi simulado num modelo de trato
vocal humano cuja forma representa a producao da vogal aberta /a/. Neste modelo,
tambem foi simulada a propagacao de um sinal glotal (obtido por filtragem inversa
do sinal de voz). Os sinais de voz gerados atraves das simulacoes no modelo de
trato vocal humano foram comparados com sinais reais emitidos pelo indivduo a
partir do qual as imagens medicas foram extradas para a construcao dos modelos
tridimensionais. Excelentes aproximacoes foram obtidas em todos os modelos.
Abstract
The objective of this thesis is to simulate the propagation of acoustic waves
through the human vocal tract using the Transmission Line Matrix (TLM) method.
The mesh for the numerical model was tridimensionally reconstructed from segmented magnetic resonance medical images. For this, an open-source application,
developed in the C++ programming language, has been used in tasks inherent to
the reconstruction of the vocal tract tridimensional models and TLM simulations.
Additionally, a compensation factor was developed in order to eliminate topologydependent numerical dispersion in tridimensional uniform grid TLM meshes. Firstly,
simple vocal tract models of one and two tubes, whose the analytical results are
known, were built and the propagation of a signal with a 0 to 10000 Hz frequency
range was simulated. Later, the same signal is simulated in a human vocal tract
model whose the shape represents the production of the open vowel /a/. In this
model, a human glottal signal (obtained by inverse filtering of the voice signal) has
also been simulated. For the vocal tract model, the voice signals generated by the
simulations were compared with voice samples from the same subject from whom
the mesh was extracted. Excellent approximations have been obtained in all models.
ii
Declarac
ao de Originalidade
Esta tese foi produzida por mim e relaciona trabalho original de minha propria
execucao. A menos que de outra forma mencionado, os graficos e tabelas exibidos
foram produzidos a partir de dados obtidos durante a pesquisa. Sempre que materiais, ideias, ou algoritmos computacionais de outros pesquisadores tiverem sido
usados ou adaptados, a fonte de informacao foi claramente especificada. Esta tese
nao foi submetida para graduacao ou qualificacao profissional em nenhum outro
lugar.
iii
Agradecimentos
iv
Dedicat
oria
Conte
udo
Resumo
Abstract
ii
Declara
c
ao de Originalidade
iii
Agradecimentos
iv
Dedicat
oria
Lista de Figuras
xii
Lista de Tabelas
xx
1 Introdu
c
ao
1.1
1.2
1.3
1.4
2 Imagens M
edicas
26
vi
2.1
Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2
2.3
2.2.1
Imagens Volumetricas . . . . . . . . . . . . . . . . . . . . . . 29
2.2.2
Elastografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
O Padrao DICOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3 Modelagem da propagac
ao ac
ustica no Trato Vocal
33
3.1
O Modelo Fonte-Filtro . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2
A Equacao de onda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.1
3.3
3.4
Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.2
Descricao do Metodo . . . . . . . . . . . . . . . . . . . . . . . 43
52
Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.1.1
4.2
. . . . . . . . 38
A linguagem C++ . . . . . . . . . . . . . . . . . . . . . . . . 53
Componentes Utilizados . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.1
O compilador GCC . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.2
A biblioteca Qt . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.3
4.2.4
RedesNeurais . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
vii
4.2.5
TetGen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3
4.4
Interface Grafica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.5
4.6
4.7
4.8
4.9
4.5.1
Removedor de atenuacao . . . . . . . . . . . . . . . . . . . . . 58
4.5.2
Segmentacao de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.6.1
4.6.2
Segmentacao manual . . . . . . . . . . . . . . . . . . . . . . . 60
4.6.3
Extracao/Edicao de Malhas . . . . . . . . . . . . . . . . . . . . . . . 66
4.7.1
4.7.2
4.7.3
Tetraedralizacao
4.7.4
4.7.5
4.7.6
Simplificacao de Iso-superfcies . . . . . . . . . . . . . . . . . . 72
4.7.7
Limpeza de Iso-superfcies . . . . . . . . . . . . . . . . . . . . 72
4.7.8
Suavizacao de Iso-superfcies . . . . . . . . . . . . . . . . . . . 72
. . . . . . . . . . . . . . . . . . . . . . . . . 69
Metodos Numericos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.8.1
4.8.2
4.9.1
4.9.2
Equalizacao de Histograma . . . . . . . . . . . . . . . . . . . . 74
4.9.3
Abrir Arquivos . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.9.4
Salvar Arquivos . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.9.5
78
5.1
Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.2
5.3
5.4
5.2.1
5.2.2
Atributos da Malha . . . . . . . . . . . . . . . . . . . . . . . . 81
5.3.2
Condicao de Estabilidade . . . . . . . . . . . . . . . . . . . . . 82
5.3.3
Sinais de Entrada . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.3.4
Sinais de Sada . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.3.5
5.4.2
. . . . . . . . . . . . . . . . . . . 91
5.4.3
. . . . . . . . . . . . . . . . . . . 91
5.4.4
ix
5.5
5.4.5
5.4.6
5.5.2
5.5.3
5.6
5.7
5.8
6 Conclus
oes
6.1
113
A C
odigos Auxiliares
117
131
153
xi
Lista de Figuras
1.1
1.2
1.3
M
usculos e cartilagens da laringe. (Adaptada da referencia [6]) . . . .
1.4
1.5
1.6
1.7
1.8
1.9
. . . . . 12
xii
1.14 Determinacao da funcao area por IRM. (a) Serrurier [44] e (b) Hannukainen [45]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.15 Cortes sagitais, coronais oblquos e transversais. (Referencia [46]) . . 18
1.16 Aproximacao do trato vocal considerando o palato. (Referencia [59]) . 19
1.17 Exemplos de tratos vocais descritos por um u
nico material. (a) Referencia [54], (b) Referencia [57], (c) Referencia [35] e (d) Referencia
[60]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.18 Modelo de trato vocal considerando o palato. (Dedouch et al. [62]) . 22
2.1
Alinhamento dos spins dos protons. (a) Estado normal. (b) Estado
apos imersao no campo magnetico. . . . . . . . . . . . . . . . . . . . 27
2.2
3.1
3.2
3.3
3.4
3.5
3.6
xiii
4.1
. . . . . . . . . . . . . . . . . . . . 56
4.2
4.3
Removedor de atenuacao. (a) Granulacao da amostragem. (b) Imagem de RM apos a subtracao do perfil de intensidade. . . . . . . . . . 58
4.4
4.5
4.6
4.7
4.8
4.9
. . . . . . . . . . 66
xiv
5.1
(a) Sinal de voz real para a vogal /a/. (b) Sinal glotal obtido por
filtragem inversa do sinal em (a). . . . . . . . . . . . . . . . . . . . . 84
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
xv
. . . . . . . . . . . . . . . . . . . . 96
5.17 Respostas em frequencia do trato vocal para a Vogal /a/. (Reais vs.
Simulacao pelo MLT). . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.18 Efeito do filtro glotal no modelo fonte-filtro. (a) Sinal glotal como
entrada. (b) Sinal da Eq. (5.3) como entrada. . . . . . . . . . . . . . 99
5.19 Simulacao MLT na malha do trato vocal considerando c = 628, 7307
m/s, paredes rgidas e o sinal da Eq. (5.3) como entrada. (a) Sinal
de sada. (b) Comparacao das FFTs (Real vs. Simulacao MLT). . . . 100
5.20 Malha MLT do trato vocal exibida de forma transl
ucida para visualizacao completa dos pontos de entrada e sada selecionados. . . . . . 100
xvi
xvii
. . . . . . . . . . 142
xviii
xix
Lista de Tabelas
5.1
Impedancia ac
ustica de alguns materiais. (Adaptada da referencia
[78]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.2
xx
Captulo 1
Introduc
ao
Um melhor entendimento dos mecanismos do sistema de producao da voz humana envolve diversas areas do conhecimento como, por exemplo, Ac
ustica, Mecanica
Computacional, Biomecanica, Processamento de Sinais, etc. Muita pesquisa tem
sido realizada sobre a modelagem do sistema de producao da voz [1, 2, 3, 4, 5],
cujo funcionamento e complexo em seus diversos componentes, exigindo o desenvolvimento de melhores modelos computacionais para descreve-lo. A opcao por
programacao em codigo aberto permite a construcao de ferramentas eficazes e, ao
mesmo tempo, permite o estudo, o desenvolvimento e a realizacao de melhorias no
codigo por parte dos proprios pesquisadores e estudantes, de modo a acompanhar
os avancos tecnologicos.
Com isso em mente, um aplicativo com codigo aberto, chamado ModaVox
(Modelador da Voz), foi desenvolvido como parte desta tese para estudar a propagacao
ac
ustica em um modelo numerico tridimensional do trato vocal humano reconstrudo
vocais, bem como a analise do trato vocal pelo MEF, ainda nao e feita pelo programa
ModaVox, ficando para uma outra oportunidade. No Captulo 6, sao apresentadas
as conclusoes e as sugestoes para trabalhos futuros.
1.1
O sistema de produ
c
ao da voz
A voz humana pode ser entendida em sua forma mais simples como resultado
com que as cordas vocais se fechem primeiro na parte inferior e depois na superior.
Figura 1.2: Ciclo de vibracao das cordas vocais. (Adaptada de Titze [8])
Para cada ciclo vibratorio, as cordas vocais se abrem, devido `a acao da pressao
do ar dos pulmoes. Este fluxo, que passa atraves da glote (espaco entre as cordas
vocais), atinge seu apice e entao a pressao criada atras desse volume de ar produz
o chamado efeito Bernoulli, fazendo com que as cordas vocais se fechem. Estes
ciclos vibratorios se repetem muitas vezes por segundo (dependendo da pessoa e
da tensao aplicada nas cordas vocais) formando o sinal glotal. O n
umero de ciclos por segundo corresponde `a frequencia fundamental da voz (tambem chamada
de pitch). Os pulsos de ar gerados pela vibracao das cordas vocais sofrem a influencia (filtragem) do sistema de ressonancia proporcionado pelos orgaos do trato
vocal (faringe e cavidades oral e nasal). Ha, ainda, a acao dos orgaos do sistema
articulador (lngua, palato mole, maxilar e labios) que modificam as propriedades
de filtragem dos orgaos do sistema de ressonancia sobre o sinal glotal, irradiando o
som para o espaco livre. A taxa atraves da qual as cordas vocais vibram durante a
fonacao pode ser modificada de diversas formas atraves do controle pelos m
usculos
larngeos e pela pressao de ar gerada pelos pulmoes. Durante a conversacao normal, a frequencia fundamental e alterada constantemente, fornecendo informacao
Figura 1.3: M
usculos e cartilagens da laringe. (Adaptada da referencia [6])
O trato vocal e formado pela faringe e pelas cavidades oral e nasal, funcionando
como um guia de onda ou filtro ac
ustico que deixa passar o sinal sonoro produzido
pela vibracao das cordas vocais em determinadas frequencias enquanto atenua o
mesmo em outras. Sao chamadas de formantes as componentes de frequencia do
sinal de voz que sao enfatizadas para uma determinada configuracao do trato vocal.
De acordo com a forma que o trato vocal assuma, sao geradas diferentes combinacoes
de frequencias formantes gerando os diferentes sons vocalicos. Para uma descricao
mais detalhada do sistema de producao da voz, pode-se consultar o segundo captulo
da referencia [9]. A Fig. 1.4 ilustra algumas partes do trato vocal.
1.2
gan e Landgraf [11], que representaram a movimentacao das cordas vocais a partir
de modelos mecanicos massa-mola-amortecedor, como ilustrado na Fig. 1.5.
Segundo esses modelos, as equacoes que fornecem a dinamica das cordas vocais
sao dadas por
M x(t) + B x(t)
+ Kx(t) = F (x, t)
(1.1)
A base deste outro trabalho foi a tentativa de modelar mais fielmente o movimento das cordas vocais atraves de um modelo de duas massas. As massas movem-se
somente na direcao transversal. O movimento das duas cordas vocais e considerado
simetrico, assim, somente e equacionado o movimento de uma delas. Os deslocamentos xj (t) de cada uma das massas sao regidos pelo sistema de equacoes abaixo:
M1 x1 + S1 (x1 ) + B1 (x 1 ) + kc (x1 x2 ) = F1
(1.2)
M2 x2 + S2 (x2 ) + B2 (x 2 ) + kc (x2 x1 ) = F2
onde S1 e S2 sao as relacoes das molas nao-lineares dadas por Sj (x) = Kj x(1+j x2 ),
para j=1,2. Os coeficientes Kj representam a rigidez linear e j sao coeficientes
positivos que caracterizam a nao-linearidade das molas. As forcas F1 e F2 dependem
7
Figura 1.7: A onda mucosa se reflete na parte posterior e volta fazendo com que as
cordas vocais se choquem no ponto de contato/impacto.
Bifurcaca
o e um ponto do conjunto solucao de um problema descrevendo um sistema dinamico,
Svec
et al. [30] tentaram investigar as propriedades de ressonancia dos tecidos
das cordas vocais excitando-as atraves de um shaker 4 e observando as vibracoes
atraves de laringoscopia. Este metodo e sujeito a varios problemas de imprecisao
devido a dificuldades de implementacao. Por exemplo, quando o shaker e posicionado na parte externa do pescoco e observado por meios de vdeo-estroboscopia,
nao sendo possvel excitar diretamente cada uma das estruturas da laringe. Nao
existe controle para padronizar o ajuste das cordas vocais na posicao neutra, ou
seja, dependendo da tensao exercida nas cordas vocais, suas propriedades dinamicas
4
fsica para determinar, por medicoes atraves de outros instrumentos, seu comportamento vibratorio.
10
sao alteradas. Um outro problema e que mesmo uma pequena quantidade de fluxo
glotal pode influenciar o comportamento das cordas vocais, porem, para o indivduo
examinado, e difcil perceber este fluxo com um shaker vibrando em seu pescoco.
necessario tambem um modelo de colisao e contato entre as cordas vocais
E
para que se possa simular precisamente a sua movimentacao. Gunter [31] desenvolveu um modelo 3D que representa um problema de contato nao linear e aplicou
elementos finitos a uma u
nica corda vocal, considerando a elasticidade linear. Porem,
supos uma linha media, imaginando que a outra corda vocal se comporta exatamente
igual `a primeira. Gunter tambem conclui que as forcas elasticas desempenham um
papel importante na determinacao das variaveis aerodinamicas associadas com a
qualidade vocal. Embora outros trabalhos como este considerem tambem a elasticidade associada com os tecidos, para um maior realismo, e necessario considerar
sua elasticidade em cada ponto da estrutura, e nao considerar o mesmo modulo de
elasticidade para a estrutura inteira.
Dois problemas principais impedem a modelagem precisa das cordas vocais.
O primeiro problema e relativo `a sua forma exata, onde os modelos massa-mola
conseguem fazer simulacoes razoaveis, mas ainda nao sao adequados. O segundo
problema e relativo `a elasticidade dos tecidos, a qual varia para diferentes pontos
das cordas vocais e ainda em funcao das contracoes musculares, o que deveria ser
refletido tambem nos modelos.
Os modelos em elementos finitos envolvendo malhas que simulam a forma
estrutural das cordas vocais atraves de aproximacoes geometricas tambem obtiveram
resultados razoaveis [14, 17, 18, 19, 31, 32], porem esses modelos nao representam a
11
forma com precisao suficiente, nao sendo possvel recriar todos os detalhes. A Fig.
1.8 apresenta alguns modelos geometricos das cordas vocais.
(a)
(b)
(c)
(d)
Figura 1.8: Aproximacoes geometricas para as cordas vocais. (a) Referencia [29],
(b) Referencia [18], (c) Referencia [32] e (d) Referencia [31].
elemento de
area em uma imagem bidimensional.
12
ao considerarmos o aspecto estocastico, atraves da modelagem de incertezas presentes nessas partes. Isto pode ser feito atraves da associacao de variaveis aleatorias
a parametros do sistema e construndo, para cada variavel aleatoria, uma funcao
densidade de probabilidade de acordo com uma certa estrategia [34]. Nos artigos
das referencias [3, 4] as funcoes densidade de probabilidade foram construdas com
base no Princpio da Maxima Entropia, construindo um sistema dinamico nao-linear
estocastico visando a geracao de sons vocalicos. Seu resultado foi obtido com base
no modelo de duas massas para as cordas vocais e o trato vocal foi representado
pelo modelo de tubos.
A tarefa de modelagem 3D das cordas vocais envolve detalhes como a colisao
das cordas vocais, movimentacao do fluxo de ar, variacao dos carregamentos para
as diferentes posicoes e pontos das cordas vocais, estimacao/medicao precisa dos
valores iniciais e de contorno.
1.3
tambem partiram de modelos mais simples. A funcao area do trato vocal fornece a
area de secao transversal em relacao ao eixo do trato vocal para cada ponto localizado nesse eixo a uma determinada distancia da glote, Fig. 1.9.
14
Figura 1.10: Modelo de tubos para o trato vocal. (Adaptada de Titze [8])
15
17
(a)
(b)
Figura 1.14: Determinacao da funcao area por IRM. (a) Serrurier [44] e (b) Hannukainen [45].
Demolin, Metens e Soquet [46] usaram imagens de RM para obter as areas das
secoes do trato vocal em cortes sagitais, coronais, coronais oblquos e transversais.
Os dados coletados permitem a medicao precisa da area em diferentes pontos do
eixo do trato vocal, como ilustrado na Fig. 1.15.
Desse modo, as areas podem ser obtidas durante a emissao de vogais, modelando as diferentes formas que a estrutura do trato vocal pode assumir.
Diversos artigos [47, 48, 49, 50, 51] utilizaram com sucesso as tecnicas de
processamento e analise de imagens de RM para obter informacoes sobre a estrutura
do trato vocal. Entretando, imagens geometricamente anisotropicas (ver Captulo
2) podem influenciar a forma do modelo. Isso pode ser constatado, por exemplo, no
18
trabalho de Clement [52], que calculou os valores das formantes para as vogais /a/,
/i/ e /u/ do idioma frances, atraves das funcoes areas obtidas por IRM concluindo
que, em todos os casos, as formantes calculadas diferiam significativamente das
formantes reais, o que foi atribudo ao uso de fatias com 4 mm de espessura.
Com as IRM, foi possvel definir modelos articulatorios 3D para o trato vocal
[53, 54] e algumas de suas partes componentes: lngua [55, 56, 57, 58], velum [44]
e palato [59]. Vogt [58] desenvolveu uma simulacao em elementos finitos de uma
lngua ativada por m
usculos usando um esquema rigidez-arqueamento que permite
alcancar velocidades de simulacao ate dez vezes o tempo real. Ao fazer isso, porem,
seu modelo perde um pouco em precisao. Engwall [56] criou seus proprios parametros
envolvendo 43 posicoes sustentadas da lngua para o idioma sueco. No idioma Portugues brasileiro tambem existem muitas posicoes sustentadas para a lngua. Porem,
no modelo descrito nesta tese, as simulacoes sao realizadas diretamente na malha
3D sem extrair secoes transversais do trato vocal para criar concatenacoes de tubos
como nos modelos articulatorios. Logo, simular muitas variacoes seria muito complexo, ficando reservado para estudos futuros. Vohradnik et al. [59] construram um
modelo aproximado em elementos finitos dos espacos ac
usticos correspondentes ao
trato vocal e ao trato nasal de um homem adulto. Seu modelo foi criado de acordo
com dados geometricos publicados na literatura, Fig. 1.16.
19
(a)
(b)
(c)
(d)
para os labios, faz com que o som sintetizado nao seja satisfatorio.
Dedouch [62] aplicou o MEF em um modelo de trato vocal obtido a partir de
IRM. Em sua modelagem, mostrada na Fig. 1.18, as paredes do trato tambem foram
consideradas como sendo ac
usticamente rgidas, nao existindo, portanto, absorcao
de som pelas paredes.
Figura 1.18: Modelo de trato vocal considerando o palato. (Dedouch et al. [62])
1.4
Comparac
ao entre os M
etodos Num
ericos
A aplicacao classica para modelagem ac
ustica da producao da voz e baseada
no Metodo dos Elementos Finitos (MEF) [59, 60, 62, 63]. Entretanto, o Metodo dos
Elementos de Contorno (MEC)9 pode modelar facilmente contornos complexos como
8
Linear Prediction Coding (LPC) e uma tecnica de processamento de sinais que consiste em
gerar um filtro que representa a funcao de transferencia do trato vocal a partir do sinal de voz real.
9
22
o trato vocal [64]. Alem disso, como no MEC todas as aproximacoes sao restritas `a
superfcie do modelo, e possvel modelar variaveis que mudam de valor rapidamente
com maior precisao que o MEF. Entretanto, as formulacoes do MEC geralmente
produzem matrizes totalmente populadas (com elementos nao nulos), o que aumenta
os requisitos de memoria e a complexidade computacional. Este problema do MEC e
resolvido atraves da metodologia fast multipole [65]. Em ambos os esquemas, MEF
ou MEC, e necessario calcular uma solucao da equacao de Helmholtz de modo a
conhecer o comportamento do campo ac
ustico para cada frequencia inspecionada.
O Metodo das Matrizes de Linhas de Transmissao (MLT) foi proposto por
Johns e Beurle [66], sendo uma implementacao numerica do princpio de Huygens10 ,
e tendo sido aplicado originalmente para simular campos eletromagneticos em geometrias complexas. Entretanto, tambem pode ser aplicado a diferentes problemas de
Engenharia Mecancia [67] e sua adequabilidade a problemas de ac
ustica foi demonstrada em diversos trabalhos [68, 69]. El-Masri et al. [70] usaram o MLT para estudar
os modos mais altos de propagacao que aparecem no trato vocal. Porem, em seu
trabalho, o trato vocal foi modelado como uma sequencia de guias de onda com
secoes retangulares. Katsamanis e Maragos [71], investigaram a possibilidade de
aplicacao do MLT 3D na simulacao do campo ac
ustico para sntese de consoantes
fricativas, considerando as frequencias mais altas do espectro. O MLT e conhecido
tambem como Digital Waveguide Method (DWM) entre alguns pesquisadores. Ele
produz um sinal de sada no domnio do tempo em vez do campo ac
ustico estatico
por componente de frequencia que e fornecido pelo MEF ou MEC. Este sinal de sada
10
23
mais difcil de ser compensada pois o efeito se altera em funcao da distancia entre
os nos de origem e destino na malha MLT [77, Cap. 5].
Nesta tese, a malha para o modelo MLT e obtida a partir da segmentacao
de imagens medicas volumetricas usando o programa ModaVox, visando avaliar os
efeitos da forma do trato vocal na vogal /a/ do idioma Portugues brasileiro, na
faixa de frequencias de 0 a 10000 Hz. Alem disso, uma condicao de contorno para
representacao de tecidos moles e aplicada `as paredes da malha do trato vocal e um
fator de compensacao e definido para o valor da velocidade do som, resolvendo o
problema da dispersao numerica dependente da direcao em malhas 3D uniformes.
25
Captulo 2
Imagens M
edicas
2.1
Introduc
ao
Pesquisando os princpios fsicos envolvidos nos diversos exames medicos por
imagens, observa-se que, como todo o metodo baseado em digitalizacao, eles consistem em emitir uma forma de onda sobre o objeto que se deseja digitalizar para em
seguida avaliar a resposta recebida. Os objetos a serem digitalizados, assim como
os tipos de forma de onda, podem variar. Por exemplo, no caso de um scanner
comum, o objeto e uma folha de papel e a forma de onda e a luz que reflete na
folha. Ao ser captada e processada, gera a imagem digital do documento. No caso
da tomografia computadorizada, a forma de onda sao os raios X e os objetos a serem
digitalizados podem ser quaisquer desde que caibam no campo de varredura. No
caso da ultra-sonografia, a forma de onda e sonora, uma onda de pressao, ou onda
ac
ustica. No caso dos exames de ressonancia magnetica, a forma de onda e um sinal
de radiofrequencia atraves de um campo magnetico no qual o objeto fica imerso. A
26
imagem sera sempre construda com base nos valores da forma de onda detectada
apos ter incidido sobre o objeto. Esses valores da energia detectada sao convertidos
em informacoes de cores (tons de cinza), para cada ponto do espaco, gerando a
imagem. Ha, porem, as imagens obtidas por termografia, que sao formadas atraves
da captacao da radiacao infravermelha do espectro eletromagnetico. Neste caso,
a radiacao infravermelha detectada e emitida pelo proprio objeto, sem a necessidade de emissao inicial. Desse modo, no caso de imagens medicas, formas de onda
de energias diferentes, revelam caractersticas diferentes sobre os diferentes tecidos
do corpo humano. Assim, os metodos de obtencao das imagens medicas possuem
vantagens e desvantagens uns sobre os outros, dependendo do tipo de aplicacao.
2.2
Imagens de Resson
ancia Magn
etica
Nos exames de ressonancia magnetica, o corpo fica imerso em um campo
(a)
(b)
Figura 2.1: Alinhamento dos spins dos protons. (a) Estado normal. (b) Estado apos
imersao no campo magnetico.
que compoem os atomos das moleculas do corpo fiquem alinhados, Fig. 2.1-(b).
Quando um pulso de radiofrequencia (RF) e aplicado ao corpo, os protons dos
atomos que o compoem ficam magnetizados. Isso induz um sinal de ressonancia
magnetica (RM) no receptor. Quando a onda RF e desligada, o sinal RM comeca a
decair devido ao retorno dos protons ao seu estado original. Este retorno e chamado
de processo de relaxamento dos protons. Existem dois processos basicos de relaxamento: um envolve o retorno dos protons ao seu alinhamento original com o campo
magnetico estatico e e caracterizado por uma constante de tempo T1 . O outro processo de relaxamento ocorre devido ao retorno `a condicao normal de desalinhamento
entre os spins dos protons e e caracterizado por uma constante de tempo T2 . Na medida em que o processo de relaxamento ocorre, ocorre tambem o decaimento do sinal
de ressonancia magnetica (RM) o qual e caracterizado pela expressao exponencial
S = S0 et/T1
(2.1)
gens de alta resolucao sem efeitos danosos ao indivduo, como e o caso da tomografia
computadorizada (TC) que utiliza raios-X. A medida em que a tecnologia avanca,
o tempo de obtencao das imagens vai se tornando cada vez menor, permitindo, inclusive, que tecnicas de amostragem sincronizada sejam utilizadas para obtencao de
sequencias de imagens tomograficas para formar animacoes ou filmes [50].
2.2.1
Imagens Volum
etricas
(a)
(b)
Figura 2.2: Imagens volumetricas. (a) Geometricamente isotropica. (b) Geometricamente anisotropica.
29
2.2.2
Elastografia
2.3
O Padr
ao DICOM
O padrao DICOM (Digital Imaging and Communications in Medicine) [80] foi criado
pela NEMA (National Electrical Manufacturers Association) [81] com o objetivo
de compatibilizar o gerenciamento, armazenamento, impressao e transmissao da
informacao de imageamento medico entre equipamentos de diferentes fabricantes. A
especificacao deste padrao consiste na definicao do formato do arquivo e do protocolo
TCP/IP de comunicacao de rede.
O formato de arquivo DICOM consiste numa serie de atributos. Informacoes
relativas ao paciente, o n
umero do equipamento, data do exame, nome do operador
e ate mesmo informacoes sobre a calibracao do equipamento podem ser obtidas em
um arquivo DICOM alem dos dados da imagem medica. Isso garante que as imagens
medicas nao se separem das suas respectivas informacoes de registro. Os dados da
imagem armazenada podem conter m
ultiplas fatias permitindo o armazenamento de
sequencias de animacao ou volumes. Metodos de compressao como JPEG, JPEG
Lossless, JPEG 2000, etc., podem ser usados nos dados da imagem.
A extensao tpica de um arquivo DICOM e (*.dcm), porem muitos aparelhos
de ressonancia magnetica gravam as sequencias de imagens na forma de uma serie de
arquivos sem extensao. Como sera visto no Cap 4, o programa desenvolvido nesta
tese e capaz de identificar e ler os arquivos DICOM em forma de series de imagens,
31
32
Captulo 3
Modelagem da propaga
c
ao
ac
ustica no Trato Vocal
3.1
O Modelo Fonte-Filtro
O modelo Fonte-Filtro da producao da voz [1], descrito na Secao 1.1, pode ser
subdividido em tres etapas distintas: fonte, o filtro (trato vocal) e a irradiacao.
Seus efeitos ac
usticos podem ser melhor visualizados atraves do diagrama de blocos
da Fig. 3.1.
Uma oitava e uma unidade que representa cada vez que o valor de frequencia de um dado
harmonico dobra.
34
3.2
A Equac
ao de onda
A propagacao de uma onda ac
ustica pode ser aproximada considerando a
propagacao de perturbacoes infinitesimais em um fluido compressvel sem viscosidade [85]. A equacao de onda e fundamental no estudo da ac
ustica e em outras areas
da Engenharia Mecanica. Ela descreve o movimento da onda em um meio atraves
da evolucao da pressao ac
ustica p, ou da velocidade u, da partcula em funcao da
posicao r = (x, y, z) e do tempo t sendo dada por
2 p(r, t)
c2 2 p(r, t) = 0
t2
2 u(r, t)
c2 2 u(r, t) = 0
t2
(3.1)
(3.2)
onde p(r, t), u(r, t), e c sao as perturbacoes na pressao estatica e na velocidade da
partcula de ar, a densidade do ar e a velocidade do som no ar, respectivamente, em
um ponto r(x, y, z) do espaco tridimensional no instante de tempo t. Uma derivacao
completa das Equacoes (3.1) e (3.2) para uma e tres dimensoes pode ser encontrada
na referencia [86].
A velocidade c da propagacao ac
ustica no ar e dada por
r
p0
c=
(3.3)
(3.4)
d2 T (t)
+ k 2 c2 T (t) = 0
2
dt
(3.5)
3.2.1
Considera
c
oes sobre Temperatura e Viscosidade
36
2 p(r, t)
1
c(r)2 (r)
p(r, t) = 0
2
t
(r)
2 u(r, t)
1
c(r)2 (r)
u(r, t) = 0
2
t
(r)
(3.6)
(3.7)
V L
(3.8)
onde e a densidade, e a viscosidade, V e L sao a velocidade media e o comprimento percorrido pelo fluido. Para n
umeros de Reynolds ate 2000, o escoamento
e considerado laminar. Entre 2000 e 4000 o escoamento se encontra numa fase de
transicao entre laminar e o turbulento e para n
umeros de Reynolds acima de 4000,
o escoamento e considerado completamente turbulento.
Para o ar no interior do trato vocal, temos que a densidade do ar ao nvel do
mar e de 1,204 kg/m3 , a viscosidde = 1, 836924704747684E5 kg/m-s a 20o C [88]
e a velocidade media do fluxo de ar pode variar de 6,69 a 7,937 m/s durante a fonacao
[89]. Considerando o comprimento medio de um trato vocal adulto, L = 0, 17 m,
37
temos para o ar aproximadamente R = 88438, 30972, o que e muito maior que 4000.
Logo, o ar no trato vocal pode ser considerado um fluido nao viscoso e o seu fluxo
completamente turbulento.
Entretanto, para efeito do estudo da propagacao ac
ustica, a turbulencia do
fluxo de ar que passa pelo trato vocal durante a vocalizacao pode ser desconsiderada,
porque embora a velocidade do fluxo de ar possa chegar a 7,937 m/s em alguns
pontos do trato vocal, este valor de velocidade e muito menor2 que a velocidade de
propagacao do som no ar (343,1 m/s). Assim, a onda sonora atravessa o fluxo de ar
turbulento muito rapidamente, como se o mesmo estivesse parado. Assim, com c e
constantes nas Equacoes (3.6) e (3.7) temos a forma linear nas Equacoes (3.1) e
(3.2).
3.3
Aproxima
c
ao do Trato Vocal por Sequ
encias
de Tubos
Uma forma de validar a aplicacao de um metodo numerico como o MLT (que sera
discutido na Secao 3.4) em uma estrutura complexa como a do trato vocal e aplica-lo
anteriormente em estruturas mais basicas, como um ou mais tubos, cujos resultados
sejam conhecidos. Alem disso, nas pesquisas da voz e da fala, a concatenacao de
tubos e frequentemente utilizada visando relacionar a configuracao da forma do
trato vocal com as respectivas frequencias de ressonancia ou frequencias formantes
2
Para fins praticos muito (menor/maior)significa pelo menos uma ordem de magnitude a
38
[90]. Assim, concatenacoes de um e dois tubos foram utilizadas para verificacao dos
resultados do MLT.
3.3.1
P (z)
U(z)
(3.9)
(a)
(b)
Figura 3.2: Pressao e Fluxo de Ar na posicao L em um tubo. (a) Tubo fechado. (b)
Tubo aberto.
Temos que
39
p+ = Cp ejz/c
(3.10)
p = Cp ejz/c
(3.11)
(3.12)
p = Z0 u
(3.13)
(3.14)
U(z) = u+ + u
(3.15)
(3.16)
c p+ + p
P (z)
=
U(z)
A p+ p
(3.17)
U(z) =
Assim,
Z(z) =
(3.18)
L
= (2 n 1)
c
2
2 fn L
= (2 n 1)
c
2
(2 n 1) c
fn =
4L
(3.19)
(3.20)
(3.21)
As frequencias de ressonancia para um tubo fechado sao dadas pela Eq. (3.21).
Para L = 170 mm, temos f1 = 504, 56 Hz, f2 = 1513, 68 Hz, , f7 = 6559, 26 Hz,
etc.
Para um tubo aberto, Figura 3.2-(b), as pressoes se subtraem na terminacao.
Entao,
P (z) = p+ + (p )
A +
A
U(z) =
p + (p )
c
c
(3.22)
(3.23)
Assim,
Z(z) =
c p+ p
P (z)
=
U(z)
A p+ + p
(3.24)
De modo analogo ao do tubo fechado, para o tubo aberto de mesma area (Fig.
3.2-(b)), temos a impedancia ac
ustica na terminacao z = L.
c sin cL
Z(L) = i
A cos cL
(3.25)
(3.26)
(3.27)
(3.28)
As frequencias de ressonancia para um tubo aberto sao dadas pela Eq. (3.28).
Para L = 170 mm, temos f1 = 1009, 12 Hz, f2 = 2018, 23 Hz, , f7 = 7063, 82 Hz,
etc.
Para uma concatenacao de 2 tubos, e necessario calcular a funcao de impedancia
Z(z) na juncao entre os dois tubos, Fig. 3.3-(b).
(a)
(b)
Figura 3.3: (a) Concatenacao de dois tubos formando a vogal /a/. (b) Soma em
paralelo das impedancias ac
usticas na juncao.
Assim, Z(z) sera igual `a soma em paralelo de Z(L1 ) e Z(L2 ) com Z(L1 ) para
um tubo fechado e Z(L2 ) para um tubo aberto. O modulo dessa soma e dado por
Z1 (L1 ) Z2 (L2 )
=
Z(z) =
Z2 (L2 ) + Z1 (L1 ) A1 sin
c cos cL1 sin cL2
L1
sin cL2 A2 cos cL2 cos
c
L1
c
(3.29)
funcao que pode ser plotada na faixa de frequencias desejada para comparacao com
os resultados da simulacao. As frequencias de ressonancia sao as abscissas dos picos
do grafico. Este procedimento e facilmente extensvel para tres ou mais tubos.
3.4
M
etodo das Linhas de Transmiss
ao (MLT)
3.4.1
Introdu
c
ao
3.4.2
Descric
ao do M
etodo
A malha para o MLT 3D e toda formada por pontos e arestas ortogonais, Fig. 3.4.
(a)
(b)
provenientes de cada uma das linhas de transmissao `as quais ele esta interligado.
Cada no produz um novo conjunto de pulsos que se torna incidente nos nos adjacentes no passo de tempo seguinte. Para um dado no, a relacao entre os valores dos
pulsos incidentes e dos pulsos espalhados e dada pela matriz de espalhamento da
teoria de linhas de transmissao. Os nos da malha tambem armazenam os valores de
pressao a cada passo do algoritmo. Elementos adicionais como stubs3 podem ser
inseridos para representar as diferentes propriedades dos materiais, em especial as
perdas na propagacao. Porem, devido aos fatores explicados na Subsecao 3.2.1, as
perdas na propagacao ac
ustica no interior do trato vocal podem ser desconsideradas.
Diferentes modelos de espalhamento para os nos da malha podem ser encontrados
em [69, 92, 93]. Porem, o modelo de no do tipo Shunt 3D sem perdas na Fig. 3.5, e
mais simples e funciona bem em problemas de ac
ustica [67].
(a)
(b)
Stubss
ao trechos adicionais inseridos numa linha de transmissao para regular seu valor de
imped
ancia.
44
(3.30)
(3.31)
(3.32)
VT
Vi
(3.33)
(3.34)
(3.35)
Substituindo (3.33) em (3.35), obtemos a relacao entre os coeficientes de reflexao e de transmissao em uma das linhas de transmissao do no N:
= (1 )
ZT
Z
(3.36)
(3.37)
V1E
VE VE VE VE VE
+ ( 2 + 3 + 4 + 5 + 6 )
Z
Z
Z
Z
Z
Z
(3.38)
(3.39)
(3.40)
para a porta 2
Para os valores de densidade e velocidade do som usados aqui Z0 = 1, 204 343, 1 = 413, 0923
N s/m3 .
46
V1S
V2S
V3S
=
S
V4
V5S
V6S
V1E
V2E
V3E
E
V4
E
V5
V6E
(3.41)
(3.42)
que define que o menor comprimento de onda que pode ser propagado na malha
deve ser pelo menos 10 vezes maior que L para que nao haja distorcao do sinal
por dispersao numerica dependente da frequencia, como ilustra a Fig. 3.6. Aqui, os
valores de L utilizados foram de 1 mm para as malhas de tubos e 0,968498 mm
para a malha do trato vocal.
(3.43)
da topologia. Entretanto, e muito difcil definir um valor global para este fator,
porque o fator se altera em funcao da distancia entre os nos de origem e destino.
Este problema sera tratado no Captulo 5.
Para resolver um problema usando o MLT, e necessario fornecer um conjunto
de condicoes de contorno, constantes de material (quando as perdas forem consideradas), e uma condicao inicial de excitacao nos nos desejados. Porem, uma das
vantagens do MLT e a sua facil implementacao. Cada iteracao pode ser dividida em
tres etapas: espalhamento, soma e conexao.
A fase de espalhamento e relativamente simples. Consiste em usar a matriz
de espalhamento da Eq. (3.41) e gerar os valores de sada a partir dos de entrada,
para todos os nos da malha.
Na etapa de soma, o valor da pressao p(r, t) (ou velocidade da partcula u(r, t))
totais em cada no e dado pela soma das correntes das entradas dividida pela soma
das admitancias.
p(r, t) =
6
X
i=1
6
X
IiE
=
Y
i=1
ou
49
(3.44)
1X E
p(r, t) =
V
3 i=1 i
(3.45)
VxE+ (x, y, z) =
(k)
VxS (x + 1, y, z)
(3.46)
(k+1)
VxE (x, y, z) =
(k)
VxS+ (x 1, y, z)
(3.47)
onde k e o n
umero da iteracao, x e x+ representam o sentido do pulso, seja ele de
entrada V E ou de sada V S e as coordenadas indicam se o pulso V pertence a N1 ,
N2 ou N3 . Resumindo, a entrada no sentido x+ de N2 para a iteracao k + 1 e igual `a
sada de N3 no sentido x na iteracao k. Para outras direcoes, o processo e similar.
(k+1)
VyE+ (x, y, z) =
(k)
VyS (x, y + 1, z)
(3.48)
(k+1)
VyE (x, y, z) =
(k)
VyS+ (x, y 1, z)
(3.49)
(k+1)
VzE+ (x, y, z) =
(k)
VzS (x, y, z + 1)
(3.50)
(k+1)
VzE (x, y, z) =
(k)
VzS+ (x, y, z 1)
(3.51)
Embora estas 3 etapas sejam feitas na mesma iteracao, e importante que todos
os nos tenham realizado o espalhamento antes das etapas de soma e conexao, sendo
as duas u
ltimas na ordem indicada. Isso garante o sincronismo dos pulsos e dos
valores entre as iteracoes. Os vetores com os valores dos pulsos e ponteiros para os
50
nos vizinhos fazem parte da estrutura de dados que representa o no MLT, permitindo
rapida conexao e acesso aos valores dos nos vizinhos.
51
Captulo 4
Desenvolvimento do programa
ModaVox
4.1
Introduc
ao
O desenvolvimento de programas de computador aplicados `a Engenharia tem estado restrito `as companhias especializadas, principalmente nos pases em desenvolvimento. Engenheiros capazes de gerar as proprias solucoes computacionais para
os problemas de engenharia sao muito raros. Entretanto, engenheiros sao, por
definicao, desenvolvedores de tecnologia, logo, nao e adequado que se acostumem a
pensar e agir como usuarios ou clientes.
Nos programas de codigo aberto o codigo pode ser verificado, estudado e melhorado. Isso estimula fortemente o raciocnio analtico, a inovacao e a cooperacao; consequentemente melhorando o aprendizado de engenharia. Se estimularmos os cursos
de engenharia a construirem progressivamente seus proprios programas e bibliote-
52
4.1.1
A linguagem C++
C++ e uma linguagem voltada para computacao de alto desempenho, sendo ideal
para computacao numerica. A orientacao a objetos permite grande flexibilidade no
projeto de algoritmos e de estruturas de dados. Alem disso, tambem e a linguagem
de escolha para a maioria dos projetos em codigo aberto e industriais. Por essas
razoes tambem foi escolhida aqui. Excelentes referencias podem se encontradas em
[99, 100, 101, 102, 103, 104, 105].
4.2
Componentes Utilizados
Nesta secao e feita uma descricao dos componentes utilizados e/ou desenvolvi-
53
4.2.1
O compilador GCC
O GCC (GNU Compiler Collection) e um programa de codigo aberto amplamente difundido [106], que pode ser usado para compilar codigos em diversas
linguagens1 e plataformas. O sistema operacional Linux, por exemplo, usado com
sucesso por diversas empresas, governos e pessoas, e compilado atraves do GCC. O
GCC e gratuito, vem junto com a maioria das distribuicoes Linux, e tambem possui
versoes para plataformas domesticas como o Windows. Assim, e possvel compilar
o codigo escrito em C++ e gerar executaveis em ambos os sistemas.
4.2.2
A biblioteca Qt
4.2.3
KDE e a interface gr
afica padr
ao na maioria das distribuicoes Linux
54
podem ser usadas e estendidas livremente para fins educativos. ITK e VTK possuem diversas classes projetadas para trabalhar com imagens medicas e visualizacao,
respectivamente, incluindo imagens medicas, elementos finitos, e visualizacao de
dados [110]. A biblioteca ITK foi usada para leitura das imagens DICOM, nos
filtros de crescimento de regioes e na criacao da estrutura que interliga a imagem
aberta com a vizualizacao e pos-processamento dos resultados pela biblioteca VTK.
4.2.4
RedesNeurais
No momento, a biblioteca RedesNeurais contem apenas o mapa auto-organizavel de Kohonen, pois foi implementada, segundo a teoria em [111], especificamente
para a segmentacao de imagens no programa ModaVox. Porem, nada impede seu
uso em outros projetos. Futuramente, outras modalidades de redes neurais serao
acrescentadas.
4.2.5
TetGen
TetGen, desenvolvido por Hang Si [112], e um programa codigo aberto na linguagem C++ usado aqui como uma biblioteca includa no programa ModaVox com
pequenas modificacoes3 . O codigo de TetGen tambem foi devidamente documentado e acompanha esta tese. Tetgen gera tetraedralizacoes de Delaunay sujeitas a
restricoes de qualidade, decompondo um domnio tridimensional em uma malha
tetraedrica com base no contorno ou superfcie deste domnio. Em geral, pode
3
Foi adicionada uma funcao que captura as excecoes e retorna a condicoes de termino, retorna
55
ter uma forma complexa com contornos internos que separam diferentes regioes e
buracos. Estas caractersticas tornaram o TetGen bastante adequado para funcionar
como parte integrante do sistema de extracao de malhas tetraedricas do ModaVox.
4.3
Estrutura B
asica do Programa
A estrutura basica do programa ModaVox consiste de dois objetos: a JanelaPrincipal e a SubJanela. Quando o programa se inicia, a JanelaPrincipal e definida e, a
partir da abertura de um arquivo, o usuario inicia uma sessao de trabalho em uma
SubJanela. O usuario pode, entao, acionar comandos e eventos da JanelaPrincipal
para a SubJanela, ou eventos, como os de mouse e os de teclas, diretamente na SubJanela. A SubJanela pode tambem enviar sinais para atualizar valores ou solicitar
funcoes para a JanelaPrincipal, Fig. 4.1.
4.4
Interface Gr
afica
balho, caixas de ferramentas como as que aparecem na Fig. 4.2 podem ser chamadas
para realizar as tarefas descritas a seguir.
4.5
Pr
e-processamento de Imagens M
edicas
4.5.1
Removedor de atenuac
ao
(a)
(b)
Felizmente, o metodo de segmentacao com redes neurais da Subsecao 4.6.3 foi suficiente para segmentar as imagens do trato vocal com boa qualidade.
4.5.2
Selec
ao de volume de interesse
(a)
(b)
Figura 4.4: Selecao do volume de interesse. (a) Fatias de RM originais. (b) Fatias
de RM apos a selecao do trato vocal.
4.6
Segmenta
c
ao de Imagens
Obtidas as imagens de ressonancia magnetica, a etapa seguinte e a segmentacao
4.6.1
Segmentac
ao por Crescimento de Regi
oes
4.6.2
Segmentac
ao manual
Este grupo de ferramentas de segmentacao foi implementado para realizar os retoques que forem necessarios nas segmentacoes.
60
4.6.3
Segmentac
ao por Redes Neurais
(4.1)
(4.2)
(4.3)
Media =
zi p(zi )
(4.4)
Uniformidade(Energia) =
p(zi )2
(4.5)
Variancia(Contraste) =
(4.6)
Momento de Ordem 3 =
(4.7)
XX
i
Entropia =
Homogeneidade =
XX
i
(4.9)
(4.10)
(4.11)
XX
i
(4.8)
(4.12)
XX
p(i, j)2
(4.13)
XX
|i j|2 p(i, j)
(4.14)
Momento de Ordem 3 =
XX
|i j|3 p(i, j)
(4.15)
XX
(4.16)
Uniformidade(Energia) =
Variancia(Contraste) =
63
64
(a)
(b)
4.7
Extra
c
ao/Edi
c
ao de Malhas
4.7.1
Formac
ao do Volume Segmentado
67
4.7.2
Gerac
ao das Iso-superfcies
possveis. A Fig. 4.10 mostra essas combinacoes que podem ser reduzidas a 15 casos,
considerando a simetria da celula c
ubica.
O algoritmo e iniciado pela selecao do valor escalar (tom de cinza) que representara a iso-superfcie e o interior de seu volume. Ao analisar cada celula,
o algoritmo localiza o caso de ocorrencia (ver Fig. 4.10) em uma tabela e faz a
interpolacao linear para construir o polgono da iso-superfcie global que esta contido
na celula em questao. O algoritmo vai processando celula a celula ate formar uma
iso-superfcie completa, definida em termos de uma malha poligonal, que contorna
o objeto segmentado com o tom de cinza fornecido inicialmente.
Metodos para aceleracao do processo de extracao de iso-superfcies podem ser
encontrados nas referencias [119, 120].
4.7.3
Tetraedralizac
ao
O algoritmo Marching Cubes apenas gera iso-superfcies, que sao cascasrepresentando a forma dos objetos 3D. Para aplicar os metodos numericos como o
dos elementos finitos (MEF) e o das matrizes de linhas de transmissao (MLT), sera
necessario gerar as malhas de tetraedros de modo a solucionar as equacoes nos pontos
69
(a)
(b)
Figura 4.11: Tetraedralizacao de malhas. (a) Malha de superfcie. (b) Tetraedralizacao do interior. (Vista em corte mostrando as fatias da imagem medica 3D.
5
M
axima relacao raio / aresta permitida para cada tetraedro.
70
4.7.4
Extrac
ao de malhas para o MLT
A extracao de malhas para aplicacao do MLT e relativamente mais facil que a das
malhas tetraedricas, uma vez que a estrutura em grade 3D constituda pelos voxels
do volume segmentado pode ser aproveitada. As arestas sao criadas de modo a
interligar somente os voxels com a segmentacao do objeto para o qual se deseja
extrair a malha. Assim, e possvel obter uma grade 3D formada de pontos e arestas,
que acompanha a forma do objeto segmentado no volume. A Figura 4.12 compara
a malha tetraedrica com a malha em forma de grade 3D do MLT, ambas extradas
para a concatenacao de 2 tubos da Secao 5.4.
(a)
(b)
Figura 4.12: Comparacao entre malhas. (a) Tetraedrica (MEF) e (b) Arestas ortogonais (MLT). Vistas em corte com os planos mostrando o volume segmentado.
71
voxels seja a mesma nas direcoes dos tres planos. O ModaVox e capaz de identificar
se a imagem medica aberta e geometricamente anisotropica e remover esse efeito se
solicitado.
4.7.5
Vizualizac
ao em Corte da malha
Esta funcao permite visualizar um corte da malha no plano ativo, Fig. 4.12.
4.7.6
Simplificac
ao de Iso-superfcies
Reduz o n
umero de triangulos de uma dada percentagem em uma iso-superfcie.
4.7.7
Limpeza de Iso-superfcies
Quando as condicoes da imagem a ser segmentada nao sao muito boas, a etapa de
geracao das iso-superfcies pode gerar falhas como intersecoes e/ou duplicacao de
triangulos. Esta funcao foi criada para varrer uma iso-superfcie eliminando, tanto
quanto possvel, esses defeitos.
4.7.8
Suavizac
ao de Iso-superfcies
72
4.8
M
etodos Num
ericos
Este grupo de controles define os atributos dos pontos e/ou elementos para a malha
possvel visualizar os pontos ou elementos selecionados na imagem
selecionada. E
a partir da selecao na tabela. Uma vez estabelecidos as variaveis e os valores de
contorno na malha, pode-se aplicar o metodo das matrizes de linhas de transmissao
ou o metodo dos elementos finitos.
4.8.1
M
etodo dos Elementos Finitos
4.8.2
M
etodo das Matrizes de Linhas de Transmiss
ao
73
4.9
Alem das funcionalidades que constam nas caixas de ferramentas, existem ainda
algumas outras. O exame de todo o codigo do programa pode ser feito atraves da
documentacao em html que acompanha esta tese, ver Subsecao 4.10.
4.9.1
Esta funcao exibe uma fatia segmentada, caso uma exista, na posicao do plano
selecionado. Quando acionada mais de uma vez, alterna o esquema de cores da
visualizacao da segmentacao entre HSV e tons de cinza.
4.9.2
Equalizac
ao de Histograma
74
4.9.3
Abrir Arquivos
Abre imagens DICOM, series de imagens DICOM, arquivos (*.png), (*.jpg) e (*.bmp),
e arquivos de modelos do ModaVox (*.mvx).
4.9.4
Salvar Arquivos
Salva imagens DICOM (volumetricas ou fatias), imagens (*.png) e arquivos de modelos do ModaVox (*.mvx).
4.9.5
75
partir de suas fatias, a lista de malhas extradas a partir das segmentacoes e a rede
neural, caso uma tenha sido definida para realizar as segmentacoes.
4.10
O sistema de documenta
c
ao (Doxygen)
Para documentacao de todo o codigo foi utilizada a ferramenta Doxygen [122]. Ela
consiste em um programa, tambem em codigo aberto, que gera a documentacao automatica do codigo fonte do programa a partir dos arquivos *.h e *.cpp encontrados
no diretorio onde o programa estiver sendo desenvolvido, como mostra a Fig. 4.14.
ou classe. Assim, e possvel gerar documentacao nos formatos HTML, Latex, XML,
etc. onde os comentarios do codigo aparecem na forma de textos explicativos. No
Linux, o comando doxywizard aciona a interface onde podem ser escolhidas opcoes
para a gerar a documentacao do codigo. Selecionadas as opcoes desejadas, como
diretorio de destino, estilo dos diagramas, formato da documentacao, etc; basta
extrair a documentacao.
77
Captulo 5
Simula
c
oes e Resultados
5.1
Introduc
ao
5.2
Constru
c
ao das Malhas
5.2.1
O c
odigo C++ para duplicacao das imagens se encontra no apendice.
79
5.2.2
Nesta tese foi possvel tirar vantagem das ferramentas de segmentacao de imagens
do ModaVox (ver Secao 4.6) e extrair uma malha para o MLT em conformidade
com as dimensoes naturais do trato vocal. A malha do trato vocal foi obtida para a
posicao correspondente `a vogal /a/ do idioma portugues brasileiro.
As imagens de ressonancia magnetica do trato vocal foram obtidas com o
equipamento de ressonancia magnetica da Clnica ProEcho, gentilmente disponibilizado para esta pesquisa pelo Doutor Alair Augusto S.M.D. dos Santos.
O processo de geracao da malha do trato vocal e realizado em quatro passos:
(i) A sequencia 3D de IRM, com tempo de aquisicao de 18 min e 39 seg, e extrada
para a forma da vogal /a/. O indivduo doador das imagens emitiu a vogal /a/
periodicamente, de modo a controlar o trato vocal mantendo-o em uma posicao fixa
durante a extracao da sequencia de imagens, que era originalmente composta de 186
fatias de 512 512 pixels. A sequencia foi extrada usando uma maquina General
Electric, modelo GE Medical Systems HDxt Signa, com forca de campo magnetico
de 1,5 Tesla, utilizando os seguintes parametros: imagem de RM T1, sequencia de
escaneamento gradient recalled (GR), bobina de cabeca de 8 canais (8HRBRAIN),
tempo de eco de 4,744 ms, tempo de repeticao de 10,584 ms, campo de visao (FOV)
48 X 48 cm, com espacamento entre pixels de (0, 9375; 0, 9375) mm e espessura 1
mm, ou seja, uma imagem geometricamente anisotropica; (ii) O volume de interesse (VOI) contendo apenas o trato vocal e extrado a partir do volume original e
sobreamostrado para remover a anisotropia. Assim, as dimensoes finais dos voxels
80
ficaram (0, 968498; 0, 968498; 0, 968498) mm; (iii) Nesta nova imagem 3D geometricamente isotropica, a segmentacao e realizada via rede neural, remocao de ilhas e
alguns ajustes manuais (todas estas operacoes foram realizadas com o programa
ModaVox). A parte dos dentes foi segmentada de forma manual; (iv) Finalmente, a
malha uniforme para o MLT e extrada a partir da imagem 3D segmentada. Para a
malha do modelo do trato vocal, L = 0, 968498 mm devido `a dimensao final dos
voxels apos a remocao da anisotropia.
5.3
5.3.1
5.3.2
Condic
ao de Estabilidade
(1 )
=
, 2/3
5
(5.1)
= 1 + ,
< 2/3
onde ambas as equacoes sao iguais para = 2/3, sendo a primeira obtida fazendo
ZT = Z/5 e segunda fazendo ZT = Z(1 + )/(1 ) na Eq. (3.36).
5.3.3
Sinais de Entrada
200
X
cos(2fn t)
(5.2)
n=1
onde f1 = 50 Hz, f2 = 100 Hz, f3 = 150 Hz, , f199 = 9950 Hz, f200 = 10000 Hz.
Entretanto, o algoritmo TLM funciona em termos de iteracoes onde cada i
teracao corresponde a t = L/(c D) segundos. Logo, para gerar o arquivo de
entrada e necessario converter o tempo t na Eq. (5.2) em iteracoes, assim
82
entrada =
200
X
cos(2fn kt)
(5.3)
n=1
Segundo a Eq. (5.3), como t = L/(c D), se forem feitas alteracoes nos
valores de L e/ou de c, um novo arquivo com o sinal de entrada com as frequencias
desejadas deve ser gerado para que haja compatibilidade na simulacao.
O outro sinal de entrada usado foi o sinal glotal, o qual foi gerado com a funcao
iaif(), do programa TKK Aparat [125, 126], por filtragem inversa do sinal de voz real
produzido pelo mesmo indivduo cuja malha do trato vocal foi extrada. Apos isso,
o sinal glotal gerado foi sobreamostrado de modo a tornar a sua taxa de amostragem
igual a 1/t, onde t e o intervalo de discretizacao do tempo no MLT. Entao, o
sinal foi armazenado em um arquivo para ser excitado como entrada na malha do
trato vocal pelo programa ModaVox. A Figura 5.1 mostra o sinal da voz humana e
o sinal glotal correspondente, o qual foi usado como entrada apenas para a malha
do trato vocal.
83
(a)
(b)
Figura 5.1: (a) Sinal de voz real para a vogal /a/. (b) Sinal glotal obtido por
filtragem inversa do sinal em (a).
Os sinais de entrada descritos foram excitados nas malhas, um valor por iteracao, no no que representa a origem. Os pulsos que chegam ao no de origem devido
`a reflexao nas paredes dos modelos sao tratados de acordo com a Eq. (3.45) e o
resultado e somado ao valor de entrada atual do no de origem, seguindo a excitacao
padrao de sinais em malhas MLT.
5.3.4
Sinais de Sada
A partir da interface, e possvel selecionar os pontos desejados na malha para registrar os seus valores a cada iteracao. Os valores vao sendo armazenados em arquivos
de sada cujos nomes tem a forma SaidaDoPonto [n
umero do ponto].csv2 . Assim, e possvel analisar posteriormente os valores da solucao nos pontos de interesse.
Para visualizar o grafico da sada da simulacao num dado ponto em funcao do tempo,
basta converter os ndices dos valores armazenados no arquivo de sada do ponto,
multiplicando-os por t. Para visualizar o conte
udo de frequencia do sinal gerado
pela simulacao num dado ponto, basta calcular a transformada rapida de Fourier
(FFT) do sinal contido no arquivo de sada do ponto. A resposta em frequencia
2
84
5.3.5
Condic
ao de Contorno de Espaco Livre
85
5.4
Aplica
c
ao do MLT a Sequ
encias de Tubos
Antes de aplicar o MLT `a complexa estrutura do trato vocal, ele sera aplicado
aos modelos de tubos, cujos resultados podem ser comparados com os resultados
analticos. Alem disso, em pesquisas de voz e da fala, os modelos de tubos sao
frequentemente usados em tentativas de se relacionar as configuracoes de forma do
trato vocal com a estrutura resonante representada pelas formantes [90].
4
Esta r
apida variacao e devida `
as interferencias entre as frentes de onda diretas e refletidas.
86
5.4.1
O fator de compensac
ao da dispers
ao
(a)
(b)
Figura 5.2: Tubos com diametro 24 mm e comprimento 170 mm. (a) Aberto. (b)
Fechado.
As simulacoes foram realizadas considerando c = 343, 1 m/s para a velocidade
87
(a)
(b)
nc
2L
(5.5)
(2n 1)c
.
4L
(5.6)
88
mm, considerando c = 343, 1 m/s. Isso acontece devido `a estrutura ortogonal uniforme da malha do MLT, na qual as frentes de onda viajam a velocidades diferentes
nas direcoes diagonais [67]. A Figura 5.4 ilustra este processo.
linearidade da Eq. (3.43), foi possvel construir uma nova malha para o tubo com
L = 170/1, 8325 = 92, 77 93 mm (Fig. 5.5), mantendo c = 343, 1 m/s. Embora
ambas as alternativas tenham funcionado nas malhas de tubos simples, alterar a
estrutura da malha nao e uma opcao desejavel.
(a)
(b)
Figura 5.5: Tubos com diametro 24 mm e comprimento 93 mm. (a) Aberto e (b)
Fechado.
As simulacoes com os tubos curtos (L = 93 mm) tambem trouxeram as formantes aos valores corretos (Fig. 5.6).
(a)
(b)
Figura 5.6: Respostas em frequencia (Simulacoes nos tubos da Fig. 5.5 com c =
343, 1 m/s). (a) Aberto. (b) Fechado.
5.4.2
Tubo com di
ametro 24 mm
Agora, considerando um tubo de comprimento 170 mm, diametro 24 mm e compensando o valor da velocidade do som (c = 343, 1 1, 8325 = 628, 7307 m/s), as
respostas em frequencia obtidas a partir das simulacoes sao mostradas na Fig. 5.7.
(a)
(b)
Figura 5.7: Respostas em frequencia (Simulacoes nos tubos da Fig. 5.2 com c =
628, 7307 m/s). (a) Aberto. (b) Fechado.
5.4.3
Tubo com di
ametro 12 mm
Embora a primeira simulacao tenha sido no tubo com diametro 24 mm, a maioria
dos testes foi feita na malha do tubo com diametro 12 mm por permitir tempos de
simulacao menores, Fig. 5.8.
(a)
(b)
Figura 5.8: Tubos com diametro 12 mm e comprimento 170 mm. (a) Aberto e (b)
Fechado.
91
(a)
(b)
Figura 5.9: Respostas em frequencia (Simulacoes nos tubos da Fig. 5.8 com c =
628, 7307 m/s). (a) Aberto. (b) Fechado.
5.4.4
Influ
encia da localizac
ao da fonte
(a)
(b)
No caso da fonte colocada proxima `as paredes do tubo, os resultados da simulacao tambem foram compatveis com os resultados analticos para os tubos simples
92
(a)
(b)
Figura 5.11: Respostas em frequencia (Simulacoes nos tubos da Fig. 5.10 com
c = 628, 7307 m/s e a entrada junto `a parede). (a) Aberto. (b) Fechado.
5.4.5
Influ
encia da discretizac
ao espacial (L)
(a)
(b)
(a)
(b)
Figura 5.13: Respostas em frequencia (Simulacoes nos tubos da Fig. 5.12 com
L = 0, 968498 mm e c = 628, 7307 m/s). (a) Aberto. (b) Fechado.
5.4.6
Concatenac
ao de 2 tubos formando a vogal /a/
d1 = 2
A1
= 11, 28379167 mm
(5.7)
(5.8)
(5.9)
patveis com as do grafico analtico. Nesta mesma figura, uma comparacao e feita
entre variaveis diferentes porque apenas os picos de ressonancia estao sendo comparados nos dois graficos.
(a)
(b)
5.5
Aplica
c
ao do MLT ao Trato Vocal
Figura 5.16: Trato vocal formando a vogal /a/. O plano de corte exibe uma fatia
sagital da sequencia de imagens.
96
Para esta malha, cujo formato se ajusta ao de um trato vocal real pronunciando
a vogal /a/, L = 0, 968498 mm devido `a remocao da anisotropia (como discutido
na Subsecao 5.2.2), e c = 628, 7307 m/s devido ao uso do fator de compensacao
(como discutido na Subsecao 5.4.1).
5.5.1
Excitac
ao do sinal de teste na malha do trato vocal
Para esta simulacao, a entrada considerada para o trato vocal foi dada pela Eq.
(5.3). A validacao dos resultados foi realizada atraves da comparacao do grafico de
resposta em frequencia obtido a partir do sinal de sada da simulacao com os obtidos
a partir de amostras reais da vogal /a/ do mesmo indivduo para o qual as IRM
foram extradas, como ilustrado na Fig. 5.17.
Figura 5.17: Respostas em frequencia do trato vocal para a Vogal /a/. (Reais vs.
Simulacao pelo MLT).
Na Fig. 5.17, duas amostras da vogal /a/ foram gravadas: uma com o indivduo na posicao supino, similar `a posicao mantida no aparelho de ressonancia
magnetica, e outra com o indivduo na posicao vertical. Isso foi feito porque a
posicao do indivduo pode afetar a forma do trato vocal [128]. As amostras de
voz humana tem 1 segundo de duracao, taxa de amostragem de 22050 Hz, quan97
tizacao de 16 bits e foram gravadas numa sala silenciosa com as portas e janelas
fechadas, usando um fone de ouvido com microfone omnidirecional, com faixa de
frequencias de 20 Hz a 20 KHz (Sensibilidade: -58dB 2dB) e impedancia de 2,2
KOhms 15%. O grafico de resposta em frequencia obtido a partir do sinal de
sada da simulacao pelo MLT tem os valores das cinco primeiras formantes muito
compatveis5 com os da voz real gravada com o indivduo na posicao supino. Este
resultado mostra que o grafico da resposta em frequencia da simulacao pelo MLT na
Figura 5.17 esta correto e que o modelo numerico construdo foi capaz de captar ate
mesmo a influencia da gravidade na forma do trato vocal, quando da extracao das
imagens de RM, devido `a posicao supino. Alem disso, as frequencias de ressonancia
mais baixas, devido ao comprimento de onda maior, sao mais suscetveis ao efeito
de difracao, enquanto que as mais elevadas, devido ao comprimento de onda menor,
sao mais suscetveis ao efeito de reflexao. Logo, e mais difcil para as frequencias
de ressonancia mais altas serem compatveis entre diferentes amostras de voz, pois
diferencas mnimas na forma do trato vocal terao um efeito mais forte nessas componentes. Quando paredes totalmente refletoras sao consideradas para o trato vocal, a
largura espectral dos picos de ressonancia se torna mais estreita [77, Cap. 7], o que
tambem pode ser observado na resposta em frequencia para a simulacao MLT na
Fig. 5.17. Entretanto, um modelo realista deve representar paredes que nao sejam
completamente refletoras.
O filtro glotal e o efeito de irradiacao pelos labios foi estudado por Fant [1].
Nos modelos de tubos, este efeito e produzido diretamente pelo formato da malha
5
98
nas aberturas dos tubos, e na malha do trato vocal pela forma desta na abertura
da boca. A irradiacao pelos labios causa um efeito passa-alta que e mais forte na
resposta em frequencia para a simulacao MLT na Fig. 5.17. O mesmo efeito tambem
acontece nos resultados para os modelos de tubos, porque como o sinal de entrada
da Eq. (5.3) possui componentes de frequencia com potencia uniforme, o mesmo
nao pode compensar o efeito passa-altas no sinal de sada. Numa voz humana real,
o sinal glotal possui uma taxa de reducao harmonica de 12 dB/Oitava, que permite
compensar o efeito passa-altas causado pela irradiacao pelos labios (Fig. 5.18).
(a)
(b)
Figura 5.18: Efeito do filtro glotal no modelo fonte-filtro. (a) Sinal glotal como
entrada. (b) Sinal da Eq. (5.3) como entrada.
99
(a)
(b)
Figura 5.19: Simulacao MLT na malha do trato vocal considerando c = 628, 7307
m/s, paredes rgidas e o sinal da Eq. (5.3) como entrada. (a) Sinal de sada. (b)
Comparacao das FFTs (Real vs. Simulacao MLT).
Diferentes pontos de sada (ver Fig. 5.20 e Apendice A.2, pag. 121), apos a
abertura da boca, foram selecionados para gravacao. Apenas o ponto 60560 esta no
mesmo plano do ponto de entrada 59219, sendo que este plano nao e onde se localiza
o eixo de simetria do trato vocal.
na Fig. 5.19-(b). Isso ocorre, porque, conforme ja constatado na Subsecao 5.4.4 com
os modelos de tubos simples, a posicao dos pontos de entrada e sada relativamente
ao eixo da estrutura nao importa. Assim, todos os graficos com resultados do trato
vocal exibidos doravante sao referentes ao ponto 74796. A Fig. 5.21 mostra as FFTs
para os pontos 60560, 74796, 74991 e 74995.
(a)
(b)
(c)
(d)
Figura 5.21: Simulacao MLT na malha do trato vocal considerando c = 628, 7307
m/s, paredes rgidas e o sinal da Eq. (5.3) como entrada. Comparacao das FFTs
das sadas nos pontos: (a) 74796, (b) 74991, (c) 60560 e (d) 74995.
Como se pode notar na Fig. 5.21, a potencia do sinal e maior nos pontos mais
proximos da boca, porem o valor das formantes permanece inalterado para todos os
pontos de sada.
5.5.2
Mudando a condic
ao refletora das paredes
Para simular as paredes de tecido mole do trato vocal, a condicao de contorno aplicada `as paredes foi mudada para uma que nao fosse completamente refletora. Como
101
os tecidos moles formam a maior parte das paredes do trato vocal, o coeficiente de
reflexao das paredes foi aproximado a partir do valor medio de impedancia ac
ustica
para os tecidos moles humanos, Tab. 5.1. Lembrando que, nesta tese, o valor de
impedancia ac
ustica utilizado para o ar e de 413,0923 N s/m3 .
Tabela 5.1: Impedancia ac
ustica de alguns materiais. (Adaptada da referencia [78]).
ZT Z0
= 0, 9974688987
ZT + Z0
(5.10)
devida `a representacao das paredes de tecido mole, tambem e clara neste sinal. Na
Figura 5.22-(b), uma comparacao no domnio da frequencia e feita entre o sinal de
sada da simulacao MLT e a voz humana, gravada pelo indivduo na posicao supino.
(a)
(b)
Figura 5.22: Simulacao MLT na malha do trato vocal considerando c = 628, 7307
m/s, paredes de tecido mole humano e o sinal da Eq. (5.3) como entrada. (a) Sinal
de sada. (b) Comparacao das FFTs (Real vs. Simulacao MLT).
5.5.3
Excitac
ao do sinal glotal na malha do trato vocal
Para simular a producao da vogal /a/ na malha do trato vocal, em vez do sinal de
entrada na Eq. (5.3), foi usado como entrada o sinal glotal descrito na Subsecao 5.3.
A mesma condicao de contorno representativa do tecido mole humano da Subsecao
5.5.2 foi aplicada `as paredes do trato vocal. Os resultados sao apresentados na
Fig. 5.23. A Figura 5.23-(b) compara o conte
udo de frequencia do sinal de voz
real na Fig. 5.1-(a) com o do sinal de sada da simulacao MLT na Fig. 5.23-(a),
mostrando que a FFT do sinal de sada da simulacao e praticamente a mesma do
sinal de voz real na faixa de frequencias da voz humana, assegurando a precisao do
modelo desenvolvido e mostrando o efeito positivo do filtro glotal na reducao das
103
(a)
(b)
Figura 5.23: Simulacao MLT na malha do trato vocal considerando c = 628, 7307
m/s, paredes de tecido mole humano e o sinal glotal da Fig. 5.1-(b) como entrada.
(a) Sinal de sada. (b) Comparacao das FFTs (Real vs. Simulacao MLT).
Fant e B
aveg
ard [129] constataram que a fossa piriforme (tambem chamada
sino piriforme) introduz um mnimo no espectro da voz humana em torno de 5200 Hz.
Constatacao esta que foi confirmada, por medicoes em seres humanos, no trabalho
de Dang e Honda [130]. Agora, o mesmo mnimo (em torno de 5200 Hz) pode ser
visto nos espectros das FFTs dos sinais de sada das simulacoes MLT na Fig. 5.22(b) e na Fig. 5.23-(b). Alem disso, as quatro primeiras formantes sao praticamente
as mesmas da voz humana. O sinal de sada na Fig. 5.23-(a) possui uma fase
transiente, de 0 ate em torno de 0, 13 segundos, ate o estabelecimento final dos
perodos do sinal de voz simulado. A magnitude do sinal tambem se apresenta baixa
devido ao fracionamento do sinal de entrada atraves da malha MLT. O algoritmo
descrito na Secao 3.4 e uma implementacao direta do MLT com a adicao do fator
de compensacao desenvolvido. De acordo com a Eq. (3.41) os pulsos de pressao
104
(a)
(b)
(c)
(d)
que nao pode ser atribuda `a dispersao numerica dependente da frequencia, uma vez
que a frequencia fundamental do sinal de sada da Fig. 5.22-(a) e exatamente 50
Hz. Esta diferenca mnima e devida `a fase transiente do sinal de sada da simulacao
MLT, na qual os perodos nao sao detectados pelo algoritmo.
Como um u
ltimo exemplo, um filtro glotal foi construdo atraves da aplicacao
de LPC ao sinal glotal da Fig. 5.1-(b), e seu grafico de resposta em frequencia e
mostrado na Fig. 5.25.
Aplicar este filtro ao sinal da Fig. 5.23-(a) tem o mesmo efeito de aumentar
a taxa de reducao harmonica do sinal glotal e usa-lo como entrada em uma nova
simulacao (ver Fig. 5.18). A Figura 5.26 mostra o resultado.
(a)
(b)
Figura 5.26: (a) Sinal da Fig. 5.23-(a) apos acentuacao do filtro glotal. (b) Comparacao entre as FFTs do sinal de voz real na Fig. 5.1-(a) e o sinal em (a).
trado na Fig. 5.26-(a) em sua forma original foi multiplicado pelo valor constante
de 10, devido `a amplificacao adicional do filtro na Fig. 5.25.
A Figura 5.27 compara o sinal de voz simulado da Fig. 5.26-(a) com o sinal
de voz real da Fig. 5.1-(a). Os perodos da frequencia fundamental tambem foram
marcados usando o mesmo algoritmo de extracao da frequencia fundamental [2].
(a)
(b)
(c)
(d)
5.6
108
estrutura, mas as formantes permanecem relacionadas entre si, como nos tubos simples. Para mostrar mais claramente que os valores das formantes estao relacionados
entre si, a velocidade do som foi mudada no modelo analtico de dois tubos para o
trato vocal. Como resultado, as formantes sao reduzidas/aumentadas proporcionalmente conforme a velocidade do som e reduzida/aumentada, como ilustrado na Fig.
5.28.
(a)
(b)
Figura 5.28: Impedancia ac
ustica dada pela Eq. (3.29) em escala logartmica para o
modelo de dois tubos (vogal /a/). (a) Considerando a velocidade do som c = 343, 1
m/s. (b) Considerando a velocidade aparente do som determinada na Subsecao 5.4.1
(c = 187, 2278 m/s).
Na figura acima, a Eq. (3.29) para o modelo de dois tubos foi representada em
dois graficos com diferentes valores para a velocidade do som: o valor real (c = 343, 1
109
m/s) e o valor aparente (c = 187, 2278 m/s) determinado na Subsecao 5.4.1 para
malhas MLT tridimensionais de grade uniforme usando as simulacoes MLT com
os modelos de tubos simples. Este experimento mostra que as formantes estao
relacionadas entre si, sendo reduzidas/aumentadas proporcionalmente conforme o
aumento/reducao na velocidade do som. Note a relacao de proporcionalidade entre
as formantes correspondentes nas Figs. 5.28-(a) e (b) e o fator de compensacao. A
curva de dispersao, mostrada na Fig. 3.6, mostra como ambos os tipos dispersao
numerica foram considerados dos modelos 3D MLT que foram descritos. Ou seja,
para uma dada faixa de frequencias, a discretizacao do espaco (L) e determinada
e a maxima frequencia do sinal de entrada e escolhida de modo que a dispersao
numerica dependente da frequencia seja mnima. Uma vez que a dispersao numerica
dependente da frequencia tenha sido convenientemente minimizada, a velocidade
aparente de propagacao do som na malha MLT e causada apenas pela topologia em
forma de grade 3D uniforme. Logo, a mesma velocidade aparente (c = 187,2278
m/s) e, consequentemente, o mesmo fator de compensacao (1,8325) tambem pode
ser obtido com base no erro de simulacao em qualquer outra das frequencias de
ressonancia (veja Fig. 5.28) relativamente aos valores correspondentes nas formulas
analticas. Os padroes de ressonancia obtidos a partir das simulacoes com o MLT
demonstraram se comportar exatamente da mesma forma em diferentes modelos,
relativamente `as mudancas no parametro da velocidade do som e `a/ao correspondente reducao/aumento das formantes. Sem qualquer correcao, como na Fig. 5.3,
para a primeira simulacao com os modelos de tubo simples, a topologia em grade
3D uniforme altera a velocidade do som, devido `a dispersao numerica dependente da
110
5.7
Comparac
ao com outros m
etodos
(a)
(b)
Figura 5.29: Dados escalares nas malhas MLT. (a) Concatenacao de 2 tubos apos
247 iteracoes em 4 min 26 s, correspondendo a 0,00039286 s de som. (b) Trato vocal
apos 376 iteracoes em 10 min 18 s, correspondendo a 0,00057919 s de som.
5.8
Um computador com processador de 2,66 GHz e 1GB de RAM foi usado para realizar
as simulacoes, as quais se encontram resumidas na Tab. 5.2.
Tabela 5.2: Resumo das simulacoes.
112
Captulo 6
Conclus
oes
Esta tese contribuiu [131] com a criacao de uma importante ferramenta de modelagem numerica da propagacao ac
ustica do trato vocal.
O modelo numerico desenvolvido nesta tese e capaz de determinar as frequencias
de ressonancia ac
ustica em dutos complexos. No caso do trato vocal humano, as
formantes do modelo se mostraram compatveis com as da amostra gravada com
o indivduo na posicao supino, na qual as imagens de RM foram extradas. Alem
disso, as simulacoes MLT com a condicao de contorno para tecidos moles na paredes
do trato vocal puderam mostrar o mnimo espectral em torno de 5200 Hz, que e
causado pela influencia da fossa piriforme, de acordo com trabalhos anteriores. O
modelo tambem foi capaz de simular a voz humana com caractersticas reais, a partir
do uso do sinal glotal como entrada, confirmando a sua precisao.
Os resultados das simulacoes nos modelos 3D para concatenacoes de tubos e
para o trato vocal mostraram que o modelo fonte-filtro linear e perfeitamente valido,
contrariando trabalhos [11] que suspeitaram que a separacao entre fonte sonora e
113
6.1
Trabalhos Futuros
O modelos com malhas nao uniformes, apesar de reduzirem a complexidade computacional, dificultam a aplicacao do fator de compensacao, pois seria mais difcil
determinar este fator para cada trecho de malha diferente. Alem disso, o uso de
malhas uniformes descreve melhor a continuidade tridimensional do espaco. Como
115
foi visto na Subsecao 5.5.3, a consideracao da composicao das paredes do trato vocal
revelou elevada importancia na percepcao auditiva da amostra de voz gerada. Uma
forma de aumentar ainda mais o realismo do sinal de voz gerado pelo modelo e
usar imagens obtidas por elastografia para determinar as diferentes caractersticas
de reflexao dos tecidos e, consequentemente, dos pontos da malha que compoem as
paredes do trato vocal. Assim, em vez de usar o valor medio de impedancia ac
ustica
para o tecido mole em todas as paredes, seriam configurados valores individuais para
cada regiao (dentes, cartilagens, mucosas, etc). Isso permitira estudos ainda mais
avancados envolvendo, por exemplo, a propagacao do som atraves dos tecidos do
pescoco, a influencia do envelhecimento dos tecidos, etc.
116
Ap
endice A
C
odigos Auxiliares
A.1
C
odigo para Duplicac
ao de Imagens
O exemplo abaixo mostra como duplicar as fatias DICOM criadas com o GIMP,
gerando a sequencia de imagens a ser trabalhada posteriormente pelo ModaVox
para extracao de malhas c
ubicas e/ou tetraedricas para concatenacoes de tubos.
/** copia_imagens.cpp */
/** EXEMPLO DA GERAC
~
AO DA SEQU^
ENCIA DE IMAGENS DICOM PARA A CONCATENAC
~
AO DE 2
TUBOS COM TERMINAC
~
AO */
#include
#include
#include
#include
<iostream>
<string>
<sstream>
<cstdlib>
117
necess
arias n+1 fatias. */
for (int i=1;i<=178;i++)
{
if (
{ ss
else
{ ss
else
{ ss
i <= 90 )
// Para o trecho com di^
ametro 12
<< "cp DiscoDiametro12.dcm tuboA_" << i << ".dcm"; }
if ( (i > 90) && ( i <= 172 ) )
// Para o trecho com di^
ametro 32
<< "cp DiscoDiametro32.dcm tuboB_" << i << ".dcm"; }
// Para a termina
c~
ao di^
ametro 36
<< "cp DiscoDiametro36.dcm tuboC_" << i << ".dcm"; }
E entao, executando
./copia_imagens
A.2
Scripts para an
alise dos resultados do MLT
118
clear all
dx = 0.001; % Valor da discretiza
c~
ao da malha em metros para os tubos
c = 343.1; % Valor da velocidade do som em (m/s) (a princ
pio)
% Diret
orios com os arquivos das simula
c~
oes
% =========================================
tubo_aberto_terminacao_Rho_n1_t0_2d24 =
..\tuboD24\tubo_aberto_terminacao_Rho_n1_t0_2\;
tubo_fechado_terminacao_Rho_n1_t0_2d24 =
..\tuboD24\tubo_fechado_terminacao_Rho_n1_t0_2\;
tubo_aberto_reduzido_terminacao_Rho_n1_t0_2d24 =
..\tuboD24\tubo_aberto_reduzido_terminacao_Rho_n1_t0_2\;
tubo_fechado_reduzido_terminacao_Rho_n1_t0_2d24 =
..\tuboD24\tubo_fechado_reduzido_terminacao_Rho_n1_t0_2\;
TuboDuplo_Saida_Rho_n1_vel628_t0_2 =
..\tuboDuplo\TuboDuplo_Saida_Rho_n1_vel628_t0_2\;
tubo_aberto_vel628_Rho_n1_t0_2d12 =
..\tuboD12\tubo_aberto_vel628_Rho_n1_t0_2\;
tubo_fechado_vel628_Rho_n1_t0_2d12 =
..\tuboD12\tubo_fechado_vel628_Rho_n1_t0_2\;
tubo_aberto_vel628_Rho_n1_t0_2d24 =
..\tuboD24\tubo_aberto_vel628_Rho_n1_t0_2\;
tubo_fechado_vel628_Rho_n1_t0_2d24 =
..\tuboD24\tubo_fechado_vel628_Rho_n1_t0_2\;
tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12Dx0_968498 =
..\tuboD12_Dx0_968498mm\tubo_aberto_terminacao_vel628_Rho_n1_t0_2\;
tubo_fechado_terminacao_vel628_Rho_n1_t0_2d12Dx0_968498 =
..\tuboD12_Dx0_968498mm\tubo_fechado_terminacao_vel628_Rho_n1_t0_2\;
tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12 =
..\tuboD12\tubo_aberto_terminacao_vel628_Rho_n1_t0_2\;
tubo_fechado_terminacao_vel628_Rho_n1_t0_2d12 =
..\tuboD12\tubo_fechado_terminacao_vel628_Rho_n1_t0_2\;
tubo_aberto_terminacao_vel628_Rho_n1_t0_2d24 =
..\tuboD24\tubo_aberto_terminacao_vel628_Rho_n1_t0_2\;
tubo_fechado_terminacao_vel628_Rho_n1_t0_2d24 =
..\tuboD24\tubo_fechado_terminacao_vel628_Rho_n1_t0_2\;
tubo_aberto_terminacao_vel628_Rho_n1_fonte_no_canto1690_t0_2d12 =
..\tuboD12\tubo_aberto_terminacao_vel628_Rho_n1_fonte_no_canto1690_t0_2\;
tubo_fechado_terminacao_vel628_Rho_n1_fonte_no_canto230_t0_2d12 =
..\tuboD12\tubo_fechado_terminacao_vel628_Rho_n1_fonte_no_canto230_t0_2\;
TuboDuplo_terminacao_Rho_n1_vel628_t0_2 =
..\tuboDuplo\TuboDuplo_terminacao_Rho_n1_vel628_t0_2\;
TratoVocal_SinalDeEntradaVel628_Dx0_968498mm_t0_2 =
..\TratoVocal\TratoVocal_SinalDeEntradaVel628_Dx0_968498mm_t0_2\;
119
TratoVocal_Sinal_GlotalVel628_Dx0_968498mm_t0_2 =
..\TratoVocal\TratoVocal_Sinal_GlotalVel628_Dx0_968498mm_t0_2\;
TratoVocal_SinalDeEntradaVel628_Dx0_968498mmParede_TecidoMoleRho0_997_t0_2 =
..\TratoVocal\TratoVocal_SinalDeEntradaVel628_Dx0_968498mmParede_TecidoMoleRho0_997_t0_2\;
TratoVocal_Sinal_GlotalVel628_Dx0_968498mmParede_TecidoRho0_997Mole_t0_2 =
..\TratoVocal\TratoVocal_Sinal_GlotalVel628_Dx0_968498mmParede_TecidoRho0_997Mole_t0_2\;
TratoVocal_Sinal_GlotalParede_TecidoMole_t1 =
..\TratoVocal\TratoVocal_Sinal_GlotalParede_TecidoMole_t1\;
tubo_fechado_terminacao_Dipolo_vel628_Rho_n1_t0_2d12 =
..\tuboD12\tubo_fechado_terminacao_Dipolo_vel628_Rho_n1_t0_2\;
tubo_fechado_terminacao_vel628_Rho_n1_ParedeTecidoMoleRho0_997Tau0_0005_t0_2d12 =
..\tuboD12\tubo_fechado_terminacao_vel628_Rho_n1_ParedeTecidoMoleRho0_997Tau0_0005_t0_2\;
% A seguir as configura
c~
oes das vari
aveis para cada Simula
c~
ao
% ===========================================================
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
TUBO ABERTO COM TERMINACAO D12 FONTE NO CANTO 1690 vel 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_aberto_terminacao_vel628_Rho_n1_fonte_no_canto1690_t0_2d12;
diretorio2 = tubo_aberto_terminacao_vel628_Rho_n1_fonte_no_canto1690_t0_2d12;
ponto1 = 1690;
ponto2 = 24934;
===================================================================
TUBO FECHADO COM TERMINACAO D12 FONTE NO CANTO 230 vel 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_fechado_terminacao_vel628_Rho_n1_fonte_no_canto230_t0_2d12;
diretorio2 = tubo_fechado_terminacao_vel628_Rho_n1_fonte_no_canto230_t0_2d12;
ponto1 = 230;
ponto2 = 23359;
===================================================================
TUBO ABERTO COM TERMINAC
~
AO D12 VELOCIDADE 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12;
diretorio2 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12;
ponto1 = 1644;
ponto2 = 24934;
===================================================================
TUBO FECHADO COM TERMINAC
~
AO D12 VELOCIDADE 628.7307 [RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_fechado_terminacao_vel628_Rho_n1_t0_2d12;
diretorio2 = tubo_fechado_terminacao_vel628_Rho_n1_t0_2d12;
120
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
ponto1 = 138;
ponto2 = 23359;
ponto2 = 24215;
===================================================================
DIPOLO TUBO ABERTO COM TERMINAC
~
AO D12 VELOCIDADE 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12;
diretorio2 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12;
ponto1 = 1644;
ponto2 = 24934;
===================================================================
DIPOLO TUBO FECHADO COM TERMINAC
~
AO D12 VELOCIDADE 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_fechado_terminacao_Dipolo_vel628_Rho_n1_t0_2d12;
diretorio2 = tubo_fechado_terminacao_Dipolo_vel628_Rho_n1_t0_2d12;
ponto1 = 138;
ponto2 = 23359;
ponto2 = 24215;
===================================================================
ParedeTecidoMole TUBO FECHADO COM TERMINAC
~
AO D12 VELOCIDADE 628.7307
[RHO = -1 NA PARTE ABERTA] [RHO = 0.997 TAU= 0.000506 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 =
tubo_fechado_terminacao_vel628_Rho_n1_ParedeTecidoMoleRho0_997Tau0_0005_t0_2d12;
diretorio2 =
tubo_fechado_terminacao_vel628_Rho_n1_ParedeTecidoMoleRho0_997Tau0_0005_t0_2d12;
ponto1 = 138;
ponto2 = 23359;
ponto2 = 24215;
===================================================================
TUBO ABERTO D12 VELOCIDADE 628.7307 [RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_aberto_vel628_Rho_n1_t0_2d12;
diretorio2 = tubo_aberto_vel628_Rho_n1_t0_2d12;
ponto1 = 138;
ponto2 = 23496;
===================================================================
TUBO FECHADO D12 VELOCIDADE 628.7307 [RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_fechado_vel628_Rho_n1_t0_2d12;
diretorio2 = tubo_fechado_vel628_Rho_n1_t0_2d12;
ponto1 = 138;
ponto2 = 23496;
===================================================================
TUBO ABERTO D24 VELOCIDADE 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
121
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
diretorio1 = tubo_aberto_vel628_Rho_n1_t0_2d24;
diretorio2 = tubo_aberto_vel628_Rho_n1_t0_2d24;
ponto1 = 490;
ponto2 = 83864;
===================================================================
TUBO FECHADO D24 VELOCIDADE 628.7307 [RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_fechado_vel628_Rho_n1_t0_2d24;
diretorio2 = tubo_fechado_vel628_Rho_n1_t0_2d24;
ponto1 = 490;
ponto2 = 83864;
===================================================================
TUBO ABERTO REDUZIDO D24 COM TERMINAC
~
AO [RHO = -1 NA PARTE ABERTA]
===================================================================
diretorio1 = tubo_aberto_reduzido_terminacao_Rho_n1_t0_2d24;
diretorio2 = tubo_aberto_reduzido_terminacao_Rho_n1_t0_2d24;
ponto1 = 4900;
ponto2 = 50377;
ponto2 = 52949;
===================================================================
TUBO FECHADO REDUZIDO D24 COM TERMINAC
~
AO [RHO = -1 NA PARTE ABERTA]
===================================================================
diretorio1 = tubo_fechado_reduzido_terminacao_Rho_n1_t0_2d24;
diretorio2 = tubo_fechado_reduzido_terminacao_Rho_n1_t0_2d24;
ponto1 = 490;
ponto2 = 45722;
% ponto2 = 48294;
===================================================================
TUBO ABERTO D24 COM TERMINAC
~
AO VELOCIDADE 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d24;
diretorio2 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d24;
ponto1 = 4900;
ponto2 = 88030;
===================================================================
TUBO FECHADO D24 COM TERMINAC
~
AO VELOCIDADE 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_fechado_terminacao_vel628_Rho_n1_t0_2d24;
diretorio2 = tubo_fechado_terminacao_vel628_Rho_n1_t0_2d24;
ponto1 = 490;
ponto2 = 83375;
===================================================================
TUBO ABERTO COM TERMINAC
~
AO D12 com dx = 0.968498 mm
VELOCIDADE 628.7307 [RHO = -1 NA PARTE ABERTA]
===================================================================
dx = 0.000968498;
c = 628.7307;
diretorio1 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12Dx0_968498;
diretorio2 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12Dx0_968498;
122
% ponto1 = 1644;
% ponto2 = 25756;
% ===================================================================
% TUBO FECHADO COM TERMINAC
~
AO D12 com dx = 0.968498 mm
% VELOCIDADE 628.7307 [RHO = -1 NA PARTE ABERTA]
% ===================================================================
% dx = 0.000968498;
% c = 628.7307;
% diretorio1 = tubo_fechado_terminacao_vel628_Rho_n1_t0_2d12Dx0_968498;
% diretorio2 = tubo_fechado_terminacao_vel628_Rho_n1_t0_2d12Dx0_968498;
% ponto1 = 138;
% ponto2 = 24181;
% ===================================================================
% TUBO DUPLO VELOCIDADE 628.7307
% (1 TUBO FECHADO + 1 TUBO ABERTO) [RHO = -1 NA PARTE ABERTA]
% ===================================================================
%
c = 628.7307;
%
diretorio1 = TuboDuplo_Saida_Rho_n1_vel628_t0_2;
%
diretorio2 = TuboDuplo_Saida_Rho_n1_vel628_t0_2;
%
ponto1 = 138;
%
ponto2 = 81641;
% pontos perto da borda
% ponto2 = 81656;
% ponto2 = 81986;
% ===================================================================
% TUBO DUPLO COM TERMINAC
~
AO VELOCIDADE 628.7307
(1 TUBO FECHADO + 1 TUBO ABERTO) [RHO = -1 NA PARTE ABERTA]
% ===================================================================
% c = 628.7307;
% diretorio1 = TuboDuplo_terminacao_Rho_n1_vel628_t0_2;
% diretorio2 = TuboDuplo_terminacao_Rho_n1_vel628_t0_2;
% ponto1 = 138;
% ponto2 = 81641;
% ===================================================================
% Tubo Aberto termina
c~
ao D24 vel 343.1 primeira simula
c~
ao
% ===================================================================
% diretorio1 = tubo_aberto_terminacao_Rho_n1_t0_2d24;
% diretorio2 = tubo_aberto_terminacao_Rho_n1_t0_2d24;
% ponto1 = 4900;
% ponto2 = 88030;
% ===================================================================
% Tubo Fechado termina
c~
ao D24 vel 343.1 primeira simula
c~
ao
% ===================================================================
% diretorio1 = tubo_fechado_terminacao_Rho_n1_t0_2d24;
% diretorio2 = tubo_fechado_terminacao_Rho_n1_t0_2d24;
% ponto1 = 490;
% ponto2 = 83375;
% ===================================================================
% TRATO VOCAL VELOCIDADE 628.7307 [RHO = -1 NA PARTE ABERTA]
% ===================================================================
%
dx = 0.000968498;
%
c = 628.7307;
%
diretorio1 = TratoVocal_SinalDeEntradaVel628_Dx0_968498mm_t0_2;
%
diretorio2 = TratoVocal_SinalDeEntradaVel628_Dx0_968498mm_t0_2;
123
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
ponto1 = 59219;
ponto2 = 60560;
ponto2 = 74796;
ponto2 = 74991;
ponto2 = 74995;
===================================================================
TRATO VOCAL VELOCIDADE 628.7307 SINAL ENTRADA
[RHO = -1 NA PARTE ABERTA] [RHO = 0.997 tau = 0.0005 NAS PAREDES]
===================================================================
dx = 0.000968498;
c = 628.7307;
diretorio1 =
TratoVocal_SinalDeEntradaVel628_Dx0_968498mmParede_TecidoMoleRho0_997_t0_2;
diretorio2 =
TratoVocal_SinalDeEntradaVel628_Dx0_968498mmParede_TecidoMoleRho0_997_t0_2;
ponto1 = 59219;
%
ponto2 = 60560;
ponto2 = 74796;
ponto2 = 74991;
ponto2 = 74995;
===================================================================
TRATO VOCAL VELOCIDADE 628.7307 SINAL GLOTAL
[RHO = -1 NA PARTE ABERTA] [RHO = 0.997 tau = 0.0005 NAS PAREDES]
===================================================================
dx = 0.000968498;
c = 628.7307;
diretorio1 =
TratoVocal_Sinal_GlotalVel628_Dx0_968498mmParede_TecidoRho0_997Mole_t0_2;
diretorio2 =
TratoVocal_Sinal_GlotalVel628_Dx0_968498mmParede_TecidoRho0_997Mole_t0_2;
%
% Mesma simula
c~
ao com a dura
c~
ao de 0.976 segundos
diretorio1 = TratoVocal_Sinal_GlotalParede_TecidoMole_t1;
diretorio2 = TratoVocal_Sinal_GlotalParede_TecidoMole_t1;
ponto1 = 59219;
% ponto1 entrada
% ponto2 = 60560; % ponto2 saidas
ponto2 = 74796;
% ponto2 = 74991;
% ponto2 = 74995;
==================================================================
TRATO VOCAL VELOCIDADE 628.7307 SINAL GLOTAL APARAT
[RHO = -1 NA PARTE ABERTA]
===================================================================
dx = 0.000968498;
c = 628.7307;
diretorio1 = TratoVocal_Sinal_GlotalVel628_Dx0_968498mm_t0_2;
diretorio2 = TratoVocal_Sinal_GlotalVel628_Dx0_968498mm_t0_2;
ponto1 =
% ponto2
ponto2 =
% ponto2
59219;
= 60560;
74796;
= 74991;
124
%
%
%
%
%
%
% ponto2 = 74995;
===================================================================
Conforme o teste acima que tenha sido descomentado, os arquivos (*.csv)
s~
ao lidos e os gr
aficos no tempo na FFT e a resposta em frequencia
s~
ao plotados
===================================================================
% Leitura do
M1 = csvread(
% Leitura do
M2 = csvread(
A0 = M1(:,1);
A = M2(:,1);
125
aux2 = find(fv>10000);
figure(WindowStyle,normal,Name,Resposta em Frequencia (LPC),Visible,on);
plot(fv(1:aux2(1)),10*log10(abs(h(1:aux2(1)))))
title([Resposta em Frequencia ( diretorio1 )],FontSize,9);
ylabel(Magnitude (dB),Fontsize,11);
xlabel(frequ^
encia (Hz),Fontsize,11);
grid on;
% A partir daqui, como exemplo, um filtro glotal
e constru
do a partir da
% aplica
c~
ao de LPC ao sinal glotal e usado para filtrar o sinal
% sa
do das itera
c~
oes do MLT
%===================================================
% Contru
c~
ao do Filtro Glotal
%===================================================
ag = gera_filtro_glotal();
%===================================================
% Primeira aplica
c~
ao do Filtro Glotal ao sinal do arquivo
%===================================================
A1 = filter(1,ag,A);
%===================================================
% Segunda aplica
c~
ao do Filtro Glotal ao sinal do arquivo
%===================================================
A2 = filter(1,ag,A1);
wavplay(A0,taxa) % Som do sinal de entrada
wavplay(A*1000,taxa) % Som do sinal original das itera
c~
os do MLT
wavplay(A1*10,taxa) % Som do sinal de sa
da ap
os uma aplica
c~
ao do filtro glotal
wavplay(A2,taxa) % Som do sinal de sa
da ap
os duas aplica
c~
oes do filtro glotal
% =========================================================================
% Plotagem primeira filtragem FFT e Resposta em Frequencia
% =========================================================================
calcula_FFT(A1,1,c,dx,[diretorio2 SaidaDoPonto_ ponto2 .csv] );
figure(WindowStyle,normal,Name,diretorio2,Visible,on,NumberTitle,off);
plot(t2,A1);
title([SaidaDoPonto\_ ponto2 (ap
os filtragem)],FontSize,9);
xlabel(tempo (segundos),Fontsize,11); grid on; zoom xon;
a = lpc(A1,floor(length(A1)/50));
[h2,fv2] = freqz(1,a,length(A1),taxa);
aux2 = find(fv>10000);
titulo = Resposta em Frequencia (LPC) - Sinal compensado;
figure(WindowStyle,normal,Name,titulo,Visible,on);
plot(fv2(1:aux2(1)),10*log10(abs(h2(1:aux2(1)))))
title([Resposta em Frequencia ( diretorio1 )],FontSize,9);
ylabel(Magnitude (dB),Fontsize,11);
xlabel(frequ^
encia (Hz),Fontsize,11);
grid on;
% =========================================================================
% Plotagem segunda filtragem FFT e Resposta em Frequencia
% =========================================================================
126
127
Pb = 10*log10(b);
fp = Pb(1:floor(N/2)+1)*Ts;
% Escala de frequencias gerada com base nos indices do vetor saida
f = Fs*(0:floor(N/2))/N;
% Convertendo escala de frequencias de indices para os valores
% reais de frequencia c/dx = 1/dt = taxa de amostragem real do
% sinal de saida coletado diretamente no ponto da malha.
f = f*(c/dx);
amp = fp;
freq = f;
% Limitando para plotar somente at
e 10000 Hz
aux = find(f>10000);
figure(WindowStyle,normal,Name,FFT,Visible,on,NumberTitle,off);
plot(f(1:aux(1)),fp(1:aux(1)));
title(titulo,FontSize,9)
ylabel(Pot^
encia (dB),FontSize,11);
xlabel(frequ^
encia (Hz),Fontsize,11);
zoom xon
grid on
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
No codigo a seguir, a funcao calcula f0() foi desenvolvida durante a dissertacao de Mestrado [9]. A tecnica utilizada em seu algoritmo tambem pode ser
vista na referencia [2].
% gera_sinal_glotal.m
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
function [t,y,tg,gfluxo_interp,taxa_interp] =
gera_sinal_glotal(NomeArq,inicio,fim,dx,c,NomeArqGerado)
% Gera o sinal glotal a partir do arquivo de som
% PARAMETROS:
% NomeArq = Nome do arquivo de som (*.wav) a ser aberto.
% inicio e fim = definem o trecho do arquivo de som a ser tratado
% dx = comprimento da aresta da malha (discretiza
c~
ao espacial)
% c = velocidade do som (m/s);
% NomeArqGerado = Nome do arquivo (*.dados) a ser criado contendo o sinal glotal
% RETORNA:
% t = Escala de tempo do trecho do sinal original
% y = Valores de magnitude do Trecho do sinal original
% tg = Escala de tempo do trecho do sinal glotal interpolado
% gfluxo_interp = Valores de magnitude do Trecho do sinal glotal interpolado
% taxa_interp = taxa de amostragem ap
os a interpola
c~
ao
% ==================================================
format long g
[y, taxa, bits] = wavread(NomeArq);
128
y = y(:,1);
t1 = inicio;
% t1 e t2 sao o intervalo de exibicao do arquivo
t2 = fim;
comp_y = length(y);
duracao = comp_y/taxa;
% Configura
c~
ao do trecho do arquivo de som a ser tratado
% ===========================================================
if t1 <= 0.00001
%Se t1 for menor que o valor que torna N1 = 0
N1 = 1;
%N1 nao pode ser 0 ( [N1 N2] no waveread )
t1 = 0;
%forcar t1 = 0 (limite minimo)
else
% ajusta posicao de leitura no arquivo
N1 = floor(t1*taxa);
end
if t2 > duracao
%Se t2 for maior que a duracao do arquivo
% ajusta posicao de leitura no arquivo (ultima posicao)
N2 = comp_y;
t2 = duracao;
else
% ajusta posicao de leitura no arquivo (posicao escolhida)
N2 = floor(t2*taxa);
end
y = y(N1:N2);
t = (0:(length(y)-1))*(1/taxa);
% Meu c
alculo da f0 (De acordo com o trabalho do Mestrado)
% ===========================================================
f0 = calcula_f0(NomeArq, 75, 0.3, 0.01, 6, 0.75, 0.1, 2)
%Op
c~
oes do programa Aparat
opts = struct(f0, f0,p, 32, arfunc, lpc);
% f0 - frequ^
encia fundamental
% p - ordem do modelo para o trato vocal
% arfunc - AR-modelling technique used in IAIF. Available functions:
% * lpc - Linear Prediction
% Fun
c~
ao do programa Aparat que obt
em o sinal glotal
gfluxo = iaif(y,taxa,opts);
t = (0:length(gfluxo)-1)/taxa;
% Interpola
c~
ao do sinal glotal
dt = dx/c;
taxa_interp = 1/dt;
% Retorna t1 e gfluxo_interp para verifica
c~
ao fora da fun
c~
ao
tg = t(1):1/taxa_interp:t(end);
gfluxo_interp = interp1(t,gfluxo,tg);
% Defini
c~
ao da matriz que vai para o arquivo (*.dados)
% O c
odigo C++ vai ler:
%
1) a taxa de amostragem do sinal glotal interpolado
129
%
2) o n
umero de amostras (para saber quando parar) e
%
3) os valores de magnitude das amostras
C = [taxa_interp length(gfluxo_interp) gfluxo_interp];
% Salva os valores de C na vertical
csvwrite( NomeArqGerado, C );
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% gera_filtro_glotal.m
% Fun
c~
ao para calcular os coeficientes LPC partir do sinal glotal
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
function a = gera_filtro_glotal()
% PARAMETROS:
% Nenhum
% RETORNA:
% O vetor com os coeficientes LPC para o filtro criado
% a partir do sinal glotal.
% ==================================================
[t,y,t1,gfluxo_interp,taxa_interp] = gera_sinal_glotal(
..\Vogal_a_Supino.wav,
0,
0.2,
0.000968498,
628.7307,
..\TratoVocal\SinalGlotalVel628_Dx0_968498mm.dados);
% Remove o inicio do arquivo para o sinal come
car exatamente
% no in
cio de um per
odo
% ===========================================================
gfluxo_interp = gfluxo_interp(14486:end);
% Filtro da glote
a = lpc(gfluxo_interp,floor(length(gfluxo_interp)/100));
[h,fv] = freqz(1,a,length(gfluxo_interp),taxa_interp);
aux2 = find(fv>10000);
figure(WindowStyle,normal,Name,Resposta em Frequencia (LPC),Visible,on);
plot(fv(1:aux2(1)),10*log10(abs(h(1:aux2(1)))));
title([Resposta em Frequencia ( Sinal Glotal )],FontSize,9);
ylabel(Magnitude (dB),Fontsize,11);
xlabel(frequ^
encia (Hz),Fontsize,11);
grid on;
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
130
Ap
endice B
Manual do Programa ModaVox
B.1
B.1.1
Compilac
ao do C
odigo
O gerador de makefiles CMake
Um makefile e um arquivo de texto contendo um roteiro com instrucoes de compilacao em sequencia para o compilador (GCC). O CMake [132] gera o makefile a
partir de um conjunto de instrucoes, com as localizacoes dos arquivos a serem includos e das bibliotecas. Estas instrucoes ficam contidas em um arquivo chamado
CMakeLists.txt. Para o ModaVox, o arquivo CMakeLists.txt e mostrado abaixo:
# Arquivo CMakeLists.txt
cmake_minimum_required(VERSION 2.4)
PROJECT(MODAVOX)
# INCLUIR PACOTE VTK
# =============================================================
FIND_PACKAGE(VTK)
IF(NOT VTK_DIR)
MESSAGE(FATAL_ERROR
"Please set VTK_DIR.")
ELSE(NOT VTK_DIR)
INCLUDE(${VTK_USE_FILE})
ENDIF(NOT VTK_DIR)
# INCLUIR PACOTE ITK
# =============================================================
131
FIND_PACKAGE(ITK)
IF(ITK_FOUND)
INCLUDE(${ITK_USE_FILE})
ELSE(ITK_FOUND)
MESSAGE(FATAL_ERROR
"ITK not found. Please set ITK_DIR.")
ENDIF(ITK_FOUND)
# CONFIGURAR QT
# =============================================================
SET(QT_MOC_EXECUTABLE ${VTK_QT_MOC_EXECUTABLE} CACHE FILEPATH "")
SET(QT_UIC_EXECUTABLE ${VTK_QT_UIC_EXECUTABLE} CACHE FILEPATH "")
SET(QT_QMAKE_EXECUTABLE ${VTK_QT_QMAKE_EXECUTABLE} CACHE FILEPATH "")
SET(DESIRED_QT_VERSION ${VTK_DESIRED_QT_VERSION} CACHE FILEPATH "")
FIND_PACKAGE(Qt4)
IF(QT_USE_FILE)
INCLUDE(${QT_USE_FILE})
ELSE(QT_USE_FILE)
SET(QT_LIBRARIES ${QT_QT_LIBRARY})
ENDIF(QT_USE_FILE)
IF(CMAKE_HOST_UNIX)
SET( REDES_NEURAIS_INCLUDE_DIR /drive_c/RedesNeurais )
SET( TETGEN_INCLUDE_DIR /drive_c/tetgen1.4.2 )
ENDIF(CMAKE_HOST_UNIX)
IF(CMAKE_HOST_WIN32)
SET( REDES_NEURAIS_INCLUDE_DIR C:/RedesNeurais )
SET( TETGEN_INCLUDE_DIR C:/tetgen1.4.2 )
message ( "REDES_NEURAIS_INCLUDE_DIR = " ${REDES_NEURAIS_INCLUDE_DIR} )
ENDIF(CMAKE_HOST_WIN32)
DOS E DAS BIBLIOTECAS
# LOCALIZAC
~
OES DOS ARQUIVOS A SEREM INCLUI
# ===============================================================
INCLUDE_DIRECTORIES (
${QT_INCLUDE_DIR}
${CMAKE_CURRENT_BINARY_DIR}
${CMAKE_CURRENT_SOURCE_DIR}
${REDES_NEURAIS_INCLUDE_DIR}
${TETGEN_INCLUDE_DIR} )
# CONFIGURAR PROJETO QT
# =============================================================
IF(DESIRED_QT_VERSION MATCHES 4)
# SOURCES, HEADERS , UIS e RCCS
# =============================================================
SET(SRCS main.cpp JanelaPrincipal.cpp SubJanela.cpp JanelaSobre.cpp
QVTKMostrador.cpp JanelaSeries.cpp JanelaMapaCores.cpp Filtro.cpp Imagem.cpp
Malha.cpp MatrizDeCoocorrencia.cpp JanelaCores.cpp TLM.cpp)
132
Como e possvel notar a compilacao do codigo envolve a inclusao de quatro bibliotecas open source alem da de biblioteca RedesNeurais, que contem, por enquanto,
apenas o mapa auto-organizavel de Kohonen pois foi programada especificamente
para a segmentacao das imagens no ModaVox. A instalacao dessas bibliotecas sera
133
B.1.2
Instalac
ao das bibliotecas Qt, ITK, VTK e TetGen
B.1.3
134
no diretorio /drive c/RedesNeurais/RedesNeuraisLinux para iniciar a compilacao que vai criar a biblioteca libRedesNeurais.a. Este arquivo deve, entao, ser
copiado para /usr/local/lib/ ou adicionado `a variavel $PATH do sistema operacional.
B.1.4
Compilando o ModaVox
Para gerar o makefile basta executar o CMake, indicando o diretorio onde se encontra
o arquivo CMakeLists.txt referente ao ModaVox e o diretorio onde o makefile sera
gerado. Por exemplo,
ccmake /drive_c/ModaVox /drive_c/ModaVox/ModaVoxLinux
135
B.2
Executando o Programa
B.2.1
Abrindo Arquivos
137
Na Figura B.3, os dados relativos ao cabecalho DICOM sao exibidos nas colunas da tabela que contem a lista de series. Selecionando a serie desejada e clicando
em OK, as fatias serao carregadas no visualizador (SubJanela) unidas na forma de
um volume 3D.
B.2.2
B.2.3
Operac
oes sobre a Sess
ao de Trabalho
Com a imagem 3D aberta (ver Fig. B.5), o Plano Ativo e indicado pelo contorno
verde e permite ao usuario navegar pelas fatias do volume 3D, uma a uma. Isso
e feito usando as teclas Page Down e Page Up. Para alternar a selecao entre os 3
138
B.2.4
140
B.2.5
Segmentando Imagens
Visualizac
ao das Segmentac
oes
Na Figura B.7, o botao
permitem
Segmentac
ao por Crescimento de Regi
oes
Ainda na Fig B.7, para segmentar usando crescimento de regioes, selecione o filtro (threshold conectado ou confianca conectado), as sementes1 , o nome e o rotulo
(tom de cinza) da nova regiao que sera criada na fatia segmentada. As caixas dos
parametros exibem textos explicativos quando o mouse passa sobre eles.
Segmentac
ao Manual
Este grupo de ferramentas de segmentacao foi implementado para realizar os retoques que forem necessarios nas segmentacoes (ver Fig. B.8).
Sementes s
ao os voxels a partir dos quais o algoritmo se inicia.
142
Segmentac
ao por Redes Neurais
A Figura B.9 mostra a interface de redes neurais. Para segmentar usando o mapa
auto organizavel, e necessario selecionar alguns descritores de textura2 . A opcao
2
Para a imagem 3D do trato vocal os melhores descritores foram Continuidade, Media e Entropia
estatsticos.
143
Faixas pode ser utilizada para que o programa ignore os descritores e segmente
aplicando m
ultiplos thresholds, dividindo os nveis de cinza da imagem num dado
n
umero de faixas. Em seguida clicar em Treinar. Os botoes Relatorio e Mapa de
Cores servem para exibir o relatorio do treinamento da rede e os tons de cinza das
regioes detectadas, respectivamente.
B.2.6
Apos a segmentacao, para extrair as malhas o usuario deve acessar as guias Imagem
Extracao / Edicao de Malhas, para fazer surgir a caixa de ferramentas ilustrada
na Fig. B.10.
144
145
e clique em
e clique em
deve estar
selecionada para indicar que uma malha vai ser extrada para o metodo das linhas
de transmissao.
Operac
oes sobre as Malhas
Segue abaixo a descricao dos controles da caixa de ferramentas Extracao / Edicao
de Malhas:
146
B.2.7
Aplicando o M
etodo das Linhas de Transmiss
ao (MLT)
Apos a geracao da malha para o MLT, acesse as guias Malha Metodos Numericos,
como ilustrado na Fig. B.11.
147
Atribundo condic
oes de contorno aos Pontos
Para inserir um novo atributo relativo aos pontos da malha, selecione a guia Pontos
relativa ao campo Valores de Contorno e escreva, por exemplo, Pressaono campo
chamado Variavel e clique no botao
criada na tabela da guia Pontos. Os valores da coluna sao todos inicializados para
zero e correspondem aos ndices da lista de pontos na malha. Para remover uma
coluna, selecione qualquer elemento da mesma e clique no botao
. Tambem e
possvel aplicar condicoes aos elementos. Porem, nao sera necessario aqui. Em
seguida, clique no botao
Colore a malha com os valores escalares relacionados `a coluna selecionada na tabela Pontos.
148
Quando ha muitos pontos selecionados na tabela, este botao desmarca os pontos cujo valor escalar seja o mesmo contido no campo Valor.
Transfere os ndices dos pontos selecionados na tabela para a caixa
Sada(s) em. Nesta caixa ficam os ndices dos pontos pontos cujas sadas serao
registradas no decorrer das iteracoes do metodo.
Configurando a aplicac
ao do MLT
Os passos para configuracao dos parametros para aplicacao do MLT sao descritos a
seguir. A interface pode ser vista na Fig. B.11.
1. Na guia TLM, selecione o arquivo com o sinal de entrada na caixa Entrada
glotal.
149
2. Selecione ou digite, na caixa Sada(s) em, os ndices dos pontos da malha para
os quais a sada do algoritmo MLT sera coletada a cada iteracao. No diretorio
em que o ModaVox estiver sendo executado serao criados arquivos de nomes
SaidaDoPonto [indice1].csv, SaidaDoPonto [indice2].csv, etc.
3. Digite o valor da velocidade do som. Para malhas uniformes o valor 628.7307
m/s deve ser usado de acordo com o fator de correcao da velocidade proposto
no Captulo 3.
4. Na caixa Tempo gerado, digite o tempo em segundos da amostra de som a
ser gerada. O n
umero de iteracoes na caixa Iteracoes e calculado automaticamente. Digitando primeiro o n
umero de iteracoes, o tempo de som gerado
tambem e calculado automaticamente.
5. Digite os valores desejados para as variaveis e referentes `as condicoes de
contorno das paredes do trato e das sadas para o espaco livre na malha do
trato. Os valores padrao sao para paredes totalmente rgidas com = 1 e
= 0, e a condicao de espaco livre com = 1 e = 0.
6. A opcao
150
151
B.2.8
Salvando Arquivos
152
Bibliografia
[1] Fant G., The Acoustic Theory of Speech Production, 2nd ed.
Mouton, The
[6] Gould
W.
J.
(2011)
The
voice
foundation.
[Online].
Disponvel:
Prentice-Hall, 1994.
[9] Brandao A. S., Classificacao de vozes naturais e de vozes sintetizadas atraves
de modelos mecanicos de laringe e de trato vocal usando redes neurais, Dissertacao de Mestrado, Universidade Federal Fluminense, Niteroi-RJ, Fevereiro
2006.
[10] DAlessandro M. P. (1995) Anatomy atlases: A digital library of anatomy
information. [Online]. Disponvel: http://www.anatomyatlases.org (Acesso
em: 18/01/2008)
[11] Flanagan J. and Landgraf L., Self-oscillating source for vocal-tract synthesizers, IEEE Transactions on Audio and Eletroacoustics, vol. 16, no. 1, pp.
5764, 1968.
[12] Ishizaka K. and Flanagan J. L., Synthesis of voiced sounds from two-mass
model of the vocal cords, Bell System Technical Journal, vol. 51, pp. 1233
1268, 1972.
154
[13] Cataldo E., Leta F. R., Lucero J., and Nicolato L., Synthesis of voiced sounds
using low-dimensional models of the vocal cords and time-varying subglottal
pressure, Mechanics Research Communications, vol. 33, no. 2, pp. 250260,
2006.
[14] Alipour F., Berry D. A., and Titze I. R., A finite-element model of vocal-fold
vibration, Journal of the Acoustical Society of America, vol. 108, no. 6, pp.
30033012, 2000.
[15] Alipour F. and Titze I. R., Elastic models of vocal fold tissues, Journal of
the Acoustical Society of America, vol. 90, no. 3, pp. 13261331, 1991.
[16] Berry D. A., Herzel H., Titze I. R., and Krischer K., Interpretation of biomechanical simulations of normal and chaotic vocal fold oscillations with empirical eigenfunctions, Journal of the Acoustical Society of America, vol. 95,
no. 6, pp. 35953604, 1994.
[17] Berry D. A. and Titze I. R., Normal modes in a continuum model of vocal
fold tissues, Journal of the Acoustical Society of America, vol. 100, no. 5, pp.
33453354, 1996.
[18] Rosa M. O., Laringe digital, Tese de Doutorado, Escola de Engenharia de
Sao Carlos, USP, Sao Paulo, 2002.
[19] Titze I. R. and Strong W. J., Normal modes in vocal cord tissues, Journal
of the Acoustical Society of America, vol. 57, no. 3, pp. 736744, 1975.
155
[20] Story B. H. and Titze I. R., Voice simulation with a body-cover model of the
vocal folds, Journal of the Acoustical Society of America, vol. 97, no. 2, pp.
12491260, 1995.
[21] Mergell P., Herzel H., and Titze I. R., Irregular vocal fold vibration - highspeed observation and modeling, Journal of the Acoustical Society of America, vol. 108, no. 6, pp. 29963002, 2000.
[22] Herzel H., Bifurcations and chaos in voice signals, Applied Mechanics Review, vol. 46, no. 7, pp. 399413, 1993.
[23] Herzel H., Berry D., Titze I., and Steinecke I., Nonlinear dynamics of the
voice: Signal analysis and biomechanical modeling, Chaos, vol. 5, no. 1, pp.
3034, 1995.
[24] Lucero J. C., A theoretical study of the hysteresis phenomenon at vocal fold
oscillation onset-offset, Journal of the Acoustical Society of America, vol. 105,
no. 1, pp. 423431, 1999.
[25] Steinecke I. and Herzel H., Bifurcations in an asymmetric vocal-fold model,
Journal of the Acoustical Society of America, vol. 97, no. 3, pp. 18741884,
1995.
[26] Lucero J. C. and Gotoh T., On the threshold pressure and the minimum
sustaining pressure in the vocal fold oscillation, Journal of the Acoustical
Society of Japan, vol. 14, pp. 213214, 1993.
156
[27] Eysholdt U., Tigges M., Wittenberg T., and Proschel U., Direct evaluation
of high- speed recordings of vocal fold vibrations, Folia Phoniatrica et Logopedica, vol. 48, no. 4, pp. 163170, 1996.
[28] Hammarberg B., High-speed observations of diplophonic phonation, in Vocal
Fold Physiology: Voice Quality Control.
[30] Svec
J. G., Horacek J., Sram
F., and Vesely J., Resonance properties of
the vocal folds: In vivo laryngoscopic investigation of the externally excited
laryngeal vibrations, Journal of the Acoustical Society of America, vol. 108,
no. 4, pp. 13971407, 2000.
[31] Gunter H. E., A mechanical model of vocal-fold collision with high spatial
and temporal resolution, Journal of the Acoustical Society of America, vol.
113, no. 2, pp. 9941000, 2003.
[32] Lobo A. and OMalley M., Towards a biomechanical model of the larynx, in The Fourth International Conference on Spoken Language Processing,
Philadelphia, 1996.
157
[33] Parker K. J., Taylor L. S., Gracewski S., and Rubens D. J., A unified view
of imaging the elastic properties of tissue, Journal of the Acoustical Society
of America, vol. 117, no. 5, pp. 27052712, 2005.
[34] Klir G. J., Uncertainty and Information - Foundations of Generalized Information Theory. Hoboken, New Jersey: John Wiley & Sons, Inc., 2006.
[35] Motoki K., Three-dimensional acoustic field in vocal-tract, Acoustical Science and Technology, vol. 23, no. 4, pp. 207212, 2002.
[36] Kelly K. L. and Lochbaum C. C., Speech synthesis, in Proceedings of 4th
International Congress on Acoustics, Paper G42, 1962, pp. 14.
[37] Doel K. V. D. and Ascher U. M., Real-time numerical solution of websters
equation on a nonuniform grid, IEEE Transactions on Audio, Speech & Language Processing, vol. 16, no. 6, pp. 11631172, 2008.
[38] Mokhtari P., Takemoto H., and Kitamura T., Single-matrix formulation of
a time domain acoustic model of the vocal tract with side branches, Speech
Communication, vol. 50, no. 3, pp. 179190, 2008.
[39] Mullen J., Howard D. M., and Murphy D. T., Acoustical simulations of the
human vocal tract using the 1d and 2d digital waveguide software model,
in Proceedings of the 7th International Conference on Digital Audio Effects
(DAFX-04), Naples, Italy, 2004, pp. 311314.
158
[40] Wakita H., Direct estimation of the vocal tract shape by inverse filtering of
acoustic speech waveforms, IEEE Transactions on Audio and Electroacoustics, vol. 21, no. 5, pp. 417427, 1973.
[41] , Estimation of vocal-tract shapes from acoustical analysis of the speech
wave: The state of the art, IEEE Transactions on Acoustics, Speech and
Signal Processing, vol. 27, no. 3, pp. 281285, 1979.
[42] Beautemps D., Badin P., and Laboissi`ere R., Deriving vocal-tract area functions from midsagittal profiles and formant frequencies: A new model for
vowels and fricative consonants based on experimental data, Speech Communication, vol. 16, no. 1, pp. 2747, 1995.
[43] Story B. H., A parametric model of the vocal tract area function for vowel
and consonant simulation, Journal of the Acoustical Society of America, vol.
117, no. 5, pp. 32313254, 2005.
[44] Serrurier A. and Badin P., Towards a 3d articulatory model of velum based
on mri and ct images, ZAS Papers in Linguistics, vol. 40, pp. 195211, 2005.
[45] Hannukainen A., Lukkari T., Malinen J., and Palo P., Formants and vowel
sounds by the finite element method, in The Phonetics Symposium, Helsinki,
2006, pp. 2433.
[46] Demolin D., Metens T., and Soquet A., Three-dimensional measurement of
the vocal tract by mri, in The Fourth International Conference on Spoken
Language Processing (ICSLP96), Philadelphia, 1996.
159
[47] Baer T., Gore J. C., Gracco L. C., and Nye P. W., Analysis of vocal tract
shape and dimensions using magnetic resonance imaging: Vowels, Journal of
the Acoustical Society of America, vol. 90, no. 2, pp. 799828, 1991.
[48] Greenwood A. R., Goodyear C. C., and Martin P. A., Measurements of vocal
tract shapes using magnetic resonance imaging, IEE Proceedings Communications, vol. 139, no. 6, pp. 553560, 1992.
[49] Story B. H., Titze I. R., and Hoffman E. A., Vocal tract area functions from
magnetic resonance imaging, Journal of the Acoustical Society of America,
vol. 100, no. 1, pp. 537554, 1996.
[50] Takemoto H., Honda K., Masaki S., Shimada Y., and Fujimoto I., Measurement of temporal changes in vocal tract area function from 3d cine-mri data,
Journal of the Acoustical Society of America, vol. 119, no. 2, pp. 10371049,
2006.
[51] Yang C. S. and Kasuya H., Accurate measurement of vocal tract shapes from
magnectic resonance images of child, female and male subjects, in Proceedings
of the 3rd International Conference on Spoken Language Processing, (ICSLP
94), Yokohama, Japan, 1994, pp. 623626.
[52] Clement P., Hans S., Hartl D. M., Maeda S., Vaissi`ere J., and Brasnu D., Vocal tract area function for vowels using three-dimensional magnetic resonance
imaging. a preliminary study, Journal of Voice, vol. 21, no. 5, pp. 522530,
2007.
160
[53] Engwall O., Vocal tract modeling in 3d, Speech, Music and Hearing - Quarterly Progress and Status Report, vol. 40, no. 1-2, pp. 031038, 1999.
[54] Vogt F., Guenther O., Hannam A., van den Doel K., Lloyd J., Vilhan L.,
Chander R., Lam J., Wilson C., Tait K., Derrick D., Wilson I., Jaeger C., Gick
B., Vatikiotis-Bateson E., and Fels S., Artisynth: Designing a modular 3d
articulatory speech synthesizer, Journal of the Acoustical Society of America,
vol. 117, no. 4, pp. 25422542, 2005.
[55] Dang J. and Honda K., Speech production of vowel sequences using a physiological articulatory model, in International Conference on Spoken Language
Processing (ICSLP98), 1998.
[56] Engwall O., A 3d tongue model based on mri data, in Proceedings of 6th
International Conference on Spoken Language Processing (ICSLP-2000), Beijing, China, 2000, pp. 901904.
[57] Lu X. B., Bier P. J., and Thorpe C. W., A time-varying three-dimensional
model of the vocal tract, in Proceedings of the 11th Australian International
Conference on Speech Science & Technology, University of Auckland, New
Zealand, 2006.
[58] Vogt F., Lloyd J. E., Buchaillard S., Perrier P., Chabanas M., Payan Y., and
Fels S. S., Efficient 3d finite element modeling of a muscle-activated tongue,
in Proceedings of ISBMS 06, ser. Lecture Notes in Computer Science, vol.
4072. Springer, 2006, pp. 1928.
161
[59] Vohradnik M., Dedouch K., Vokral J., and Svec
J. G., Finite element model
of supraglottal space in cleft palate, in International Federation of Otorhinolaryngological Societies, International Congress Series, vol. 1240, 2003, pp.
11451149.
[60] Nishimoto H. and Akagi M., Effects of complicated vocal tract shapes on vocal tract transfer functions, in International Workshop on Nonlinear Circuits
and Signal Processing (NCSP06), Hawaii-USA, 2006, pp. 114117.
[61] Takano S. and Honda K., An mri analysis of the extrinsic tongue muscles
during vowel production, Speech Communication, vol. 49, no. 1, pp. 4958,
2007.
y L., Finite element modelling
[62] Dedouch K., Horacek J., Vampola T., and Cern
of male vocal tract with consideration of cleft palate, in Forum Acusticum,
Special Issue of the Revista de Acustica, vol. XXXIII (3-4), Sevilla, 2002.
[63] Matsuzaki H. and Motoki K., A finite-element method analysis of acoustic
characteristics of the vocal tract with the nasal cavity during phonation of
japanese /a/, Journal of the Acoustical Society of America, vol. 120, no. 5,
pp. 33713371, 2006.
[64] Kagawa Y., Shimoyama R., Yamabuchi T., Murai T., and Takarada K.,
Boundary element models of the vocal tract and radiation field and their
response characteristics, Journal of Sound and Vibration, vol. 157, no. 3, pp.
385403, 1992.
162
[65] Bapat M. S., Shen L., and Liu Y. J., Adaptive fast multipole boundary element method for three-dimensional half-space acoustic wave problems, Engineering Analysis with Boundary Elements, vol. 33, no. 8-9, pp. 11131123,
2009.
[66] Johns P. B. and Beurle R. L., Numerical solution of two-dimensional scattering problems using a transmission-line matrix, in Proceedings of IEE, vol.
118, 1971, pp. 12031209.
[67] Cogan D., OConnor W., and Pulko S., Transmission Line Matrix in Computational Mechanics.
163
164
[77] Speed M. D. A., Modelling sound propagation in the vocal tract with a threedimensional digital waveguide mesh, Dissertacao de Mestrado, University of
York, Heslington, June 2008.
[78] Hendee W. R. and Ritenour E. R., Medical Imaging Physics, 4th ed.
New
PixelMed Publishing,
2000.
[81] NEMA - National electrical manufacturers association. (1926) [Online].
Disponvel: http://www.nema.org/ (Acesso em 13/05/2008)
[82] Rothenberg M., A new inverse-filtering technique for deriving the glottal air
flow waveform during voicing, Journal of the Acoustical Society of America,
vol. 53, no. 6, pp. 16321645, 1973.
[83] , Acoustic interaction between the glottal source and the vocal tract, in
Proceedings of the Vocal Fold Physiology Conference, vol. 1. Kurume, Japan:
University of Tokyo Press, January 1980, pp. 305328.
[84] , The source-filter model lives (if you are careful), in Proceedings of the
37th Annual Symposium of the Voice Foundation, May 2008.
165
[85] Lai W. M., Rubin D., and Krempl E., Introduction to Continuum Mechanics,
3rd ed. Butterworth-Heinemann, 1996.
[86] Beranek L. L., Acoustics. New York, pp. 16-22: Acoustical Society of America,
1986.
[87] Ballanis C. A., Advanced Engineering Electromagnetics. New York, pp. 116120: John Wiley & Sons, 1989.
[88] LMNO Engineering, Research, and Software, Ltd. (2003) Gas viscosity calculator. [Online]. Disponvel: http://www.lmnoeng.com/Flow/GasViscosity.htm
(Acesso em 23/05/2008)
[89] Rothenberg M., The breath-stream dynamics of simple-released plosive production, Bibliotheca Phonetica, vol. 6, pp. 2433, 1968.
[90] Rabiner L. R. and Schafer R. W., Digital Processing of Speech Signals.
En-
166
[93] Salama I., Tfdtlm: A new computationally efficient frequency domain tlm
based on transient analysis techniques, Tese de Doutorado, Virginia State
University, Blacksburg, Chp. 2, September 1997.
[94] Ellis H. J., Morelli R. A., and Hislop G. W., Support for educating software engineers through humanitarian open source projects, in 21st IEEECS Conference on Software Engineering Education and Training Workshop
(CSEETW 08), Charleston, 2008, pp. 14.
[95] Ellis H. J., Morelli R. A., de Lanerolle T. R., and Hislop G. W., Holistic software engineering education based on a humanitarian open source project, in
20th Conference on Software Engineering Education & Training (CSEET07),
Dublin, Ireland, 2007, pp. 327335.
[96] Ellis H. J., Morelli R. A., and Hislop G. W., Work in progress - challenges
to educating students within the community of open source software for humanity, in 38th Annual Frontiers in Education Conference (FIE), Saratoga
Springs-NY, 2008, pp. S3H7 S3H8.
[97] Osaki M., Hiraga M., and Kunii T. L., Work in progress - the fundamental
research of cyberworlds: Social impacts of open-source education, in Proceedings 35th Annual Conference on Frontiers in Education (FIE05), Indianapolis, IN, 2005, pp. F3EF3E.
[98] Spinellis D., Open source and professional advancement, IEEE Software,
vol. 23, no. 5, pp. 7071, 2006.
167
[99] Bulka D. and Mayhew D., Efficient C++ Performance Programming Techniques. Addison Wesley, 1999.
[100] Cogswell J., Diggins C., Stephens R., and Turkanis J., C++ Cookbook.
OReilly, 2005.
[101] Hubbard J. R., Schaums Outline of Theory and Problems of Programming
with C++, 2nd ed. New York: McGraw-Hill, 2000.
[102] Josuttis N. M., The C++ Standard Library: A Tutorial and Reference, 1st ed.
Addison Wesley Longman, Inc., 1999.
[103] Liberty J. (1998) Teach yourself c++ in 21 days. [Online]. Disponvel:
http://newdata.box.sk/bx/c/htm/fm.htm (Acesso em 03/01/2008)
[104] Schildt H., C++:
New York:
Osborne/McGraw-Hill, 1998.
[105] Shtern V., Core C++ A Software Engineering Approach, 1st ed. Englewood
Cliffs, New Jersey: Prentice-Hall, 2000.
[106] Griffith A., GCC: The Complete Reference. New York: McGraw-Hill, 2002.
[107] Blanchette J. and Summerfield M., C++ GUI Programming with Qt 4. Englewood Cliffs, New Jersey: Prentice-Hall, 2006.
[108] Schroeder W., Martin K., and Lorensen B., The Visualization Toolkit: An
Object-Oriented Approach to 3-D Graphics, 3rd ed. Kitware, Inc., 2002.
168
[109] Ibanez L. and Schroeder W., The ITK Software Guide 2.4, 2nd ed. Kitware,
Inc., 2005.
[110] Adaime L. M., Aplicacao do visualization toolkit para pos-processamento de
analises pelo metodo dos elementos finitos, Dissertacao de Mestrado, Universidade Federal do Parana, Curitiba, 2005.
[111] Haykin S., Neural Networks: A Comprehensive Foundation, 2nd ed.
Engle-
Engle-
169
[117] Hansen C. D. and Johnson C., The Visualization Handbook, 1st ed. Elsevier
Inc., 2005.
[118] Lorensen W. E. and Cline H. E., Marching cubes: A high resolution 3d surface
construction algorithm, ACM SIGGRAPH Computer Graphics, vol. 21, no. 4,
pp. 163169, 1987.
[119] Livnat Y., Han-Wei S., and Johnson C. R., A near optimal isosurface extraction algorithm using the span space, IEEE Transactions on Visualization and
Computer Graphics, vol. 2, no. 2, p. 184, 1996.
[120] Parker S., Shirley P., Livnat Y., Hansen C., and pike Sloan P., Interactive
ray tracing for isosurface rendering, in Proceedings of IEEE Visualization 98
(VIS 98), 1998, pp. 233238.
[121] Renard Y. (1999) Getfem++: An open-source finite element library. [Online].
Disponvel:
http://download.gna.org/getfem/html/homepage/index.html
(Acesso em 19/06/2008)
[122] van Heesch D. (1997) Doxygen - source code documentation generator
tool. [Online]. Disponvel: http://www.stack.nl/dimitri/doxygen/index.html
(Acesso em 13/10/2009)
[123] Dang C. (2003) Kolourpaint is a free, easy-to-use paint program for
kde. [Online]. Disponvel: http://kolourpaint.sourceforge.net/ (Acesso em
16/10/2006)
170
[124] Mattis P. and Kimball S. (1995) Gnu image manipulation program. [Online].
Disponvel: http://www.gimp.org/ (Acesso em 13/05/2007)
[125] Airas M., Pulakka H., Backstrom T., and Alku P., A toolkit for voice inverse
filtering and parametrisation, in Proceedings of the 9th European Conference
on Speech Communication and Technology (Interspeech2005 - Eurospeech),
September 2005, pp. 21452148.
[126] . (2005) Tkk aparat: Voice source analysis and parametrization toolkit.
[Online]. Disponvel:
http://sourceforge.net/projects/aparat/ (Acesso em
07/08/2009)
[127] Ndagljimana F., Saguet P., and Bouthinon M., Application of the tlm method
to slot antenna analysis a new absorbing boundary for the tlm method, in
20th European Microwave Conference, vol. 2, 1990, pp. 14951500.
[128] Kitamura T., Takemoto H., Honda K., Shimada Y., Fujimoto I., Shakudo Y.,
Masaki S., Kuroda K., Oku-uchi N., and Senda M., Difference in vocal tract
shape between up right and supine postures: Observations by an open-type
mr scanner, Acoustical Science and Technology, vol. 26, pp. 465468, 2005.
[129] Fant G. and B
aveg
ard M., Parametric model of vt area functions: vowels
and consonants. Speech, Music and Hearing - Quarterly Progress and Status
Report, vol. 38, no. 1, pp. 001020, 1997.
171
[130] Dang J. and Honda K., Acoustic characteristics of the piriform fossa in models
and humans, Journal of the Acoustical Society of America, vol. 101, no. 1,
pp. 456465, 1997.
[131] Brandao A. S., Cataldo E., and Leta F. R., Metodo de lnea de transmision
aplicado a la ac
ustica del tracto vocal a traves de un modelo 3d reconstruido,
Informacion Tecnologica, vol. 23, no. 2, em impressao, 2012.
[132] Martin K. and Hoffman B., Mastering CMake, 4th ed. Kitware, Inc., 2006.
172