Coletanea ExProsodia 2016

http://dx.doi.org/10.
4322/978-85-99829-84-4
Resultados
Preliminares
Organizao de
Waldemar Ferreira Netto
So Paulo, 2016
Copyright by Waldemar Ferreira Netto

Editora responsvel
Adelia Maria Mariano da Silva Ferreira
Todos os direitos desta edio reservados

www.editorapaulistana.com.br
[2016]
http://dx.doi.org/10.4322/978-85-99829-84-4-0
Apresentao
Esta coletnea rene alguns dos resultados obtidos nas
pesquisas realizadas no mbito do projeto ExProsodia. Os
autores todos foram ou so membros da equipe que tem
atuado desde o ano de 2007, quando demos incio a esse
projeto. Naquele momento, era nossa inteno criar um
aplicativo que fizesse a anlise automtica da entoao da fala
totalmente baseado na experincia que as interpretaes dos
etmusiclogos tinham com as mais diferentes manifestaes
musicais. No entanto, logo nas primeiras tentativas,
reconhecemos que as dificuldades para a consecuo disso
eram imensas, uma vez que envolviam variveis sobre as quais
no tnhamos nenhuma notcia. A exiguidade de trabalhos
lingusticos que abordassem essa questo, fez-nos buscar em
outras reas informaes sobre a entoao.
Esse dilogo com as demais cincias exigiu-nos rever no s
nossos princpios tericos mas tambm nossa metodologia de
trabalho, de maneira a restabelecer os pontos de contato que
eventualmente se perderiam no monlogo cientfico que a viso
de algumas das correntes tericas da lingustica provocou. Uma
das formas desse restabelecimento foi a insero de prticas
experimentais que partiam de fatos lingusticos observados e
tratados quantitativamente. Aqui e ali, no correr do sculo XX
tentativas dessa natureza j haviam sido feitas em diversas
reas do estudo das lnguas, mas nem sempre com a
continuidade desejada. A grande exceo, que merece o maior
destaque, vem dos estudos sociolingusticos que foram
estimulados por William Labov e que serviram de paradigma
para um grande nmero de outros estudos. A despeito dessa
honrosa exceo, os trabalhos de anlise da linguagem sempre

primaram pela abordagem dedutiva no experimental, via de
regra apelando para a prpria intuio do pesquisador que se
tornava o parmetro de suas prprias descobertas. As
abordagens quantitativa e experimental, recentemente tiveram
um impulso bastante grande com as tentativas desenvolvidas
no que se convencionou chamar de lingustica funcional, apesar
de esse rtulo englobar uma gama bastante ampla de trabalhos
sob os mais diversos pontos de vista.
Nesse espao vazio deixado pela ausncia de trabalhos
experimentais, os estudos da linguagem ficaram sob a
responsabilidade de outras cincias das quais a lngua tambm
se faz objeto. Na psicologia experimental foram feitas
descobertas notveis, bem como na medicina, na
fonoaudiologia, na msica, na fsica acstica, nas cincias da
computao e, obviamente, na fontica. No nos restava seno
observar e aprender com os resultados obtidos nessas reas.
Somente dessa maneira seria possvel reencontrar o dilogo
comum e fazer as contribuies necessrias para o
conhecimento da linguagem. No se tratava, obviamente, de se
propor a substituio de uma metodologia por outra, ou um
princpio terico por outro, porque isso o que se tem feito na
lingustica e no tem apresentado grandes resultados. Tratavase, isso sim, de se propor a insero da pesquisa instrumental e
experimental como uma metodologia adequada para os
trabalhos de maneira que abordassem as manifestaes
materiais da linguagem, especialmente no que diz respeito
fonologia e prosdia. Entendemos que no havia o que fosse
impermevel a uma abordagem instrumental, a um
levantamento quantitativo e participao de terceiros que
pudessem mostrar suas percepes ou suas produes e, assim,
contribuir de forma significativa para a formao do novo
conhecimento que se estava por descobrir.
II
Apresentao
O conhecimento um fenmeno coletivo feito do homem para

o homem como deveriam ser todas as coisas. A linguagem
nasce em cada novo sujeito para que possa servir como
instrumento dessa coletivizao de conhecimento. a partir
dela que todos participam da natureza socialmente emocional
do homem. A cada nova descoberta cientfica que se faz sobre a
linguagem, a dvida do pesquisador com todos os falantes
aumenta. O isolamento da pesquisa nas intuies do
pesquisador elimina definitivamente essa contribuio e a
linguagem deixa de ser o instrumento da coletivizao de
conhecimento e se transforma num objeto inerte que se deixa
analisar passivamente como um quebra-cabea cujas peas so
criadas por aquele que as quer verificar como se encaixam umas
nas outras.
As abordagens experimental e instrumental servem para no
permitir que a pesquisa tenha um vis dessa natureza,
obrigando o pesquisador a evitar suas prprias convices sobre
o seu objeto de estudo, dando vez e voz aos terceiros que se
tornam os verdadeiros juzes dos acontecimentos lingusticos;
deixando-nos somente a responsabilidade de organizar e
divulgar seus julgamentos. Para isso, necessrio que
tenhamos os meios adequados para ouvir suas vozes e, assim,
respeitar seus julgamentos. Como so muitos e extremamente
diversificados, os falantes produzem e avaliam suas falas de
maneira igualmente diversificada. Isso nos obriga a termos de
ouvi-los separadamente, poucos de cada vez, at que
consigamos conhecer a maior parte de suas produes e de
suas avaliaes.
Desse ponto de vista, esforamo-nos para desenvolver
trabalhos em que os terceiros, chamados, ento, de "sujeitos",
apontassem as diretrizes do que deveramos conhecer. Para
tanto, desenvolvemos um protocolo de anlise, criando um
aplicativo que simplesmente analisa dados numricos extrados
III
da anlise instrumental da voz. Uma vez que o aplicativo no d

conta de todas as etapas os processos, contornamos o
problema partindo para o uso de outros aplicativos e deixando
o que desenvolvemos somente na etapa final da anlise dos
dados extrados.
A descrio dos princpios que estabelecemos para essas
anlises e os do prprio aplicativo procurei apresentar no
primeiro texto dessa coletnea Anlise automtica de
manifestaes emocionais em PB: aplicaes do programa
ExProsodia. Embora o texto v com o meu nome como autor,
bem como o aplicativo foi assim registrado pela USP, no INPI,
como se ver em vrias citaes nos textos desta coletnea, seu
constante aprimoramento decorre de uma contribuio coletiva
de todos os membros da equipe. Com reunies ora semanais,
ora mensais, h um constante monitoramento das funes do
aplicativo e dos princpios que desencadeiam os procedimentos
de anlise. Nesse caso, esto os trabalhos de Fernanda Consoni
e eu mesmo "A percepo de variao em semitons
ascendentes em palavras isoladas no Portugus Brasileiro", o
trabalho de Amanda Lassak "A percepo de variao em
semitons descendentes em palavras isoladas no portugus
brasileiro", o de Lucas Negri "Determinao de tempo mdio
mnimo necessrio para a determinao de um padro
emocional na entoao frasal" e o de Andr Ricardo de Sousa e
outros, "Desenvolvimento de algoritmo de anlise automtica
da curva de frequncia por meio de convolues gaussianas do
histograma de altura". Essas contribuies foram incorporadas
ao aplicativo.
As aplicaes foram diversas. As finalizaes de frases foram
interpretadas tanto do ponto de vista de sua percepo, no
trabalho "A questo da correlao entre a anlise automtica
das finalizaes prosdicas e a separao intuitiva de frases em
textos longos", feito por Renata Rosa e outros, como da
IV
Apresentao
produo, no trabalho "Variaes entoacionais na lngua

portuguesa falada por idosos guats e no ndios", feito por
Natalina Costa.
Tambm as narrativas foram objeto de interpretao. Marcus
Martins, com o trabalho "A variao de tom em texto
espontneo memorizado longo", Gdalva da Conceio e
colegas, com o trabalho "Anlise da nfase prosdica em
narrativas orais do ciclo de lampio". Todos os dados utilizados
nesse trabalho foram coletados em pesquisa de campo,
realizada no sul do Cear, com apoio do CNPq. Dami Baz e eu
mesmo, em "Questes de oralidade e escrita: aquisio da
escrita em sociedades com predomnio da oralidade",
interpretamos as diferenas na produo espontnea de textos
longos com dados extrados de sujeitos com origem em
sociedades de tradio oral, no caso guarani, e de sociedades
letradas.
Adiantando os desenvolvidos que viriam posteriormente,
Thiago Martins procurou interpretar a relao entre a variao
entoacional e contedo de textos de telejornais em "Relao do
tom mdio da fala e comportamento do falante" ; Gdalva fez o
mesmo em "Avaliao do tom mdio em manchetes
telejornalsticas apresentadas por mulheres" e Vitor Pereira fez
o mesmo, mas procurou estabelecer relaes tambm entre
textos lidos e textos falados, em "Correlaes entre variao de
tom e discurso em textos lidos".
Outras pesquisas visaram ao comportamento dos sujeitos em
situao de dilogo, como foi o caso do trabalho "A variao em
semitons na sincronia de interao em entrevistas"
desenvolvido por Mayara Sousa e outros.
Finalmente, Daniel Peres, a partir de dados coletados em
pesquisa de campo realizada em So Paulo, no Rio Grande do
Sul e no Cear, procurou verificar tanto a percepo como a
produo das variaes dialetais da entoao na fala

espontnea de lngua portuguesa.
Com exceo do primeiro texto, todos os trabalhos que vo
nesta coletnea foram apresentados em congressos e encontros
cientficos. Alguns deles, como no caso do trabalho da Renata
Rosa, do Daniel Peres, da Fernanda Consoni tiveram
continuidade em pesquisas de ps-graduao. Novas pesquisa
esto em andamento, algumas com resultados j publicados,
outras ainda no. Esperamos que possamos apresentar todos os
resultados e ainda continuar procurando por outros.
VI
Sumrio
Apresentao ................................................................................. I
Anlise automtica de manifestaes emocionais em PB:
aplicaes do programa ExProsodia
Waldemar Ferreira Netto ............................................................... 1
A percepo de variao em semitons ascendentes em
palavras isoladas no Portugus Brasileiro
Fernanda Consoni; Waldemar Ferreira Netto .................................. 19
A percepo de variao em semitons descendentes em
palavras isoladas no portugus brasileiro
Amanda Lassak .............................................................................. 24
A variao em semitons na sincronia de interao em
entrevistas
Mayara de Sousa; Amanda Lassak; Renata Rosa ........................... 26
A variao de tom em texto espontneo memorizado longo
Marcus V. M. Martins ..................................................................... 28
Avaliao do tom mdio em manchetes telejornalsticas
apresentadas por mulheres
Gdalva da Conceio ...................................................................... 39
Relao entre variao de tom mdio da fala e
comportamento do falante
Thiago Martins ............................................................................... 42
Correlaes entre variao de tom e discurso em textos lidos
Vitor Pereira ................................................................................... 46
Determinao de tempo mdio mnimo necessrio para a
determinao de um padro emocional na entoao frasal
Lucas Negri ..................................................................................... 49
A questo da correlao entre a anlise automtica das
finalizaes prosdicas e a separao intuitiva de frases em
textos longos
Renata Rosa; Fernanda Consoni; Waldemar Ferreira Netto ............ 61
Anlise da nfase prosdica em narrativas orais do ciclo de

Lampio
Gdalva da Conceio; Amanda Lassak; Renata Rosa;
Mayara de Sousa ............................................................................ 64
Questes de oralidade e escrita: Aquisio da escrita em
sociedades com predomnio da oralidade: narrativas
guaranis
Dami Baz; Waldemar Ferreira Netto ............................................... 67
Variaes entoacionais na lngua portuguesa falada por
idosos Guats e no indios
Natalina Costa ................................................................................ 82
A prosdia e o reconhecimento dialetal
Daniel Oliveira Peres ....................................................................... 91
Desenvolvimento de algoritmo de anlise automtica da
curva de frequncia por meio de convolues gaussianas
do histograma de alturas
Andr Ricardo de Souza; Maressa Vieira, Daniel Peres;
Marcus V. M. Martins; Waldemar Ferreira Netto ............................ 104
Referncias..................................................................................... 110
Sobre os autores ............................................................................ 127
http://dx.doi.org/10.4322/978-85-99829-84-4-1
Anlise automtica de manifestaes emocionais

em PB: aplicaes do programa ExProsodia
Introduo
A anlise da manifestao das emoes associadas fala tem
sido objeto de especulao cientfica desde o sculo XIX. Darwin
(2000) j afirmara que a tonalidade da voz tem relao com
certos sentimentos, exemplificando que uma pessoa
delicadamente reclamando de maus-tratos, ou de um pequeno
sofrimento, quase sempre fala com voz aguda. Spencer (1890)
afirmara que era inegvel que certos tons de voz e cadncias
que tm alguma semelhana com a natureza sejam
espontaneamente usados para expressar tristeza, para
expressar alegria, para expressar o afeto e para expressar o
triunfo ou ardor marcial. Embora tais proposies se
estendessem para alm da preocupao com manifestao das
emoes, o reconhecimento da entoao como um fato
comunicativo, voluntrio ou no, teve seu incio no sculo XIX,
mas no recebeu uma ateno aprofundada nos estudos
referentes comunicao humana.
Numa das primeiras pesquisas que procurou descrever de
forma mais sistemtica a relao entre a variao de frequncia
e a manifestao das emoes na fala, Skinner (1935) verificou
que a frequncia mdia na fala, provocada pela alegria
(happiness) era mais aguda do que a provocada pela tristeza
(sadness). Sua pesquisa baseou-se na hiptese de que um
estado emocional geral seria induzido pela audio prvia de
msicas tristes ou alegres e, ainda, acompanhada da audio de

textos igualmente tristes ou alegres. Esse estado emocional
provocaria
naturalmente
as
manifestaes
sonoras
correspondentes na fala. Para tanto, ele gravou e analisou a
expresso curta "ah" de cada um de seus sujeitos. A
interpretao da curva de F0 dessa expresso foi feita a partir
do harmnico mais grave do espectra calculado.
Alguns anos depois, Fairbanks e Pronovost (1938; 1939)
procurariam estabelecer a relao entre as variaes da
entoao e a manifestao das emoes na fala, bem como o
julgamento dessas emoes por sujeitos ouvintes. A partir da
fala simulada com leituras feitas por atores, os autores
analisaram comparativamente as variaes de F0 para as
manifestaes emocionais de desprezo (contempt), raiva
(anger), medo (fear), tristeza (grief) e indiferena (indifference).
Para essa comparao, estabeleceram quatro parmetros: o
valor mdio da frequncia em que ocorrem as manifestaes
emocionais (pitch level) medida em Hz; a variao tonal mdia,
medida em tons musicais (wide mean inflectional range); a
extenso tonal em que ocorrem essas manifestaes, medida
em tons musicais (wide total pitch range); e, a taxa de variao
tonal em que ocorrem essas manifestaes emocionais (pitch
change) (medida em tons por segundo). As comparaes foram
feitas baseadas nos valores mximos e mnimos encontrados
para esses parmetros. Os resultados obtidos mostraram que
manifestaes de raiva e de medo ocorrem com a frequncia
mdia mais aguda e que indiferena ocorre com a mais grave.
No entanto, no teste de avaliao dessas emoes, foram
consideradas como desprezo, tristeza e indiferena todas as
leituras cuja frequncia mdia fosse a mais grave. Quanto
extenso tonal, as manifestaes de desprezo e de raiva foram
as que apresentaram valores mais altos e a manifestao de
indiferena apresentou a mais baixa. A manifestao de tristeza
teve a menor variao tonal e a manifestao de raiva, a maior.
Anlise automtica de manifestaes emocionais em PB: aplicaes do

programa ExProsodia
Quanto taxa de variao tonal, a mais rpida foi a

manifestao de raiva e a mais lenta foi a de medo. Fairbanks e
seus colegas (1941) analisaram a taxa de durao das mesmas
emoes e verificaram que as manifestaes de tristeza e de
indiferena apresentaram as menores taxas de durao,
atribuindo esse fato aos prolongamentos das fonaes e s
pausas. A partir dos anos 60, essa preocupao foi retomada
com diversos autores (MARKEL, 1965; COSTANZO et al., 1969,
WILLIAMS et al., 1972. Para uma reviso de trabalhos desse
perodo, cf. SCHERER, 1986).
Em investigao semelhante de Skinner (1935), Bachrorowski
e Owren (1995) analisaram um segmento voclico de fala de
sujeitos que eram submetidos a situaes provocadoras de
emoes positivas e de emoes negativas. Tomando medidas
de F0, jitter e shimmer, os autores chegaram a resultados
semelhantes: as situaes em que emoes positivas eram
estimuladas estabeleceram F0 mais agudo do que s que
provocaram emoes negativas. Como os autores no trataram
de nenhuma emoo especfica, como nos trabalhos anteriores,
possvel estabelecer que as manifestaes de emoes
negativas, que decorriam de um teste no qual o sujeito no
conseguia alcanar os resultados previstos, eram mais
propriamente relacionadas frustrao ou tristeza. A partir do
ano 2000, o nmero de investigaes que procuram descrever a
relao entre a manifestaes das emoes e as caractersticas
acsticas da fala cresce vertiginosamente. [ANG et al, s.d.;
FUJISAWA et al., 2003; TOIVANEN et al., 2004; VOGT et al.,
2005; COOK et al, 2006; VIDRASCU; DEVILLERS, 2007; RONG et
al, 2007; NEIBERG; ELENIUS, 2008; BUSSO et al., 2009; YANG;
LUGGER, 2010; LAUKKA et al., 2011).
Em trabalho mais recente, Bnzinger e Scherer (2005), num
estudo quantitativo, verificaram que a variao global de F0 era
afetada diretamente pelo estmulo emocional representado na
fala e era a variao mais importante para a discriminao das

categorias emocionais observadas. A partir de 1998, com o
trabalho de Slaney e McRoberts (1998), dados espontneos de
fala dirigida s crianas comearam a ser utilizados em estudos
de anlise automtica da fala. Recentemente, um grande
nmero de pesquisas tem utilizado a fala espontnea (cf.
BARTLINER et al., 2011 para um levantamento mais detalhado).
Os estudos que tratam de fala emotiva em portugus brasileiro
aparecem com maior frequncia a partir da dcada de 1990.
Colamarco e Moraes (2008) analisaram 16 repeties de uma
sentena padro combinando emoes e tipos de sentena. O
resultado apontou para uma independncia entre a entoao
com funo gramatical e a entoao expressiva ligada
manifestao das emoes.
O estudo de Vassoler e Martins (2013) analisou trechos de fala
atuada lidos por trs atrizes profissionais, subdivididos em raiva
e neutro. Como resultado das anlises, os trechos de fala com
raiva obtiveram maiores valores de F0, ou seja, foram
produzidos num registro mais alto que os trechos de fala
neutra. Os autores forneceram duas explicaes, uma de ordem
fisiolgica e outra lingustica. Na primeira, os msculos e as
cartilagens ligados produo da fala recebem maior tenso,
provocando o aumento da presso subglotal e,
consequentemente, causando a elevao dos valores de F0
(TITZE et al., 1995). Do ponto de vista lingustico, os padres
entoacionais entre os dois tipos de fala analisados permaneceu
estvel, sendo a implementao fontica sujeita a condies
de produo internas e internas ao sujeito a principal fonte de
diferena entre a fala neutra e a com raiva.
Peres (2014; 2015) analisou a emoo na fala por meio de
anlise de produo e percepo. A anlise de produo foi
baseada em parmetros acsticos entoacionais e de qualidade
vocal. Para a anlise, 32 excertos de fala espontnea do

programa ExProsodia
portugus brasileiro foram selecionados e divididos igualmente

entre raiva, medo, alegria e tristeza. O teste de percepo foi
feito por ingleses e brasileiros. Como esperado, o grau de
concordncia entre os brasileiros foi mais alto do que entre os
ingleses. Os participantes, ingleses e brasileiros, quando
equivocados no julgamento, tenderam a associar raiva com
alegria, e tristeza com medo. O alto nmero de respostas
corretas dadas pelos participantes brasileiros pode ser
explicado pelo papel do lxico e pelo conhecimento pragmtico
da lngua, j o desempenho dos ingleses pode ser explicado pela
falta deles. Para isolar o papel do lxico na percepo, trechos
com fala delexicalizada tambm foram analisados. Nesse caso,
ouvintes brasileiros tiveram resultado significativo no teste de
percepo, ao passo que os participantes ingleses tiveram uma
performance aleatria.
Neste estudo, optou-se pelo uso de fala espontnea por ela ser
portadora da expresso autntica da emoo na fala. A maioria
dos estudos que trataram da fala expressiva faziam uso de
sentenas com fala teatral ou outros tipos de elicitao, como
em Scherer e seus colegas (2013).
A utilizao de fala atuada ou elicitada tem a seu favor o
controle dos estmulos em sentenas idnticas, pronunciadas
nas mais variadas emoes e demais tipos de variao
entoacional. Sem dvida, essa caracterstica permite ao
experimentador um maior controle das variveis que podem
influenciar na produo e percepo da fala emotiva. Como
argumento a favor do uso de fala atuada, Scherer (1981)
atentou para os problemas encontrados em gravaes de fala
espontnea, sem interveno direta do experimentador,
afirmando que [...] naturally recorded emotions are by
definition singular cases, both in terms of speaker identity,
situation context, and verbal content of utterance. Segundo o
autor, com essas caractersticas da fala espontnea, ficaria difcil
a separao de quais variveis esto de fato agindo para

configurar a fala expressiva, configurando um problema quanto
ortogonalidade do experimento.
O estudo de Roberts (2011), entretanto, demonstrou que a fala
teatral pode ser fortemente impregnada de esteretipos,
afirmando que esse tipo de estmulo may merely reflect
stereotypical behaviors that actors are trained to adopt. A
utilizao desse tipo de fala poderia causar no s diferenas na
produo, mas, provavelmente, na percepo dos estmulos.
A despeito da variao que possa haver entre os trechos
espontneos de fala emotiva, este trabalho d preferncia para
esse tipo de produo pela possibilidade de obter dados
importantes referentes manifestao da emoo na fala.
O programa de pesquisa ExProsodia
O programa de pesquisa ExProsodia tem por objetivo propor
uma interpretao para a relao entre a entoao e a fala.
Teve seu incio em 2008. Recebeu, em 2009, apoio do CNPq
(processo 400145/2009-0), para a compra de equipamentos de
informtica (1 computador desktop e um gravador digital H4),
de software (Adobe Audition) e de despesas para pesquisa de
campo. Em 2010 obteve apoio tambm do CNPq, pela
concesso de uma bolsa de Produtividade em Pesquisa - PQ
(processo 300235/2010-0), renovada em 2013 (processo
302664/2013-0). Em 2014, ainda o CNPq aprovou uma bolsasanduche (processo 99999.007276/2014-01). O programa,
desde seu incio, teve a concluso de 5 teses de doutorado, 2
dissertaes de mestrado e 10 trabalhos de iniciao cientfica;
tem, em andamento, 3 teses de doutorado e 4 trabalhos de
iniciao cientfica.

programa ExProsodia
Contribuies e desenvolvimentos futuros

Em sua primeira concepo, o programa contava com o projeto
"ExProsodia - Anlise automtica da entoao na lngua
portuguesa" finalizado em 2013. Nesse mesmo ano, o programa
foi atualizado com o projeto "Anlise automtica de
manifestaes emocionais em PB: aplicaes do programa
ExProsodia", enfatizando especialmente as manifestaes
emocionais na produo de fala em lngua portuguesa. O
desenvolvimento desse projeto trouxe algumas contribuies
para a aplicao sobretudo nos estudos das disfunes
emocionais. As pesquisas adiantaram de forma significativa uma
srie de parmetros especficos das manifestaes emocionais
(FERREIRA NETTO et al., 2014a; FERREIRA NETTO et al., 2014b;
FERREIRA NETTO et al., 2014c; SOUSA, 2014; PERES, 2014; 2015;
NEGRI, 2015). Dando prosseguimento s pesquisas que haviam
iniciado na primeira verso deste projeto, Garcia (2015) realizou
pesquisa a respeito da finalizao de frases entre falantes no
escolarizados na regio do mdio Tiet, em So Paulo, e na
regio norte de Portugal, encontrando resultados que
corroboram os de Costa (2011) e de Baz (2011) estabelecendo
que a hiptese de que a varivel "escolaridade" que interfere
desse tipo de construo. Rosa (2015) mostrou que, de fato,
falantes alfabetizados tm maior facilidade de percepo das
finalizaes descendentes. Ainda no se realizaram testes de
percepo dessa finalizao entre sujeitos no escolarizados.
Colaboraes e parcerias
Desde 2014, o programa tem desenvolvido interaes com
outras instituies, por meio de atividades conjuntas. Com o
Instituto Federal de So Paulo, est em desenvolvimento o
projeto "Aplicativo independente para anlise das emoes na
entoao da fala de lngua portuguesa" coordenado pela
Profa. Dra. Maressa de Freitas Vieira (IFSP) e pelo Prof. Dr.
Waldemar Ferreira Netto (FFLCH/USP) ; com a Faculdade de
Medicina Veterinria e Zootecnia da USP e com a Faculdade

Sudoeste Paulista est em desenvolvimento o projeto
"Aplicativo para anlise dos sons animais" coordenado pela
Profa. Dra. Llian Gregory (FMVZ/USP), pela Profa. Dra. Glenda
Maris de Barros Tartaglia (FSO). A participao dos membros da
equipe do Programa de Pesquisa ExProsodia em todos esses
projetos decorre do estabelecimento de parmetros para a
avaliao automtica das manifestaes sonoras, seja a
produzida pela fala seja a produzida pela voz dos animais. O
aplicativo ExProsodia, registrado no INPI (RS08992-2), em
2008, com aprovao definitiva em 2010, tem dado os subsdios
necessrios para as anlises at ento empreendidas.
Metodologia utilizada
Para os procedimentos dessa anlise automtica, toma-se a
entoao como uma sucesso de tons iguais ou diferentes que
ocorrem na produo da fala. Essa interpretao sugere por si
s que a entoao uma srie temporal que sofre a ao de
vrias componentes para sua configurao momento a
momento. Uma srie temporal se caracteriza por ser um
conjunto de observaes sequenciadas e dependentes entre si,
isto , o resultado da observao feita no momento t+1
condiciona-se ao resultado da observao feita no momento t,
maneira dos processos estocsticos (MORETTIN; TOLOI, 1986;
PEREIRA et al., 1986; EHLERS, 2007). A observao das
frequncias de uma onda sonora estabelece naturalmente uma
srie temporal na medida em que o valor observado para cada
momento depende do valor do momento imediatamente
anterior; nenhuma inverso de valores pode ser permitida, mas,
ao contrrio, a ordem de ocorrncia deve ser mantida como
uma informao inerente do valor obtido. A trajetria grfica do
conjunto de observaes colhidas para o estabelecimento de
uma srie temporal pode ser interpretada como o resultado da
soma de componentes diversas, com caractersticas

programa ExProsodia
independentes. Considerando-se que os valores obtidos

mantm entre si dependncia serial, entende-se que se deve
buscar o(s) fenmeno(s) que desencadeia(m) essa dependncia.
Assim, espera-se que os valores obtidos em cada momento
resultem de uma conjuno de fatores diversos que, agregados,
tm o comportamento observado e mensurado.
Para a decomposio dessa srie temporal, assumimos a
hiptese proposta por Xu e Wang (1997). Os autores
propuseram que a entoao ocorra sob a ao duas
componentes principais: as que decorrem de restries
mecnico-fisiolgicas e as que decorrem das necessidades
expressivas dos falantes. Para o desenvolvimento de nosso
trabalho, chamamos s restries mecnico-fisiolgicas de
componente estruturadora e s necessidades expressivas, de
componente
semntico-funcional.
A
componente
estruturadora decorre do esforo fisiolgico mnimo dispendido
para a produo de sonoridade na laringe. A componente
semntico-funcional decorre das necessidades expressivas do
falante, tanto para a produo de foco como a produo de
nfase. Em trabalho anterior (FERREIRA NETTO, 2006),
propusemos que a componente estruturadora seja formada
pelo ritmo tonal. O ritmo tonal a sucesso dos momentos da
fala em que, alternadamente, o falante desencadeia esforo
fisiolgico para a produo de tom para, em seguida, dispenslo. Desse ponto de vista, ritmo tonal foi decomposto em
finalizao (F) e sustentao (S). A componente semntico
funcional foi definida somente como foco/nfase (E).
Figura 1. Na figura, o eixo das ordenadas representa as

variaes em Hz e o eixo das abscissas, as variaes em
momentos temporais. A seta pontilhada horizontal
superior representa o Tom Mdio (TM) tomado de F0 e a
seta pontilhada horizontal inferior representa a Finalizao
(F) de F0. As setas diagonais descendentes representam a
tendncia declinao pontual definida momento a
momento em direo F e as setas verticais representam a
tendncia retomada do TM para a sustentao do TM
selecionado pelo locutor.
Na medida em que, na fala, a produo de sons tem de ocorrer

durante a produo de segmentos soantes e que o falante usa
alternadamente segmentos soantes e segmentos obstruintes ou
pausas, a entoao entrecortada sistematicamente, dando
origem ao ritmo tonal. Aos momentos em que h produo de
som, chamamos de UBI (sigla adaptada da expresso inglesa
Unit of Base of Intonation). A ocorrncia das UBI, portanto, est
restrita s condies mnimas envolvidas na sustentao. Essas
condies envolvem as variveis de frequncia, intensidade e
durao, que no podem, obviamente, nenhuma delas igualarse a zero; havendo ainda restries maiores que tm de ser
consideradas. Em nossa proposta, entendemos que 20 ms, 50
Hz e intensidade > 0 so suficientes para o estabelecimento de
uma UBI.
Na medida em que a produo da fala exige esforo para
sustentar a voz com uma frequncia relativamente estvel,
Ferreira Netto (2006; 2008) e Peres e seus colegas (2009, 2011)
10

programa ExProsodia
propuseram a ocorrncia de um tom mdio ideal (TM) de F0,

que se repete nos momentos Z(t) mensurados de F0.
Figura 2. Na figura acima, tem-se a representao do Ritmo

Tonal, marcado com linhas azuis pontilhadas, numa
ocorrncia efetiva de F0, marcado pela linha vermelha
contnua. Os valores esquerda esto em escala midi. As
siglas Z indicam cada um dos momentos mensurados de F0
(UBIs); as siglas F, as finalizaes supostas, sendo a que vai
marcada no momento Z(8) e a ltima direita (Z(15)) as que
realmente se realizaram; as siglas S indicam os pontos de
sustentao supostos, que estabelecem o Tom Mdio.
A supresso desse esforo desencadeia uma declinao pontual

que exige a retomada da tenso inicial. A sustentao (S)
consequncia do esforo que se acrescenta a cada um dos
momentos da fala, incluindo-se o inicial, para compensar a
declinao pontual de finalizao (F). Ritmo tonal
consequncia da ao dessas tendncias que atuam em
sentidos opostos, possibilitando a produo da fala. A
componente F associa-se ao fato de que se trata do tom alvo da
declinao pontual, estabelecida por um intervalo ideal
decrescente de 7 st do TM obtido at o momento Z(t). TM a
tendncia central dos valores vlidos de F0 calculada como a
mdia aritmtica acumulada no tempo. A partir dessa
frequncia mdia, as frequncias so categorizadas por um
intervalo sistmico lateral de 3 st acima e e 4 st abaixo do valor
mdio de cada uma (MARTINS; FERREIRA NETTO, 2010; 2011).
Os valores vlidos mensurados so os momentos de F0 (UBIs)
que cumprem as restries de altura, intensidade e durao. A
srie
temporal
se
configura
aditivamente
como
11
Z(t)=S(t)+F(t)+E(t). O modelo de anlise apresentado permite a

anlise isolada de cada uma das componentes de F0.
Unidade bsica da entoao - UBI
A seleo das unidades Z(t) ora chamadas de UBI para
anlise feita pelo aplicativo ExProsodia (FERREIRA NETTO,
2010). O aplicativo faz a anlise automtica de pores da curva
de frequncia estabelecida por autocorrelao pelo software
Speech Filing System (HUCKVALE, 1987, 2008; HUCKVALE et
al., 2007). Trs parmetros so considerados para essa
definio: frequncia maior do que 50 Hz e menor do que 700
Hz; intensidade maior do que zero e, garantidos os critrios
anteriores, durao maior do que 20 ms. Esses valores podem
ser modificados pelo usurio.
Frequncia
A seleo de 50 Hz como frequncia mnima deu-se pela
manuteno de um intervalo de segurana. O mesmo fato
ocorre para as frequncias mais agudas, com limite em 700 Hz.
Russo e Behlau (1993) verificaram que falantes masculinos do
portugus brasileiro tm uma frequncia fundamental em torno
de 105 Hz, os do sexo feminino tm 213 Hz, crianas antes da
puberdade, em mdia, 290 Hz e recm-nascidos, em torno de
440 Hz. Mortari (1990) encontrou para vozes infantis entre sete
e nove anos uma variao entre 182 e 281 Hz, para meninos e
meninas, sem diferenas marcantes entre eles. Andrade (2003)
encontrou para vozes masculinas uma variao mdia oscilando
entre 110 e 146,7 Hz e, para vozes femininas, uma concentrao
acentuada em torno de 203,5 Hz. Felippe e colegas (2006)
propuseram a normatizao entre 119 e 120 Hz, para vozes
masculinas, e entre 206 e 207 Hz, para vozes femininas. Apesar
dessa variao, possvel estabelecer algum limite que abarque
essa variao. Russo (1999) props que a rea da fala, incluindo
a frequncia fundamental esteja desde 100 Hz at 8000 Hz, com
intensidade variando entre 40 e 65 dB. Tendo em vista
12

programa ExProsodia
objetivar-se a anlise automtica da fala e a populao ser

bastante heterognea, optou-se por uma margem de erro mais
extensa, sobretudo para as frequncias mais graves, de maneira
a no se rejeitar ocorrncias falso-negativas. O programa de
pesquisa ExProsodia considera uma margem de erro de 35%, a
partir do valor mdio mnimo de 100 Hz para vozes masculinas
(RUSSO 1999), para o qual se pressupe um valor final de
aproximadamente 67 Hz, ou uma quinta descendente
(FERREIRA NETTO; CONSONI, 2008), e se estabelece um valor
mnimo de 50 Hz. Para valores mais agudos, o limite foi
estabelecido arbitrariamente em torno de 2 vezes o valor da
frequncia mdia mxima das vozes infantis (ANDRADE, 2003).
Esses valores, mnimo, de 50 Hz e, mximo, de 700 Hz so, os
limites possveis assumidos para a anlise automtica aceitar
um momento Z(t) como passvel de ser UBI.
Intensidade
Tendo em vista especialmente as variaes de frequncia da
onda sonora, a intensidade tratada somente como parmetro
de avaliao de audibilidade dessa frequncia. O aplicativo SFS
analisa a variao de intensidade com uma taxa de amostragem
de 200 Hz e apresenta os resultados como unidades de RMS
(root mean square) dos picos de intensidade de pores de 25
ms. Ainda que variaes de intensidade da onda sonora sejam
reconhecidamente importantes, principalmente para as anlises
de ritmo, no foram tomadas como referncia, por sujeitaremse a estmulos extralingusticos. Um valor entre 1 e 10
estabelece um corte nos momentos que tenham de 1/1 a 1/10
do valor mdio da intensidade, em RMS. Entretanto, conforme
j dissemos anteriormente (FERREIRA NETTO et al., 2013b),
possvel que a intensidade possa acrescentar informaes.
Durao
Boemio e seus colegas (2005) verificaram que, embora ambos
os hemisfrios processem informaes em duas velocidades
13
especficas 25-50 ms e 200-300 ms no giro temporal

superior, a conexo que se faz com o sulco temporal superior
enfatizada no hemisfrio esquerdo na velocidade de 25-50 ms e
no hemisfrio direito na velocidade de 200-300 ms. Dessa
maneira ambos os hemisfrios atuam nas tarefas de percepo
lingustica, mas cada um ter melhor especializao em tarefas
especficas, no caso relativas durao e preciso da anlise.
Os valores apresentados estabelecem a possibilidade de
ocorrerem resolues diferenciadas e simultneas em cada um
dos hemisfrios. Quanto aos valores mnimos entre 25-50 ms,
outros autores encontraram resultados semelhantes
(SCHAEFFER, 1966; HUGGINS, 1972; ROEDERER, 2002; STEVENS,
2000; HENRIQUE, 2002; MENEZES, 2003). Dada a necessidade
de segmentar unidades de entoao na fala, a seleo de quatro
momentos de anlise do SFS, correspondendo a 5 ms cada um,
estabelece uma durao mnima de 20 ms. Apesar de os valores
mnimos propostos pelos autores j referidos estarem acima
dessa opo, seguro manter uma margem de erro maior para
no se incorrer em falso-negativos.
Tom Mdio
Ferreira Netto (2006; 2008) props que o Tom Mdio seja a
mdia aritmtica acumulada no tempo de todas as frequncias
vlidas, isto , que estejam de acordo com os limites de
frequncia mnima e mxima, durao mnima e mxima e
intensidade mnima. Esse valor mdio dominante o que se
presume seja a frequncia-alvo do ritmo tonal do falante.
Martins (2012) definiu o Tom Mdio como cada uma das mdias
da srie temporal
14

programa ExProsodia
em que o valor do Tom Mdio, Z cada uma das UBIs

encontradas e t a sua posio na srie temporal. O valor do
intervalo sistmico lateral calculado como
, para o
limite superior e
. Esses limites seguem o
principio estabelecido por T'Hart (1981) e por T'Hart e seus
colegas (1990). Esses valores baseiam-se na variao em
semitons, 3 st acima do TM e 4 st abaixo, calculando-se uma
progresso geomtrica de 0,06 para cada semiton. O clculo
utilizado para a converso de Hz em semitons
midi= 12*log2(Fm/440 Hz) + 69
em que midi (WOLF, s. d.) a adaptao dos valores em Hz da
escala temperada para valores midi, Fm a valor em Hz que se
deseja converter para midi (T'HART, 1981; T'HART ET AL., 1990).
Finalizao
A componentes de Finalizao (F) foi definida tambm em
Ferreira Netto (2006; 2008). Trata-se de um valor localizado
abaixo do Tom Mdio, num intervalo de 7 st, ou, para valor em
Hz,
(MARTINS, 2012). O intervalo de 7 st abaixo
do Tom Mdio equivale a uma variao semelhante a que
ocorre num intervalo entre um tom Dominante e um tom
Tnica, considerando-se a escala musical temperada. A hiptese
de se imaginar a finalizao de frases assertivas a partir de um
intervalo descendente maior do Tom Mdio parte de Ohala
(1984) que afirma ocorrer ocasionalmente um pico de F0 mais
agudo, nas vozes que exibem uma maior confiana, para fazer a
queda final parecer ainda mais acentuada, i. e., resultar de uma
altura maior. Em Ferreira Netto e Consoni (2008), foi possvel
verificar que h essa correlao entre Tom Mdio e Finalizao
em frases assertivas da lngua portuguesa falada no Brasil,
especialmente nas leituras em voz alta. Baz e seus colegas
(2014) verificaram que as finalizaes assertivas em dados de
leitura teatral ocorrem regularmente abaixo de 4 st,
ultrapassando o intervalo sistmico lateral inferior do Tom
15
Mdio. A pesquisa desenvolvida por Rosa (2015) corrobora

esses resultados. Valendo-se de testes de percepo a partir de
estmulos de frases espontneas manipulados digitalmente, a
autora verificou que os sujeitos no mostraram regularidade
significativa no reconhecimento de frases assertivas com
finalizao descendente.
Investigando as finalizaes frasais assertivas entre mulheres
idosas no letradas guats, Costa (2009; 2010) verificou que tais
finalizaes no ocorrem em tom descendente. Baz (2011)
encontrou fenmeno semelhante na fala e na msica popular
em guarani paraguaio. Com o propsito de verificar se essa
caracterstica era influncia da fala indgena, Garcia (2015)
empreendeu pesquisa entre idosos no letrados na regio do
mdio Tiet e, comparativamente, na regio norte de Portugal.
Os resultados obtidos corroboraram os de Costa (2009; 2010) e
de Baz (2011) e demonstraram que somente a varivel
referente ao letramento era comum a esses indivduos.
Parmetros de avaliao
Como elementos de comparao, alm dos parmetros prprios
da extrao automtica feita pelo ExProsodia, tais como TM,
F/E, Durao, Intensidade e Pausa, tambm sero retomados os
parmetros definidos em trabalhos anteriores (FERREIRA NETTO
et al., 2013a; FERREIRA NETTO et al., 2014a). Foram definidos
30 parmetros, considerando-se TM, F/E, durao, intensidade
e pausa.
16

programa ExProsodia
TM-F0
menor_F0_UBI
maior_F0_UBI
media_F0_UBI
dp_F0_UBI
skew_F0_UBI
mediana_F0_U
BI
cv_F0_UBI
kurt_F0_UBI
num_UBI
UBI_final
TM-mUBI
menor_TM
maior_TM
TM
dp_TM
skew_TM
mediana_TM
cv_TM
F/E
menor_FEpos_UBI
maior_FEpos_UBI
media_FEpos_UBI
dp_FEpos_UBI
skew_FEpos_UBI
mediana_FEpos_U
BI
cv_FEpos_UBI
kurt_FEpos_UBI
menor_FEneg_UBI
maior_FEneg_UBI
media_FEneg_UBI
dp_FEneg_UBI
skew_FEneg_UBI
mediana_FEneg_U
BI
cv_FEneg_UBI
kurt_FEneg_UBI
Durao
menor_intraUBI
maior_intraUBI
media_intraUBI
dp_intraUBI
skew_intraUBI
mediana_intraU
BI
cv_intraUBI
menor_interUBI
maior_interUBI
media_interUBI
dp_interUBI
mediana_interU
BI
cv_interUBI
Intensidade
menor_rmsUBI
maior_rmsUBI
media_rmsUBI
dp_rmsUBI
skew_rmsUBI
mediana_rmsU
BI
cv_rmsUBI
kurt_rmsUBI
Pausa
menor_pausa
maior_pausa
media_pausa
dp_pausa
skew_pausa
mediana_paus
a
cv_pausa
kurt_pausa
num_pausa
num_pausaUB
I
Os parmetros relativos frequncia partem do TM definido

pela anlise do ExProsodia para cada UBI, medido em Hz. Alm
de TM, TM_dp, TM_cv e de TM_skew, so considerados
F0dp_TM (coeficiente de variao de F0); F0_skew (assimetria
de F0); mUBI (menor valor vlido de UBI); TM_mUBI (diferena
entre o TM e o menor valor vlido de UBI).
Os parmetros relativos componente F/E (foco nfase)
envolvem tanto valores mdios acima do TM F/Epos
quanto abaixo F/Eneg , tal como foram definidos para cada
UBI pelo ExProsodia.
Os parmetros relativos durao partem das definies de UBI
realizadas pela anlise do ExProsodia, medidas em ms. O
parmetro entreUBI o valor mdio, em ms, obtido a partir da
finalizao de uma UBI e o incio da seguinte. Para essa
definio, foi estabelecido o limite mximo de 500 ms. intraUBI
o valor mdio da durao de uma UBI . Nos dois casos sero
considerados tambm o desvio-padro e o coeficiente de
variao.
Os parmetros relativos intensidade partem das definies da
intensidade mdia (IM) realizadas pela anlise do ExProsodia,
17
medida em RMS para cada UBI. O parmetro IM_cv o

coeficiente de variao mdio da intensidade das UBIs.
IM_skew a assimetria mdia da intensidade verificada nas
UBIs.
Os parmetros relativos s pausas consideram tanto a
quantidade de ocorrncias de pausas, em relao quantidade
de UBIs Pausa/UBI , quanto suas duraes intrnsecas, em
ms. Neste ltimo caso, so consideradas pausas somente os
intervalos entre UBI com durao maior do que 500ms.
Tambm so considerados o desvio-padro e o coeficiente de
variao.
A seleo dos parmetros se faz mediante os indicativos
apresentados pelos testes estatsticos da anlise de clusters
(RUSSO et al., 2011) e das comparaes mltiplas de Tukey ou
Tukey-Kramer, ou ainda do teste de Dunnet. Outras anlises
podero ser realizadas, se necessrias.
A aplicao desses parmetros em conjunto com a anlise feita
pelo ExProsodia permitem a sntese de curvas entoacionais com
o aplicativo PRAAT. Com base nessa sntese, so feitos testes de
percepo com o propsito de se certificar de que os
parmetros definidos como significativos so efetivos.
18
http://dx.doi.org/10.4322/978-85-99829-84-4-2
A percepo de variao em semitons

ascendentes em palavras isoladas no Portugus
Brasileiro1
Fernanda Consoni; Waldemar Ferreira Netto
Introduo
O trabalho aqui apresentado examina a sensibilidade para
diferenas na mudana de f0 ascendente em palavras isoladas
no portugus brasileiro (PB), baseado no teste feito para o
holands por THart (1981). THart (1981) observa que a
frequncia fundamental na fala mostra muitas variaes
rpidas, parte das quais determina a forma percebida do
contorno de pitch. Isso implica que a acuidade com a qual os
ouvintes percebem mudanas de F0 mais relevante para a
compreenso da percepo da entoao do que a j
tradicionalmente conhecida diferena de f0 na fala.
A entoao um conjunto de variaes de pitch na fala
causadas pela variao da periodicidade na vibrao das cordas
vocais. A entoao pode ser observada de uma variedade de
ngulos, todos os quais so igualmente indispensveis se o que
se deseja for entender como a melodia da fala funciona na
comunicao humana.
CONGRESSO NACIONAL DE FONTICA E FONOLOGIA, 10/CONGRESSO

INTERNACIONAL DE FONTICA E FONOLOGIA, 4, 2008, Niteri.
O teste proposto tem por objetivo verificar qual variao de

tom percebida pelo ouvinte sem a interferncia de valores
semnticos que poderiam surgir do contexto frasal.
Entendemos que em situao de fala normal, as variaes
tonais so funcionais no contexto daquele enunciado.
Entendemos, ainda, que a prosdia se constri no nvel do
enunciado, havendo padres entoacionais previsveis e
reconhecveis pelos falantes de uma lngua. O objetivo maior
desse projeto verificar os limites mnimos que a variao tonal
pode assumir.
Metodologia
Os resultados apresentados foram obtidos atravs de testes de
percepo baseados na variao ascendente de semitons em
palavras isoladas. Foram apresentados pares de palavras
trisslabas, gravados com voz feminina, sempre palavras iguais,
para os quais os ouvintes deveriam julgar se havia ou no
variao de pronncia.
Todas as palavras tiverem sua frequncia alterada a partir da
palavra original de forma a variar de 1 a 4 semitons. Parte das
palavras teve todas as slabas manipuladas e parte teve apenas
a slaba tnica. A manipulao foi feita atravs da funo To
Manipulation do Praat considerando uma medida de tempo de
0.03s e uma variao de pitch entre 75 e 600 Hz. Os tons
obtidos foram manipulados em 6% acima, obedecendo aos
critrios propostos por Pierce (1983).
Os 12 sujeitos envolvidos no teste eram adultos, homens e
mulheres, com idade entre 20 e 60 anos, escolarizados. O teste
consistiu em ouvir os pares de palavras a partir do computador
atravs do Media Player do Windows e anotar em formulrio de
papel se as palavras dos pares ouvidos tinham a mesma
pronncia ou no.
20
A percepo de variao em semitons ascendentes em palavras isoladas no

Portugus Brasileiro
A pergunta feita aos sujeitos, As palavras so iguais ou

diferentes? permitiu apenas que eles julgassem a qualidade
sonora das palavras. Eles foram orientados a prestar ateno na
pronncia da palavra verificando se havia alguma variao.
Apresentao dos resultados
Os resultados do teste-piloto revelaram que os sujeitos so mais
sensveis a variaes que ultrapassem 2 semitons, o mesmo
resultado foi obtido por THart (1981 ) para o holands.
1st
2st
3st
4st
Todas as slabas manipuladas (TM)
34
52
68
Slaba tnica manipulada (ToM)
15
32
55
67
Pares considerados sem variao (SV)
117
74
33
Total
140
140
140
140
Os resultados demonstraram que h uma correlao perfeita

entre a variao de semitons e a marcao dos sujeitos, (r2=
0,99). Uma sequncia de testes qui-quadrado mostrou que os
sujeitos percebem com acuidade variaes de mais de trs ou
mais semitons(p<0,05), variaes de apenas dois semitons so
percebidas de maneira aleatria (p>0,05) e variaes de um
21
semitom no so percebidas. Os resultados obtidos, como

mencionado, foram os mesmos observados por tHart (1981)
para o holands, ou seja, o mesmo parmetro de variao tonal
proposto pelo autor pode ser utilizado como parmetro para a
anlise do portugus. Entendemos que tais consideraes so
preliminares, levando em considerao que os testes devem
envolver mais sujeitos. Outro teste em andamento refere-se a
variao descendente de tons.
Discusso dos resultados
Segundo Vaissire, a prosdia compreende todos os nveis
superiores do fonema (ou segmento). A substncia prosdica
o conjunto de variaes na atualizao dos fonemas que
transmitem informaes diferentes daquela dos ndices que
permitem a identificao dos segmentos. Essas informaes
prosdicas podem estabelecer diversas relaes com a
mensagem lingustica: elas podem redobr-la ou modific-la.
O modelo de perceptual magnet effect (PME) proposto por Kuhl
e seus colegas (KUHL; IVERSON, 1995; KUHL, 2000; KUHL et al.,
2001) pressupe a existncia de uma forma prototpica fixa,
no abstrata, que atua como parmetro de comparao inicial
para todas as demais formas que venham a ser percebidas.
Poderamos supor que as variaes perceptveis em semitons
para o portugus brasileiro teriam seu intervalo de referncia a
partir de 3 semitons ascendentes.
Ferreira Netto (2006), prope que a entoao possa ser descrita
a partir dos princpios da anlise musical, feitas as devidas
adaptaes a natureza da fala. Tal proposta visa estabelecer
uma escala de tons que possa reconhecer a entoao
automaticamente atravs da elaborao de um software que
opere tendo como princpio os parmetros estabelecidos a
partir das ferramentas da anlise musical.
22
A percepo de variao em semitons ascendentes em palavras isoladas no

Portugus Brasileiro
Muitas pesquisas e experimentos so necessrios para o

aprimoramento da proposta de Ferreira Netto (para
detalhamento da proposta verificar Ferreira Netto (2006)). A
rotina elaborada pelo autor segmenta a entoao em 5 tons,
segundo a proposta de Cagliari (1981), estabelecidos trs acima
ou abaixo de um tom mdio. A escala de trs semitons foi
defendida por tHart (1981) como sendo a variao tonal
perceptivelmente relevante para os ouvintes do holands.
No teste aqui proposto pudemos constatar que o mesmo
parmetro de variao tonal proposto por tHart poderia ser
utilizado como parmetro para a anlise do portugus. Embora
os resultados expressem que h o mesmo padro de
reconhecimento de variao tonal nas duas lnguas, esse
trabalho s alcanar seus objetivos quando tratar das
variaes tonais inseridas em enunciados maiores que a
palavra. Entendemos que a competncia entoacional dos
ouvintes s poder ser testada se, alm da forma meldica, for
possvel estabelecer uma funo meldica para o que
reconhecido.
23
http://dx.doi.org/10.4322/978-85-99829-84-4-3
A percepo de variao em semitons

descendentes em palavras isoladas no portugus
brasileiro2
Amanda Lassak
Objetivos
Este trabalho pretende examinar a sensibilidade de falantes
brasileiros na percepo de variao em semitons descendentes
em palavras isoladas no Portugus Brasileiro (PB), tendo por
base os estudos desenvolvidos por THart (1980), para o
holands. Alm disso, pretende complementar o estudo
realizado por Consoni e Ferreira Netto (2008), em relao
percepo de variao em semitons ascendentes.
Material e Mtodos
A fim de avaliar a correlao entre a variao de semitons
descendentes e o julgamento dos ouvintes, foram realizados
testes de percepo na pesquisa de campo.
Os testes de percepo envolviam 30 sujeitos, com idades entre
20 e 50 anos, de ambos os sexos. Foram apresentados pares de
palavras trisslabas, gravados com voz feminina, sendo que os
pares continham as mesmas palavras. Os ouvintes deveriam
julgar, na transcrio, se havia ou no variao de pronncia
entre os pares considerados.
2
SIMPSIO INTERNACIONAL DE INICIAO CIENTFICA/USP SIICUSP, 17. So

Paulo, 2009.
A percepo de variao em semitons descendentes em palavras isoladas no

portugus brasileiro
A manipulao das palavras foi feita com a funo To

Manipulation do Praat, verso 5.1.03, considerando uma
medida de tempo de 0.01s e uma variao de pitch entre 75 e
600 Hz. As palavras foram manipuladas de 1 a 6 semitons abaixo
do tom original, levando em conta duas categorias de variao:
uma em que todas as slabas da palavra eram manipuladas e
outra em que apenas as silabas tnicas eram manipuladas. A
gravao exibida no teste de percepo foi desenvolvida no
programa Adobe Audition 3 (free trial).
Resultados e discusso
Os resultados da pesquisa demonstraram que os sujeitos
perceberam variaes de 5 e 6 semitons descendentes.
Variaes de 1, 2 e 3 semitons no foram percebidas, e
variaes de 4 semitons foram percebidas de forma aleatria
(P=0,62).
Tais resultados corroboram as concluses de THart para o
holands, em que somente diferenas de mais de 3 semitons
so perceptveis aos falantes, desempenhando um papel nas
situaes comunicativas.
Concluses
A anlise de correlao demonstrou que existe uma forte
correlao entre a variao em semitons descendentes e o
julgamento dos ouvintes. A correlao encontrada foi de R >
0,97 na maioria dos casos.
25
http://dx.doi.org/10.4322/978-85-99829-84-4-4
A variao em semitons na sincronia de interao

em entrevistas3
Mayara de Sousa; Amanda Lassak; Renata Rosa
Introduo
Nas conversas espontneas ocorre o fenmeno conhecido
como sincronia de interao (KNAPP; HALL, 1999), isto , a
variao conjunta de movimentos durante a troca de
informaes entre os falantes. Os falantes tendem, de maneira
semelhante, a variar conjuntamente aspectos prosdicos de
seus turnos conforme os contextos situacionais e emocionais. A
observao e comparao dos tons mdios dos turnos dos dois
falantes em cada conversa revelaram que houve correlao
entre a variao de tom e a mudana de turno (SOUSA, 2009).
Essa variao para ser perceptivelmente relevante dever ser,
segundo trabalhos anteriores, maior que 3 semitons
ascendentes e 4 descendentes (ROSA, 2008; CONSONI;
FERREIRA NETTO, 2008; LASSAK, 2009).
Objetivo
Focalizando o tom mdio da fala, este projeto buscou verificar a
existncia ou no de sincronia de interao em entrevistas,
observando os tons que foram utilizados por esses falantes.
9 CONGRESSO NACIONAL DE INICIAO CIENTFICA DO SEMESP - CONIC.

So Paulo, 2009.
A variao em semitons na sincronia de interao em entrevistas
Metodologia
A anlise baseou-se no corpus coletado por Sousa (2009),
composto por 30 conversas e entrevistas entre duas pessoas
10 conversas entre homens (H-H), 10 entre mulheres (M-M) e
10 entre homens e mulheres (M-H). Os dados foram analisados
pela rotina ExProsodia (FERREIRA NETTO, 2008). Foram
realizadas anlises comparativas entre os tons subsequentes
utilizados pelos pares de interlocutores de cada dilogo.
Apresentao e Discusso dos resultados
A anlise dos tons utilizados pelos falantes aponta para o fato
de que a variao conjunta de movimentos, levando em conta a
premissa dos 3 semitons ascendentes, foi observada em apenas
16% dos casos. A anlise particularizada do grupo H-H
evidenciou que em 30% dos casos ocorreu a variao
perceptivelmente relevante, no grupo M-M foi de 10% e no MH 10%. Esses resultados corroboram a hiptese de Sousa (2009)
no que diz respeito influncia do contexto situacional e
emocional dos falantes na interao. Segundo a autora, as
conversas entre homens seriam construdas por discusses e
debates, na maioria das vezes, sobre temas polmicos. Na
tentativa de acompanhar o tom mdio de seu interlocutor, o
falante elevaria sua tessitura e faria, assim, com que o
interlocutor procurasse um nvel ainda mais alto para rebater
ou acrescentar seus argumentos.
27
http://dx.doi.org/10.4322/978-85-99829-84-4-5
A variao de tom em texto espontneo

memorizado longo4
Marcus V. M. Martins
Introduo
O trabalho A variao de tom em texto espontneo
memorizado longo tem por objetivo avaliar, atravs de anlises
automticas da Prosdia, a variao do Tom Mdio em
Narrativas Orais, visando analisar se existe alguma relao entre
esta mesma variao e a estrutura da narrativa. O estudo foi
desenvolvido no mbito do Projeto ExProsodia - Anlise
automtica da entoao na fala de lngua portuguesa,
integrando-se aos demais trabalhos j desenvolvidos pelo
grupo, nas reas Percepo e Percepo de Prosdia.
Em princpio consideramos como narrativa oral, como qualquer
texto com uma durao mais longa do que uma frase e que se
componha dos elementos previstos em (LABOV; WALETZKY,
1972; WENNERSTROM, 2001): Resumo, Orientao, Ao
complicadora, Resoluo, Coda e a Avaliao. Sendo importante
ressaltar que estes elementos podem aparecer na ordem como
apresentada, ou em ordem diversa, bem como certos
elementos podem ser omitidos. Usamo-nos deste modelo, por
crermos ser ele o que de modo mais abrangente engloba as
vicissitudes de uma narrativa oral. Apoiamo-nos, tambm, nas
17 SIICUSP - SIMPSIO INTERNACIONAL DE INICIAO CIENTFICA/USP. So

Paulo, 2009.
propostas de Bruner (1991) no que se refere a funcionalidade

das narrativas orais, no contexto da psicologia e da sociologia,
de modo que a Prosdia poderia ser tomada como um
elemento constitutivo deste carter scio-psicolgico das
narrativas orais.
Por Tom Mdio (TM) compreendemos como a mdia dos
valores de F0 obtidos em uma dada elocuo, de modo que
nosso parmetro acstico para a avaliao da entoao da fala
seria a frequncia, primeiramente analisada em Hertz e
posteriormente covertida em valores de semitons. A anlise de
tais dados se d pelo uso da rotina ExProsodia de Anlise
Automtica da Entoao na Fala de Lngua Portuguesa
(FERREIRA NETTO, 2008), desenvolvida pelo prprio Prof. Dr.
Waldemar Ferreira Netto no mbito do Grupo de Pesquisa
ExProsodia. A rotina opera atravs da decomposio das
frequncias em componentes estruturadoras (finalizao,
sustentao) e semntico-funcionais (foco/nfase, acento
lexical). Basendo-se na hiptese de que as variaes de
entoao, percebidas pelos ouvintes no nvel frasal, decorrem
da coordenao entre essas componentes. Deste modo, nosso
trabalho pretende no ser apenas uma simples anlise dos
valores TM, em uma dada narrativa oral, mas, sim que a mesma
pudesse ser feita de maneira automtica pela Rotina, de forma
que pudssemos vir a oferecer subsdios para um melhor
desenvolvimento da mesma.
Estudo do Tom Mdio em narrativas orais.
O estudo a cerca do Tom Mdio nas narrativas orais pautou-se
por duas propostas bsicas: uma primeira, que se fez durante a
coleta do corpus, previa uma observao da estrutura de tais
narrativas de acordo com a proposta de (LABOV; WALETZKY,
1972; WENNERSTROM, 2001), esta anlise prvia se fazia
necessria para que pudssemos avaliar se, de fato, haveria
algum elemento subjacente as narrativas orais, o qual tambm
29
fosse um elemento estruturador. Neste sentido, esta pranlise no tinha carter descritivo no que se refere a anlise
prosdica, apenas o intuito de se organizar as mesmas. A
segunda proposta, refere-se a anlise prosdica, propriamente
dita, isto se haveria alguma relao entre a variao dos
valores de F0, produzidos por um falante em uma situao de
narrao, com estes elementos estruturais da narrativa oral.
Descrio das atividades
Dadas tais propostas a coleta de corpus pressupunha uma
espontaneidade do discurso. Com o intuito de facilitar a coleta
e, principalmente, de evitar que o carter acadmico da
pesquisa viesse a interferir, optamos por coletar as gravaes
em sites, como o Youtube, ou em centros de memria e museus
de pequenas cidades onde houvesse este tipo de gravao.
A segunda etapa aps esta coleta referia-se a transcrio
ortogrfica e a segmentao das mesmas, uma vez que a Rotina
ExProsodia opera com pores menores em sua anlise, por
uma limitao do programa base, no caso o Microsoft Excel.
Desta maneira, a segmentao visava recortar um texto longo,
no caso a narrativa oral em parcelas menores, frases. Nosso
parmetro para a segmentao frasal foram os seguintes:
Oraes coordenativas seriam segmentadas nas

conjunes;
Oraes subordinativas no seriam segmentadas;
Discursos indiretos tambm no seriam segmentados.
Esta segmentao visava recortar o texto em n partes, de modo

que pudssemos prosseguir em nossas anlises. A segmentao
do udio foi executada com auxlio do programa Sony Sound
Forge 9 Trial Version, em seguida os x trechos colhidos tiveram
seus valores de frequncia e intensidade analisados pelo
30
programa de anlise fontica Speech Filling System (doravante

SFS5) (HUCKVALE et alli,1987). Nesta etapa do processo visamos
obter todos os valores vlidos de F0 (em HZ) e intensidade (em
RMS) dos n segmentos, visando obter os dados subsidirios
para o funcionamento da Rotina ExProsodia. Os dados obtidos
foram salvos no formato .txt, formato de arquivo, o qual a
rotina ser capaz de analisar fazendo uma relao entre os
valores e qual frame cada valor pertence. Em alguns casos
foram feitas transcries do texto de modo que a rotina ir
relacionar os mesmos valores com as respectivas transcries.
A terceira etapa de nosso trabalho refere-se ao uso da Rotina
ExProsodia propriamente dita. Como citado o programa de
anlise fontica SFS, atravs de um comando coleta os valores
de frequncia e intensidade do espectrograma e os ordena, de
acordo com sua sequncia, em arquivo .txt (Bloco de Notas do
Windows). preciso ressaltar que os valores de frequncia a
que nos referimos so os valores de F0, ou seja, da primeira
componente da anlise de Fourier. A Rotina por sua vez ler os
dados em .txt, na sequncia dada pelo programa SFS e far os
clculos necessrios para a anlise prosdica, bem como nos
fornecera os grficos de variao dos valores em cada
segmentos. Alm disso, os valores a serem analisados seguiro
parmetros de frequncia, intensidade e durao j prestabelecidos, quer sejam pelo analista, quer sejam valores
padres j fixados pela prpria rotina. Desta maneira, se o valor
estiver dentro dos limites de mximo e mnimo estabelecidos
5
SFS is not public domain software, its intellectual property is owned

by Mark Huckvale, University College London and others. However SFS
may be used and copied without charge as long as the programs and
documentation remain unmodified and continue to carry this
copyright notice. In:
http://www.phon.ucl.ac.uk/resource/sfs/help/overview.htm.
Acessado em 19 de Janeiro de 2010
31
ele ser considerado nos clculos da anlise prosdica, caso

contrrio no.
Para este estudo operamos com valores j programados pela
rotina, uma vez que trabalhamos exclusivamente com vozes
masculinas:
Frequncia operante: inicial de 50 Hz at 350Hz, uma vez que
trabalhamos exclusivamente com vozes masculinas:
Intensidade: 470,33 RMS

Durao das pausas: 100ms, ou 20 frames.
A mesma operao foi executada em todos os n segmentos

obtidos na etapa 2. Feito isto a quarta e ltima etapa do
desenvolvimento, ocupou-se de obter o valor mdio de F0 de
todos os segmentos, agora convertidos em valores de semitons
e apresentados na escala MIDI. Esta etapa visava,
primeiramente, converso dos valores de Hertz (Hz) para
Semitons (st) e anlise do comportamento de Tom Mdio de
cada segmento, baseado nesta coverso. Os mesmos valores
foram agrupados em um grfico, respeitando a ordem da
segmentao, ou seja, os n segmentos foram agrupados na
ordem (x1, x2, x3 xn). Esta ordenao dos dados visava a
observar o comportamento do Tom Mdio na narrativa como
um todo, de modo que os valores obtidos pudessem ser
comparados entre si, bem como com um valor referencial, caso
fosse necessrio. Alm disso, procuramos obter os ltimos
valores de frequncia vlida de cada segmento (as finalizaes,
ou tom final) para uma comparao dentre eles.
Anlise dos dados
A anlise dos dados obtidos at esta etapa foram debatidas e
analisadas em conjunto com o professor e os demais
orientandos em nossas reunies semanais. Desta forma, o
grupo que se dividia em duas frentes, uma de percepo de fala
e outra de produo de fala, poderia analisar seus resultados e
32
chegar a concluses e anlises que levassem a concatenar as

duas propostas.
Neste sentido, a anlise quantitativa obtida pelo grupo do
estudo da percepo fornecia subsdios para a interpretao
dos dados qualitativos do estudo da produo. Assim como o
inverso. A anlise de nosso trabalho pautou-se justamente pela
coadunao destas duas frentes. O grupo de percepo em seu
trabalho Sensitivity to f0 variation in Brazilian Portuguese
(CONSONI et al., 2009) baseado nos estudos de percepo
desenvolvidos por THart (1981) para o holands, concluiu que a
variao mnima perceptvel para o falante de portugus
brasileiro de 3 semitons ascendentes e 4 semitons
descendentes. [(x+3),(x-4)], sendo x, um valor referencial no
determinado. Desta forma, em nossa anlise nos propomos a
fazer uma anlise usando-se desta proposta.
Uma questo em que nos deparamos referia-se ao
estabelecimento do valor de referncia para a anlise da
variao de TM. A soluo melhor encontrada foi a de se
calcular o TM geral da elocuo. Devido as limitaes j
expostas no poderamos ter acesso ao dado puro, deste modo,
optamos por fazer o clculo do TM geral de maneira indireta,
i.e. atravs da mdia dos valores de TM dos n segmentos. De
acordo, com a frmula1:
Frmula. 1. Clculo para Mdia dos valores de TM
Feito este clculo para a obteno do valor de referncia, no

caso o tom mdio geral, podemos usar dos estudos feitos pelo
grupo da percepo e ver em quais dos n segmentos da
narrativa oral a variao era (x+3) ou (x-4). Isto , quais as
variaes nos discursos do falante seriam realmente percebidas
33
pelo ouvinte e qual destas variaes seria relevante para a

percepo do ouvinte, assim como, se estas variaes teriam
alguma relao com a estrutura da narrativa propriamente dita.
Anlise de Caso:
Aqui apresentamos os resultados obtidos em nosso teste de
hiptese. A narrativa escolhida foi coletada no site Youtube, e
conta com 456 de durao, alm de atender as prescries de
Labov, principalmente no que concerne ao ter uma introduo,
uma ao complicadora e uma finalizao. Ao segmentarmos
obtivemos um total de 8g segmentos frasais, de acordo com
nossa proposta de segmentao, as quais foram analisadas pelo
SFS, assim como pela rotina ExProsodia. Ao agruparmos os
dados de TM e Finalizao como expostos no grfico a seguir (os
valores esto apresentados em termos de MIDI):
Grfico 1. Variao de TM e Finalizao.
Podemos observar que a correlao entre TM e Finalizao

baixo (p=0,336), contudo pode-se dizer que para estudos de
fala um indicador bastante forte da correlao da variao
entre as duas grandezas. Obtivemos tambm, um grfico
(Grfico2) apenas com os valores de TM, o que, de fato, era o
34
que interessava para a nossa pesquisa (os valores esto em

termos de MIDI):
Grfico 2. Variao de Tom Mdio
A partir do grfico 2 de Variao do Tom Mdio, nos fica claro

que em certos pontos temos uma variao maior, em
comparao ao restante do grfico, assim como nos fica ntido
que os valores tm a tendncia a manterem-se em uma faixa de
variao praticamente estvel. A partir desta observao
podemos analisar aquilo que realmente seria uma variao
perceptvel para um ouvinte. Com base no trabalho Sensitivity
to f0 variation in Brazilian Portuguese e na frmula 1, pudemos
chegar a concluso de que o valor de referncia era 38, em
termos de MIDI e 150, 00 Hz em termos numricos, o que
equivaleria D2, em cifras musicais. Alm disso, fizemos um
levantamento quantitativo (Graf.3) visando localizar os valores
que mais apareceriam, aplicando-se o clculo de variao
perceptiva [(x+3), (x-4)].
Chegamos a concluso que os segmentos onde o valor de TM
fosse maior que 41 (F2), ou menor que 34 (A#1), seriam
relevantes para a anlise da percepo, bem como poderiam
ser dicas para a compreenso se a variao do TM nas
narrativas orais teriam alguma relao com a sua estrutura.
35
Grfico 3. Anlise quantitativa dos valores de TM (em

cifras)
Podemos ver atravs deste grfico que a grande parte dos

valores de TM, concentra-se na faixa predita (de 34 a 41; de A#1
a F2) onde a variao ainda no perceptvel ao falante sendo
que um total de 67 de 85 (78,82%) dos segmentos encontra-se
nesta faixa. Entretanto ao retomarmos ao grfico 2 e aplicarmos
o mesmo clculo percebermos que grande parte das variaes
perceptivas encontram-se no trecho que compreende os
segmentos de 53 a 68, como podemos ver no grfico 4:
Grfico 4. Trecho de maior variao de TM (em MIDI)
A seguir apresentamos a transcrio do trecho citado e o valor

da variao (em st):
36
[anda logo ooo ooo tonho!] +5

[Falei: Vai embora,]
[vamo embora seu Man]
[ele andou mais um pedacinho]
[e eu he falei heaa agora]
[ a hora] -9
[eu bato essa porteira] -5
[quero ver que que esse filho da me quer] -4
[cheguei::]
[peguei a porteira::] +3
[mais mandei a porteira, viu] +3
[levei viu]
[e sai correndo] +5
[e beeem eee oooow mundo vio!]
[Hae saci veio voando biaaau frau...]
[e falei seu Man me acode aqui] +5
Apenas neste trecho podemos encontra nove variaes
perceptveis das dezoito encontradas em toda a narrativa, as
quais por seu turno esto espalhadas de modo aleatrio pelo
restante da narrativa.
Consideraes Finais
Este estudo nos levou a algumas concluses, umas delas, j
observada no mbito frasal, refere-se a uma tendncia a
manuteno do TM ao longo do discurso, ou seja, o falante
procura sustentar em sua elocuo os valores de TM sem
grandes variaes. Por outro podemos observar que a variao
de TM pode ter um carter semntico, de modo que a variao
da entoao pode marcar uma finalizao, ou mesmo a nfase
em um determinado ponto do que se diz.
Neste sentido, o que podemos observar na narrativa
apresentada que esta variao tem uma ligao relativamente
37
estreita com a estrutura da narrativa. No caso possvel

observar que a variao de TM nos trechos que vo de de 53-67
referem-se a ao complicadora, exposta por Labov et al.
(1972), e que prev este trecho como a parte onde os eventos
do narrado de fato se desenrolam. Podemos observar tambm
que no trecho de 57-60 o mesmo fenmeno de variao ocorre,
contudo nos abre margem para uma anlise de que a variao
prosdica no caso tenta marcar o pressuposto de ao, isto ,
uma ao que ficaria pressuposta pela prpria narrao
exposta, visando enriquec-la de detalhes ou apresentar aos
falantes o que fora pensado pelo narrador ou por um das
personagens no momento da ao. Referendando nossa
hiptese primria.
O que nos fica claro que, de fato, possvel se fazer uma
relao entre a variao prosdica e a estrutura das narrativas
orais. Embora esta seja uma questo perceptvel em si pelo
simples falante, devemos ressaltar que este estudo buscou fazlo de maneira automtica e baseando-se na estatstica dos
dados obtido, o que nos leva a reformular nossa concluso,
reafirmando que mais do que uma anlise de variao dos
semitons em uma narrativa oral, o estudo tambm uma
tentativa de se demonstrar a aplicabilidade de anlise
automtica da entoao, assim como, uma tentativa de
traduzir atravs de dados numricos, aquilo que um falante por
instinto j saberia.
Outro fator no debatido, mas de suma importncia para o
nosso trabalho, refere-se ao uso da escala musical em MIDI, a
despeito dos valores em Hz, uma vez que nossa tentativa de se
fazer a mesma anlise com os valores em Hz mostram-se
infrutferas e demonstram todo um campo a ser explorado em
futuras pesquisas: a relao entre as escalas que usamos para
analisar estudos referente a fala.
38
http://dx.doi.org/10.4322/978-85-99829-84-4-6
Avaliao do tom mdio em manchetes

telejornalsticas apresentadas por mulheres6
Gdalva da Conceio
Objetivos
Esse estudo verificou se a alterao no tom mdio feminino na
apresentao de manchetes telejornalsticas varia conforme a
notcia apresentada seja dada com positiva ou como negativa.
Considerou-se para essa anlise os resultados de Consoni e
Ferreira Netto (2008) que verificaram que as variaes
ascendentes perceptveis no portugus brasileiro ocorrem a
partir de 3 semitons. Considerou-se a proposta de Fnagy
(2003) de que a estratgia meldica dos locutores e das
locutoras varia segundo o gnero do discurso. Segundo esse
autor, as formas de leitura, seja de uma narrativa, de um conto
de fadas ou de informaes, distinguem-se pela recorrncia de
um nmero limitado de configuraes meldicas.
Metodologia
O material coletado compe-se de 30 amostras de manchetes
telejornalsticas, apresentadas por locutores do sexo feminino.
Dessas amostras, 15 transmitiam notcias consideradas positivas
e as outras 15, notcias negativas. A coleta do material foi
realizada por meio do software Real Player, a partir de vdeos
SIMPSIO INTERNACIONAL DE INICIAO CIENTFICA/USP SIICUSP, 17 . So

Paulo, 2009.
Gdalva da Conceio
retirados do Yutube. Em seguida, fez-se a segmentao do

material coletado por meio do software Speech Filing System.
Por fim, o material foi processado pela rotina ExProsdia, criada
por Ferreira Netto (2008), que gerou os dados solicitados para a
anlise.
Resultados
Embora a comparao dos valores absolutos no tenha
apresentado valores significativos, a comparao das mdias
acumuladas no tempo (tabela ao lado), ordenadas de forma
crescente, mostrou uma diferena significativa entre ambos,
que se pode visualizar na Figura 1. Os dados processados,
apresentaram queda de tonalidade, correlacionada s notcias
negativas, em detrimento das positivas. (F(4,2)=4,5, P>0,05).
14,0
12,0
10,0
8,0
6,0
4,0
M.Positiva
M.Negativa
2,0
0,0
Figura 1: A linha pontilhada mostra a sequncia de valores

mdios acumulados no tempo das manchetes dadas como
negativas e a linha contnua, das manchetes dadas como
positivas
Concluso
A variao significativa da tonalidade resultou da necessidade
dos locutores marcarem a caracterstica negativa para seus
discursos. A despeito desses resultados significativos
encontrados, verificou-se que a variao decorreu da maior
incidncia de valores mais baixos para as manchetes negativas e
40
Avaliao do tom mdio em manchetes telejornalsticas apresentadas por

mulheres
no em relao s manchetes enunciadas pelo mesmos locutor.

Nesse caso, ser importante em trabalho futuro, reavaliar
recorte semntico feito para os temas estabelecidos para a
oposio de valores negativo/positivo, de forma a se priorizar
temas como divulgao de mortes e tragdias como temas
prototpicos.
41
http://dx.doi.org/10.4322/978-85-99829-84-4-7
Relao entre variao de tom mdio da fala e

comportamento do falante7
Thiago Martins
O trabalho tem inicialmente como objetivo analisar a variao
de tom mdio da fala em relao com o comprometimento do
falante com a impresso de verdade que ele quer passar. Isso
envolve a prosdia de um indivduo e consequentemente as
emoes com as quais ele est envolvido no ato da fala.
A comunicao algo vital e natural do ser humano. O indivduo
um ser que carrega crenas e ao observar falantes em seus
atos de comunicao, h momentos em que as verdades
individuais de um se confrontam com as de outro. assim nos
debates, seja de cunho cientfico, familiar ou at poltico, onde
o extremo desse confronto pode resultar em guerras atrozes, as
quais a humanidade j vivenciou.
A fala o correlato mais direto e o indicador mais poderoso de
processos emocionais (SCHERER, 1989). A cincia da linguagem
evoluiu a ponto de medir e descrever, com uma exatido que a
leva ser uma cincia, as variaes do sistema lingustico e meios
atravs do qual ele se manifesta.
Scherer (2001) afirma que a voz controlada por processos
fisiolgicos, onde h uma ligao psquica. Sendo assim,
variaes psicofisiolgicas podem ser medidas atravs da fala.
7

Paulo, 2010.
Relao entre variao de tom mdio da fala e comportamento do falante
Um exemplo disso quando o indivduo se encontra bravo em

seu estado emocional, isso faz com que seus msculos da
laringe fiquem mais tensos, mais contrados
e
consequentemente haver um aumento do F0 (frequncia
fundamental) na voz. Esses efeitos internos do organismo que
repercutem na voz so chamados de push-effects, se
contrapondo com os pull-effects. Estes seriam, segundo
Scherer, convencionalizados, so variaes na fala que so de
ordem social, seja simplesmente por necessidade de
comunicao, ou ento at por limitaes do ambiente.
Tambm nesse mbito, Fnagy (2003) d diferentes funes
para as variaes prosdicas. Em suas categorias entram tanto
as convencionais (funo sinttica ou de nfase) quanto as que
seriam naturais (funo expressiva, relacionada s emoes).
Com base nessa distino (push and pull-effects), pode-se
utilizar os parmetros vocais para inferir variaes emocionais.
A questo da arbitrariedade repercute neste trabalho. Vrios
estudos feitos por Scherer (SCHERER, 2001) ambicionam
descobrir as relaes das manifestaes da emoo na fala
entre culturas, buscando saber se a expresso da emoo seria
algo universal ou relativamente cultural. Tal indagao se volta
para a questo da prpria emoo como algo biolgico ou
adquirido culturalmente, levando em considerao suas
funes. No reconhecimento da expresso emocional atravs
da fala, seria eu capaz de ter a mesma percepo e fazer as
mesmas inferncias em indivduos pertencentes a outras
culturas e falantes de outras lnguas?
Para saber como se d tal manifestao da emoo atravs da
fala dentro da cultura brasileira e por falantes de portugus
brasileiro, o parmetro acstico em foco foi o tom mdio do
falante, ou seja, a variao da sua frequncia fundamental.
Ento o trabalho em apresentao foi desenvolvido da seguinte
maneira:
43
Thiago Martins
O corpus foi retirado de vdeos do Youtube, em que o contedo

apresentado um debate presidencial que ocorreu ao vivo e
online. Foi feita a segmentao de alguns trechos relevantes do
discurso de um dos participantes com a inteno de contrapor
momentos em que o falante se encontrava aparentemente
tranquilo com momentos em que ele apresentava alterao
emocional de acordo com sua expresso. Foram separados 4
trechos de cada tipo: 4 em que o estado aparentava estar
tranquilo e 4 em que ele estava alterado. Tanto a segmentao
dos trechos como a anlise dos valores de intensidade e de
frequncia fundamental da fala foram feitos atravs do
programa SFS (Speech Filing System). Com os dados obtidos dos
segmentos, os valores foram submetidos ao ExProsdia, um
programa desenvolvido pelo professor Waldemar Ferreira Netto
que tem como objetivo a anlise automtica da prosdia.
Atravs desse programa foi calculado o tom mdio em Hertz da
fala de cada trecho:
Mdia
Alterado
166
141
151
174
158
No alterado
111
119
104
135
117,25
J pela observao dos dados pode-se notar que os valores da

coluna da esquerda so maiores do que as da direita. Para a
confirmao de resultados, nos valores de tom mdio acima foi
aplicado o teste F, por meio do qual foram obtidas as mdias
dos valores das duas colunas e feita uma anlise estatstica
desses dados. Com isso teve-se um P=0,006 (<0,01) e um Fo
(16,73) > Fc (5,99). Atravs de tal teste os dados apresentados
na anlise se mostram significativos.
44
Relao entre variao de tom mdio da fala e comportamento do falante
Com isso, neste pequeno trabalho, os dados apresentados

demonstram que na lngua portuguesa falada no Brasil tambm
se v um aumento da variao da frequncia fundamental, e
portanto um aumento de tom mdio da voz, relacionado com a
emoo do falante. Isso nos aponta para a hiptese inicial de
que o comprometimento do falante com a impresso de
verdade de seu discurso tem relao com o tom mdio de sua
fala. Pode-se concluir, portanto, que tal comportamento se
manifesta precisamente atravs da fala e junto com outros
trabalhos a respeito do mesmo tema pode-se buscar uma
generalizao a respeito do carter natural ou social de tais
comportamentos e manifestaes. Para tanto, no se pode
deixar de pensar em tais objetos de estudos sem levar em
considerao o ser humano e os contextos variados em que se
insere, at mesmo sua capacidade de manipulao de seus
recursos naturais.
45
http://dx.doi.org/10.4322/978-85-99829-84-4-8
Correlaes entre variao de tom e discurso em

textos lidos8
Vitor Pereira
Objetivos.
O objetivo deste trabalho verificar a correlao entre a
variao de tom e discurso em portugus brasileiro (PB) em
textos lidos em voz alta. Procuramos uma possvel lgica de
variao tonal para a expresso de informao
triste/desagradvel ou feliz/agradvel, com tom mais grave para
a primeira e tom mais agudo para a segunda, conforme
verificado por Luciano (2000) em amostras de discurso
jornalstico e por Wennerstrom (2001) em fala espontnea e em
textos lidos.
Metodologia.
Neste trabalho propomos uma anlise baseada na proposta de
Ferreira Netto (2006; 2008). A prosdia tomada como srie
temporal, com as componentes: sustentao, finalizao,
foco/nfase e acento lexical. No ser analisada a estrutura
semntica, apenas a variao tonal e a frequncia mdia, em
hertz.
Para a coleta de dados desta amostra, extra 30 amostras de
udio, dos sites brasileiros
8

Paulo, 2009.
Correlaes entre variao de tom e discurso em textos lidos
g1.globo.com;maisband.band.com.br;
www.redetv.com.br;www.youtube.com/user/rederecord
As restries foram: voz masculina, discurso jornalstico e
notcia completa sem interrupo. Utilizamos o software Adobe
Audition para as amostras. A anlise acstica do corpus se fez
com o software Speech Filing System, que converteu os dados
sonoros em uma lgica compreensvel para a rotina ExProsdia.
As amostras foram filtradas individualmente para a remoo de
rudos e sons alheios anlise.
Resultados
Na Tabela 1, os resultados das amostras foram separados por
falante (marcados nas linhas pelos nmeros), tipo de amostra
(feliz/agradvel e triste/desagradvel) e resultados de anlise
(frequncia mdia e tom mdio). No encontramos nenhum
padro ao analisar as estruturas como um todo. As amostras
foram produzidas sem diferenas quanto alterao de
frequncia mdia e tom mdio. O teste de correlao no
mostrou um r2 significativo para a comparao entre as
categorias semnticas (feliz ou triste) e as categorias de tom
mdio e de frequncia mdia. Pela proximidade dos resultados
(6 de 15 pares tristes/desagradveis menores que os pares
alegres/agradveis, 4 de 15 pares tristes maiores que os alegres
e 5 de 15 com resultados iguais) podemos dizer que no h um
padro na comparao de resultados comparados entre si.
47
Vitor Pereira
Freq.
Feliz mdia
Tom
Freq.
mdio Triste mdia
Tom
mdio
1-
124,9971 b1
1-
122,141
b1
2-
130,7052 c2
2-
131,7589
c2
3-
146,4579 d2
3-
144,757
d2
4-
160,222
e2
4-
158,3903
d#2
5-
150,8299 d2
5-
159,6148
d#2
6-
178,466
6-
181,871
f#2
7-
183,3938 f#2
7-
196,6561
g2
8-
168,9232 e2
8-
187,5074
f#2
9-
174,9827 f2
9-
163,3822
e2
10-
203,9993 g#2
10-
178,2342
f2
11-
122,9202 b1
11-
124,9738
b1
12-
155,2668 d#2
12-
159,0695
d#2
13-
155,6733 d#2
13-
163,0269
e2
14-
126,0693 b1
14-
131,2227
c2
15-
114,4568 a#1
15-
99,42589
g1
f2
Tabela 1. Resultados obtidos
Consideraes finais
Segundo Wennerstrom (2001), h possibilidade destes padres
estarem combinados com estruturas semnticas das oraes.
Uma possibilidade essas estruturas que marcam a emoo
na fala estarem nos fonemas, como define Grammont (1933).
48
http://dx.doi.org/10.4322/978-85-99829-84-4-9
Determinao de tempo mdio mnimo

necessrio para a determinao de um padro
emocional na entoao frasal9
Lucas Negri
Introduo
De acordo com Antnio Damsio (DAMSIO, 1996), as emoes
so configuraes fisiolgicas que tm influncia direta no
funcionamento de outras reas do crebro, inclusive as
responsveis pela tomada de decises e pelo uso da razo
abstrata. Segundo esse autor, informaes provenientes do
corpo tm influncia direta no pensamento, como atestam as
deficincias de pessoas com problemas nos crtices cerebrais
somatossensoriais do hemisfrio direito, parte do crebro
responsvel por receber as sinapses vindas do corpo e repassar
suas interpretaes a outras regies do crebro. Pessoas com
essa deficincia apresentam problemas de raciocnio, na
tomada de decises e tambm com emoes e sentimentos
(DAMSIO, 1996, p.90-96).
O trabalho de Skinner (1935) pioneiro na anlise da relao
entre situao emocional e entoao voclica. Nesse trabalho, o
autor capta, na simples pronncia de um a alongado, depois
de o falante estar sujeito a incentivos emocionais, padres de

Paulo, 2015.
Lucas Negri
ondas sonoras diferentes para pessoas sujeitas a estmulos

tristes e a estmulos alegres.
Outra referncia considerada para este trabalho foi o texto Os
reveladores da mentira (ALMEIDA JR., 1940), sobre a captao
de situaes emocionais a partir de respostas corpreas. Ainda,
para alm desses trabalhos, a relao entre performance
voclica e emoes se estende em vasta bibliografia.
Para a anlise de entoao frasal no presente trabalho,
baseamo-nos principalmente nos trabalhos de Ferreira Netto
(2006, 2008a). Sendo assim, consideramos entoao como
uma sequncia de tons, iguais ou diferentes, produzidos pela
voz durante a fala (FERREIRA NETTO, 2013). Ferreira Netto,
desenvolvedor do programa ExProsodia, props que a entoao
da fala pode ser decomposta em componentes estruturadores
finalizao (F) e sustentao (S) e semntico-funcionais
foco/nfase (E).
De acordo com Ferreira Netto (2006; 2008a) e Peres e seus
colegas (2009; 2011), o ato de falar composto de uma srie de
tenses e relaxamentos fsicos. Os momentos de tenso, ou de
esforo, so considerados os momentos de sustentao (S) da
fala, em que se produz um tom de voz numa determinada
frequncia a que chamamos F0. A mdia aritmtica, no tempo,
dos F0 produzidos determina o tom mdio ideal (TM) da fala. Os
momentos de relaxamento no ato de fala produzem uma
declinao pontual de aproximadamente 7 semitons, nos
pontos denominados de finalizao (F), quando a continuao
do ato de fala demanda a retomada da tenso de sustentao,
em novo F0, que decair 7 semitons at o prximo ponto de
finalizao F. Sendo assim, o ato de falar acontece numa
sucesso de retomadas de tenso, a que chamamos unidades
bsicas de entonao (Units of Base of Intonation UBI) que
compem, sucessivamente e em conjunto, a entoao frasal.
50
Determinao de tempo mdio mnimo necessrio para a determinao de

um padro emocional na entoao frasal
Ainda de acordo com Ferreira Netto e outros (2014), possvel

identificar padres entoacionais para as emoes de clera,
embora a diferena entre entoaes neutras e tristes no se
verifique. No entanto, entoaes colricas no se diferem de
acordo com o gnero, mas as neutras e tristes sim, so
diferentes entre homens e mulheres. Tal anlise foi feita com a
leitura do programa ExProsodia.
Alm disso, Ferreira Netto e seus colegas (FERREIRA NETTO;
MARTINS; VIEIRA; SPANGHERO, 2014) identificaram um padro
entoacional denominado Simulacrum of Neutral Intonation, um
padro entoacional que marca uma espcie de acordo entre o
que se diz e o que se sente. A anlise com o programa
ExProsodia capta uma divergncia entre falas sinceras e falas
interpretadas, acusando o desacordo emocional entre o que o
corpo realmente est sentindo e o que se est tentando passar
atravs da voz. Essa captao, alm de servir como possvel
detector de mentiras, tambm pode ser usada para identificar a
presena de psicopatia em pacientes psiquitricos.
Determinar a medida temporal mnima que nos fornece UBIs
suficientes para a anlise emocional da fala possibilitar
desenvolvermos o software para o processamento simultneo
da captao, para anlise em tempo real da entoao frasal.
Metodologia
Foram selecionadas 6 gravaes, retiradas da internet, sendo 3
correspondentes a pessoas com raiva (dois homens e uma
mulher) e 3 a pessoas tristes (duas mulheres e um homem).
Esse procedimento tem a vantagem de as pessoas no saberem
que suas falas seriam objeto de pesquisa sobre a pronncia,
ainda que as gravaes utilizadas tenham sido feitas
conscientemente, isto , as pessoas sabiam que suas falas
estavam sendo gravadas sendo uma gravao um discurso no
51
Lucas Negri
Congresso Nacional, outra a filmagem amadora de um

prisioneiro e, as outras quatro, entrevistas.
Cada gravao foi dividida em 5 partes de igual durao, e foi
selecionado um momento aleatrio em cada uma dessas partes.
A partir de cada um desses momentos, foram feitos recortes de
aproximadamente 0,5 segundo, 1 segundo, 1,5 segundo, 2
segundos e 3 segundos na gravao utilizando o software
Speech Filing System totalizando 25 recortes por gravao.
Foram utilizados recortes aproximados porque o programa
Speech Filing System no permite recortes em qualquer
medida, modificando as medidas cabveis de acordo com a
extenso total do arquivo. Como padronizao, optou-se por
manter a aproximao sempre para cima ou sempre para baixo
na medida de recorte buscada na gravao. Por exemplo, na
busca por recortes de 1 segundo numa gravao, o programa
apenas autorizava recortes de 1,0072 segundo. Foi ento
mantido o recorte de 1,0072 segundo para todos os trechos de
1 segundo buscados na gravao.
Ainda com esse mesmo software foram retirados, de cada um
dos 150 trechos selecionados, uma anlise de frequncia e uma
de intensidade, a serem lidas pelo software ExProsodia para
determinar quantos momentos UBI so captveis em cada um
desses intervalos de tempo e todos os dados e resultados
foram catalogados.
O software ExProsodia oferece os seguintes parmetros
relativos frequncia:
- menor_F0_UBI -- menor frequncia alcanada em F0
- maior_F0_UBI maior frequncia alcanada em F0
- extensao_F0 extenso vertical mdia de F0
- dp_F0_UBI desvio padro de F0
- skew_F0_UB assimetria (skew) de F0
- mediana_F0_UBI mediana de F0
- cv_F0_UBI coeficiente de variao de F0
52

- kurt_F0_UBI curtose de F0
- num_UBI quantidade de UBIs no trecho
- UBI_final frequncia da UBI final
- TM-mUBI diferena entre o TM e o menor valor de UBI (a rigor
TM - menor_F0_UBI)
- menor_TM menor frequncia alcanada no tom mdio
- maior_TM maior frequncia alcanada no tom mdio
- TM tom mdio
- dp_TM desvio padro de TM
- skew_TM assimetria (skew) de TM
- mediana_TM mediana de TM
- kurt_TM curtose de TM
- cv_TM coeficiente de variao de TM
- menor_FEpos_UBI menor frequncia positiva alcanada de
foco/nfase
- maior_FEpos_UBI maior frequncia positiva alcanada de
foco/nfase
- media_FEpos_UBI frequncia mdia de foco/nfase positivo
- dp_FEpos_UBI desvio padro de foco/nfase positivo
- skew_FEpos_UBI assimetria (skew) de foco/nfase positivo
- extensao_FEpos_UBI mediana de foco/nfase positivo
- cv_FEpos_UBI coeficiente de variao de foco/nfase positivo
- kurt_FEpos_UBI curtose de foco/nfase positivo
- menor_FEneg_UBI menor frequncia negativa alcanada de
foco/nfase
-maior_FEneg_UBI maior frequncia negativa alcanada de
foco/nfase
- media_FEneg_UBI frequncia mdia de foco/nfase negativo
- dp_FEneg_UBI desvio padro de foco/nfase negativo
- skew_FEneg_UBI assimetria (skew) de foco/nfase negativo
- extensao_FEneg_UBI mediana de foco/nfase negativo
- cv_FEneg_UBI coeficiente de variao de foco/nfase negativo
- kurt_FEneg_UBI curtose de foco/nfase negativo
Dos 5 recortes com a mesma medida de tempo de cada

gravao, por exemplo, dos cinco recortes de 0,5 segundo, foi
calculada a mdia de valores para cada um desses parmetros
determinados pelo programa ExProsodia.
53
Lucas Negri
Montamos uma matriz com todos esses valores mdios

encontrados em cada recorte de tempo de cada gravao e
fizemos um clculo estatstico de correlao de dados, com o
software Kyplot.
O objetivo do trabalho era, a partir dessa leitura, determinar
qual recorte temporal o mnimo necessrio para captar
parmetros UBI para a anlise entoacional. Pelo clculo
estatstico, a correlao de dados que acusasse r 20,4, com
P0,05, apontaria uma diferena significativa dos dados, o que
representaria uma diferena significativa da leitura entre uma
medida de tempo e outra.
Com o mesmo software, Kyplot, tambm realizamos anlises
estatsticas de Cluster, na busca de parmetros que acusassem
a especificidade de uma ou outra situao de fala marcada nas
gravaes.
Com essas anlises poderamos determinar com quantas UBI j
possvel considerar um trecho de fala que corresponde ou
pode ser comparado a trechos anteriores para a identificao
de uma determinada emoo geral ou padro normal.
Resultado final
A anlise com o programa ExProsodia mostrou as seguintes
mdias de captura de UBIs:
0,5 segundo
1 segundo
1,5 segundo
2 segundos
3 segundos
54
Bravo
3,2
5,7
7,6
9,6
13,6
Triste
3,2
4,9
6,1
8,9
12,7
Geral
3,2
5,3
6,8
9,2
13,1

Tabela1. Quantidade mdia de UBIs captadas pelo

ExProsodia
J a correlao de dados acusou que, para a captao dos

parmetros pelo programa ExProsodia, indiferente a captao
de 0,5 segundo, 1 segundo, 1,5 segundo, 2 ou 3 segundos.
Nenhum dos dados apresentou P0,05 e r20,04. Ou seja, tanto
faz se captarmos 0,5 segundo ou 3 segundos de voz, a
quantidade de dados oferecidos relativamente a mesma para
a determinao das emoes.
A anlise estatstica de Cluster, no entanto, acusou dados mais
interessantes.
Figura 1. Dendograma das mdias gerais
As letras de a a f no grfico designam as gravaes da

seguinte forma:
a CidinhaCamposBrava (mulher brava)
b FuzileiroBravo (homem bravo)
c MataMaeFacadas (homem bravo)
d EsposaMilitarMorto (mulher triste)
55
Lucas Negri
e FilhaChoraAMae (mulher triste)

f TioFalaDoSobrinho (homem triste)
Podemos observar, pela imagem, que os dados das gravaes a
e f ficaram isolados nos extremos do dendograma. De fato, so
as gravaes que apresentam os extremos em relao aos
dados analisados: a gravao CidinhaCamposBrava, de uma
mulher brava, apresenta os valores mais altos de TM e de F0; e
a gravao TioFalaDoSobrinho, de um homem triste, apresenta
os mais baixos; estando em acordo com a pesquisa de Skinner
(1935) assim como com FERREIRANETTO et Alii. (2013), que
indica valores mais altos desses parmetros para o sexo
feminino e o sentimento de clera, e valores mais baixos para o
sexo masculino e o sentimento de tristeza.
Apenas, no entanto, as outras gravaes se confundem um
pouco na proximidade de seus parmetros.
Anlises
A confuso entre as gravaes b, c, d e e indica uma
incapacidade de identificar objetivamente mulheres tristes e
homens bravos, provavelmente devido a estes apresentarem F0
e TM mais elevados em relao ao seu TM neutro, que mais
baixo, e, aquelas, F0 e TM mais rebaixados em relao ao seu
TM neutro, que mais alto, o que aproxima seus F0 e TM nas
emoes em questo.
Essa confuso se desfaz quando analisamos as gravaes b e d
isoladamente, como se pode ver no dendograma seguinte. Isso
provavelmente porque, sem precisar se preocupar com a
comparao com valores extremos, a comparao entre os
valores mais prximos fica mais sutil, acurada; ou ento, porque
a mulher triste da gravao d apresenta momentos de
indignao na sua fala, o que a aproximaria do sentimento de
clera, tornando a separao de dados mais clara por sua
56

entoao aumentar a pontos mais altos do que o usual para

homens.
Figura 2. Dendograma gravaes b e d
J mesmo a anlise isolada entre c e d ou entre c e e no

separou bem os dados. Mesmo essa anlise isolada no
apresenta apontamento significativo sobre a melhor medida de
tempo, como podemos ver nos dendogramas seguintes, em que
o primeiro indica uma distncia maior entre os trechos de 0,5
segundo do que entre os trechos de 2 ou 3 segundos, e o
segundo indica uma distncia maior entre os trechos de 2 e 3
segundos, mesmo para a separao entre os sexos.
57
Lucas Negri
Figura 3. Dendograma gravaes c e d
58

Figura 4. Dendograma gravaes c e e
Devido ao fato de os parmetros para homens bravos e

mulheres tristes se confundirem, parece haver a necessidade de
uma hierarquizao de valores na anlise entoacional da fala:
primeiro seria necessrio estabelecer uma separao entre os
gneros e, depois, a captao da emoo. Sem saber se a fala
analisada do gnero masculino ou do gnero feminino, o
software incapaz, com as medidas de tempo analisadas, de
indicar tratar-se de um homem bravo ou de uma mulher triste,
embora seja capaz de identificar, para qualquer uma das
medidas de tempo utilizadas, o homem triste ou a mulher
brava.
Em Ferreira Netto e outros (2008b, 2009), sugerido que o
foco/nfase uma categoria capaz de diferenciar os gneros.
59
Lucas Negri
Talvez seja possvel, em um trabalho futuro, conferir se esse

parmetro pode contribuir para a identificao mais precisa da
entoao, sem a necessidade parte da hierarquizao
supracitada.
Tambm sugerimos que a pesquisa com outros parmetros
oferecidos pelo ExProsodia, como durao e intensidade, no
considerados
nesta
pesquisa,
possam
oferecer
complementao aos resultados.
Concluso
A correlao dos dados mostrou que no h diferena
significativa nos parmetros adquiridos com trechos de 0,5
segundo, 1 segundo, 1,5 segundo, 2 ou 3 segundos.
A anlise estatstica de Cluster mostrou que, para qualquer
medida de tempo dentre as analisadas, utilizando os
parmetros de frequncia e tom mdio, possvel identificar o
homem triste e a mulher brava, mas a identificao de homens
bravos e mulheres tristes se confunde. Isso sugere a
necessidade de pesquisar outros parmetros que possibilitem
distingui-los, como por exemplo a durao ou o foco/nfase, ou
ento uma hierarquizao na pesquisa, que parta de uma
definio do gnero a priori para ento identificar a emoo na
entoao frasal.
60
http://dx.doi.org/10.4322/978-85-99829-84-4-10
A questo da correlao entre a anlise

automtica das finalizaes prosdicas e a
separao intuitiva de frases em textos longos10
Renata Rosa; Fernanda Consoni; Waldemar Ferreira Netto
Objetivos
Este projeto tem por objetivo verificar a correlao entre a
segmentao automtica da fala realizada pela rotina
ExProsodia elaborada por Ferreira Netto (2006) e dados de
percepo de fala. A percepo dos procedimentos de
segmentao frasal, com propsito de finalizao, pressupe
que tanto o falante quanto o ouvinte tenham estabelecido um
valor ou um procedimento fixo que caracterize a finalizao da
frase e que o reconheam durante sua execuo. Atravs de
teste de percepo nosso objetivo verificar se h uma
correlao entre o que os ouvintes consideram como final de
frase em textos longos e os dados de segmentao de frase
propostos pela rotina Exprosodia.
Metodologia
Elaboramos um teste piloto no qual era apresentado um trecho
de fala espontnea para que os ouvintes sinalizassem, na
transcrio, quais pontos eles reconheciam como final de frase.
Na transcrio apresentada aos sujeitos participantes do teste,
10
CONGRESSO NACIONAL DE FONTICA E FONOLOGIA, 10 / CONGRESSO

INTERNACIONAL DE FONTICA E FONOLOGIA, 4. Niteri, 2008.
Renata Rosa; Fernanda Consoni; Waldemar Ferreira Netto
foram eliminadas repeties, palavras truncadas e marcaes

de pausa, hesitao ou alongamento. Os textos transcritos
foram apresentados em papel, com letras maisculas sem
qualquer sinal de pontuao. O teste piloto foi aplicado em 12
sujeitos de ambos os sexos, com idade entre 20 e 35 anos,
todos com escolaridade em nvel superior. O piloto contou com
duas etapas, na primeira, os sujeitos deveriam ouvir apenas
uma vez a entrevista e pontuar onde eles julgavam ser os finais
de frases. Na segunda etapa, os sujeitos podiam dispensar
quanto tempo achassem necessrio para fazer o teste e ento
fazer as marcaes.
Resultados Parciais
Neste trabalho apresentaremos os resultados da segunda
etapa. Os sujeitos fizeram marcas de finalizao em 21 pontos
da transcrio. Em apenas 6 pontos, houve unanimidade. A
anlise da gravao foi realizada pela rotina de anlise
prosdica automtica desenvolvida no contexto do projeto
Anlise Automtica da Entoao na Fala de Lngua Portuguesa.
Com base nos dados apresentados pela rotina, estabelecemos
duas variveis: tom grave em slaba tnica final e tom grave em
slaba final. A comparao foi feita entre essas variveis e a
quantidade de marcas feitas pelos sujeitos em cada posio. A
anlise de correlao de Pearson apresentou um r2 de 0,84 para
a varivel tom grave em slaba tnica final e 0,79 para a varivel
tom grave em slaba final, em ambos os casos isso representa
uma correlao entre mdia e forte.
62
A questo da correlao entre a anlise automtica das finalizaes

prosdicas e a separao intuitiva de frases em textos longos
Concluses Parciais
Esses resultados apontam para o fato de que tonicidade da
slaba final com tom baixo um fator importante para o
reconhecimento da finalizao das frases. Apontam tambm
para o fato de que com a anlise automtica da prosdia, tal
como a desenvolvemos, h uma margem de erro reduzida para
a
segmentao
de
frases
de
fala
espontnea.
63
http://dx.doi.org/10.4322/978-85-99829-84-4-11
Anlise da nfase prosdica em narrativas orais

do ciclo de Lampio11
Mayara de Sousa
Introduo
Picos de nfase se caracterizam pela pronncia de palavraschave com um tom mais alto do que o usual, pelo alongamento
de vogais, aumento do volume de voz.
Os traos de desempenho prosdico (TDP) compem um
conjunto gradativo que dependero do nvel de envolvimento
emocional do falante com o texto, a situao, a audincia
(WENNERSTROM, 2001). A partir da conjuno desses fatores
possvel mostrar os nveis de alterao alcanados pelos picos
de nfase, tomando como referncia a medida de tom mdio,
apresentando as variaes dos picos acima e abaixo dessa linha.
Objetivo
A proposta desse estudo verificar, nas narrativas orais, as
alteraes dos picos de nfase medida em que o narrador vai
se utilizando de recursos como traos de desempenho
prosdico (TDP).
11
CONGRESSO NACIONAL DE INICIAO CIENTFICA CONIC-SEMESP, 10. So

Paulo, 2010.
Anlise da nfase prosdica em narrativas orais do ciclo de Lampio
Metodologia
O material coletado para anlise composto de narrativas orais
do ciclo dos cangaceiros nordestinos: Lampio e Antnio Silvino.
A coleta foi realizada em um pequeno povoado rural do interior
do Cear, com gravador digital Zoom H4. So narrativas
completas, mas de curta durao (menos de dois minutos).
Depois fizemos a transcrio silbica das narrativas por meio do
Speech Filling System (SFS). Esse material foi segmentado por
meio da ExProsdia (FERREIRA NETTO, 2006; 2010) e esta gerou
os dados necessrios para anlise.
Apresentao e discusso de resultados
Os resultados indicam que houve alterao dos dados
levando em conta os intervalos mnimos de percepo
(CONSON et alii; 2009).
Figura 1. Grfico da anlise dos picos de nfase
Essa variao caracterizou-se nos momentos em que o narrador

faz uso dos recursos de traos de desempenho prosdico e
avaliao conforme os critrios de convenincia que adotou
para conseguir o efeito expressivo do relato.
65

Mayara de Sousa
Figura 2. Grfico da anlise dos picos de nfase da

narrativa segmentada
Tanto na figura 4 quanto na figura 5, podemos observar os

momentos nos quais h picos de nfase.
Segundo Wennerstrom (2001) a prosdia exagerada reflete as
prioridades emocionais dos contadores de histria. As formas
prosdicas exageradas so associadas frequentemente com
pontos de clmax de por meio de seu contedo lxicogramatical.
66
http://dx.doi.org/10.4322/978-85-99829-84-4-12
Questes de oralidade e escrita: aquisio da

escrita em sociedades com predomnio da
oralidade: narrativas guaranis12
Dami Baz; Waldemar Ferreira Netto
Nos anos sessenta, McLuhan (1979) props que a mensagem de
qualquer meio ou tecnologia a mudana de escala, cadncia
ou padro que esse meio ou tecnologia introduz na coisas
humanas, tratando-se, pois, do resultado da implementao de
caractersticas formais especficas de um meio para outro. A
interpretao dos meios teria de envolver a percepo das
diferenas e das semelhanas que existem entre eles, de
maneira consciente ou no. Segundo essa hiptese, a
comunicao ocorreria em camadas independentes, mas
sustentadas umas sobre as outras. Segundo ele, O contedo da
escrita a fala, assim como a palavra escrita o contedo da
imprensa e a palavra impressa o contedo do telgrafo.
(p.22)
A anlise de aspectos formais especficos de um meio
desvendaria os mecanismos de implementao utilizados para
manter contedos primrios precedentes. Do ponto de vista
dessa sucesso de implementos formais, a descrio do meio
assume a caracterstica de proximidade maior com as etapas
predecessoras. Nesse caso, ser necessrio desvendar as
12
INTERCMBIO EM PESQUISA DE LINGUSTICA APLICADA INPLA, 17. So

Paulo, 2009.
caractersticas formais(/mensagens) que se acrescentaram a seu

contedo de maneira que seja possvel buscar as camadas
sucessivas de sustentao da linguagem. Na medida em que a
implementao dessas caractersticas no permite a
substituio completa de sua camada de sustentao, pode-se
postular que, alm da informao comum a todos os meios que
se acumularam, haver supresses e acrscimos na passagem
de uma camada outra. Tais supresses e acrscimos tanto
podem ser considerados rudos como aprimoramentos no
processo comunicativo.
A mudana da oralidade para o letramento, como reflexo da
mudana da fala para a escrita tem sido tomada como um
aprimoramento no processo comunicativo das sociedades em
que h predomnio ou exclusividade da Tradio Oral: A
alfabetizao pode ser vista como o passo fundamental em
direo auto-realizao do ser humano em sua potencialidade
mxima atual, ou seja, tambm como "homo scriba"
(MONSERRAT, 1983, p. 117) Tambm era essa a concepo dos
povos que j habitavam estas nossas regies, tal como descreve
o Pe. Jos de Anchieta logo em meados do sculo XVI: ... o
principal cuidado que temos deles est em lhes declararmos os
rudimentos da f, sem descuidar o ensino das letras; estimamno tanto que, se no fosse esta atrao, talvez nem os
pudissemos levar a mais nada. (LEITE 1954b, p. 308).
Tal como j dissemos alhures (FERREIRA NETTO, 2006), a
implementao da escrita alfabtica e a expanso do seu uso
pela imprensa acarretaram uma mudana na forma material da
linguagem que deve ser considerada com muita ateno. As
consequncias precisas dessa transformao podem ser
diversas; mas, quaisquer que sejam, a se tomar a hiptese de
McLuhan (1979), sero implementaes a fenmenos j
existentes, isto , apesar de os obscurecerem, no os eliminam.
Assim, ser necessrio verificar como se podem isolar as
68
Questes de oralidade e escrita: aquisio da escrita em sociedades com

predomnio da oralidade: narrativas guaranis
transformaes de maneira a se compreender como era o

fenmeno anterior. Assim, ao retomarmos a proposio de
Marc Bloch (1987), de que, para compreender o passado, devese compreender o presente, entendemos a necessidade de
compreender exatamente o que se transformou no curso
evolutivo da linguagem. Nas palavras de Goody e Watt (2006, p.
14), a transmisso dos elementos verbais da cultura por meio
oral pode ser visualizada como uma longa cadeia de
conversaes conectadas entre membros de um grupo. Dessa
maneira, todas as crenas e valores, todas as formas de
conhecimento so comunicadas entre indivduos no contato
face-a-face; diferentemente do contedo material da tradio
cultural, como pintura em cavernas ou machadinha de mo,
eles so armazenados apenas na memria humana.
Vansina (1982), ao classificar as formas fundamentais da
tradio oral, estabelece quatro categorias poema, frmula,
epopia e narrativa distribudas da seguinte maneira:
CONTEDO
fixo
FORMA
PROSDICA
estabelecida
livre
poema
frmula
LEXICAL
livre escolha
de palavras
epopia
narrativa
Essa classificao estabelece restries especficas para cada

uma das formas de narrativa. Ao optar por narrativas de
contedo fixo e forma estabelecida, o narrador/enunciador se
sujeita manuteno da narrativa tal como tomou
conhecimento dela. Nesse caso especfico, pode-se imaginar a
ausncia das mudanas textuais. Atualmente possvel
encontrar essas narrativas na forma de oraes religiosas, por
exemplo, em que um grupo pode fazer a narrativa
simultaneamente. Pode-se pensar tratar-se de uma
69
consequncia da documentao escrita, que nos permite

manter a muito longo prazo uma forma e um contedo
imutveis. No entanto, a presena constante de rituais com
oraes perfeitamente idnticas num contexto iletrado,
sobretudo em comunidades em que a h a predominncia de
analfabetos, permite-nos tratar de fato, no mnimo, como
reminiscncia da Tradio Oral em nossa sociedade. Encontramse as formas estabelecidas de contedo fixo de maneira mais
frequente nas comunidades em que h o predomnio quase
absoluto da Tradio Oral.
As narrativas de forma estabelecida e livre escolha de palavras
so, via de regra, caracterizadas pela mtrica, pela rima, pela
sucesso de partes, dentre outras possibilidades. O cururu rural
que era produzido no interior paulista, geralmente
acompanhado de dana tambm improvisada (ARAJO, 1973) e
os repentes produzidos no nordeste brasileiro so exemplos
bastante interessantes. Atualmente, possvel encontrar no
canto rap em diversas regies exemplos caractersticos da
manuteno da forma estabelecida com a variao livre das
palavras utilizadas. No se v confundir as manifestaes
improvisadas dos rappers com as gravaes de msicas
semelhantes.
Formas livres e contedo fixo so as mais difceis de se localizar.
Caracterizam-se geralmente pela brevidade de sua expresso tal
como so piadas, adivinhas, ditos, frases feitas, metforas
cristalizadas, dentre alguns.
Ao contrrio, as narrativas com forma livre e com livre escolha
de palavras as narrativas propriamente ditas propostas por
Vansina (1982) so as que mostram maior difuso. Espalhamse por todos os lados, reproduzidas diretamente s crianas e
aos adultos. Subdividem-se facilmente em inmeros outros
gneros narrativos, tal como contos, lendas e mitos, que so
70

exemplos mais notveis dessas narrativas em sociedades de

Tradio Oral (MALINOWSKI, 1988).
Retomando a proposta de Vansina (1982), que considera
apenas a presena ou a ausncia dos critrios livre-escolha de
palavras e frma prosdica, podemos redefinir um conjunto
de subgrupos de gneros, nos quais a frma prosdica possa
substituir-se pela entoao. Dessa maneira, o extremo de
fixidez ser a cano em que no h nem livre-escolha de
palavras, nem livre-escolha de variao de tons, e o extremo do
improviso sero a fala espontnea e as conversas (MARCUSCHI,
2001). As atividades de leitura em voz alta, por exemplo, podem
caracterizar-se pela possibilidade do improviso na entoao,
apesar de algumas restries propostas pelo texto, por exemplo
na pontuao (CHACON, 1998; PACHECO, 2006), mas nenhuma
liberdade quanto escolha de palavras. Os gneros musicais
improvisados, como o cururu paulista, o repente nordestino ou
mesmo o rap, apesar de estabelecer a fixidez da frma
entoacional, tambm dentre de certos limites, estabelecem a
improvisao da escolha das palavras. A insero da entoao,
formalizando as canes como um dos limites prototpicos para
a elaborao de textos orais coloca a msica no conjunto dos
objetos de estudo lingusticos. Tatit (1994) J reportou esse fato
ao afirmar que a cano constituda na tangente da
linguagem oral e a partir da musicalizao dos mesmos recursos
por qualquer falantes em sua comunicao diria (p. 250).
Muito embora, a relao entre msica e fala seja espinhosa,
como j foi caracterizada por Levi-Strauss (2007), diversos
autores tm buscado estabelecer essas relaes de maneira
mais precisa. Feld e Fox (1994) fazem um excelente
levantamento das abordagens antropolgicas feitas em relao
s interaes entre msica e linguagem. Bod (2002) tentou
demonstrar as semelhanas estruturais entre a sintaxe da fala e
a da msica; Schwartz e seus colegas (2003) propuseram que as
71
vocalizaes humanas, por serem as principais fontes e sons

peridicos a que esto expostos os seres humanos, so as que
estabeleceriam os princpios que entendem serem universais de
formao de escala doze tons; Patel e Daniele (2003),
comparando o ritmo das msicas instrumentais inglesas e
francesas com os padres rtmicos lingusticos da fala desses
mesmos grupos de falantes, excluindo as msicas cantadas
porque entenderam que as mesmas refletiriam obviamente o
ritmo da fala; MacMullen e Saffran (2004), buscando as relaes
entre msica e linguagem no desenvolvimento do indivduo,
terminaram por propor que so fenmenos modulares que
emergem precocemente. Patel et alii (2006) fazem uma anlise
da relao entre melodia da msica e a entoao na fala,
baseando-se nos ncleos silbicos e nos intervalos calculados
em semitons entre esses ncleos, novamente comparando as
msicas francesas e inglesas e as falas dos mesmos grupos. Os
resultados so os mesmos j obtidos na relao entre os ritmos
dessas msicas e falas desses povos.
Wertheimer (1938) estabelece o fator do destino comum para
sequncias de objetos semelhantes so percebidas como um
conjunto inanalisvel. Ele estabelece analogia entre imagem e
som quanto percepo gestltica. No caso do fator do destino
comum, a formao de unidades contnuas vincula-se
diretamente percepo das linhas de contorno. Assim, uma
linha de pontos ser uma linha e no uma sucesso de pontos.
No caso particular do som, o autor entende que a variao
continuada de frequncias ascendentes, ou descendentes, gera
a percepo de contornos meldicos. A proposio desse fator
vincula-se fortemente natureza dos fatores de proximidade e
de semelhana, na medida em que depende da ocorrncia de
ambos para a sua manifestao; isto , uma vez garantidas
proximidade e semelhana, as unidades devem estar alinhadas
numa sequncia qualquer de variaes mnimas dos outros dois
fatores.
72

Desse ponto de vista, pode-se entender que, numa sequncia

reta, previsvel, ocorrncias aleatrias provocam as mudanas
significativas que transformam o sentido o qual estamos
familiarizados. Isso gera ou a necessidade do retorno ao ponto
inicial que se perdera ou ento o seu abandono completo pela
formao de uma nova sequncia. Schoenberg (2008) props
que cada sucesso de sons produz inquietao, conflito e
problemas. Um nico tom no traz problemas, porque o ouvido
o define como tnica, ou seja um ponto de repouso. Cada um
dos sons subsequentes torna esta determinao questionvel.
Desse modo, cada forma musical pode ser considerada uma
tentativa de resolver esse conflito, seja atravs de sua
paralisao, de sua limitao ou de sua resoluo. Embora no
seja exatamente a nossa opinio, pois entendemos que um
nico tom sugere a dominante de uma escala musical e no a
sua tnica, vale a pena reproduzir Schoenberg (2008, p. 130),
quando prope uma distino entre a noo de tema e de
melodia: Cada sucesso de sons produz inquietao, conflito e
problemas. Um nico tom no traz problemas, porque o ouvido
o define como tnica, ou seja um ponto de repouso. Cada um
dos sons subsequentes torna esta determinao questionvel.
Desse modo, cada forma musical pode ser considerada uma
tentativa de resolver esse conflito, seja atravs de sua
paralisao, de sua limitao ou de sua resoluo. A melodia
restabelece o repouso atravs do equilbrio; um tema resolve o
problema, colocando em prtica suas consequncias. Em uma
melodia no h necessidade de que a agitao ascenda
superfcie, enquanto o problema de um tema pode penetrar os
mais profundos abismos. Para os propsitos desta discusso,
entendemos que possvel discriminar duas reaes
emocionais prprias da articulao dessas componentes: o
suspense, que pode ser gerado pela presena de tom
fundamental diferente do esperado e a satisfao que pode ser
73
gerada pela proposio de uma finalizao pelo ou retorno ao

fundamental, que efetivamente se realizou.
Da mesma maneira que a melodia pode ser interpretada como
um conjunto de sons organizados mediante princpios
harmnicos, a entoao da fala parece sujeitar-se a princpios
semelhantes, em que pese a necessidade de se compreender
suas especificidades. A relao entre o tom mdio e o tom final
concludente de orao seguiria, desse ponto de vista, o mesmo
princpio que expusemos acima, referindo as modalizaes
formadoras de uma melodia e a sua tendncia concluso no
tom fundamental. Na fala essa relao seria decorrente do
intervalo estabelecido pelo tom mdio e o tom final
concludente de cada frase. Essa relao estabelece o mesmo
princpio meldico coesivo, organizador da entoao frasal,
provocando uma expectativa constante no ouvinte/interlocutor
quanto ao ponto de chegada de uma frase. Em trabalhos
anteriores (FERREIRA NETTO; CONSONI, 2008; FERREIRA NETTO;
PERES; 2008; FERREIRA NETTO et alii, 2009), analisamos
comparativamente frases de texto espontneo e frases de texto
lido e verificamos que esse intervalo manifesta-se de forma
significativa na finalizao de textos lidos, mas no na de textos
de fala espontnea, alm de ambas as modalidades
diferenarem-se quanto disperso da tendncia central de f0,
maior para a leitura, menor para a fala espontnea. A respeito
da diferena na entoao entre frases lidas e fala espontnea,
Moraes (1999) j havia relatado o fato de que a declinao
frasal predomina em frases isoladas lidas em relao s frases
prprias da fala espontnea.
Nosso propsito nessa apresentao, verificar como as
prticas da oralidade prpria das sociedades de Tradio Oral
interferem diretamente na prosdia da lngua, especialmente
no que diz respeito entoao. Para tanto, buscamos um texto
narrativo, na definio de Vansina (1982), em que a frma
74

prosdica e a seleo lexical estivessem diretamente sobre a

responsabilidade do enunciador. A gravao utilizada para isso
foi a que est presente no CD Canto Kaiow. (SILVA, 2000).
Trata-se, portanto, de um texto de divulgao, gravado em
estdio. GO, um falante de voz masculina, usando da lngua
guarani kaiow. H um rudo de fundo, feito por um canto
superposto de crianas, acima de 300 Hz. No h filtros para
sons graves. As anlises foram feitas na faixa compreendida
entre 50 e 250 Hz, com uma intensidade mnima em torno de
600 RMS, dada a boa qualidade da gravao. Os segmentos
analisados foram definidos pelas slabas transcritas, guardados
os critrios acima descritos.
Como elementos de comparao, buscamos uma fala produzida
por um texto lido, coletada diretamente na internet, e uma
entrevista feita um jornalista. Ambas so gravaes de
estdio, o que garantiu uma certa qualidade no arquivo sonoro.
Os critrios utilizados para a seleo da banda a ser analisada
foram os mesmos para as trs anlises.
Abaixo segue um exemplo do grfico produzido pela rotina
ExProsodia de anlise automtica da entoao da fala.
midi
48
o
o
ko
O
re
ro
bae
ro
36
ro
re
ja
ky
r
mo
ra_u
je
ko
ky
ro
re
gue
re
(vy)te
rei
ro
je
je
pe
ky
24
Grfico 1. Da frase guarani-kaiow: Ore jeroky ko mbae jry

upe.// Orejeroky orommor oroguereko vyteri ojeroky.//
As linhas pontilhadas horizontais representam a variao
em semitons (pela converso em MIDI), os traos na linha
75
pontilhada mvel mostram a posio tonal de cada slaba.

A transcrio silbica aparece acima dos traos.
Do conjunto das 17 sentenas analisadas, extramos os tons

mdios, TM, e os tons finais de cada uma, por meio da rotina de
anlise automtica ExProsodia. Conforme se pode verificar no
grfico 10 abaixo, a sequncia observada, em semitons,
convertidos em valores MIDI e em notas musicais, apresenta
um movimento ascendente (A-A#-C-D-F) at o stimo ponto na
curva das finalizaes. Em seguida, h o retorno ao tom inicial
de (A#), oscilando em 3 st (at C) at o ltimo ponto da srie,
mais grave (G).
TM
36
38
33
33
39
38
38
39
38
37
39
34
34
36
38
A#
A#
37
38
38
41
34
A#
35
34
36
35
A#
37
36
38
37
36
34
34
35
33
31
A#
A#
Tabela 1. Tabela referente ao grfico 2, em que se

mostram os valores MIDI obtidos para cada frase analisada
da fala guarani-kaiow de GO. TM o tom mdio de cada
frase, e F o tom final, tambm de cada frase. A notao
musical refere-se especialmente aos tons finais.
TM
42
36
C
30
A#
A#
A#
C
A#
A#
A#
B
A
G
24
Grfico 2. Srie de tons mdios ( linhas pontilhadas com

marcadores de trao) de cada uma das frases analisadas e
de tons de finalizao (linhas pontilhadas com marcadores
de crculo preto).
O sistema musical guarani kaiow preconiza melodias e

harmonia monocrdias (de forma no categrica),
caracterizando um ncleo tonal que descarta efeitos
polarizadores ou hierarquias de tom (SETTI, 1997). Conforme
anlise que realizou, Setti (1997) verificou que, dada a maior
76

ocorrncia da nota G, o centro tonal parece a concentrar-se, e

chamou a ateno para o fato de que se trata do som bsico
determinante para a afinao das cordas do maraka (um violo
com apenas 5 cordas, afinado em r, sol, r, sol, si. O uso do
marak tem carter ritualstico, mas no assume as funes de
acompanhamento harmnico da forma que concebemos na
msica atual. Entretanto, nas palavras de Setti, o violo ou
marak desempenha um papel preponderantemente rtmico,
mas simultaneamente mantenedor do clima tonal (op. cit. p.
94, cf. tambm, FERREIRA NETTO, 1994a). Dessa maneira, todo
o canto guarani pressupe uma oscilao tonal de um tom
bsico, sempre marcado pela afinao do marak.
Tendo em vista que a manuteno da identidade guarani ocorre
principalmente nesses rituais, a participao uma atividade
fundamental para o desenvolvimento do indivduo e do grupo
(FERREIRA NETTO, 1996; 1997). Desde os primeiros momentos,
os membros do grupo esto imersos num mesmo ambiente
sonoro, cujas prticas so desencadeadas quase diariamente,
por meio de cantos religiosos, em tom fortemente marcado.
Diferentemente do nosso ambiente musical, em que h
profuso de tons e de modulaes, que atuam
competitivamente em nossos ouvidos, a musicalidade guarani
sempre complementar si prpria e pressupe uma eterna
repetio, com mnimos movimentos de mudana, para
adaptaes imperceptveis e sempre necessrias.
Podemos perceber na fala de GO que a fala dedicada a uma
platia bastante diversa daquela da aldeia e dos rituais mantm
as caractersticas prprias da fala guarani, igualmente
ritualizada. A oscilao tonal decorre de movimentos em
semitons ascendentes e descentes, sem ultrapassar a barreira
dos 5 tons, e termina na forma tonal em sol, que pode at
caracterizar etnicamente o grupo. A prtica desse procedimento
vocal uma consequncia direta do ambiente sonoro em que
77
ocorrem no somente os cantos religiosos, mas todas as

prticas prprias da oralidade desses grupos.
Dessa maneira, estaremos fortemente inclinados a perceber
que a prosdia tonal impressa na fala de GO uma decorrncia
das prticas da oralidade a que se submeteu durante a maior
parte de sua formao.
A comparao desses dados com a entoao da leitura permitenos verificar que fenmeno semelhante ocorre.
TM
34
35
34
35
35
31
26
27
27
31
30
27
D#
D#
F#
D#
Tabela 2. Tabela referente ao grfico 3 (abaixo), em que se

do texto lido. TM o tom mdio de cada frase, e F o tom
final, tambm de cada frase. A notao musical refere-se
especialmente aos tons finais.
42
TM
F
36
30
G
24
D#
F#
D#
D#
Grfico 3 Srie de tons mdios (linhas pontilhadas com

de crculo preto).
Da mesma maneira que na fala de GO, a variao dos tons finais

decorreu de um processo de ascenso inicial (D-D#-D#-G), em
semitons, culminando num salto de 4 st, e da, descendo
78

inicialmente por semitons at a finalizao por um salto de 3 st

(G-F#-D#). A semelhana em ambos os processos aponta para o
fato de que a fala de GO, de uma sociedade de Tradio Oral,
tem caractersticas semelhantes s da leitura e voz alta, na
lngua portuguesa, em que a Tradio Oral no forma
predominante.
A comparao desses dados com os da fala espontnea
permite-nos verificar fenmenos distintos desses.
MEDICINA
F01
F02
F03
F04
F05
F06
F07
F08
F09
F10
F11
F12
TM
33
34
35
34
35
36
34
35
33
34
33
33
29
25
38
28
27
43
38
36
33
26
35
24
C#
D#
Tabela 3 Tabela referente ao grfico 4 (abaixo), em que se

da fala espontnea de lngua portuguesa do Brasil. TM o
tom mdio de cada frase, e F o tom final, tambm de
cada frase. A notao musical refere-se especialmente aos
tons finais.
TM
42
G
36
F
D
C
F
24
B
A
30
E
C#
D#
Grfico 4. Srie de tons mdios ( linhas pontilhadas com

de crculo preto).
Conforme se pode notar no grfico acima, apesar de o locutor

manter um tom mdio relativamente constante, com variaes
mximas de 3 st, as finalizaes apresentam-se com grande
disperso, sem configurar uma linha contnua de pontos
79
ascendentes ou descentes direcionados a um pex ou a uma

finalizao do texto. Esse fato aponta para uma caracterstica
prpria da fala espontnea que a ausncia de uma frma
prosdica, deixando a cargo do enunciador tanto a seleo
lexical quanto seleo da entoao a ser realizada durante a
fala. Essa interpretao corrobora com os dados que obtivemos
anteriormente (FERREIRA NETTO; CONSONI, 2008; FERREIRA
NETTO; PERES; 2008; FERREIRA NETTO et alii, 2009). Embora a
comparao entre fala espontnea no seja novidade (ESSER,
1988; MORAES, 1999; MARTIN, 2005; FERREIRA, 2007;
BARBOSA, 2008), neste trabalho foi possvel verificar que h
diferenas no s entre a leitura em voz alta e a fala
espontnea, mas tambm que tais diferenas refletem a
diversidade dos processos de aquisio preconizados nas
sociedades. Deve-se notar que a fala espontnea em lngua
portuguesa foi a que apresentou caractersticas mais diversas
em relao s demais, o que sugere uma interferncia bastante
forte da produo improvisada da entoao. Tanto a leitura em
voz alta na lngua portuguesa do Brasil quanto a fala
espontnea na lngua guarani-kaiow apresentaram maior
regularidade na entoao, o que sugere a existncia de frmas
prosdicas mais fixas.
Retomando a proposio de McLuhan (1979), podemos
imaginar que os processos expressivos prprios da entoao da
fala, perdendo a fixidez prpria das sociedades de Tradio Oral
predominante e incorporando-se s leituras em voz alta,
ficaram sob a responsabilidade do falante, individualizando suas
formas de expresso entoacionais. Na medida em que a leitura
em voz alta um fenmeno particular das sociedades letradas,
podemos entender com isso, que as variaes de entoao na
fala espontnea assumem uma gama mais variada de valores
expressivos, disposio dos falantes. A habilidade no
improviso, entretanto, poder representar um custo maior na
produo da fala, na medida em que exigir mais uma atividade
80

a ser realizada concomitantemente seleo lexical e sua

produo segmental. Desse ponto de vista, podemos retomar a
proposta de Rosenstock-Huessy (2002) quando prope que a
linguagem formal anteceda a informal, tornando essa uma
decorrncia daquela. Assim, a proposio de McLuhan de que a
implementao de caractersticas formais especficas de um
meio para outro promove a mudana de escala, cadncia ou
padro que esse meio ou tecnologia introduz pode ser
entendida, no caso que estamos analisando, como a mudana
da forma entoacional fixa para a improvisada. Esse o fato que
produz a mudana na expressividade da fala espontnea
individual.
81
http://dx.doi.org/10.4322/978-85-99829-84-4-13
Variaes entoacionais na lngua portuguesa

falada por idosos Guats e no indios13
Natalina Costa
Introduo
O Pantanal Mato-grossense situa-se no centro da Amrica do
Sul, na Bacia do Alto Paraguai e sua extenso, estimada por
Adamoli (1982) e Garcia (1984) de aproximadamente 139.111
km (OLIVEIRA apud GARCIA, 1984, p. 15).
Nessa regio, quase fronteira com a Bolvia, encontra-se a
comunidade indgena denominada Guat, e os outros dois
grupos de informantes que constitui nosso objeto de anlise, a
qual ser destacada nessa pesquisa. Alguns ndios Guat moram
na aldeia Uberaba que se localiza em uma ilha fluvial, no Canal
D. Pedro II, a Ilha nsua, e, nela, est localizado o II Batalho de
Fronteira do Exrcito Brasileiro, conhecida como Bela Vista do
Norte, localizada no ponto extremo do Mato Grosso do Sul,
municpio de Corumb; outros, vivem na cidade de CorumbMS.
Antecedente e Justificativa
Em se tratando da lngua Guat, esta foi documentada pela
primeira vez por Castelnau (1851), fazendo parte do tronco
lingustico Macro-J. Atualmente, so poucos os seus falantes,
13
ENCONTRO DE PS-GRADUANDOS DA FFLCH/USP EPOG, 4. So Paulo,

2009.
Variaes entoacionais na lngua portuguesa falada por idosos Guats e no

indios
tendo em vista que a maioria dos falantes da comunidade, em

destaque, fala s o portugus. Diante disso, surgiu a
necessidade de se descrever as variaes entoacionais da lngua
portuguesa, considerando a hiptese de f0 como uma srie
temporal, formada pelas componentes Finalizao (F),
Sustentao (S), e Foco/nfase (E), e partindo da anlise e da
decomposio automtica de f0, pelo aplicativos ExProsdia.
Assim, h o pressuposto de que variaes prosdicas ocorrem,
na fala, em lngua portuguesa, desta comunidade indgena.
Objetivos Gerais e Especficos
Esta pesquisa teve como objetivo geral, a investigao, o
documentrio e dentro da proposta, um estudo que revele, por
meio de depoimentos de vida e de uma pesquisa scio-cultural,
o modo como o grupo tnico Guat enxerga o mundo, hoje,
para que futuramente deixemos algo escrito sobre esta
comunidade.
Esta pesquisa tem como objetivo especfico: A- Descrever a
entoao da lngua portuguesa falada por uma categoria de
ndios Guat, e duas categorias de no ndios, considerando a
hiptese de f0 como uma srie temporal, formada pelas
componentes Finalizao (F), Sustentao (S) e Foco/nfase (E),
e partindo da anlise e da decomposio automtica de f0, pelo
aplicativo ExProsdia. B- Verificar a emanncia da prosdia da
lngua materna na segunda lngua, dos Guats, mesmo depois
de muito convvio com os no ndios.
Metodologia
Como era de se esperar, em relao aos ndios Guat, nosso
primeiro contato foi muito difcil pois, mesmo dizendo que
nosso objetivo era conhecer e estudar a histria da regio, bem
como obter informaes a respeito da experincia de vida dessa
tribo, no conseguimos, de imediato, obter a confiana da
83
Natalina Costa
comunidade. Por isso, foram necessrias outras visitas da

pesquisadora, juntamente com pessoas influentes, pois para
que pudssemos coletar um material lingustico de boa
qualidade, foi necessrio fazer-se conhecer e conhecer a
comunidade em que iramos trabalhar e interagirmos com a
famlia e com o grupo.
O primeiro contato feito com os Guat, a fim de obter
informaes orais foi em julho de 2006, inicialmente com as
lideranas Severo Ferreira e sua esposa Dalva Ferreira, em
Corumb. A partir do contato com essas lideranas, e no mesmo
perodo, foi feito contato com vrios outros residentes em
Corumb, em sua maioria j incorporados na massa de
proletrios e subdesempregados. Dessa forma, no que se
refere seleo dos informantes, no tivemos muita escolha, se
deu de imediato e de acordo com um requisito fundamental, a
qualidade de falante original. Isto porque se observou que os
Guat que dominam sua lngua original so geralmente com
idade igual ou superior a cinquenta anos Vale dizer que so os
que mais conhecem a cultura tradicional do grupo. pois a lngua
guat est seriamente ameaada de extino.
Nossas
entrevistas ocorreram entre os meses de janeiro a outubro de
2008
Para que pudssemos realizar as gravaes das narrativas, em
Corumb pedimos o consentimento do Sr. Severo (o cacique),
de D. Francolina, mais conhecida por Negrinha.
Para obtermos uma pesquisa com mais eficincia, fizemos
vrias visitas e nem sempre conseguamos gravar as narrativas,
pois no sabemos se proposital ou no as entrevistadas
desviavam o assunto, por isso nossas narrativas aconteceram do
ms de janeiro a outubro de 2008 e foram feitas por meio de
gravaes de produes de fala realizadas em trabalho de
campo.
84

indios
As gravaes de fala espontnea foram feitas com cinco sujeitos

Guat, cinco sujeitos no indios na faixa etria de 30 a 45 anos e
cinco na faixa etria de 46 a 60 anos. Esperamos que a partir
desses quinze sujeitos possamos analisar no final 150 arquivos
de fala dessa comunidade natural da regio do Pantanal e os
descendentes de Guats. As gravaes contm pelo menos
quinze minutos de fala espontnea, preconizando-se
principalmente narrativas de carter pessoal e individual, tendo
em vista a natureza dos dados, toda a entrevista foi gravada,
incluindo a participao do pesquisador.
As gravaes foram feitas com gravador Panasonic, Digital
transcriber, foram armazenadas em memria flash gravados em
formato wave e descarregados em computador. Os dados
foram segmentados pelo aplicativo Adobe Audition 2.0 da
Adobe, e foram analisados pelo programa Speech Filing System,
pois teria que ser um que aceitasse a anlise prosdica e
espectrogrfica de grandes unidades sonoras e convertesse os
resultados em arquivos de texto para a manipulao estatstica
automtica.
Nesta pesquisa, estabelecemos os padres de avaliao acstica
nas gravaes, pois o propsito foi submet-las todas rotina
de anlise automtica ExProsdia. O processo de anlise
envolveu a manipulao de uma gama bastante grande de
aplicativos de anlise acstica para segmentar, converter e
transcrever os arquivos, alm fazer a converso para a anlise
final de 150 arquivos de fala tomados a partir de quinze
sujeitos, todos eles naturais na regio do Pantanal e
descendentes de Guats, como j citados acima.
O Contexto de Pesquisa
O Estado de Mato Grosso do Sul repleto de influncias
culturais oriundas de diversos lugares, no s de outras regies
do Brasil, como tambm de outros pases, por tratar-se de um
85
Natalina Costa
estado com uma extensa rea de fronteira seca com pases

como, Paraguai e Bolvia e ainda, por sermos responsveis por
grande parte da produo agrcola do pas, bem como a posio
de maior produtor de carne bovina, fator que atrai para nossa
regio muitas pessoas vindas de outros estados, inclusive de
outros pases.
A formao do atual estado de Mato Grosso do Sul se deu com
o povoamento e colonizao, em conjunto com os grupos
indgenas que habitavam a regio e eram senhores absolutos
das terras, sendo estes formados pelos povos: Guarani, com
dois sub grupos: andeva e Kayow, Aruak representados pelos
Terena, os Guaicurus representados pelos Kadiwel e os
Kinikinawa, os Guat, os Ofay, os Caips e os Borros, cujos
descendentes ainda podem ser encontrados em reservas
indgenas ou at mesmo perambulando pelo territrio onde
tentam encontrar um espao para sua sobrevivncia..
Segundo o Censo 2.000 do IBGE - Instituto Brasileiro de
Geografia e Estatstica-a populao indgena de Mato Grosso do
Sul, cresceu 84,8% nos ltimos dez anos.
Os Guat, objeto de nossa pesquisa constituem um grupo
tnico diretamente ligado ao tronco lingustico Macro-J e esto
fixados no Pantanal h muitos anos, ficaram conhecidos como
ndios canoeiros.
importante ressaltar, que dos poucos ndios que ainda falam o
idioma Guat, dois moram no morro do Caracar: D. Jlia, a
mais idosa, est cega, no fala e nem entende portugus e
Vicente, um indgena de 55 anos, filho de D. Jlia.
Atualmente, a aldeia coordenada por um cacique cujo nome
Severo. Este d total apoio a todas as famlias residentes na
aldeia, sendo o representante da tribo junto FUNAI. Por outro
lado, muitos ndios contavam com D. Francolina, (in memorium)
86

indios
pois era a mais idosa e experiente ndia da comunidade, alm

ser a nica, em Corumb, que falava a lngua guat.
Entoao
Os trabalhos de Patricia Kuhl e seus colegas (KUHL; IVERSON,
1995; KUHL, 2000; KUHL et al., 2001), a partir de seu modelo de
perceptual magnet effect (PME), pressupem a existncia de
uma forma prototpica fixa, no abstrata, que atue como
parmetro de comparao inicial para todas as demais formas
que venham ser percebidas. Essa proposta de anlise traz
tona tambm o princpio de que os elementos iniciais da
aquisio da linguagem sero tomados como formas
prototpicas fixas e de que correspondero a extremos dessas
realizaes.
A adequao do modelo far-seno sentido de se estabelecer
que o reconhecimento de tons prosdicos est sujeito tambm
formao de categorias fundadas em um modelo especfico,
localizado nos extremos mximos das possibilidades de variao
do fenmeno. Nesse caso, imaginar-se-o que dois tons
especficos graves e agudos sero as variaes extremas de um
tom mdio, estabelecendo uma triangulao semelhante quela
do espao voclico, definidor das vogais cardinais /i, a, u/. Essa
concepo que toma a elaborao de dois elementos extremos
a partir de um elemento medial respalda-se na proposta feita
por Chomsky e Halle (1968, doravante SPE), no que diz respeito,
por exemplo, diferenciao entre vogais altas e baixas, para as
high
quais eles estabelecem a matriz:
para vogais altas,
low
high
high
para vogais baixas e, finalmente,

para
low
low
vogais mdias. Na medida em que no h como se imaginar que
a matriz com ambos os traos positivos possa ocorrer
87
Natalina Costa
high
pois um segmento est impedido de ser alto e

low
baixo simultaneamente, podemos imaginar que a concepo
matricial proposta no SPE equivalha triangulao grfica que
entendemos representar melhor o estabelecimento de formas
prototpicas definidas a partir de um valor bsico.
Se estabelecermos as dimenses de grave e agudo no eixo das

abscissas x e a distribuio de frequncias no eixo das
ordenadas y teremos:
190
nfase
mdia5
170
150
mdia4
130
valor mdio dominante
mdia3
110
mdia2
90
mdia1
70
finalizao
50
1
10
11
12
13
14
Figura 1. Variao da entoao por variao de frequncia.

As linhas pontilhadas escuras mostram o ponto mdio de
cada banda e as linhas contnuas escuras os limites de 3st
de variao tonal no significativa da fala (THART, 1981)
Na fala, entretanto, principalmente desta comunidade indgena

Guat, em que as variaes excedem facilmente os limites das
variaes, dificilmente se poder fazer pelo exame da trajetria
88

indios
ou por seus pontos de chegada, na medida em que oscilaes

muito grandes podero ocorrer.
Nesse caso, a anlise automatizada da fala espontnea, bem
como a abordagem experimental por meio da manipulao dos
dados, imprescindvel. A diversidade da fala espontnea e a
no espontnea que iremos buscar com a comunidade indgena
Guat e as outras duas categorias tm de ser objeto de anlise
na medida em que a entoao parece ser dependente da
programao feita pelos nossos falantes de suas produes de
fala.
Tendo em vista a pesquisa tratar de uma anlise da prosdia
segundo os princpios bsicos da anlise musical, tem-se a
hiptese de que as idiossincrasias culturais manifestas na
tradio musical de um povo refletem-se na prosdia (GLASER,
2000; SCHELLENBERG; TREH, 1999). Dessa maneira, o controle
dessas variveis, num projeto dessa natureza, faz-se necessrio.
Tanto as variaes tnicas, quanto variao lingustica so
importantes nesse caso.
Resultado da pesquisa
Nesta pesquisa percebemos na fala das senhoras Guat que
ainda sobram resduos da prosdia da fala Guat, mesmo
residindo em Corumb-MS h muito tempo e os mais velhos
tm a prosdia difundida do falante portugus que tm a
mesma idade. Na cadeia segmental existe a caracterstica do
portugus regional da fala do portugus.
Do conjunto de cento e cincoenta (150) frases analisadas ,
extramos os tons mdios, TM, e os tons finais, TF de cada uma,
por meio da rotina de anlise automtica ExProsdia. Conforme
se pode verificar nas tabelas e grfico abaixo, a sequncia
observada em semitons, convertidos em valores MIDI .
89
Natalina Costa
Ao fazer a anlise das tabelas e grfico vimos que o P<0,05, e

que o F esperado menor do que o F obtido e que por isso as
comparaes apontaram diferenas significativas entre os 3
grupos de sujeitos analisados.
Concluso
Conforme as anlises que se apresentaram acima, verificamos
que a fala das senhoras guats e a das senhoras corumbaenses
mantm como caracterstica o fato de que as finalizaes
ocorrem em tom muito prximo ao da finalizao. Verificamos
tambm que a fala das senhoras guats mantm como
caracterstica as finalizaes e os tons mdios ocorrem em tom
mais grave do que a das senhoras e moas corumbaenses.
Dessa maneira, podemos caracterizar a fala das senhoras guats
pela presena simultnea de tom mdio com finalizao grave e
pela proximidade tonal entre finalizao e tom mdio"
90
http://dx.doi.org/10.4322/978-85-99829-84-4-14
A prosdia e o reconhecimento dialetal14

Daniel Oliveira Peres
Introduo
possvel, de maneira intuitiva, perceber diferenas entre as
lnguas. A partir de uma breve observao, nota-se que elas
podem diferir de forma significativa quanto sua matria
fnica, formao de palavras, construes de sentenas etc. O
fato prosdico tambm faz parte dessas pistas que so
buscadas pelos ouvintes na tarefa de reconhecimento de
determinada lngua. Os trabalhos de Atkinsons (1968), Bonte
(1975), Maidment (1976) e Ohala e Gilbert (1978) corroboram a
hiptese de que ouvintes so capazes de identificar sua prpria
lngua por meio de informaes prosdicas. Esta habilidade de
buscar pistas prosdicas (ou segmentais) pode ser estendida
tambm para as variaes intralingusticas. As caractersticas
contidas nas variaes de frequncia fundamental, amplitude e
durao desempenham o papel de sinalizadores de diversos
tipos de variaes lingusticas, sejam elas de carter diatpico,
diafsico ou diastrtico. No mbito da variao dialetal, alguns
estudos foram feitos com o intuito de verificar se as variaes
prosdicas podem ser determinantes para o reconhecimento de
uma certa variedade lingustica, a saber, os trabalhos de Bush
(1967) e Richardson (1973).
14
ENCONTRODE PS-GRADUANDOS DA FFLCH/USP EPOG, 5. So Paulo,

2010.
Pautado na hiptese de reconhecimento lingustico baseado nas

informaes prosdicas, esse trabalho visa a desenvolver um
estudo perceptual em que se possa testar a habilidade dos
falantes de portugus brasileiro na tarefa de reconhecimento
de sua variedade lingustica.
Objetivos
O presente trabalho tem como objetivo verificar a hiptese de
que ouvintes so capazes de reconhecer sua variedade
lingustica por meio de suas caractersticas prosdicas. Em
artigo, Ohala e Gilbert (1978) testaram a habilidade dos
ouvintes em identificar lnguas atravs apenas de suas pistas
prosdicas: languages do differ in their prosody by seeing if
listeners are successful in identifying the language used by
speaker when they hear only the fundamental frequency,
amplitude and certain timing characteristics of the original voice
signal. A hiptese de Ohala e Gilbert partiu de estudos
anteriores e da intuio de que lnguas diferem no somente
em sua parte segmental, mas tambm em suas variaes
prosdicas.
O presente trabalho diferir, de certa forma, do objetivo do
estudo comparativo entre lnguas (ATKINSONS, 1968; BONTE,
1975; MAIDMENT, 1976; OHALA; GILBERT, 1981), pois o que
estar em questo neste trabalho ser o reconhecimento de
variedades lingusticas regionais dentro de uma mesma lngua.
Este estudo trabalhar com variedades do portugus
brasileiro, sendo, dentre tantas variedades existentes,
elencadas duas delas: variedade gacha (Pelotas) e paulistana
(bairro da Mooca). A escolha dessas variedades est baseada no
trabalho desenvolvido por Diegues (1960) sobre ocupao do
territrio brasileiro, bem como suas caractersticas regionais.
Os ouvintes participaro de um teste perceptual elaborado de
maneira a deixar para os participantes do experimento
92
somente as caractersticas prosdicas. Para a feitura do

experimento ser utilizado o script PURR (SONNTAG; e
PORTELE, 1998), para Praat (BOERSMA e WENNINK, 1986). Em
contrapartida, ser aplicado um teste-controle que eliminar as
variaes prosdicas, restando somente a curva meldica
monotnica, juntamente com os segmentos.
Entoao
Troubetzkoy (1964) j percebera a entoao como variao
tonal nas frases, sendo uma constante oposio de direes
tonais, mas tal caracterstica aplicada somente a lnguas que
no possuem esse correlato para distino lexical. Assim,
Troubetzkoy postula duas direes tonais para a sua anlise:
ascendente - funo de continuidade; descendente funo
conclusiva. A prosdia estaria ento subdividida em entoao
da frase, diferenas de registro na frase, acento frasal e pausa.
Pike (1954; 1964) postulou que a entoao frasal da lngua
inglesa fosse analisada numa escala de 4 graus. Os trabalhos
que o sucederam tambm propuseram uma anlise entoacional
a partir de nveis discretos; a saber, Maeda (1971),
Pierrehumbert (1980;1990), Cruttenden (1986) e Ladd (1996).
A entoao pode ser encarada de duas maneiras. Nos estudos
de prosdia podemos encontrar o termo entoao para
designar os fenmenos suprassegmentais com valores
estritamente prosdicos. Neste vis, toda e qualquer
manifestao prosdica como variaes de F0, durao e
amplitude esto arrolados no termo entoao. Numa
abordagem mais estrita, a entoao seria a variao meldica,
isto , modulaes do parmetro f0 que ocorrem durante a fala
(HIRST & Di CRISTO, 1998).
Vaissire (2004) faz uso do termo entoao como
variao meldica que acontece ao longo do discurso. Por outro
lado, a autora cita o papel de outros parmetros no auxlio das
93
variaes prosdicas, incluindo nestes os de

Apesar de reconhecer que os estudos de
incluir o maior nmero de parmetros
categorizao acerca das mltiplas funes
mormente condicionada s variaes de F0.
ordem fisiolgica.
entoao devem
possvel, a sua
da entoao est
Ferreira Netto (2006) trata a prosdia como uma srie

temporal, ou seja, um conjunto de observaes sequenciadas e
interdependentes, sendo o resultado da observao feita no
momento t+1 condicionada ao momento t (FERREIRA NETTO,
2006). A anlise est baseada na proposta de Xu e Wang (1997)
de que alguns fatos prosdicos so decorrncias de restries
mecnico-fisiolgicas e outros configuram as intenes
expressivas dos falantes. Para dar conta dessa proposta, faz-se a
decomposio automtica de F0 por meio do aplicativo
Exprosodia, dividindo-o em componentes estruturadoras e
semntico-funcionais. Assim, as componentes ainda seriam
subdivididas em finalizao (F) e sustentao (S) - formando o
ritmo tonal - foco/nfase (E) e acento lexical (A), formando a
face significativa da entoao frasal.
Percepo e produo
Ao trabalhar com um fator fontico e um fator
lingustico. T'Hart, Collier & Cohen (1990) atestam que uma
abordagem perceptual da entoao capaz de trazer tona o
que linguisticamente importante no tocante s caractersticas
prosdicas. Para os autores, a percepo age como um
selecionador de informaes capaz de reter da cadeia sonora da
fala o que relevante. Dessa maneira, a abordagem perceptual
no est focada numa viso psicoacstica da fala, tendo como
expectativa um limiar de variaes que possam ser no s
percebidas, mas que elucidem quais propriedades do sinal
acstico so importantes para determinadas questes e, num
outro nvel de interesse, quais mecanismos fisiolgicos afetam
diretamente a produo das variaes prosdicas relevantes (t
94
HART; COLLIER; COHEN, op.cit.). De maneira anloga, Patrcia

Kuhl e seus colegas (KUHL; IVERSON, 1995; KUHL, 2000; KUHL et
al., 2001) propuseram o perceptual magnet effect (PME). A
forma prototpica do falante, segundo ela, seria algum dos sons
ouvidos em alguma etapa da vida do falante que, memorizada
no todo, serve como plo de atrao de todos os estmulos que
atinjam regies prximas. Assim, nem toda a gama de variaes
percebida, mas somente aquelas que desempenham papel
significativo, neste caso, fruto de uma atrao perceptual.
De outro lado, h vrios outros estudos que trabalharam com a
produo, analisando amostras de fala com intuito de buscar
algumas pistas acerca das variaes tonais e das caractersticas
prosdicas como um todo. Vaissire enumera alguns tipos de
abordagens da entoao em que, apesar de partirem de
abordagens perceptuais, estabelecem modelos tericos e
representacionais diferentes para o estudo da produo. Uma
abordagem trabalha com um sistema exclusivamente linear, em
que a representao simblica da entoao e as unidades
prosdicas
desempenham
um
papel
principal
(PIERREHUMBERT, 1980). Outra viso parte da hiptese de que
o F0 formado pela superposio de bases globais,
componentes frasais e acento lexical (FUJISAKI; SUDO, 1971;
OHMAN, 1967).
Os estudos perceptuais e a variao lingustica
Este trabalho est no limiar entre os estudos perceptuais e
dialetolgicos. O ponto de contato est na utilizao de um
instrumental perceptual para investigar fenmenos que so
temas especficos dos estudos dialetolgicos. Para Clopper e
Pisoni (2004), o intuito dos estudos perceptuais estava
mormente relacionado ao reconhecimento de categorias
abstratas da lngua, renegando a importncia da variabilidade
concreta do uso. Porm, em trabalhos recentes, os estudos
perceptuais esto desempenhando papel importante nas
95
pesquisas de discriminao dialetal. O que est em questo

nessa juno a disparidade de pressupostos, j que para os
pesquisadores que buscam uma regularidade, um modelo
abstrato em que a percepo das categorias percebidas seja
invarivel, no importa a variao que essas categorias possam
sofrer, sendo esta a source of noise [...] irrelevant to the
underlying representations (CLOPPER; PISONI, 2004). Dessa
forma, toda e qualquer variao acerca de uma categoria
central torna-se dispensvel.
Por outro lado, o objeto da sociolingustica est justamente
nessa gama de variaes que pode ou no ser significativa para
identificar variedades regionais, sociais e estilsticas. Estreitando
a abordagem para os interesses deste estudo, a percepo das
variedades lingusticas regionais estaria relacionada maneira
como os ouvintes fazem uso da informao contida no sinal
acstico, de modo que estas informaes sejam relevantes para
a identificao da variedade produzida pelo falante. Portanto,
este trabalho pretende colocar uma abordagem a servio da
outra, em outras palavras, trazer para os estudos de percepo
da fala, mais especificamente da prosdia, os fins encontrados
nos estudos sociolingusticos.
Sobre a escolha das variedades
O pressuposto para a feitura desse tipo de estudo a varincia
inerente que as lnguas naturais apresentam, a despeito de uma
anlise autnoma como sistema isolado e independente. Da
extremidade saussureana da lngua como sistema viso
sociolingustica - a qual tem como alicerces o contexto histricocultural, situao de uso e outras caractersticas trazidas pelos
falantes no mbito social - faz-se necessria uma breve reflexo
sobre quais fatores so importantes para a configurao das
variedades lingusticas. A definio sistmica das lnguas
naturais colabora com o que h de uniforme e, portanto,
caracterizador de uma determinada lngua, assegurando uma
96
clara diviso entre o que ou no parte de um determinado

sistema. O ponto de vista sociolingustico agrega ao que h de
unificador a qualidade varivel e mutatria das lnguas.
Em seu trabalho, Diegues (1960), antes de traar as regies
culturais brasileiras, afirma que necessrio pensar o Brasil
como parte de um conjunto maior, de uma rea cultural mais
ampla, na qual esto inclusos Portugal e suas Provncias
Ultramarinas. Essa rea cultural luso-crist, assim chamada,
possui dois elementos caracterizadores: o elemento lusitano na
aglutinao da populao portuguesa e o cristianismo como
base religiosa. Posto isso, a integrao desses elementos com
a caractersticas autctones que permite precisar traos comuns
entres os vrios pases dessa grande rea e, por outro lado,
mantm a diversidade proveniente do ambiente natural e social
de cada lugar.
A ocupao humana do territrio brasileiro no foi fruto de uma
colonizao bem definida, com metas e normas rgidas. Como
consequncia disso, nasce a possibilidade de pensar o Brasil
como um conjunto de regies culturais, pois cada uma delas o
reflexo das relaes estabelecidas entre os povoadores, os
povos nativos e a terra ocupada. Diegues afirma que dessa
diversidade que surge a unidade. importante salientar que
essa delimitao no discreta, ou seja, as regies culturais no
so justapostas, mas so alteradas ao longo da ocupao.
Uma regio cultural seria um conjunto ecolgico de pessoas,
agregadas pela similaridade das relaes sociais, pela unidade
das relaes espaciais da populao, somando a essas a
estrutura econmica local. Do ponto de vista lingustico,
Mufwene (2007) tambm defende que as caractersticas
lingusticas so frutos da ecologia na qual elas foram geradas.
Mas, importante dizer que o foco de Mufwene a distino
entre as mudanas lingusticas interna e externamente
motivadas, propondo que tal distino tem bases ideolgicas,
97
mormente quando se trata do estabelecimento de um conceito

sobre o que seriam as lnguas crioulas. No caso de uma possvel
comparao entre o uso do termo ecolgico feito por Diegues
e a abordagem de Mufwene, haveria uma interseco no fato
de que as caractersticas tanto culturais quanto lingusticas so
frutos da ecologia interna de cada regio.
Dessa forma, as regies culturais seriam espaos territoriais
delimitados por certas caractersticas que unificam as idias, os
sentimentos e o estilo de vida de um grupo populacional
(DIEGUES, 1960: 7). Num breve parntese, direcionando a
discusso para uma abordagem sociolingustica, tais regies
tambm compartilhariam traos lingusticos particulares, pois o
papel da interao social exerce grande influncia na variao e
mudana lingusticas. Labov (1972) considera que no h como
tratar das diferenas lingusticas, sejam elas numa abordagem
diacrnica - em caso de mudana -, ou sincrnicas - em caso de
variao - sem levar em conta vida social da comunidade e as
presses sociais existentes nela.
Parece, ento, que o pressuposto para a categorizao tanto
sociocultural como sociolingustica faz uso das relaes e dos
contatos externos e internos para compor uma regio cultural,
na concepo de Diegues, e uma comunidade de fala, na viso
de Labov.
O mtodo PURR e a curva meldica monotnica.
O mtodo PURR (Prosody Unveiling through Restricted
Representation) tem como principal motivao a possibilidade
de se avaliar o componente prosdico de falas sintticas sem
que haja interferncias de outros componentes da fala.
Segundo Sonntag e Portele (1998), as taxas de erro no
podem ser avaliadas automaticamente pela inexistncia de uma
prosdia correta. Mesmo com a existncia de uma prosdia
de referncia, com a qual pudssemos combinar um enunciado,
98
os desvios numricos a partir dessa referncia no fornecem

qualquer informao sobre a distncia real entre elas.
Outra observao dos autores a relao no linear
entre os parmetros acsticos da prosdia e a sua
correspondncia auditiva. Por isso, grandes variaes
prosdicas apontadas por uma mudana brusca de F0 podem
no significar uma alterao linguisticamente relevante. Por
outro lado, pequenas alteraes acsticas podem ser cruciais
para a aceitao da percepo de uma realizao prosdica.
Pode-se dizer, pois, que no h padres estabelecidos para a
avaliao da prosdia. Alm disso, h influncia da qualidade
segmental da fala na percepo da prosdia, tornando possvel
que os resultados sejam diferentes de acordo com o
componente segmental empregado, tal como exposto em
Peterson e Lehiste (1961). Assim, Sonntag e Portele (1998)
propem o uso de estmulos que deixem somente a informao
da curva de F0, estrutura temporal e intensidade. Como este
trabalho trata de variedades regionais e no de fala sintetizada,
fez-se necessrio um mtodo que abordasse os segmentos de
cada regio analisada, isolando as variaes de F0, mesmo que
as demais informaes prosdicas como a estrutura temporal e
a intensidade permaneam inalteradas. Acredita-se que com
essa separao pode-se verificar qual a importncia da prosdia
e dos segmentos na discriminao das variedades regionais. A
descrio dos experimentos realizados est no item seguinte.
Metodologia
No experimento com PURR, foram utilizadas amostras de fala
adulta do sexo masculino dividas entre 6 informantes
(distribudas entre as 2 variedades escolhidas [SP e RS]). Ao
todo, foram selecionados 6 trechos fluentes de cada sujeito (3
trechos curtos e 3 trechos longos). As frases foram obtidas por
meio de gravaes de fala espontnea. Os trechos escolhidos
para o teste foram subdivididos em 3 trechos curtos ( 10
99
segundos) e 3 longos (entre 15 e 25 segundos). As gravaes de

So Paulo (Mooca) foram feitas com gravador digital ZOOM H2,
com taxa de 44100 Hz. As gravaes do Rio Grande do Sul
(Pelotas) fazem parte do banco de dados VARX (UFPel), tambm
com taxa de 44100 Hz.
No experimento com PURR, houve um breve treino em que os
ouvintes familiarizaram-se com o que entonao. Para a fase
de treinamento, apresentou-se uma frase de cada variedade,
apresentada em sua verso no manipulada e manipulada com
PURR, com o intuito fazer o ouvinte entender o procedimento.
Aps o treinamento, 5 ouvintes de So Paulo e 5 do Rio Grande
do Sul ouviram uma sequncia de 27 trechos curtos e outra com
27 trechos longos. No experimento com curva meldica
monotnica,
as
variaes
de
frequncia
foram
monotonizadas, utilizando-se a funo To Manipulation, do
Praat. Com isso, as frases apresentadas aos ouvintes tiveram
um plat tonal sem que houvesse nenhum tipo de variao de
F0. Este procedimento seguiu o tom mdio, obtido por meio do
aplicativo Exprosodia, de cada frase manipulada. Para a feitura
deste experimento, foi gerada uma senoide no menu sound, do
Praat, obedecendo os tons mdios obtidos pelo Exprosodia. As
camadas tonais dos trechos foram substitudas pelas senoides,
por meio das funes extract pitch tier e replace pitch tier.
Resultados
No experimento com PURR, os ouvintes de ambas variedades
tiveram, em dados brutos, um reconhecimento satisfatrio de
suas variedades. Nas tabelas abaixo temos os resultados para os
trechos curtos:
100
Trechos Curtos Pelotas (RS)

acertos
erros
Valores brutos
57
33
Porcentagem
63%
37%
Trechos Curtos So Paulo (SP)

acertos
erros
Valores brutos
51
39
Porcentagem
57%
43%
Tabelas 1 e 2: Resultados de discriminao de trechos

curtos com PURR.
No que se refere ao nmero de acertos e sua predominncia no

teste de percepo dos trechos curtos, aplicando-se o teste quiquadrado, observou-se que no grupo de Pelotas a diferena foi
significativa (p < 0,05), enquanto que o mesmo no foi
observado no grupo de So Paulo (p > 0,05). importante
salientar que um dos ouvintes paulistanos teve um desempenho
muito baixo na discrimina o. Aplicando-se novamente o teste,
subtraindo os julgamentos desse ouvinte, tivemos p < 0,05 para
os trechos curtos (SP). Pode-se, pois, atribuir o primeiro
resultado dos paulistanos a esse ouvinte, o que no espelha o
resultado dos demais. Para os trechos longos, temos os
seguintes resultados:
101
Trechos Longos Pelotas (RS)

acertos
erros
Valores brutos
53
37
Porcentagem
59%
41%
Trechos Longos So Paulo (SP)

acertos
erros
Valores brutos
59
31
Porcentagem
65,50%
34,50%
Tabelas 3 e 4: Resultados de discriminao de trechos

longos.
Com os trechos longos, observou-se que a diferena entre erros

e acertos no grupo de Pelotas no foi significativa (p >0,05),
enquanto que foi no grupo paulista (p < 0,05). Para efeito de
comparao, foi feito um teste F para saber se as diferenas de
discriminao entre trechos curtos e longos foi significativa, isso
entre cada variedade. Os resultados apontaram para uma
diferena no significativa (p > 0,05), logo a durao de cada
estmulo parace no influenciar no resultado. No experimento
com curva meldica monotnica, os resultados foram os
seguintes:
CMM RS
102
acertos
erros
Valores brutos
44
16
Porcentagem
73%
27%
CMM - SP
Acertos
erros
Valores brutos
45
15
Porcentagem
75%
25%
Tabelas 5 e 6: Resultados de discriminao de trechos com

curva meldica monotnica.
Aplicando-se o teste qui-quadrado, observou-se uma diferena

significativa entre erros e acertos em ambas as variedades
(valor-p < 0,05). Tal resultado demonstra que as escolhas no
foram aleatrias.
Consideraes finais
Apesar de se tratar de um breve estudo, pode-se ter uma ideia
aproximada do quanto os ouvintes so capazes de discriminar
sua prpria variedade lingustica. De fato, a hiptese de Ohala e
Gilbert (1978) valida no mbito intralingustico, no tocante
populao analisada neste trabalho. Necessita-se ainda de uma
maior abrangncia nos resultados, a qual obter-se- com um
aumento da populao, envolvendo tambm os ouvintes
cearenses. O prximo passo, alm do aumento quantitativo da
anlise, ser saber como os ouvintes se reconhecem nos
estmulos com PURR. Quais sero, dentro dos estmulos
envolvidos, os pontos de ancoragem perceptual que os ouvintes
se prendem para aceitarem ou rejeitarem uma variedade? Para
tal, ainda ser empreendida uma anlise de produo e o seu
cotejo com os resultados perceptuais.
103
http://dx.doi.org/10.4322/978-85-99829-84-4-15
Desenvolvimento de algoritmo de anlise

automtica da curva de frequncia por meio de
convolues gaussianas do histograma de
alturas15
Andr Ricardo de Souza; Maressa Vieira, Daniel Peres; Marcus
Martins; Waldemar Ferreira Netto
Introduo
A convoluo de um histograma por meio da funo normal de
Gauss um dos inmeros mtodos de prospeco de dados que
visam a encontrar possveis pontos de concentrao dos dados
em uma amostra (clusters) e, portanto, possveis alvos
recorrentes do sistema que produziu aquela amostra. A
convoluo suaviza o rudo presente no histograma da
amostra, permitindo identificar picos de probabilidade
correspondentes a certos valores da varivel aleatria por meio
da estimativa da funo densidade de probabilidade (probability
density function, doravante PDF). No caso particular da anlise
automtica da curva de frequncia em amostras de fala, a PDF
nos permite identificar alturas preferenciais empregadas pelo
falante, o que pode contribuir para um aperfeioamento dos
modelos tericos da entoao.
Este trabalho apresenta o desenvolvimento e a implementao
de um mtodo de anlise de amostras de fala baseado no
15
COLQUIO BRASILEIRO DE PROSDIA DA FALA, 4. UFAL, Macei, 2013.
Desenvolvimento de algoritmo de anlise automtica da curva de frequncia

por meio de convolues gaussianas do histograma de alturas
conceito de convoluo gaussiana, acoplado ao algoritmo

ExProsodia (Ferreira Netto 2006).
O mtodo de convoluo empregado neste trabalho
conhecido como janela de Parzen (Parzen 1962). Segundo o
mtodo de Parzen, a PDF estimada por meio de uma funo
nuclear comumente a funo normal de Gauss
estabelecida em cada ponto da escala a que pertencem os
dados da amostra. Cada um destes pontos um candidato a
centroide desta amostra. Empregando-se a funo normal de
Gauss, o clculo da probabilidade de cada resultado da amostra
pertencer ao centroide c feito pela frmula:
Nessa frmula, x o valor da varivel aleatria correspondente

quele resultado, c o valor do centroide na escala e s o
parmetro de suavizao, que corresponde aproximadamente
largura da janela do histograma. Depois de calculadas as
probabilidades de cada resultado da amostra pertencer a cada
candidato a centroide, calcula-se a mdia dessas probabilidades
para cada um desses possveis centroides, que ser o valor da
PDF para cada ponto da escala. O resultado desta funo
depende, portanto, do estabelecimento de uma escala qual
pertencem os valores da amostra e do parmetro suavizador s,
correspondente ao desvio padro do kernel gaussiano aplicado.
O programa ExProsodia parte da hiptese de que alguns fatos
prosdicos tm restries mecnico-fisiolgicas e outros
decorrem das necessidades expressivas dos falantes (Xu e Wang
1997). Segundo Ferreira Netto (2006; 2008) e Peres e seus
colegas (2009; 2011), a produo da fala exige esforo para
sustentar a voz com uma frequncia relativamente estvel,
definida aqui como tom mdio ideal (TM) de F0, que se repete
105
Andr Ricardo de Souza; Maressa Vieira, Daniel Peres; Marcus Martins;

nos momentos Z(t) mensurados de F0. A supresso desse

esforo desencadeia uma declinao pontual que exige a
retomada da tenso inicial. A sustentao (S) consequncia do
esforo que se acrescenta a cada um dos momentos da fala,
incluindo-se o inicial, para compensar a declinao pontual de
finalizao (F). A componente F associa-se ao fato de que se
trata do tom alvo da declinao pontual, estabelecida por um
intervalo ideal decrescente de 7 st do TM obtido at o
momento Z(t). TM a tendncia central dos valores vlidos de
F0 calculada como a mdia aritmtica acumulada no tempo. Os
valores vlidos mensurados so os momentos de F0 que
cumprem as restries de altura, intensidade e durao. A srie
temporal se configura aditivamente como Z(t)=S(t)+F(t)+E(t). A
seleo das unidades Z(t) ora chamadas de UBI (Unit of Base
of Intonation) para anlise feita pelo aplicativo ExProsodia
(Ferreira Netto 2010). O aplicativo faz a anlise automtica de
pores da curva de frequncia estabelecida por autocorrelao
pelo software Speech Filing System (Huckvale et al. 1985). Trs
parmetros so considerados para essa definio: frequncia
maior do que 50 Hz e menor do que 700 Hz; intensidade
suficiente para ser percebida e, garantidos os critrios
anteriores, durao maior do que 20 ms. Esses valores podem
ser modificados pelo usurio.
Metodologia
Para a realizao do experimento consideraram-se as variveis:
(a) gnero masculino e feminino e (b) tipo de fala
leitura, colrica, neutra e triste combinadas entre si. Os
dados foram coletados na internet em sites que disponibilizam
podcasts (Webcombrasil 2013; A Voz... 2013; Podcast 2013).
Tambm foram coletadas gravaes de vdeos no site (Youtube
2013). Para a anlise das variveis gnero e manifestao
emocional, foram selecionados 80 arquivos sonoros,
distribudos em grupos de 10. Os grupos compreendiam: leitura
106

masculina (HL), leitura feminina (ML), fala masculina colrica

(HC), fala feminina colrica (MC), fala masculina neutra (HN),
fala feminina neutra (MN), fala masculina triste (HT) e fala
feminina triste (MT). A avaliao das falas como colrica, neutra
e triste decorreu de interpretao semntica feita pelos
membros da equipe de pesquisa. No houve restries quanto
qualidade da gravao.
Resultados
Na Tabela 1 abaixo, so apresentados os resultados relativos
obtidos com a anlise das convolues gaussianas. A anlise
feita mostrou que a maioria significativa dos intervalos
utilizados pelos locutores permaneceu entre 1% e 2% no que diz
respeito variao mdia das frequncias utilizadas nas UBIs,
sendo que variaes de frequncia entre UBIs de at 2%,
representam mais das metade das variaes verificadas (ver
Figura 1).
]-.01
HL
0,01
ML
0,09
HC
0,20
MC
0,33
HT
0,05
MT
0,18
HN
0,12
[.01-.02[
0,28 0,42 0,43 0,40 0,30 0,37 0,40
[.02-.03[
0,33 0,25 0,17 0,14 0,29 0,22 0,23
[.03-.04[
0,16 0,09 0,09 0,06 0,14 0,10 0,12
[.04-.05[
0,11 0,07 0,04 0,02 0,09 0,04 0,06
[.050,11 0,08 0,07 0,05 0,14 0,08 0,06
Tabela 1 Dados intervalares (linhas) referentes s
frequncias das variveis de sexo e emoo dispostas nas
colunas
MN
0,20
0,39
0,21
0,10
0,04
0,06
107
Andr Ricardo de Souza; Maressa Vieira, Daniel Peres; Marcus Martins;

Figura 1. Curva da mdia acumulada das frequncias da

Tabela 1 referente aos intervalos obtidos com o clculo das
convolues gaussianas.
Em relao s categorias de ocorrncia, foi possvel verificar

que, comparando os coeficientes de variao (cv) de cada
categoria, os intervalos de frequncias com variao entre 1% e
2%, tm uma disperso muito reduzida (cv=,015, z<0,01) e que
os intervalos de frequncia com variao abaixo de 1% so os
que tm a maior disperso (cv=0,68, z<0,01).
Em relao s emoes, foi possvel verificar que, a partir de um
teste z aplicado s frequncias em relao s das demais
emoes, todas as categorias frequncia de HL e de HT
apresentaram diferenas significativas em relao ao valores
das demais categorias (z<0,01 em todos os casos). Tambm foi
possvel verificar que MC teve um aumento significativo da
categoria de intervalos menores do que 1% (z<0,01), e um
reduo, tambm siginificativa dos intervalos maiores do que
2% (z<0,01 em todos os casos). Essa diferena pode ser
observada na Fig. 2 abaixo.
108

Figura 2. Histograma ocorrncia (eixo vertical) das

categorias dos intervalos de frequncias, agrupados por
tipo d das e manifestao emocional (eixo horizontal). A
descrio das categorias vai apresentada por cdigo de
cores na legenda esquerda.
Discusso
A anlise das variaes das emoes por meio da aplicao do
teste de convolues gaussianas do histograma de alturas
apontou diferenas significativas entre os intervalos dos picos
de probabilidades. De maneira geral, a tendncia desses
intervalos acentuou-se de forma significativa nos intervalos
entre 1% e 2%. Esse fato se deu em praticamente todas as
manifestaes emocionais. Nas leituras masculinas e das
manifestao de tristeza masculina, houve um aumento
significativo na ocorrncia dos intervalos entre 2% e 3%. A
manifestao feminina da clera, entretanto, mostrou um
comportamento invertido, estabelecendo intervalos menores
do que 2%. Esse fato compreensvel pois, na manifestao de
clera h o aumento significativo do TM, e, portanto, uma
tenso extrema das pregas vocais, impossibilitando variaes
maiores.
109
Referncias
ALMEIDA JNIOR, A. Os reveladores da mentira. Revista da
Faculdade de Direito, Universidade de So Paulo, v. 35, n. 3,
p. 604-620, jan. 1940.
AMARAL, L.; BORGES, P. Banco de dados sociolingusticos variveis por

classe social - VarX. Pelotas : UFPel, 2001.
ANDRADE, L. M. O. Determinao dos limiares de normalidade dos
parmetros acsticos da voz. Dissertao (Mestrado em
Bioengenharia) - Universidade de So Paulo, 2003, So Paulo.
ANG, J. et al. Prosody-based automatic detection of annoyance and
frustration in human-computer dialog. In: INTERNATIONAL
CONFERENCE ON SPOKEN LANGUAGE (INTERSPEECH), 7, 2002.
Proceedings... Denver, 2002. p. 2037-2040.
ARAJO, Alceu M. Cultura popular brasileira. So Paulo:
Melhoramentos, 1988.
ATKINSON, K. Language identification from non-segmental cues.
Working Papers in Phonetics (UCLA) 10. p. 85-89, 1968.
BACHOROWSKI, J. A; OWREN, M. J. Vocal expression of emotion:
acoustic properties of speech are associated with emotional intensity
and context. Psychological Science, v. 6, n. 4, 1995. p. 219-224.
BNZINGER, T.; SCHERER, K. R. The role of intonation in emotional
expressions. Speech Communication, n. 46, p. 252-267, 2005.
BARBOSA, P. Proeminence- and boundary-related acoustic
correlations in Brazilian Portruguese read and spontaneous speech. In:
SPEECH PROSODY 2008; FOURTH CONFERENCE ON SPEECH PROSODY.
Campinas, SP, 2008BARBOSA, P. A. Anlise e Modelamento Prosdicos
da Fala. Cadernos de Estudos Lingusticos, 42, 2002.
BARBOSA, P. A. Estrutura rtmica da frase revelada por aspectos de
produo e percepo de fala. In: SEMINRIO DO GEL, 43. So Paulo,
1995.
ExProsodia - Resultados Preliminares
BARTLINER, A. et al. The automatic recognition of Emotions in Speech.

In.: Cowie, R.; PELACHAUD, C.; PETTA, P. (eds.) Emotion-oriented
Systems. The Humaine Book. Berlin: Springer, 2011. p. 71-99.
BAZ, D. As relaes entre entoao frasal e melodia de msicas
populares paraguaias. Tese (Doutorado em Filologia e Lngua
Portuguesa) - Universidade de So Paulo, 2011
BAZ, D. G. M. et al. Tonal variation in the finalization of Brazilian
Portuguese sentences. In: LABORATORY APPROACHES TO ROMANCE
PHONOLOGY (LARP), 7, 2014, Aix-en-Provence.
BLEAKLEY, D. The effect of fundamental frequency variations on the
perception of stress in German. Phonetica, 28, 4259, 1973.
BLOCH, M.. Introduo histria. Mira-Sintra: Publicaes EuropaAmrica, 1987.
BLOOMFIELD, L. Language. New York: Holt, 1933.
BOD, R. A Unified Model of Structural Organization in Language and
Music. Jornal of Artificial Intelligence Research, n. 17, p. 289-308,
2002.
BOEMIO, A. et al. Hierarchical and asymmetric temporal sensitivity in
human auditory cortices. Nature Neuroscience, v. 8, n. 3, p. 389-95,
2005.
BOERSMA, P.; WEENINK, D. Praat, a system for doing phonetics by
computer, version 3.4. Institute of Phonetic Sciences of the University
of Amsterdam, Report 132-182, 1996.
BRUNER,J. The narrative construction of reality. Critical Inquiry, v. 18.
n. 1, p. 1-21, 1991.BUSH, C. Some acoustic parameters of speech and
their relationships to the perception of dialect difference. TESOL
Quarterly 1, p. 20-30, 1967.
BUSSO, C.; LEE, S.; NARAYANAN, S. Analysis of emotionally salient
aspects of fundamental frequency for emotions detection, IEEE
Transactions on Audio, Speech, and Language Processing, v. 17, n. 4,
p. 582-596, 2009.
111
Referncias
CABEZA DE VACA, A. N.. Naufragios y comentarios. Edicin,

introduccin y notas de RobertoFernando. Madrid: Raycar, 1984.
CAGLIARI, L. C. Elementos de fontica do portugus brasileiro. So
Paulo: Paulistana, 2007.
CAGLIARI, L. C.; MASSINI-CAGLIARI, G. O papel da tessitura dentro da
prosdia portuguesa. In: CASTRO, Ivo; DUARTE, Ins. (Org.). Razes e
emoo: Miscelnea de estudos em homenagem a Maria Helena Mira
Mateus. Lisboa: Imprensa Nacional; Casa da Moeda, 2003. p. 67-85..
CARDOSO, Paulo A. Relatrio de viagem aos Guats. Braslia:
Ministrio do Interior/ FUNAI (ms), 1985.
CHACON, L.. Ritmo da escrita. Uma organizao do heterogneo da
linguagem. So Paulo; Martins Fontes, 1998.
CHOMSKY, N. e HALLE, M. The sound pattern of English. New York:
Harper & Row, 1968.
CLOPPER, C.G. & PISONI, D. B. Perception of Dialect Variation. In:
PISONI, D. B.; REMEZ, R. E. (Ed.) The Handbook of perception. Oxford,
Blackwell, 2004., p. 314-337
COLAMARCO, M.; MORAES, J. A. Emotion expression in speech acts in
Brazilian Portuguese: production and perception. In: CONFERENCE ON
SPEECH PROSODY, 4., 2002, Campinas. Proceedings... Campinas:
Unicamp, 2008. p. 717-720.
COLOMBO, L. The role of lexical stress in word recognition and
pronunciation. Psychological Research, v. 53, n. 1, pp 71-79, 1991.
CONSONI, F. FERREIRA NETTO, W.; PERES, D. O.; LASSAK, A.: ROSA, R.
Sensitivity to f0 variation in Brazilian Portuguese. POZNAN LINGUISTIC
MEETING, 40, Poznan, Polnia, 2009.
CONSONI,F.; FERREIRA NETTO, W. A percepo da variao em
semitons ascendentes empalavras isoladas no Portugus Brasileiro.
CONGRESSO NACIONAL DE FONTICA E FONOLOGIA, 10, Niteri, 2008.
COOK, N. D.; FUJISAWA, T. X.; Takami, K. Evaluation of the affective
valence of speech using pitch substructure. IEEE Transactions on
Audio, Speech, and Language Processing, v. 14, n. 1, p. 142-151, 2006.
112
COSTA, N. S. A. Variaes entoacionais na lngua portuguesa falada por

idosos guats e no-indios. In: ENCONTRO DE PS-GRADUANDOS DA
FFLCH/USP, 2009, So Paulo.
COSTA, N. S. A. Variaes entoacionais na lngua portuguesa falada
por mulheres guats. Tese (Doutorado em Filologia e Lngua
Portuguesa) - Universidade de So Paulo, 2010
COSTA, Natalina S.Assncio. Lngua, Cultura e Sociedade Guat:
universo lxico-semntico da fala indgena. Dissertao de Mestrado,
UNESP-Assis/SP, 2002.
COSTANZO, F. S.; MARKEL, N. N.; COSTANZO, P. R. Voice quality profile
and perceived emotion. Journal of Couseling Psychology, v. 16, n. 3, p.
267-270, 1969.
CRUTTENDEN, A. Intonation. Cambridge: Cambridge University Press,
1986.
DAMSIO, A. O erro de Descartes. So Paulo: Companhia das Letras,
1996.
DARWIN, C. A expresso das emoes no homem e nos animais. So
Paulo: Companhia das Letras, 2000.
DIEGUES JUNIOR, Manuel. Etnias e culturas no Brasil. Rio de Janeiro:
Biblioteca do Exrcito, 1960.
EHLERS, R. S. (2007) Anlise de Sries Temporais. Disponvel em:
<http://leg.ufpr.br/~ehlers/notas/stemp.pdf> Acesso em 25/04/2008
ESSER, J. Comparing reading and speaking intonation. Amsterdan:
Rodopi, 1988
FAIRBANKS, G.; HOAGLIN, L. W. An experimental study of the
durational characteristics of the voice during the expression of
emotion. Speech Monographs, v. 6, n. 1, p. 85-90, 1941.
FAIRBANKS, G.; PRONOVOST, W. An experimental study of the pitch
characteristics of the voice during the expression of emotion. Speech
Monographs, v. 6, n. 1, p. 87-104, 1939.
FAIRBANKS, G.; PRONOVOST, W. Vocal pitch during simulated
emotion. Science, v. 78, v. 2286, p. 382-383, 1938.
113
Referncias
FELIPPE, A. C. N.; GRILLO, M. H. M. N.; GRECHI, T. H. Normatizao de

medidas acsticas para vozes normais. Revista Brasileira de
Odontologia, v. 72, n. 5, p. 659-664, 2006.
FERREIRA NETTO et Alii. Relaes entre variao de gnero e variao
tonal na fala de lngua portuguesa do Brasil. In.: Revista Cientfica
Symposium, Lavras, v.6, n.2, p.70-73, jul./dez.2008.
FERREIRA NETTO, W. ExProsodia. Revista da Propriedade Industrial
RPI, 2038, pg. 167, item 120, em 26/out/2010.
FERREIRA NETTO, W. Os ndios e a alfabetizao: aspectos da
educao escolar entre os Guarani de Ribeiro Silveira. Tese de
Doutorado. Universidade de So Paulo, 1994a.
FERREIRA NETTO, W. ; PERES, D. O. ; MARTINS, M.V.M. ; VIEIRA, M. F. .
Automatic analysis of emotional intonation in Brazilian Portuguese.
The Journal of the Acoustical Society of America, v. 135, p. 21972198, 2014b.
FERREIRA NETTO, W. A transmisso de conhecimentos entre os
Guarani do Ribeiro Silveira. Terra Indgena, n. 73, out./dez., p. 07-28,
1994b.
FERREIRA NETTO, W. Decomposio da entoao frasal em
componentes estruturadoras e semntico-funcionais. In: CONGRESSO
NACIONAL DE FONTICA E FONOLOGIA, 10, UFF, Niteri, 2008
FERREIRA NETTO, W. et al. Anlise automtica de manifestaes
emocionais de tristeza e clera em PB: abordagem pelo programa
ExProsodia. Leitura, Macei, n. 52, p. 43-65, 2013a
FERREIRA NETTO, W. Variao de frequncia e constituio da
prosdia da lngua portuguesa. Tese (Livre-Docncia em Fontica da
Lngua Portuguesa) - Universidade de So Paulo, 2006.
FERREIRA NETTO, W.; CONSONI, F. Estratgias prosdicas da leitura
em voz alta e da fala espontnea. Alfa, n. 52, v. 2, p. 521-534, 2008.
FERREIRA NETTO, W.; MARTINS, M. V. M.; VIEIRA, M. F. Efeitos da
entoao e da durao na anlise automtica das manifestaes
emocionais. Estudos Lingusticos, v. 43, n. 1, p. 22-32, 2014a.
114
FERREIRA NETTO, W.; MARTINS, M. V. M.; VIEIRA, M. V.; SPANGHERO,

V. S. Description of an intonation pattern of the speech register
proposal: Simulacrum of Neutral Intonation. In: SWISS WORKSHOP IN
PROSODY (SWIP), 3, 2014c : Genve.
FERREIRA NETTO, Waldemar; CONSONI, Fernanda; PERES, Daniel
Oliveira. Finalizaes de frase em leituras e fala espontnea no PB. In:
SEMINRIO DO GEL, 57; Ribeiro Preto, 2009
FERREIRA NETTO, Waldemar; PERES, Daniel Oliveira. A variao tonal
em portugus brasileiro a partir de frases espontneas e textos lidos.
In: SEMINRIO DO GEL. 56; So Jos do Rio Preto, 2008.
FERREIRA, V. G. Anlise do fenmeno da declinao na entonao de
frases contextualizadas dos falantes do portugus brasileiro.
Dissertao apresentada UFMG.. Belo Horizonte, MG, 2007.
FERREIRANETTO; PERES; MARTINS; ROSA; VIEIRA. Anlise automtica
de manifestaes emocionais em PB: abordagem pelo programa
ExProsodia, Leitura, Macei, n. 52, p. 43-55, 2013.
FIELD, S.; FOX, A.A. Music and Language. Annual Review of
Anthropology, n. 23, p. 25-53, 1994.
FNAGY, I. Des fonctions de lintonation: Essai de synthse. Flambeau,
29, p.1 20, 2003.
FUJISAKI, H. & SUDO, H. A generative model for the prosody of
connected speech in Japanese. Annual Report of Engineering
Research Institute, Tokyo, 30, 7580.
FUJISAWA, T.; TAKAMI, K.; COOK, N. D. On the role of pitch intervals in
the perception of emotional speech. In: ISCA & IEEE WORKSHOP ON
SPONTANEOUS SPEECH PROCESSING AND RECOGNITION, 2003, Tokyo
Intititue of Technology, Tokyo.
GARCIA, R. R. A entoao do dialeto caipira do Mdio Tiet:
reconhecimento, caractersticas e formao. Tese (Doutorado) Universidade de So Paulo, 2015.
GHIO, A. et al. PERCEVAL: une station automatise de tests de
PERCeption et d'EVALuation auditive et visuelle. Travaux
115
Referncias
Interdisciplinaires du Laboratoire Parole et Langage d'Aix-enProvence (TIPA), 22, p. 115-133, 2003.

GLASER, S. The missing link: Conections between musical and linguistic
prosody. Contemporary Music Review, n. 19, v. 3, p. 131-154, 2000.
GOODY, J.; WATT, I. As consequncias do letramento. trad. Waldemar
Ferreira Netto. So Paulo: Paulistana, 2006.
GRAMMONT, M. Trait de phontique. Paris, Delagrave, 1933.
GUSSENHOVEN, C. The Phonology of tone and intonation. Cambridge:
Cambridge University Press, 2004.
HALLE, M. & VERNAUD, J-R. An essay on stress. Cambrigde, Mass.:
MIT Press, 1987.
HAYES, B. Metrical Stress Theory Principles and Case Studies. UCLA,
1994.
HENRIQUE, L. L. Acstica musical. Lisboa: Calouste Gulbenkian, 2002.
HIRST, D.; DI CRISTO, A. Intonation Systems. Cambridge University
Press, 1998.
HUCKVALE, M. A. et al. The SPAR Speech Filing System, In: EUROPEAN
CONFERENCE ON SPEECH TECHNOLOGY, 1987, Edinburgh
HUCKVALE, M. A. Speech Filing System v.4.7/Windows SFSWin Version
1.7, em 17/02/2008. Disponvel em
<http://www.phon.ucl.ac.uk/resource/sfs> . Acesso em 22 jan. 2013
HUGGINS, A. W. F. Just noticeable differences for segment duration in
natural speech. Journal of Acoustical Society of America, v. 51, n. 4.,
p. 1970-8, 1972.
JOHNSON, K. & MULLENNIX, J. W. (eds.) Talker Variability in Speech
Processing. San Diego: Academic Press, 1996.
KNAPP, M.L.; HALL, J.A. Comunicao no-verbal na interao
humana. So Paulo, JSN Editora, 1999.
KUHL, P.K. A new view of language acquisition. Proceedings of the
National Academy of Sciences, v. 97, n. 22, p. 1850-7, 2000.
116
KUHL, P.K. et al. Language/Culture/Mind/Brain. Progress at the

margins between disciplines. Annals of New York Academy of
Sciences, n. 935, p. 136-74, 2001.
KUHL, P.K.; IVERSON, P. Linguistic experience and the perceptual
magnet effect. In: STRANGE, W. (ed.). Speech perception and
linguistic experience: issues in cross-language research. Baltimore:
York Press, 1995. p. 121-154.
KUHL, P.K.; IVERSON, P. Linguistic experience and the perceptual
magnet effect. In: strange, w. (ed.). Speech perception and linguistic
experience: issues in cross-language research. Baltimore: York Press,
p. 121-154, 1995.
KUHL, P.K.; TSAO, F.-M.; KUHL, Patricia K. A new view of language
acquisition. Proceedings of the National Academy of Sciences, 97(22),
p. 1850-1857, 2000.
KUHL, P.K.; TSAO, F.-M.; LIU, H.-L.; ZAHNG, Y. & DE BOER,
B.Language/Culture/Mind/Brain. Progress at the margins between
disciplines. Annals of New York Academy of Sciences, 935, p. 136-74,
2001.
LABOV, W. Some further steps in narrative analysis To appear in
special issue of The Journal of Narrative and Life History, v. 7,n. 1-4 ,
1997.
LADD, D. R. & MORTON, R. The perception of intonational emphasis:
continuous or categorical? Journal of Phonetics, 25:313-42, 1997.
LASSAK, A. A percepo de variao em semitons descendentes em
palavras isoladas no Portugus Brasileiro. SIICUSP, 17, So Paulo, SP,
2009.
LAUKKA, P. et al. Expression of affect in spontaneous speech: acoustic
correlates and automatic detection of irritation and resignation.
Computer Speech and Language, 25, p. 84-104, 2011.
LEITE, S. Cartas dos primeiros jesutas do Brasil II (1553-1558). So
Paulo: comisso do IV Centenrio da Cidade de So Paulo, 1954b
LEVI-STRAUSS, C. Mito e significado. Lisboa: Edies 70, 2007.
117
Referncias
LIBERMAN, M. & PRINCE, A. On stress and linguistic rhythm. Linguistic

Inquiry, v. 8, n. 2, p. 249-336, 1977.
LUCIANO, D. T. Prosdia e envolvimento na locuo do telejornal. In:
Um linguista, orientaes diversas. Recife, Ed. Universitria da UFPE,
2009.
MADUREIRA, S. An accoustic study of phonological phrases containing
sequences of words with adjacent primary-shessed sylables: does
stress shift occur in brazilian portuguese? Caderno de Estudos
Lingusticos, 43, 2002.
MAEDA, S. A Characterization of American English Intonation.
Doctoral Dissertation, MIT, 1976.
MAIDMENT, J. Voice fundamental frequency characteristics as
language diferentiators. Speech and Hearing Working in Progress,
University College London, p. 74-93, 1976.
MALINOWSKI, B. Mito, cincia e religio. trad. Maria Georgina
Segurado. Lisboa: Edies 70, 1988.
MARCUSCHI, L. A. Da fala para a escrita. Atividades de
retextualizao. So Paulo: Cortez , 1994.
MARKEL, N. N. The reliability of coding paralanguage: pitch, loudness,
and tempo. Journal of Verbal Learning and Verbal Behavior, n. 4, p.
306-308, 1965
MARTIN, P. Intonation du franais: parole spontane et parole lue.
Estudios de Fontica Experimental, n.15, p. 133-162, 2005.
MARTINET, A. Elementos de lingustica geral. So Paulo: Martins
Fontes, 1975.
MARTINS, M. V. M. Aspectos da percepo e do controle entoacional
do Portugus Brasileiro. Tese (Doutorado em Lingustica) Universidade de So Paulo, 2012.
MARTINS, M. V. M; FERREIRA NETTO, W. Prosdia e escalas de
frequncia: um estudo em torno da escala de semitons. Revel, v. 8, n.
15, 2010.
118
MARTINS, M.; FERREIRA NETTO, W. Speech intonation and perception:

a study of frequency scales for Brazilian Portuguese. Journal of
Acoustical Society of the America, v. 129, n. 4, pt. 2, abr. 2011.
McLUHAN, M. Os Meios de Comunicao como Extenses do
Homem. Traduo Dcio Pignatari do original de 1964. So Paulo:
Cultrix, 1979.
McLUHAN, M. Understanding media. The extensions of man.
Cambridge: The MIT Press, 1968.
McMULLEN, E.; SAFFRAN, J.R. Music and Language: A developmental
comparison. Music Perception, v. 21, n. 3, p. 289-311, 2004.
MENEZES, F. A acstica musical em palavras e sons. So Paulo: Ateli
Editorial; Fapesp, 2003.
MOFTAH, A. & ROACH, P. Language Recognition from Distorted
Speech: Comparison of Techniques, Journal of the International
Phonetic Association, 18:1, p. 50-52, 1988.
MONSERRAT, R. M.F. (1983). Vale a pena alfabetizar 28 pessoas?
Cadernos de Estudos Lingusticos, 4, Campinas, pp. 115-21.
MORAES, J. A. Acentuao lexical e acentuao frasal em portugus:
um estudo acstico- perceptivo. Estudos Lingusticos e Literrios 17,
p. 39-57, 1995.
MORAES, J. A., ORSINI, M. T. Anlise prosdica das construes de
tpico no portugus do Brasil: estudo preliminar. In: II SEMINRIO
INTERNACIONAL DE FONOLOGIA, 134,2002, Porto Alegre. Anais do II
Seminrio Internacional de Fonologia/Revista Letras de Hoje. Porto
Alegre: PUCRS. p. 261272, 2003.
MORAES, J. A.. F0 declination in brazilian portuguese in read and
spontaneous speech. In: PROCEEDINGS OF THE 14 TH INTERNATIONAL
CONGRESS OF PHONETIC SCIENCES, San Francisco, 1-7 August 1999,
2323-2326.
MORETTIN, P. A.; TOLOI, C. M. Sries temporais. So Paulo: Atual,
1986.
119
Referncias
MORTARI, A. L. Anlise instrumental da frequncia fundamental e da

intensidade da voz de crianas e adolescentes. Dissertao (Mestrado
em Distrbios da Comunicao)PUC, 1990, So Paulo.
NEGRI, L. ExProsodia-Anlise automtica das emoes da fala em PB:
tentativa de anlise dinmica. In: SIMPSIO INTERNACIONAL DE
INICIAO CIENTFICA E TECNOLGICA DA USP (SIICUSP), 25, 2015,
So Paulo.
NEIBERG, D. E., K. AUTOMATIC recognition of anger in spontaneus
speech. Proceedings of the INTERNATIONAL CONFERENCE ON SPOKEN
LANGUAGE (INTERSPEECH), 9., 2008, Brisbane. Proceedings...
Brisbane, 2008. p. 2755-2758.
NESPOR, M.; VOGEL I. Prosodic Phonology. Foris Publications.
Dordrecht, Holland, 1986.
OHALA, J. J. & GILBERT, J. B. Listeners ability to identify languages
from their prosody. Report of the Phonology Laboratory 2, Berkeley,
p. 126-132, 1978.
OHALA, J. J. An ethological perspective on common cross-language
utilization of F0 of voice. Phonetica, 41, p. 1-16, 1984.
HMAN, S. E. G. Word and sentence intonation: A quantitative model.
Quarterly Progress and Status Report. Stockholm, Speech Translation
Laboratory, 1967. pp. 2054
OLIVEIRA, J. Eremites de Guat: argonautas do Pantanal. Porto Alegre:
Edipucrs, 1996.
PACHECO, V. O efeito dos estmulos auditivo e visual na percepo
dos marcadores prosdicos lexicais e grfciso usados na escrita do
Portugus Brasileiro. Tese apresentada UNICAMP. Campinas, 2006.
PARZEN, E. On Estimation of a Probability Density Function and Mode.
Annals of Mathematical Statistics, n. 33: p. 10651076 1962
PATEL, A.D.; DANIELLE, J.R. An empirical comparison of rhythm in
language and music. Cognition, n. 87, p. B35-B45, 2003.
PATEL, A.D.; IVERSEN, J.R.; ROSENBERG, J.C. Comparing the rhythm
and melody of speech and music: The case of British English and
120
French. Journal of the Acoustical Society of America, v. 119,n. 5, p.

3034-3047, 2006.
PEREIRA, B. B.; PAIS, M. B. Z.; & SALES, P. R. H. Anlise espectral de
sries temporais uma introduo para economia, engenharia e
estatstica. Rio de Janeiro: Arte Final leasing Editoria/Eletrobrs; 1986.
PEREIRA, I. Panorama das abordagens lingusticas das questes
prosdicas em Estudos. In. Estudos em Prosdia. Lisboa: Colibri, 1992.
PERES, D. O. Intonation as a cue to emotional speech perception: an
experiment with normal and delexicalised speech. In: INTERNATIONAL
CONGRESS OF PHONETIC SCIENCES (ICPhS XVIII), 18., 2015, Glasgow.
Proceedings... Glasgow, 2015.
PERES, D. O. O papel da prosdia na identificao das variedades
regionais do portugus brasileiro. Dissertao de mestrado
apresentada USP, FFLCH. So Paulo, 2011.
PERES, D. O. Perception of emotional speech in Brazilian Portuguese:
an intonational and multidimensional approach. Nouveaux Cahiers de
Linguistique Franaise, v. 31, p. 153-196, 2014.
PERES, D. O.; CONSONI, F.; FERREIRA NETTO, W. A influncia da cadeia
segmental na percepo de variaes tonais. LL Journal, v.6, p.3, 2011.
PERES, D. O.; CONSONI, F.; FERREIRA NETTO, W. Decomposio da
entoao frasal em componentes estruturais e semntico-funcionais:
um teste com anlise da variao de gnero. In: OSUCHIL - The Ohio
State University Congress on Hispanic and Lusophone Linguistics, 12,
Ohio, 2009.
PETERSON, G. E.; LEHISTE. I. Some Basic Considerations In The Analysis
Of Intonation. Journal of the Acoustical Society of America, V. 33, N.
4, 1961.
PIERCE, John R. The science of musical sound. New York: Scientific
American Books,1983.
PIERREHUMBERT, J. The Phonology and Phonetics of English
Intonation. PhD Thesis, MIT, 1980.
PIKE, K. L. Intonation of English Language. Ann Arbor, 1954.
121
Referncias
PIKE, K. L. On the grammar of intonation. In: WIRNER E.; BETHGE, W.

(Eds.) Proceedings of th fifth International Congress of Phonetic
Sciences. Basel: ed., 1964.
RICHARDSON, J.A.C. The Identification by Voice of Speakers
Belonging to Two Ethnic Groups. Unpublished PhD dissertation, Ohio
State University, 1973.
ROBERTS, L. Acoustic effects of authentic and acted distress on
fundamental frequency and vowel quality. In: INTERNATIONAL
CONGRESS OF PHONETIC SCIENCES (ICPhS XVII), 17., 2001, Hong Kong;
Proceedings... Hong Kong, 2011. p. 17-21.
RODRIGUES, A. D. Lnguas Brasileiras. Para o conhecimento das
lnguas indgenas. So Paulo: Edies Loyola, 1986.
ROEDERER, J. G. The physics and psychophysics of music. An
Introduction. 4th ed. New York: Springer, 2008.
RONG, J. CHEN, Y.-P.P.; CHOWDHURY, M.; GANG Li. Acoustic features
extraction for emotion recognition. In: IEEE/ACIS INTERNATIONAL
CONFERENCE ON COMPUTER AND INFORMATION SCIENCE (ICIS 2007),
6., Melbourne. 2007. Proceedings... Melbourne, 2007. p. 419 - 424
ROSA, R. A anlise automtica das finalizaes prosdicas e a
separao intuitiva de frases em textos longos. CONGRESSO
INTERNACIONAL DE INICIAO CIENTFICA, 8, Botucatu, SP, 2008.
ROSA, R. Percepo e ExProsodia: correlao entre anlise
automtica e a finalizao de frases assertivas isoladas do Portugus
Brasileiro. Dissertao (Mestrado em Filologia e Lngua Portuguesa) Universidade de So Paulo, 2015.
ROSENSTOCK-HUESSY, Eugen. A origem da linguagem. So Paulo:
Record, 2002.
RUSSO, I. Acstica e psicoacstica aplicadas fonoaudiologia. So
Paulo: Lovise, 1999.
RUSSO, I.; BEHLAU, M. Percepo da fala : anlise acstica do
portugus brasileiro. So Paulo: Lovise, 1993.
122
SAPIR, E. Linguagem: Introduo ao estudo da fala. Rio de Janeiro:

Acadmica, 1971.
SCHAEFFER, P. Trait des objets musicaux: essai Interdisciplines. Paris:
ditions du Seuil, 1966.
SCHERER, K. R. Speech and emotional states. In: DARBY, J. (eds)
Speech evaluation in psychiatry, 1981. p. 189-220.
SCHERER, K. R. Vocal affect expression: a review and a model for
future research. Psychological Bulletin, v. 99, n. 2, p. 143-165, 1986.
SCHERER, K. R. Vocal correlates of amotional arousal and affective
disturbance. In: WAGNER, H.; MANSTEAD A. (Eds.). Handbook of
Psychophysiology: Emotion and social behavior. Wiley, London,.
University of Geneva, p. 165-197, 1989.
SCHERER, K. R.; BANSE, R.; WALLBOTT, H. G.; GOLDBECK, T. Vocal cues
in emotion encoding and decoding. Motivation and Emotion, 15, p.
123-148, 1991.
SCHOENBERG, Arnold. (2008). Harmonia. Trad. de Marden Maluf do
original alemo Harmonielehre, publicado em 1949. So Paulo: Editora
Unesp, 2001.
SCHWARTS, D. A.; HOWE, C.Q.; PURVES, D. The Statistical Structure of
Human Speech Sounds Predicts Musical Universals. The Journal of
Neuroscience, n. 6, p. 7160-7168, 2003.
SETTI, K. Os ndios Guarani-Mby do Brasil: notas sobre sua histria,
cultura e sistema musical. In BISPO, A. A. (org.). Jarbuch die
musikkulturen der indianer brasiliens. Kln: Luthe-Druck, 1997,.v. 1,
p. 73-145.
SKINNER. A calibrated recording and analysis of the pitch, force and
quality of vocal tones expressing happiness and sadness; and a
determination of the pitch and force of the subjective concepts of
ordinary, soft, and loud tones. Speech Monographs, 2:1, 1935. p.81137
SLANEY, M.; MCROBERTS, G. Baby ears: a recognition system for
affective vocalizations. In: IEEE INTERNATIONAL CONFERENCE, 1998,
Seattle. Proceedings... Seattle, 1998. p. 985-988.
123
Referncias
SLUIJTER, A. M. C., VAN HEUVEN, V. J., & PACILLY, J. J. A. Spectral

balance as a cue in the perception of linguistic stress. Journal of the
Acoustical Society of America, 101, 50313, 1997.
SOUSA, A. R. A inteno na melodia: estudo interdisciplinar sobre as
relaes entre entoao e gnero de discurso nas manifestaes
vocais (da fala e do canto). Tese (Doutorado em Filologia e Lngua
Portuguesa) - Universidade de So Paulo, 2014.
SOUSA, Mayara Linhares. Variao conjunta de tonalidade como
efeito da interao entre falantes. SIMPSIO INTERNACIONAL DE
INICIAO CIENTFICA DA USP - SIICUSP, 17; So Paulo, SP, 2009.
SPENCER, H. The origin of music. Mind, v. 15, n. 60, p. 449-468, 1890.
STEVENS, K. Acoustic Phonetics. Cambridge: The MIT Press, 2000.
THART, Johan. Differential sensitivity to pitch distance, particularly
in speech. Institute for Perception Research, The Netherlands, 1980.
THART, Johan. Differential sensitivity to pitch distance, particulary in
speech. Journal of Acoustical Society of America, n. 69, v. 3, p. 811821, 1981.
THART, J.; COLLIER, R.; COHEN, A. A perceptual study of intonation:
an experimental-phonetic approach to speech melody. Cambridge:
Cambridge University Press, 1990.
TATIT, Luiz. Semitica da cano. Melodia e Letra. So Paulo: Escuta,
194.
T'HART, J., COLLIER, R.;. COHEN, A. A Perceptual Study of Intonation.
Cambrigde University Press, 1990.
TITZE, I. R.; SCHMIDT, S. S.; TITZE, M. R. Phonation threshold pressure
in a physical model of the vocal fold muscosa. Journal of Acoustical
Society of the America, New York, v. 97, n. 5, p. 3080-4, 1995.
TOIVANEN, J.; VYRYENN, E.; SAPPNEN, T. Automatic discrimination
of emotion from spoken finnish. Language and speech, v. 47, n. 4, p.
383-412, 2004.
TROUBETZKOY, N.S. Principios de fonologia. Madrid: Cincel, 1970.
124
VAISSIRE, J. Perception of intonation. In: Handbook of Speech

Perception. D. B. Pisoni and R. E. Remez. Oxford, Blackwell, p. 236263, 2004.
VAISSIRE, Jacqueline. Sur les universaux de substance prosodiques,
In: WAUQUIER, Sophie (ed.) Les universaux sonores. Nantes: Presses
Universitaires de Rennes, 2002. Disponvel em:www.personnels.univparis3.fr/users/vaissier/pub/ARTICLES/index_fichiers/2005.pdf.
Acesso em: 24 mar. 2015.
VANSINA, Jan. A tradio oral e sua metodologia. In: Ki-Zerbo, J. (org.).
Histria geral da frica I. Metodologia e pr-histria da frica. So
Paulo: tica; Paris: Unesco, 1982.
VASSOLER, A. M. O. ; MARTINS, M. V. M. A entoao em falas teatrais:
uma anlise da raiva e da fala neutra. Estudos Lingusticos. v. 42, n 1,
p. 9-18, 2013.
VIDRASCU, L.; DEVILLERS, L. Five emotions classes detection in realworld call center data: the use of various types o paralinguistics
features. In: INTERNATIONAL WORKSHOP ON PARALINGUISTIC
SPEECH - BETWEEN MODELS AND DATA, 2007, Saarbrcken.
Proceedings... Saarbrcken, 2007
VOGT, T.; ANDR, El. Comparing features setes for acted and
spontaneous speech in view of automatic emotion recognition. In:
IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, 2005,
Amsterdam.
WENNERSTROM, A. Prosody in oral narratives. In: The music or
everyday speech. New York: Oxford, 2001. p. 200-229.
WERTHEIMER, Max. Laws of organization in perceptual forms. In: Ellis,
W. (ed.). A Source Book of Gestalt Psychology. London: Routledge &
Kegan Paul, 1938. pp. 71-88. (por Christopher D. Gree, disponvel em
psychclassics.yorku.ca/)
WILLIAMS, C. E.; STEVENS, K. N. Emotions and speech: some acoustical
correlates. Journal of the Acoustical Society of America, v. 52, n. 4, p.
1238-1250, 1972.
125
Referncias
WOLFE, J. et al. Musical Acoustics. Disponvel em:

<https://newt.phys.unsw.edu.au/jw/notes.html>. Acesso em: 26 out.
de 2015
XU, Yi & WANG, Q.E. Component of intonation: what are linguistic,
what are mechanical/physiological? In: INTERNATIONAL CONFERENCE
ON VOICE PHYSIOLOGY AND BIOMECHANICS, Evanston Illinois, 1997.
XU, Yi; WANG, Q.E. Component of intonation: what are linguistic, what
are mechanical/physiological? In: INTERNATIONAL CONFERENCE ON
VOICE PHYSIOLOGY AND BIOMECHANICS, 1997, Evanston Illinois.
Proceedings... 1997, Evanston Illinois, 1997. Disponvel em :
<http://www.homepages.ucl.ac.uk/~uclyyix/voice.html> Acesso em:
25 de out. de 2015.
YANG, B.; LUGGER, M. Emotion recognition from speech signals using
new harmony features. Signal Processing, 90, p. 1415-1423, 2010.
126
Sobre os autores
Amanda Lassak - Bacharel em Letras com habilitao e
licenciatura em ingls e em portugus em 2013; bolsista da PrReitoria de Pesquisa da Universidade de So Paulo,
desenvolvendo trabalho de Iniciao Cientfica sobre aspectos
da anlise automtica da entoao, na Unversidade de So
Paulo, em 2011.
Andr Ricardo de Souza - Bacharel em Msica com habilitao
em Composio e Regncia pela Universidade Estadual Paulista,
em 2004; Mestre em Msica pela Universidade Estadual
Paulista, com trabalho sobre a definio do gesto musical;
Doutor em Filologia e Lngua Portguesa pela Universidade de
So Paulo, com tese sobre as relaes entre a entoao nas
manifestaes vocais na fala e no canto, em 2014. Seu trabalho
se desenvolve na interface entre msica e linguagem, atuando
principalmente nas reas de tcnica e expresso vocal (canto e
fala), abordagens tericas da interpretao musical e
composio, e na investigao sobre a natureza do espetculo
dramtico-musical. professor adjunto na Universidade
Estadual do Paran, responsvel pelas disciplinas de canto coral
e regncia.
Dami Baz - Bacharel em Letras pela Universidade Estadual do
Mato Grosso do Sul em 1991; Mestre em Lingustica pela
Universidade de So Paulo, com trabalho sobre marcadores
conversacionais na lngua guarani, em 2007; Doutora em
Filologia e Lngua Portuguesa pela Universidade de So Paulo,
com trabalho sobre a entoao na fala e na msica em lngua
guarani, em 2011. Tem experincia no ensino de temas relativos
s reas de Lingustica e de Lngua Portuguesa. pesquisadora
tambm de lnguas de contato, da lngua e do canto indgena

guarani e do canto e da lngua guarani do Paraguai.
Daniel Oliveira Perez - Bacharel em Letras com habilitao em
Lingustica e em Portugus pela Universidade de So Paulo, em
2008; bolsista do CNPq com trabalho de Iniciao Cientfiica
sobre a anlise automtica da entoao na lngua portuguesa;
Mestre em Filologia e Lngua Portuguesa na Universidade de
So Paulo, com tese sobre a percepo da entoao das
variedades regionais do portugus do Brasil, com apoio da
CAPES; estgirio na University of York, com apoio da CAPES.
ATua nas reas de fontica, fonologia e msica, com nfase em
prosdia e anlise automtica da entoao em lngua
portuguesa.
Fernanda Consoni - Bacharel em Letras com habilitao e
licenciatura em Portugus e em Lingustica, pela Universidade
de So Paulo, em 2003; Mestre em Filologia e Lngua
Portuguesa pela Universidade de So Paulo, com trabalho sobre
percepo da fala a partir do acento lexical, em 2006, Doutora
em Filologia e Lngua Portuguesa pela Universidade de So
Paulo, com tese sobre percepo da fala Aspectos da
proeminncia tonal em Portugus Brasileiro, em 2011. Fez
estgio na Universit Libre de Bruxelles. Tem experincia na
rea de Lngua Portuguesa com nfase em fonologia e ensino de
portugus como segunda lngua. Atua principalmente nos
seguintes temas: fonologia, dificuldades fonologicas, escrita,
reconhecimento de fala, prosdia, acento lexical e lngua
portuguesa.
Gdalva da Conceio - Bacharel em Letras com habilitao e
licenciatura em Portugus e em Latim pela Universidade de So
Paulo, em 2014; bolsista do CNPq, desenvolvendo trabalho de
Iniciao Cientfica sobre a entoao de narrativas, na
Unversidade
de
So
Paulo,
em
2014.
Lucas Negri - bolsista do CNPq, desenvolvendo trabalho de

Iniciao Cientfica sobre aspectos da anlise automtica da
entoao, na Unversidade de So Paulo, em 2014.
Marcus Martins - Bacharel em Letras, com habilitao em
Lingustica e em Portugus, na Universidade de So Paulo, em
2010; bolsista do CNPq desenvolvendo trabalho de Iniciao
Cientfica sobre a entoao de narrativas; Mestre em Filologia e
Lngua Portuguesa pela Universidade de So Paulo, com
trabalho sobre percepo e controle da entoao, em 2013,
com apoio da CAPES. Tem experincia na rea de Lingustica,
atuando principalmente na rea de Fontica e Fonologia do
Portugus Brasileiro e de modelos matemticos aplicados a
Lingustica.
Maressa Vieira - Graduada em Letras pelas Faculdades
Integradas Regionais de Avar, em 2000; Mestre em Lingustica
pelsa Universidade de So Paulo, com trabalho sobre aspectos
fonolgicos da lngua portuguesa falada no interior de So
Paulo, em 2004; Doutora em em Filologia e Lngua Portuguesa
pela Universidade de So Paulo, com tese sobre mundializao
e diversidade cultural de crenas locais, em 2009. Coordena a
equipe de Avar no projeto " Aplicao do ExProsodia na rea
da Psicologia e na Medicina Veterinria", desde 2014. Tem
experincia na rea de Lingustica, com nfase em
Sociolingustica e Dialetologia, alm da rea de Lngua
Portuguesa, com nfase em Prosdia.
Mayara Sousa - Bacharel em Letras com habilitao em
portugus e em francs pela Universidade de So Paulo; bolsista
da Pr-Reitoria de Pesquisa da Universidade de So Paulo,
desenvolvendo trabalho de Iniciao Cientfica sobre aspectos
da anlise automtica da entoao, na Unversidade de So
Paulo, em 2011.
Natalina Costa - Bacharel em Letras com Licenciatura em
Portugus e em Ingls pela Universidade Federal de Mato
Grosso do Sul em 1985; graduada em Pedagogia para

Licenciados pela Universidade do Oeste Paulista, em 1991;
Mestre em em Letras pela Universidade Estadual Paulista, com
trabalho sobre a lngua guat, em 2002; Doutora em Filologia e
Lngua Portuguesa pela Universidade de So Paulo, com
trabalho sobre a entoao de mulheres guats e corumbaenses,
em 2011, com apoio da Fundect. Professora da Universidade
Estadual de Mato Grosso do Sul. Tem experincia na rea de
Letras, com nfase em Lngua Portuguesa. Professora no Curso
Mestrado profissional Profletras.
Renata Rosa - Bacharel em Letras, com habilitao e
licenciatura em Portugus e em Francs, pela universidade de
So Paulo, em 2010; bolsista da Pr-Reitoria de Pesquisa da USP
e, com trabalho de Iniciao Cientfica sobre percepo da fala,
em 2010; Mestre em Filologia e Lngua Portuguesa pela
Universidade de So Paulo, com trabalho sobre percepo da
fala nas finalizaes de frase da lngua portuguesa, em 2015,
com apoio do CNPq.
Thiago Martins - Bacharel em Letras com habilitao em
Lngustica e Portugus, em 2014; bolsista da Pr-Reitoria de
Pesquisa da Universidade de So Paulo, desenvolvendo trabalho
de Iniciao Cientfica sobre aspectos da anlise automtica da
entoao, na Unversidade de So Paulo, em 2011.
Vitor Pereira - Bacharel em Letras com habilitao em ingls e
em portugus pela Universidade de So Paulo, em 2014;
bolsista da Pr-Reitoria de Pesquisa da Universidade de So
Paulo, desenvolvendo trabalho de Iniciao Cientfica sobre
aspectos da anlise automtica da entoao, na Unversidade de
So Paulo, em 2011.
Waldemar Ferreira Netto - Bacharel em Letras com habilitao
em Portugus pela Universidade de So Paulo em 1985; Mestre
em Lingustica, com trabalho sobre a fonologia da lngua
portuguesa na fronteira Brasil-Paraguai, pela Universidade de
So Paulo, em 1989; Doutor em Lingustica, na rea de

educao escolar indgena guarani, pela Universidade de So
Paulo, em 1994; e Livre-docente em Fontica com trabalho
sobre a prosdia da lngua portuguesa na Universidade de So
Paulo, em 2006. Atualmente Professor Titular da Universidade
de So Paulo. Tem experincia na rea de Lingustica, com
nfase em Fonologia, atuando principalmente nos seguintes
temas: prosdia e fontica da lngua portuguesa portugus.
pesquisador bolsista do CNPq. Coordena os projetos "Anlise
automtica de manifestaes emocionais em PB: aplicaes do
programa ExProsodia", desde 2013, e "Aplicao do ExProsodia
na rea da Psicologia e na Medicina Veterinria", em
desenvolvimento a partir de 2014, ambos na USP. De 2007a
2013, coordenou o projeto "ExProsodia - Anlise automtica da
entoao na lngua portuguesa"

Coletanea ExProsodia 2016

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Coletanea ExProsodia 2016

Enviado por

Direitos autorais:

Formatos disponíveis

http://dx.doi.org/10.

Copyright by Waldemar Ferreira Netto

Todos os direitos desta edio reservados

Waldemar Ferreira Netto

honrosa exceo, os trabalhos de anlise da linguagem sempre

O conhecimento um fenmeno coletivo feito do homem para

Waldemar Ferreira Netto

da anlise instrumental da voz. Uma vez que o aplicativo no d

produo, no trabalho "Variaes entoacionais na lngua

Waldemar Ferreira Netto

produo das variaes dialetais da entoao na fala

Waldemar Ferreira Netto

Waldemar Ferreira Netto

Anlise da nfase prosdica em narrativas orais do ciclo de

Anlise automtica de manifestaes emocionais

Waldemar Ferreira Netto

msicas tristes ou alegres e, ainda, acompanhada da audio de

Anlise automtica de manifestaes emocionais em PB: aplicaes do

Quanto taxa de variao tonal, a mais rpida foi a

Waldemar Ferreira Netto

fala e era a variao mais importante para a discriminao das

Anlise automtica de manifestaes emocionais em PB: aplicaes do

portugus brasileiro foram selecionados e divididos igualmente

Waldemar Ferreira Netto

a separao de quais variveis esto de fato agindo para

Anlise automtica de manifestaes emocionais em PB: aplicaes do

Contribuies e desenvolvimentos futuros

Waldemar Ferreira Netto

Medicina Veterinria e Zootecnia da USP e com a Faculdade

Anlise automtica de manifestaes emocionais em PB: aplicaes do

independentes. Considerando-se que os valores obtidos

Waldemar Ferreira Netto

Figura 1. Na figura, o eixo das ordenadas representa as

Na medida em que, na fala, a produo de sons tem de ocorrer

Anlise automtica de manifestaes emocionais em PB: aplicaes do

propuseram a ocorrncia de um tom mdio ideal (TM) de F0,

Figura 2. Na figura acima, tem-se a representao do Ritmo

A supresso desse esforo desencadeia uma declinao pontual

Waldemar Ferreira Netto

Z(t)=S(t)+F(t)+E(t). O modelo de anlise apresentado permite a

Anlise automtica de manifestaes emocionais em PB: aplicaes do

objetivar-se a anlise automtica da fala e a populao ser

Waldemar Ferreira Netto

especficas 25-50 ms e 200-300 ms no giro temporal

Anlise automtica de manifestaes emocionais em PB: aplicaes do

em que o valor do Tom Mdio, Z cada uma das UBIs

Waldemar Ferreira Netto

Mdio. A pesquisa desenvolvida por Rosa (2015) corrobora

Anlise automtica de manifestaes emocionais em PB: aplicaes do

Os parmetros relativos frequncia partem do TM definido

Waldemar Ferreira Netto

medida em RMS para cada UBI. O parmetro IM_cv o

A percepo de variao em semitons

CONGRESSO NACIONAL DE FONTICA E FONOLOGIA, 10/CONGRESSO

Fernanda Consoni; Waldemar Ferreira Netto

O teste proposto tem por objetivo verificar qual variao de

A percepo de variao em semitons ascendentes em palavras isoladas no

A pergunta feita aos sujeitos, As palavras so iguais ou

Todas as slabas manipuladas (TM)

Slaba tnica manipulada (ToM)

Pares considerados sem variao (SV)

Os resultados demonstraram que h uma correlao perfeita

Fernanda Consoni; Waldemar Ferreira Netto