Escolar Documentos
Profissional Documentos
Cultura Documentos
PROSÓDIA
PLÍNIO A. BARBOSA
CAPÍTULO
1
Introdução
[Diferença espectral] p. 28
A diferença espectral (spectral balance, em inglês) foi avaliada por Sluijter e
van Heuven (1996) como uma medida que descreve, tão bem quanto a dura-
ção, o efeito de implementação do acento de uma sílaba tônica. Ela se refere
à diferença entre a intensidade de faixas de frequência de um som (o de uma
vogal, por exemplo) acima de 500 Hz, como as faixas de 500 a 1000 Hz, 1000
a 2000 Hz e 2000 a 4000 Hz, e a intensidade do mesmo som até 500 Hz. A in-
tensidade absoluta, mostram os autores, não varia de acordo com a tonicidade
da vogal.
[Ênfase espectral] p. 28
A ênfase espectral (spectral emphasis, em inglês) foi definida por Traunmüller
e Eriksson (2000) como uma medida acústica correlata do esforço vocal, isto
é, que se modifica proporcionalmente a esse esforço. De forma simplificada,
pode ser definida como a diferença entre a intensidade total de um som e a
intensidade numa faixa de frequência baixa para englobar toda variação da
frequência fundamental. O limiar para tanto pode ser definido de forma ope-
racional como sendo 500 Hz. Assim, a ênfase espectral de um som de fala pode
ser dada pela fórmula abaixo:
Ênfase espectral = I - I0 (dB)
Em que I é a intensidade total e I0 a intensidade do som de 0 a 500 Hz, ambas
em dB. Na prática, uma vez que os sinais de fala são armazenados de forma
Plínio A. Barbosa 3
digital, a frequência máxima disponível para análise, chamada de frequência
de Nyquist, é a metade da taxa de amostragem do sinal, quando de sua digita-
lização. Assim, para sinais armazenados à taxa de 44.100 Hz, habitual no caso
de CDs e gravadores digitais, a frequência máxima do sinal se situa em torno
de 22.050 Hz. Assim, nesse caso, a intensidade total considerada na fórmula
acima vai até 22.050 Hz. É importante, assim, verificar se os trechos de som
a serem comparados têm todos a mesma taxa de amostragem. Mais detalhes
sobre amostragem podem ser lidos no livro de Barbosa e Madureira (2015,
p. 134-140).
[Prosogram] p. 35
Prosogram de Mertens (2004), cuja URL é <https://sites.google.com/site/
prosogram/home>, é um programa dedicado à análise prosódica que permite
a transcrição e a análise de curvas de F0 procurando uma relação mais estrei-
ta com a percepção do pitch. Para tanto, o Prosogram produz uma estilização
das curvas melódicas que simula a percepção de pitch pelo ouvinte. Requer o
alinhamento dessas curvas com uma segmentação do sinal de fala em unida-
des silábicas e, a partir dela, calcula medidas para cada sílaba como duração,
valor de F0, direção e extensão do movimento melódico, bem como parâme-
tros globais como taxa de elocução, proporção de pausas silenciosas, gama
tonal e trajetória da curva melódica.
[ANALOR] p. 35
O programa ANALOR (Avanzi et al., 2008) é distinto dos demais porque com-
porta um motor de aprendizado voltado para o francês. Baseado em um ali-
nhamento feito pelo pesquisador entre arquivo de áudio e camada de anota-
ção, ocorre detecção automática de períodos a partir de variação melódica
global e local, bem como de pausas silenciosas. Em cada um desses períodos,
as sílabas proeminentes são detectadas automaticamente. Sendo assim, além
de ser restrito ao francês, tem uso específico no que toca a questão da pro-
eminência e segmentação do sinal de fala em termos de unidades menores,
muitas vezes coincidindo com enunciados. Na URL <http://www.lattice.cnrs.
fr/ressources/logiciels/analor/> é possível baixar o programa. No mesmo lu-
gar há um manualpara iniciantes.
Figuras
Figura 1.1 p. 23
Plínio A. Barbosa 5
Figura 1.2 p. 23
Figura 1.3 p. 26
Figura 1.5 p. 29
Plínio A. Barbosa 7
Figura 1.6 p. 33
Plínio A. Barbosa 9
[Segmentação da sílaba fonética] p. 40
Além desses aspectos, a delimitação das fronteiras da sílaba fonética não é ba-
nal, pois não há marcas claras de fronteira silábica na cadeia da fala. Tomemos
o enunciado 2.8@ (fala em leitura rápida) correspondente à sentença “O pasto
está apto para receber as vacas de leite.”, por um falante alagoano de cerca de
25 anos na época da gravação. Para melhor visualização dos espectrogramas
de banda larga, dividimos o enunciado nos trechos que podem ser vistos nas
Figura 1 (“o pasto está apto para”) e Figura 2 (“receber as vacas de leite”). A
leitura rápida é perfeitamente compreensível e foi escolhida para ilustrar a
dificuldade de delimitação da sílaba fonética e mesmo das palavras. Obser-
vemos na Figura 1, acompanhando o traçado pela transcrição fonética abai-
xo do espectrograma, que não houve realização das vogais finais de “pasto” e
“apto”, que o “st” de “pasto” e “está” se fundiram em [ʃtt], não sendo possível
delimitar as duas palavras, nem ter uma decisão adequada sobre a fronteira
silábica das sílabas de “pasto” e de “está”, ao menos em termos fonológicos.
Além disso, o “a” final de “está” se fundiu com o “a” de “apto”, não sendo pos-
sível determinar a fronteira entre as duas palavras e também de suas sílabas
fonológicas. Somente a preposição “para” tem suas sílabas fonéticas com asso-
ciação mais simples com as sílabas fonológicas. Se usássemos o critério da so-
noridade, fundamentado na maior intensidade do núcleo silábico com relação
a suas margens (ataque e coda), realizadas pelas consoantes, as sílabas fonéti-
cas desse trecho poderiam ser as assinaladas na transcrição da Figura abaixo.
Figura 1
Espectrograma de banda larga e transcrição de sílabas fonéticas do trecho
“O pasto está apto para [...]” de falante alagoano em leitura rápida.
Figura 2
Espectrograma de banda larga e transcrição de sílabas fonéticas do trecho
“[...] receber as vacas de leite.” de falante alagoano em leitura rápida.
[Unidades V-V] p. 40
A unidade V-V (ou VV) é uma sílaba fonética ancorada em seus limites pelos
inícios (onsets) de duas vogais consecutivas na cadeia da fala, independente-
mente da presença ou não de pausa silenciosa entre esses dois inícios de vo-
gal. A vantagem dessa unidade é sua eficiência em revelar a estruturação pro-
sódica do enunciado, conforme amplamente detalhado por Barbosa (2006).
[A mora] p. 40
A divisão da sílaba em ataque e rima mostrada na Figura abaixo não explica
a forma como ela é tratada ou separada em todas as línguas. Há fortes evi-
dências de que uma unidade prosódica básica em japonês seja a mora, uma
subunidade da sílaba, que a divide em moras μ como se vê abaixo.
Plínio A. Barbosa 11
Figura
Estrutura silábica em moras. Os parênteses assinalam que
o componente é opcional. Somente o núcleo V é obrigatório.
2.8 Enunciado.wav
Figura 2.2 p. 46
Plínio A. Barbosa 13
CAPÍTULO
3
O ritmo da fala
[Anacruse] p. 50
O grupo inicial, por vezes, é desconsiderado como grupo acentual, pois esse
é delimitado por acentos frasais, análogo ao caso dos demais 7 grupos, que
começam depois de um acento frasal e terminam com a sílaba forte, última
sílaba do grupo. Por conta disso, o grupo inicial é referido como anacruse, um
tipo de preparação ou preâmbulo. E isso vale tanto para línguas encabeçadas
à direita quanto à esquerda: o primeiro grupo acentual nas línguas do primei-
ro tipo começa depois da primeira sílaba forte, enquanto nas do segundo tipo,
o primeiro grupo acentual se inicia com a primeira sílaba forte. Toda sílaba
que antecede uma ou outra condição pertence ao anacruse. Da mesma forma,
para as línguas encabeçadas à direita, se há sílabas átonas depois da última
sílaba forte de cada verso, elas não fazem parte de nenhum grupo acentual no
verso. Por isso não são mesmo consideradas quando se contam as sílabas do
verso (no exemplo acima, ambos os versos terminam em sílabas fortes, por
isso foram contadas). No caso das línguas encabeçadas à esquerda, as síla-
bas que incluem a última sílaba forte do verso e as seguintes podem não ser
consideradas um grupo acentual, por falta de sílaba forte seguinte indicando
seu fim. Esse material sonoro final constitui um apêndice sonoro, que seria o
equivalente da anacruse, mas nesse caso em posição final.
[Tipologia rítmica] p. 51
A questão da tipologia rítmica das línguas surgiu atrelada à noção de isocro-
nismo na fala que diz respeito, num primeiro momento, à percepção da regu-
Plínio A. Barbosa 15
laridade temporal de unidades linguísticas. Como relatado por autores como
Lehiste (1977), Bertinetto (1989) e Barbosa (2000), foi apenas nos anos 1940
que a impressão de isocronismo tomou a forma de uma dicotomia ao contra-
por espanhol e inglês americanos. Ao empregar termos militares para compa-
rar a impressão de regularidade absoluta das sílabas do espanhol, usando a
expressão “ritmo de metralhadora”, à impressão de uma sucessão de contras-
tes forte/fraco do inglês usando a expressão “ritmo de código Morse”, Lloyd-
-James (1940, p. 25) acabou por sugerir que seria uma dicotomia, continuada
em Kenneth Pike (1945, pp. 34-35), mas agora com os rótulos respectivos de
syllable-timing (ritmo silábico) e stress-timing (ritmo acentual).
No entanto, para Pike o próprio inglês apresenta características de ritmo silábico
em situações específicas, como em alguns estilos de elocução e de trechos de
fala cantada, sendo o testemunho da fala de Martin Luther King muito esclare-
cedor nesse sentido, pois há longos trechos de ritmo silábico em seus discursos.
Dando exemplos dos dois tipos de língua, Abercrombie (1967) cita o inglês, o rus-
so e o árabe como de ritmo acentual e o francês, o telugu e o iorubá como de ritmo
silábico. Ver porém Barbosa (2000) para uma crítica a respeito da dicotomia.
[PURR] p. 64
PURR, abreviação de “Prosody Unveiling through Restricted Representation”, é
um programa de software que roda no Praat e que permite obter uma versão
manipulada do sinal de fala original, de tal forma que preserva o contorno de F0
e o padrão duracional enquanto troca os segmentos por uma mesma sequência
sonora, tornando impossível reconhecer o que foi dito, apenas como foi dito.
Pode ser usado quando se quer avaliar o papel da prosódia apenas em testes
de percepção. Foi desenvolvido pelos pesquisadores Sonntag e Portele (1998).
DelexFemTeste1 p. 63.wav
DelexFemTeste2 p. 63.wav
Figuras
Figura 3.1 p. 56
Figura 3.2 p. 57
Plínio A. Barbosa 17
Figura 3.3 p. 58
[ToBI] p. 69
O sistema de notação entoacional ToBI (Tone and Break Indices) foi desen-
volvido por um time de pesquisadores americanos (Silverman et al.,1992)
para anotar tons de fronteira e acentos de pitch. Utiliza dois níveis de tons de
fronteira (notados L% e H%) e cinco tipos de acentos de pitch (L*, H*, L+H*,
L*+H e H+!H*) para identificar as formas melódicas distintas desses acentos.
Além disso utiliza quatro níveis de fronteira (de 1 a 4). Ele foi adaptado ulte-
riormente a outras línguas, tendo versões para o alemão (G-ToBI) e espanhol
(Sp-ToBI).
[DaTo] p. 69
Como alternativa ao ToBI, Lucente (2012) desenvolveu o sistema DaTo, funda-
mentado na identificação pela percepção da presença ou ausência de frontei-
ras e proeminências, para depois notar a forma melódica do tom de fronteira
e do acento de pitch respectivamente. A probabilidade de divergência notacio-
nal é menor do que nos sistema baseados no ToBI.
Plínio A. Barbosa 19
Áudios (clique para ouvir)
4.1 Trecho Micromelodia p. 68.wav
4.2 ExemploTomPitch.wav
4.3 Enunciado Declinacão p. 72.wav
4.4 Enunciado Fofoca p. 71.wav
4.5 Enunciado Não Declinado p. 74.wav
4.7 Figura - Enunciado assertivo p. 74.wav
4.7 Figura - Enunciado dúvida p. 74.wav
Fofoca - Manipulado p. 70.wav
Incipit - Alemão p. 70.wav
Incipit - Francês p. 70.wav
Incipit - PB p. 70.wav
Incipit - PE p. 70.wav
Figuras
Figura 4.1 p. 68
Figura 4.3 p. 70
Plínio A. Barbosa 21
Figura 4.4 p. 72
Figura 4.4.1 p. 72
Figura 4.6 p. 73
Plínio A. Barbosa 23
Figura 4.7 p. 74
Alegria.wav
Tristeza.wav
Plínio A. Barbosa 25
Figuras
Figura 5.1 p. 84
Figura 5.2 p. 86
Figura 5.4 p. 88
Plínio A. Barbosa 27
Figura 5.5 p. 89
Figura 5.6 p. 90
Figura 5.8 p. 97
Plínio A. Barbosa 29
Figura 5.9 p. 98
Plínio A. Barbosa 31
Figura 5.11 p. 106
Figuras
Figura 6.1 p. 112
Plínio A. Barbosa 33
Referências
Plínio A. Barbosa 35
Uma passagem desta Prosódia, de Plínio A. Barbosa, resume de maneira
exemplar o conteúdo da obra: “A prosódia é o componente de nossa
fala que organiza nossos enunciados, moldando nossa maneira de falar
através do concurso de modificações articulatórias que se manifestam
acusticamente em unidades prosódicas. Essas unidades organizam a
nossa fala em níveis que vão da sílaba ao enunciado entoacional”.