Prosodia 2

LINGUÍSTICA
PARA O ENSINO SUPERIOR 2
PROSÓDIA
PLÍNIO A. BARBOSA
CAPÍTULO
1
Introdução
[Diferença espectral] p. 28
A diferença espectral (spectral balance, em inglês) foi avaliada por Sluijter e
van Heuven (1996) como uma medida que descreve, tão bem quanto a dura-
ção, o efeito de implementação do acento de uma sílaba tônica. Ela se refere
à diferença entre a intensidade de faixas de frequência de um som (o de uma
vogal, por exemplo) acima de 500 Hz, como as faixas de 500 a 1000 Hz, 1000
a 2000 Hz e 2000 a 4000 Hz, e a intensidade do mesmo som até 500 Hz. A in-
tensidade absoluta, mostram os autores, não varia de acordo com a tonicidade
da vogal.
[Ênfase espectral] p. 28
A ênfase espectral (spectral emphasis, em inglês) foi definida por Traunmüller
e Eriksson (2000) como uma medida acústica correlata do esforço vocal, isto
é, que se modifica proporcionalmente a esse esforço. De forma simplificada,
pode ser definida como a diferença entre a intensidade total de um som e a
intensidade numa faixa de frequência baixa para englobar toda variação da
frequência fundamental. O limiar para tanto pode ser definido de forma ope-
racional como sendo 500 Hz. Assim, a ênfase espectral de um som de fala pode
ser dada pela fórmula abaixo:
Ênfase espectral = I - I0 (dB)
Em que I é a intensidade total e I0 a intensidade do som de 0 a 500 Hz, ambas
em dB. Na prática, uma vez que os sinais de fala são armazenados de forma
Plínio A. Barbosa 3
digital, a frequência máxima disponível para análise, chamada de frequência
de Nyquist, é a metade da taxa de amostragem do sinal, quando de sua digita-
lização. Assim, para sinais armazenados à taxa de 44.100 Hz, habitual no caso
de CDs e gravadores digitais, a frequência máxima do sinal se situa em torno
de 22.050 Hz. Assim, nesse caso, a intensidade total considerada na fórmula
acima vai até 22.050 Hz. É importante, assim, verificar se os trechos de som
a serem comparados têm todos a mesma taxa de amostragem. Mais detalhes
sobre amostragem podem ser lidos no livro de Barbosa e Madureira (2015,
p. 134-140).
[Prosogram] p. 35
Prosogram de Mertens (2004), cuja URL é <https://sites.google.com/site/
prosogram/home>, é um programa dedicado à análise prosódica que permite
a transcrição e a análise de curvas de F0 procurando uma relação mais estrei-
ta com a percepção do pitch. Para tanto, o Prosogram produz uma estilização
das curvas melódicas que simula a percepção de pitch pelo ouvinte. Requer o
alinhamento dessas curvas com uma segmentação do sinal de fala em unida-
des silábicas e, a partir dela, calcula medidas para cada sílaba como duração,
valor de F0, direção e extensão do movimento melódico, bem como parâme-
tros globais como taxa de elocução, proporção de pausas silenciosas, gama
tonal e trajetória da curva melódica.
[ANALOR] p. 35
O programa ANALOR (Avanzi et al., 2008) é distinto dos demais porque com-
porta um motor de aprendizado voltado para o francês. Baseado em um ali-
nhamento feito pelo pesquisador entre arquivo de áudio e camada de anota-
ção, ocorre detecção automática de períodos a partir de variação melódica
global e local, bem como de pausas silenciosas. Em cada um desses períodos,
as sílabas proeminentes são detectadas automaticamente. Sendo assim, além
de ser restrito ao francês, tem uso específico no que toca a questão da pro-
eminência e segmentação do sinal de fala em termos de unidades menores,
muitas vezes coincidindo com enunciados. Na URL <http://www.lattice.cnrs.
fr/ressources/logiciels/analor/> é possível baixar o programa. No mesmo lu-
gar há um manualpara iniciantes.
4 PROSÓDIA para o ensino superior

Áudios (clique para ouvir)
1.1 Enunciado interrogativo p. 20.wav
1.2 Enunciado assertivo p. 20.wav
1.3 Enunciado Moto Verde p. 20.wav
1.4 Enunciado assertivo p. 24.wav
1.5 Enunciado interrogativo p. 24.wav
1.6 Enunciado Foco Contrastivo p. 29.wav
Voz Crepitante p. 34.wav
Voz Modal p. 34.wav
Voz Soprosa p. 34.wav
Figuras
Figura 1.1 p. 23
Figura 1.2 p. 23
Figura 1.3 p. 26

Figura 1.4 p. 27
Figura 1.5 p. 29
Figura 1.6 p. 33

CAPÍTULO
2
Unidades prosódicas
[Canonicidade da sílaba CV] p. 38

Dogil e Braun (1988) apresentam ainda as seguintes evidências empíricas:
• quando sujeitos são solicitados a sincronizar cliques com sílabas, o que
ocorre é o sincronismo dos primeiros com um ponto chamado p-center,
situado na vizinhança da transição CV;
• os parâmetros acústicos em torno das transições inicial (CV) e final (VC)
da vogal em sílabas simétricas (/pap/, /bab/, etc) não são simétricos no
seu uso. Os parâmetros da primeira transição (CV) podem ser usados
com sucesso como traços do ponto de articulação da consoante inicial,
mas os parâmetros da segunda transição (VC) assinalam proprieda-
des linguísticas relevantes para a comunicação apenas em casos muito
particulares;
• os falantes estabelecem articulações para consoante e vogal mais pre-
cisas e coordenadas temporalmente de maneira mais separada na
transição CV por oposição à transição VC.
Tuller e Kelso (1990; 1991) realizaram um experimento que mostrou haver

mudança na coordenação entre os gestos laríngeo e supralaríngeo da con
soante /p/ à medida em que as sílabas /ip/ e /pi/ são produzidas com taxa
de elocução cada vez mais rápida. De fato, na situação de aceleração da fala,
a coordenação relativa entre os gestos da sílaba VC (/ip/) muda para aquela
da sílaba CV (/pi/), enquanto a coordenação da sílaba CV se mantém estável
quando da aceleração da fala.
[Segmentação da sílaba fonética] p. 40
Além desses aspectos, a delimitação das fronteiras da sílaba fonética não é ba-
nal, pois não há marcas claras de fronteira silábica na cadeia da fala. Tomemos
o enunciado 2.8@ (fala em leitura rápida) correspondente à sentença “O pasto
está apto para receber as vacas de leite.”, por um falante alagoano de cerca de
25 anos na época da gravação. Para melhor visualização dos espectrogramas
de banda larga, dividimos o enunciado nos trechos que podem ser vistos nas
Figura 1 (“o pasto está apto para”) e Figura 2 (“receber as vacas de leite”). A
leitura rápida é perfeitamente compreensível e foi escolhida para ilustrar a
dificuldade de delimitação da sílaba fonética e mesmo das palavras. Obser-
vemos na Figura 1, acompanhando o traçado pela transcrição fonética abai-
xo do espectrograma, que não houve realização das vogais finais de “pasto” e
“apto”, que o “st” de “pasto” e “está” se fundiram em [ʃtt], não sendo possível
delimitar as duas palavras, nem ter uma decisão adequada sobre a fronteira
silábica das sílabas de “pasto” e de “está”, ao menos em termos fonológicos.
Além disso, o “a” final de “está” se fundiu com o “a” de “apto”, não sendo pos-
sível determinar a fronteira entre as duas palavras e também de suas sílabas
fonológicas. Somente a preposição “para” tem suas sílabas fonéticas com asso-
ciação mais simples com as sílabas fonológicas. Se usássemos o critério da so-
noridade, fundamentado na maior intensidade do núcleo silábico com relação
a suas margens (ataque e coda), realizadas pelas consoantes, as sílabas fonéti-
cas desse trecho poderiam ser as assinaladas na transcrição da Figura abaixo.
Figura 1
Espectrograma de banda larga e transcrição de sílabas fonéticas do trecho
“O pasto está apto para [...]” de falante alagoano em leitura rápida.

No caso da Figura seguinte, acompanhando o espectrograma pela transcrição
fonética abaixo, observe que a divisão em sílabas fonéticas é equivalente à das
sílabas fonológicas com exceção da palavra “leite”, em que a vogal final não é
pronunciada, fenômeno muito recorrente nas sílabas pós-tônicas “te” e “de”
em PB (cf. palavras como “acode”, “cante”, “bate”, “arde”) como também em sí-
labas que precedem as tônicas, mesmo de outras palavras, como na expressão
“te amo”.
Figura 2
Espectrograma de banda larga e transcrição de sílabas fonéticas do trecho
“[...] receber as vacas de leite.” de falante alagoano em leitura rápida.
[Unidades V-V] p. 40
A unidade V-V (ou VV) é uma sílaba fonética ancorada em seus limites pelos
inícios (onsets) de duas vogais consecutivas na cadeia da fala, independente-
mente da presença ou não de pausa silenciosa entre esses dois inícios de vo-
gal. A vantagem dessa unidade é sua eficiência em revelar a estruturação pro-
sódica do enunciado, conforme amplamente detalhado por Barbosa (2006).
[A mora] p. 40
A divisão da sílaba em ataque e rima mostrada na Figura abaixo não explica
a forma como ela é tratada ou separada em todas as línguas. Há fortes evi-
dências de que uma unidade prosódica básica em japonês seja a mora, uma
subunidade da sílaba, que a divide em moras μ como se vê abaixo.
Figura
Estrutura silábica em moras. Os parênteses assinalam que
o componente é opcional. Somente o núcleo V é obrigatório.
O elemento C da figura é o ataque da representação da Figura 2.1 que aqui se

associa com o núcleo (em vogais curtas) ou a primeira parte dele (em vogais
longas ou ditongos) para constituir a primeira mora. A segunda mora é forma-
da pela semivogal, ou segunda metade do “tempo” da vogal longa, e a eventual
consoante de coda.
A mora é muitas vezes descrita como unidade temporal ou extensiva, isto é,
uma forma de mensurar o “tamanho” da sílaba. Assim, seu conceito pode ser
estendido a outras línguas para explicar as noções de sílaba leve e sílaba pesa-
da. A sílaba leve é a formada por uma única mora e a pesada, por mais de uma.
Se recorrermos à divisão em ataque e rima, a sílaba pesada seria a que tem
uma rima ramificada, se considerarmos que a semivogal de um ditongo ou uma
vogal longa configuram dois elementos na rima. Para mais informações sobre
a mora em japonês, recomendamos a leitura de artigo de Kubozono (1989).

2.1 Enunciado p. 41.wav
2.8 Enunciado.wav

Figuras
Figura 2.1 p. 39
Figura 2.2 p. 46
CAPÍTULO
3
O ritmo da fala
[Anacruse] p. 50
O grupo inicial, por vezes, é desconsiderado como grupo acentual, pois esse
é delimitado por acentos frasais, análogo ao caso dos demais 7 grupos, que
começam depois de um acento frasal e terminam com a sílaba forte, última
sílaba do grupo. Por conta disso, o grupo inicial é referido como anacruse, um
tipo de preparação ou preâmbulo. E isso vale tanto para línguas encabeçadas
à direita quanto à esquerda: o primeiro grupo acentual nas línguas do primei-
ro tipo começa depois da primeira sílaba forte, enquanto nas do segundo tipo,
o primeiro grupo acentual se inicia com a primeira sílaba forte. Toda sílaba
que antecede uma ou outra condição pertence ao anacruse. Da mesma forma,
para as línguas encabeçadas à direita, se há sílabas átonas depois da última
sílaba forte de cada verso, elas não fazem parte de nenhum grupo acentual no
verso. Por isso não são mesmo consideradas quando se contam as sílabas do
verso (no exemplo acima, ambos os versos terminam em sílabas fortes, por
isso foram contadas). No caso das línguas encabeçadas à esquerda, as síla-
bas que incluem a última sílaba forte do verso e as seguintes podem não ser
consideradas um grupo acentual, por falta de sílaba forte seguinte indicando
seu fim. Esse material sonoro final constitui um apêndice sonoro, que seria o
equivalente da anacruse, mas nesse caso em posição final.
[Tipologia rítmica] p. 51
A questão da tipologia rítmica das línguas surgiu atrelada à noção de isocro-
nismo na fala que diz respeito, num primeiro momento, à percepção da regu-
laridade temporal de unidades linguísticas. Como relatado por autores como
Lehiste (1977), Bertinetto (1989) e Barbosa (2000), foi apenas nos anos 1940
que a impressão de isocronismo tomou a forma de uma dicotomia ao contra-
por espanhol e inglês americanos. Ao empregar termos militares para compa-
rar a impressão de regularidade absoluta das sílabas do espanhol, usando a
expressão “ritmo de metralhadora”, à impressão de uma sucessão de contras-
tes forte/fraco do inglês usando a expressão “ritmo de código Morse”, Lloyd-
-James (1940, p. 25) acabou por sugerir que seria uma dicotomia, continuada
em Kenneth Pike (1945, pp. 34-35), mas agora com os rótulos respectivos de
syllable-timing (ritmo silábico) e stress-timing (ritmo acentual).
No entanto, para Pike o próprio inglês apresenta características de ritmo silábico
em situações específicas, como em alguns estilos de elocução e de trechos de
fala cantada, sendo o testemunho da fala de Martin Luther King muito esclare-
cedor nesse sentido, pois há longos trechos de ritmo silábico em seus discursos.
Dando exemplos dos dois tipos de língua, Abercrombie (1967) cita o inglês, o rus-
so e o árabe como de ritmo acentual e o francês, o telugu e o iorubá como de ritmo
silábico. Ver porém Barbosa (2000) para uma crítica a respeito da dicotomia.
[PURR] p. 64
PURR, abreviação de “Prosody Unveiling through Restricted Representation”, é
um programa de software que roda no Praat e que permite obter uma versão
manipulada do sinal de fala original, de tal forma que preserva o contorno de F0
e o padrão duracional enquanto troca os segmentos por uma mesma sequência
sonora, tornando impossível reconhecer o que foi dito, apenas como foi dito.
Pode ser usado quando se quer avaliar o papel da prosódia apenas em testes
de percepção. Foi desenvolvido pelos pesquisadores Sonntag e Portele (1998).

3.5 Falantes Distintos p. 60.wav

3.5 Falantes Similares p. 60.wav
3.6 Trecho p. 61.wav
DelexFemTeste1 p. 63.wav
DelexFemTeste2 p. 63.wav
Figuras
Figura 3.1 p. 56
Figura 3.2 p. 57
Figura 3.3 p. 58

CAPÍTULO
4
Entoação da fala
[Sistemas de notação entoacional] p. 69

Um sistema de notação entoacional utiliza símbolos discretos como L (low,
vale) e H (high, pico) e sua combinação com eventuais diacríticos para repre-
sentar acento de pitch e tons de fronteira.
[ToBI] p. 69
O sistema de notação entoacional ToBI (Tone and Break Indices) foi desen-
volvido por um time de pesquisadores americanos (Silverman et al.,1992)
para anotar tons de fronteira e acentos de pitch. Utiliza dois níveis de tons de
fronteira (notados L% e H%) e cinco tipos de acentos de pitch (L*, H*, L+H*,
L*+H e H+!H*) para identificar as formas melódicas distintas desses acentos.
Além disso utiliza quatro níveis de fronteira (de 1 a 4). Ele foi adaptado ulte-
riormente a outras línguas, tendo versões para o alemão (G-ToBI) e espanhol
(Sp-ToBI).
[DaTo] p. 69
Como alternativa ao ToBI, Lucente (2012) desenvolveu o sistema DaTo, funda-
mentado na identificação pela percepção da presença ou ausência de frontei-
ras e proeminências, para depois notar a forma melódica do tom de fronteira
e do acento de pitch respectivamente. A probabilidade de divergência notacio-
nal é menor do que nos sistema baseados no ToBI.
4.1 Trecho Micromelodia p. 68.wav
4.2 ExemploTomPitch.wav
4.3 Enunciado Declinacão p. 72.wav
4.4 Enunciado Fofoca p. 71.wav
4.5 Enunciado Não Declinado p. 74.wav
4.7 Figura - Enunciado assertivo p. 74.wav
4.7 Figura - Enunciado dúvida p. 74.wav
Fofoca - Manipulado p. 70.wav
Incipit - Alemão p. 70.wav
Incipit - Francês p. 70.wav
Incipit - PB p. 70.wav
Incipit - PE p. 70.wav
Figuras
Figura 4.1 p. 68

Figura 4.2 p. 69
Figura 4.3 p. 70
Figura 4.4 p. 72
Figura 4.4.1 p. 72

Figura 4.5 p. 73
Figura 4.6 p. 73
Figura 4.7 p. 74

CAPÍTULO
5
A prosódia da fala
e suas interfaces

5.2 Enunciado Ovelha Raça p. 82.wav
5.3 Enunciado Ovelha Raça p. 82.wav
5.4 Enunciado Parentético p. 83.wav
5.5 Enunciado CAso p. 85.wav
5.6 Enunciado caSO p. 85.wav
5.7 Enunciado Ordem p. 88.wav
5.8 Enunciado FronNTerminal p. 89.wav
5.9 Trecho Narracão CPitanga p. 89.wav
5.10 Enunciado Disprosódia p. 93.wav
5.11 Trecho Malazarte_Pers1 p. 96.wav
5.12 Trecho Malazarte_Pers2 p. 96.wav
5.13 Enunciado Neutra-F p. 98.wav
5.14 Enunciado Sarcástica-F p. 98.wav
Alegria.wav
Tristeza.wav
Figuras
Figura 5.1 p. 84
Figura 5.2 p. 86

Figura 5.3 p. 87
Figura 5.4 p. 88
Figura 5.5 p. 89
Figura 5.6 p. 90

Figura 5.7 p. 92
Figura 5.8 p. 97
Figura 5.9 p. 98

Figura 5.10 p. 102
Figura 5.11 p. 106

CAPÍTULO
6
Teorias e modelos
Figuras
Figura 6.1 p. 112
Figura 6.2 p. 113
Referências
ABERCROMBIE, D. (1967). Elements of general phonetics. Edinburgh University Press.

BARBOSA, P. A. (2000). ‘Syllable-timing in Brazilian Portuguese’: uma crítica a Roy Major. D.E.L.T.A.
16, 369–402.
BERTINETTO, P. M. (1989). Reflections on the dichotomy ‘stress’ vs.‘syllable-timing’. Revue de phoné-
tique appliquée, 91(93), 99-130.
JAMES, A. L. (1940). Speech signals in telephony. Sir I. Pitman & sons, Limited.
PIKE, K. (1945). The intonation of American English. Ann Arbor. University of Michigan Press.
Uma passagem desta Prosódia, de Plínio A. Barbosa, resume de maneira
exemplar o conteúdo da obra: “A prosódia é o componente de nossa
fala que organiza nossos enunciados, moldando nossa maneira de falar
através do concurso de modificações articulatórias que se manifestam
acusticamente em unidades prosódicas. Essas unidades organizam a
nossa fala em níveis que vão da sílaba ao enunciado entoacional”.
Plínio A. Barbosa expõe ao leitor, de maneira simples e com a precisão

e solidez teórica que o caracterizam, a estruturação dos níveis prosó-
dicos da fala, abordando os aspectos perceptivos, articulatórios e fun-
cionais concernentes. São contempladas as características da entoação,
do ritmo, da qualidade de voz, da sílaba, da taxa de elocução, da taxa
de articulação e da pausa. A conceituação dos elementos prosódicos,
os exemplos e as ilustrações com gráficos cativam e esclarecem o leitor
ávido por conhecimentos sobre um aspecto da fala que apresenta alta
relevância comunicativa.
Prosódia, da nova coleção da Parábola Editorial, “Linguística para o En-

sino Superior”, é obra que emerge para permanecer como referência
intemporal, fruto amadurecido de pesquisa experimental sólida.
Sandra Madureira, PUC-SP

Prosodia 2

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Prosodia 2

Enviado por

Direitos autorais:

Formatos disponíveis

LINGUÍSTICA

PARA O ENSINO SUPERIOR 2

4 PROSÓDIA para o ensino superior

1.2 Enunciado assertivo p. 20.wav

1.3 Enunciado Moto Verde p. 20.wav

1.4 Enunciado assertivo p. 24.wav

1.5 Enunciado interrogativo p. 24.wav

1.6 Enunciado Foco Contrastivo p. 29.wav

Voz Crepitante p. 34.wav

Voz Modal p. 34.wav

Voz Soprosa p. 34.wav

6 PROSÓDIA para o ensino superior

8 PROSÓDIA para o ensino superior

[Canonicidade da sílaba CV] p. 38

Tuller e Kelso (1990; 1991) realizaram um experimento que mostrou haver

10 PROSÓDIA para o ensino superior

O elemento C da figura é o ataque da representação da Figura 2.1 que aqui se

Áudios (clique para ouvir)

2.2 Enunciado p. 45.wav

2.3 Enunciado p. 43.wav

2.4 Enunciado p. 45.wav

2.5 Enunciado p. 47.wav

2.6 Enunciado p. 47.wav

2.7 Enunciado p. 47.wav

12 PROSÓDIA para o ensino superior

Áudios (clique para ouvir)

3.2 Enunciado p. 52.wav

3.3 Enunciado p. 53.wav

3.4 Enunciado p. 56.wav

3.5 Falantes Distintos p. 60.wav

16 PROSÓDIA para o ensino superior

3.6 Trecho p. 61.wav

18 PROSÓDIA para o ensino superior

[Sistemas de notação entoacional] p. 69

20 PROSÓDIA para o ensino superior

22 PROSÓDIA para o ensino superior

24 PROSÓDIA para o ensino superior

Áudios (clique para ouvir)

5.4 Enunciado Parentético p. 83.wav

5.5 Enunciado CAso p. 85.wav

5.6 Enunciado caSO p. 85.wav

5.7 Enunciado Ordem p. 88.wav

5.8 Enunciado FronNTerminal p. 89.wav

5.9 Trecho Narracão CPitanga p. 89.wav

5.10 Enunciado Disprosódia p. 93.wav

5.11 Trecho Malazarte_Pers1 p. 96.wav

5.12 Trecho Malazarte_Pers2 p. 96.wav

5.13 Enunciado Neutra-F p. 98.wav

5.14 Enunciado Sarcástica-F p. 98.wav

26 PROSÓDIA para o ensino superior

28 PROSÓDIA para o ensino superior

30 PROSÓDIA para o ensino superior

32 PROSÓDIA para o ensino superior

Figura 6.2 p. 113

ABERCROMBIE, D. (1967). Elements of general phonetics. Edinburgh University Press.

Plínio A. Barbosa expõe ao leitor, de maneira simples e com a precisão

Prosódia, da nova coleção da Parábola Editorial, “Linguística para o En-

Sandra Madureira, PUC-SP

Você também pode gostar