Perguntas de PL

OBJETIVOS DO EXAME DE PSICOLOGIA DA LINGUAGEM
2022/2023 - Inês Oliveira
1. Compreender a distinção entre códigos e cifras.

As línguas humanas são códigos e os sistemas de comunicação de primatas não
humanos são cifras.
- Código: articulação dupla (articula o código fonético e o código semântico); os

elementos do código combinam-se, sendo que a relação entre eles nos indica qual é
a referência; é possível a produção de significado através da combinação
hierárquica de outros significados.
- Cifra: articulação única (cifras unitárias), os elementos da cifra indicam-nos qual a
referência através de uma relação direta, de um para um; produzem sequências
lineares de significados - sem a componente combinatória.
2. Compreender a distinção entre símbolos e índices e saber relacioná-la com a

distinção entre sistemas de comunicação humanos e o uso de “vocabulários” de
gritos de alerta na comunicação de outros primatas, denotando predadores distintos.
A linguagem é uma atividade simbólica: assenta sobre a consciência de que algo
(símbolo) é diferente de uma outra coisa (estado do mundo), mas que se relaciona com
essa outra coisa (simboliza).
Há evidências de que outras espécies realizam naturalmente atividades, aparentemente,

simbólicas.
- P.e macacos vervet, macacos de campbell, lémures de cauda anelada e macacos
capuchinhos de face branca têm gritos distintos, associados a comportamentos
distintos face ao predador que os ameaça.
- Estes animais não tem teoria da mente, por isso para eles tudo é verdade, sem
conceptualização de verdade (verdade implícita).
A distinção entre símbolo e coisa simbolizada num sistema de comunicação de outros

primatas só existe para o observador humano. Possivelmente, para o animal, a relação
em que se baseia o sistema é mais apropriadamente descrita como indicial e não de
simbolização (Um índice anuncia o seu referente por uma relação natural,
não-convencional, mais semelhante à relação do fumo com o fogo do que à de uma palavra
(símbolo) com o seu referente).
Os símbolos e os índices (tal como os ícones) são tipos de signos (unidade básica da
semiótica, segundo Pierce), que se distinguem tendo em conta a sua relação com o objeto.
- Índices: são signos que tem uma relação causal ou factual com o objeto que
representam (há uma relação mais natural e não convencional, do que nos
símbolos)
“aqueles cuja relação com o objeto consiste numa relação de facto”
ex: o fumo é um índice de fogo, relação entre assassino e vítima
- Símbolos: dependem de uma associação convencional ou arbitrária entre o

significante e o significado
“aqueles cuja relação com os objetos consiste num caráter imputado”
ex: palavras, símbolos matemáticos, signos linguísticos
3. Compreender o conceito de turn-taking

Levinson refere que o sistema de turn-taking é responsável pela organização interacional da
comunicação humana vocal. Contudo, deve ser anterior ao uso de vocalizações, visto estar
presente em todos os primatas. É o motor interacional e tem uma base instintiva.
O sistema de troca de turnos tem uma série de propriedades básicas (com pequenas
diferenças entre as linguagens):
● os turnos não tem um tamanho fixo mas tendem a ser curtos
(com cerca de 2 s de duração em média, embora possam ser turnos mais longos,
como, por exemplo, para contar uma história)
● as respostas são extremamente rápidas
● o sistema organiza os falantes de modo a minimizar a sobreposição
● o sistema é altamente flexível no que respeita ao número de falantes ou à
duração dos turnos
● muitas vezes, os turnos têm uma construção muito complexa, de tal modo que o
processamento cognitivo subjacente é altamente comprimido
O sistema é altamente eficiente: menos de 5% do fluxo de fala envolve dois ou mais

oradores simultâneos (a sobreposição modal é inferior a 100 ms), o intervalo modal
entre turnos é de apenas cerca de 200 ms e funciona com a mesma eficiência sem
contacto visual.
O ponto de vista dominante é que o sistema está organizado em torno de direitos a turnos
mínimos, sendo que o primeiro a responder ganha esses direitos e abdica deles quando
termina o turno. Os turnos são construídos a partir de unidades sintáticas, individualizadas
prosódicamente, de modo a que os participantes possam prever a conclusão do turno.
Alguns salientaram a existência de um componente de sinalização de fim de turno, mas
esta surge demasiado tarde para o início do planeamento da resposta, embora possa
funcionar como um sinal de lançamento para um turno previamente preparado.
Tanto quanto se sabe, o sistema geral empregue na conversação é fortemente universal,

com apenas ligeiras variações de tempo, e contrasta com outros sistemas de troca de
fala mais especializados, como os empregues em salas de aula, salas de tribunal e
briefings de imprensa presidenciais, que tendem a ser específicos de cada cultura.
Consequências cognitivas do sistema de tomada de vez

Em todas as línguas, o tempo de resposta modal (intervalos entre turnos) é de cerca de
200 ms - a duração média de uma única sílaba. Este valor está no limite do desempenho
humano para um simples sinal de partida com uma única resposta possível (uma pistola de
partida no início de uma corrida); o tempo de reação aumenta (fica mais lento)
sistematicamente com o número de escolhas entre tipos de resposta (Lei de Hick), e as
línguas têm um vocabulário de 50 000 palavras ou mais.
- Além disso, o sistema de produção de linguagem é notoriamente lento - a
preparação antes do início da produção demora 600 ms para uma única
palavra, se esta estiver primed, cerca de 1000 ms se não estiver, e cerca de 1500
ms para uma frase curta. A maior parte desta latência é causada pela codificação
lenta das formas fonológicas e dos gestos articulatórios. Por conseguinte, as
respostas devem ser planeadas no meio do turno que está a ser respondido (a
duração média do turno é de cerca de 2 s).
- A implicação do sistema de produção lenta é que, no uso interativo da língua, a
compreensão e a produção sobrepõem-se - é preciso planear enquanto se ouve e
se prevê o que o resto do turno vai conter. O sistema de tomada de vez depende
da previsão.
Para além de compreender simplesmente o sinal à medida que este chega, as condições
prévias para que B dê uma resposta sensata a tempo (cerca de 200 ms após o fim da vez
de A) são as seguintes:
(i) B deve tentar prever o ato de fala (detetar se o enunciado de A é uma pergunta, uma
oferta, um pedido, etc.) o mais cedo possível, porque é a isso que B vai responder
(ii) B deve começar imediatamente a formular uma resposta, passando por todas as fases
de conceptualização, recuperação de palavras, construção sintática, codificação fonológica,
articulação
(iii) Entretanto, B deve usar a sintaxe e a semântica do turno de A para estimar a sua
duração provável, escutando pistas prosódicas para o fecho;
(iv) assim que essas pistas forem detetadas, B deve dar a resposta.
Recentemente, tornou-se disponível alguma informação sobre cada uma destas fases, com
o EEG.
O reconhecimento de atos de fala não é trivial, porque não existe um mapeamento unívoco
da forma para a função: "Eu tenho um carro" pode funcionar como resposta a uma
pergunta, prelúdio de uma oferta de boleia ou recusa de uma oferta de boleia, tudo
dependendo do contexto (ex, respetivamente, "Vai de comboio?", "Acabei de perder o último
comboio", "Precisa de boleia?"). No entanto, neste tipo de contexto limitativo, o
reconhecimento do ato de fala demonstrou ser muito rápido, utilizando o EEG, nos primeiros
400 ms após o início do turno.
Assim que a compreensão identifica a função de um turno, a preparação da resposta pode

começar: numa tarefa interativa utilizando EEG, verificou-se que os processos de
produção se iniciam no espaço de 500 ms após a disponibilização de informação
suficiente - o sinal pode ser localizado em áreas de codificação da linguagem.
A estimativa temporal da duração de um turno pode utilizar a estrutura lexical, semântica e

sintática para prever, em casos favoráveis, a meio do turno, o ponto provável de conclusão,
adivinhando mesmo as palavras que se seguem. As manipulações mostram que a
semântica desempenha um papel importante nesta capacidade de previsão.
As pistas prosódicas, tais como as sílabas alongadas, ocorrem frequentemente no final

dos turnos e podem ser utilizadas pelos ouvintes - podem fornecer o sinal de "Vai" para a
produção da resposta. Isto explicaria o intervalo modal de 200 ms - próximo do tempo
mínimo de resposta humana.
A preparação para o lançamento do discurso, desencadeada por estas pistas, pode ser
observada no sinal de respiração através da pletismografia e reflete-se também nos
movimentos oculares dos espectadores. Há mais controvérsia sobre o papel do tom de
voz; filtrar o tom de voz pouco faz para diminuir os tempos de resposta, mas outras medidas
demonstram a sua utilização.
A tomada de vez pelo ser humano envolve a compreensão e a produção multi-tarefa,
mas a multi-tarefa na mesma modalidade é notoriamente difícil e, neste caso, envolve a
utilização de grandes partes do mesmo substrato neural.
Presumivelmente, isto só pode ser conseguido através da partilha rápida de recursos
cognitivos.
- Esta sobreposição da compreensão e da produção levanta problemas com a
teoria psicolinguística atual: ex, há propostas de que a compreensão utiliza
intrinsecamente o sistema de produção para prever o que está para vir, mas se o
sistema de produção já estiver envolvido no planeamento do output, dificilmente
estará disponível para ajudar a compreensão, exceto nas fases iniciais de um turno.
Os participantes são apressados pelo facto de as respostas lentas terem um significado
semiótico - tipicamente, transmitem relutância em cumprir a resposta esperada, uma
inferência que é melhor evitada mantendo o ritmo normal (além disso, os estrangulamentos
de processamento favorecem a movimentação tão rápida quanto possível).
A tomada de vez na conversação é, portanto, muito exigente do ponto de vista
cognitivo, utilizando a previsão e a preparação antecipada de turnos complexos para
conseguir transições de turno próximas do tempo mínimo de reação.
4. Saber relacionar o conceito de turn-taking com evidência empírica que justifica que
seja entendido por Levinson como sendo a expressão de um instinto- algo inato
(interactional engine).
Levinson argumenta a favor da existência de uma capacidade interacional distinta,
subjacente ao nosso comportamento comunicativo e à linguagem em particular. As
capacidades comunicativas podem ser dissociadas da linguagem: são antecedentes na
ontogénese e na filogenia e permitem que os seres humanos comuniquem eficazmente sem
linguagem, quando estão privados dela. Estas capacidades são, nas suas propriedades
cruciais, universais - relativamente invariantes - em todos os grupos culturais, em forte
contraste com a especificidade cultural da codificação linguística. Além disso, é esta
capacidade interaccional que está na base da própria possibilidade da linguagem: as
línguas são aprendidas no nicho interaccional, no âmbito da estrutura que este proporciona,
com atenção conjunta aos referentes que estão a ser nomeados, com o exercício da
reparação iniciada pelo outro e com todo o quadro funcional que as sequências de acções
(actos de fala) proporcionam. É a esta capacidade de interação que chamou "o motor da
interação".
Poderá ser feita a objeção de que esta capacidade de interação não é uma coisa única,
mas antes um conjunto de vários talentos e propensões, com diferentes origens
filogenéticas e diferentes padrões ontogenéticos de desenvolvimento.
Tudo isto é indubitável - o motor da interação não é um módulo Fodoreano, ou uma
mutação milagrosa única Chomskyana, ou uma faculdade psicológica. É antes um conjunto
de várias capacidades, instintos e motivações que trabalham em conjunto para tornar
possível o milagre da comunicação humana. É o apanhado de elementos úteis reunidos ao
longo de uma longa filogenia, parte da qual pode ser reconstruída por comparação entre
espécies, culturas e antepassados evolutivos.
A hipótese é a de que as conquistas marcantes da nossa espécie - a linguagem e a

acumulação cultural - dependem crucialmente de um substrato relativamente negligenciado
de capacidades interacionais humanas, que parecem ser em grande parte de carácter
instintivo e que, em conjunto, formaram o núcleo do desenvolvimento humano, tanto ao
longo da vida individual como ao longo da vida da espécie.
Levinson sugere que o instinto da tomada de turnos está profundamente enraizado na

nossa história evolutiva e possui vantagens adaptativas. Ele propõe que a tomada de turnos
facilita a comunicação eficiente, permitindo que os falantes se revezem de maneira
organizada e coordenada. Esse comportamento instintivo ajuda a evitar sobreposição
de fala, interrupções e conflitos na conversa.
. Uma das razões pelas quais Levinson apoia a ideia de que a tomada de turnos é um
instinto é a quase universalidade das práticas de tomada de turnos em diferentes
culturas. Ele argumenta que, se a tomada de turnos fosse apenas um comportamento
aprendido, esperaríamos ver uma variação significativa nas normas e práticas de tomada de
turnos entre as culturas. No entanto, os padrões observados na tomada de turnos são
notavelmente consistentes, indicando uma base instintiva compartilhada.
- Embora exista um padrão cultural substancial no comportamento conversacional, a
sua organização fundamental demonstrou recentemente ser fortemente universal. A
alternância de turnos, tem propriedades distintivas recorrentes em todas as línguas
que foram examinadas:
- o tempo é preciso, com intervalos de ~200 ms, a sobreposição de falas tende
a ser mínima e breve (~5% do fluxo de fala < 100 ms)
- Um falante recebe uma unidade mínima semelhante a uma frase como turno
inicial, que pode ser estendida por acordo tácito ou explícito a outra unidade
semelhante, mas depois de cada uma dessas unidades, pode ocorrer a
transição de falante (a menos que um falante seja especificamente
selecionado, o primeiro a começar torna-se o falante seguinte). Um estudo
de 10 línguas de cinco continentes mostrou apenas pequenas diferenças no
tempo (Stivers et al., 2009).
- De facto, a tomada da vez parece pertencer a um conjunto de propensões
subjacentes à comunicação humana, incluindo o carácter presencial que
permite a utilização de gestos e do olhar, bem como a motivação e o
interesse por outras mentes, que designaram "o motor da interação". Estas
tendências geram um grande número de universais de utilização da língua,
incluindo princípios de inferência pragmática e de reparação. A grande
proporção de horas de vigília passadas neste tipo de comunicação é também
notável (tendemos a passar 2 horas por dia, produzindo cerca de 1500
turnos). Embora haja variações e limitações culturais e individuais em todas
estas questões, todo o sistema de interação tem um carácter pan-humano.
. Levinson também destaca o surgimento precoce dos comportamentos de tomada de

turnos no desenvolvimento humano. Bebés com apenas seis meses de idade já
executam protoconversas (alternância de vocalização entre mãe e bebé antes de este ter
adquirido um sistema linguístico completo). Esse envolvimento precoce sugere que a
tomada de turnos não é apenas um comportamento aprendido, mas tem raízes inatas.
- A proto-conversação precoce envolve mais do que a correspondência contingente
de sinais, requer também o controlo do tempo - a tomada de vez da conversa
requer a coordenação entre duas ou mais partes, uma toma a palavra, a outra para.
Uma série de estudos recentes explorou o desenvolvimento desta coordenação
desde os três meses até aos três anos e meio e mais tarde. Os bebés de 3M
respondem com a mesma latência que as suas mães (mediana de ~550 ms), mas
curiosamente este tempo de resposta aumenta com a idade até aos 9M (1100 ms),
altura em que diminui novamente; no entanto, durante o mesmo intervalo de tempo,
a quantidade de sobreposições produzidas pelo bebé diminui de cerca de 40% para
~25%, mas as sobreposições permanecem curtas em duração (entre 600 e 500 ms).
Interpretamos isto como uma tendência instintiva para a resposta, mas com o
controlo temporal a desenvolver-se ao longo do tempo.
. Um terceiro argumento a favor da natureza biológica da tomada da vez pelos humanos

provém de dados comparativos dos primatas. Os sistemas vocais das 300 espécies de
primatas continuam pouco estudados, mas há relatos pormenorizados de turnos vocais
ou duetos alternados em todos os principais ramos da família: (i) dos lémures, (ii) dos
macacos do Novo Mundo, o saguim pigmeu Cebuella pygmaea, o titi Callicebus cupreus, e
os macacos-esquilo do género Saimiri; (iii) dos macacos do Velho Mundo, o macaco de
Campbell Cercopithecus campbelli, e (iv) dos macacos símios menores. É de esperar que
muitos outros casos existam. Exatamente como acontece com os bebés humanos, este
comportamento parece ser em parte instintivo e em parte aprendido.
Em resumo, Levinson argumenta que a universalidade entre culturas, o surgimento precoce

e a existência de turnos vocais noutras espécies. Ao enquadrar a tomada de turnos como
um instinto, ele enfatiza o seu papel fundamental na comunicação humana e a contribuição
para a coordenação e coesão social.
5. Saber relacionar o provável veículo expressivo (gestualidade) do turn-taking que

teria caraterizado o último antepassado comum de humanos, chimpanzés e bonobos,
com caraterísticas atuais da fala humana e dos mecanismos percetivos que
sustentam o seu uso na comunicação (cf. teoria motora da perceção dos sons da
fala).
Embora continue a ser possível que estas convergências sejam analogias (por evolução
paralela) em vez de homologias (por herança partilhada), também parece inteiramente
possível que o turn-taking vocal seja de origem ancestral da ordem de outros grandes
primatas.
- Um quebra-cabeças, no entanto, é o facto de a tomada de turno vocal não ser

relatada nos outros grandes primatas que dão prioridade aos sistemas de
comunicação gestual, no entanto, a tomada de turno sistemática ocorre na
modalidade gestual, exactamente como acontece nas línguas gestuais humanas.
Se a tomada de turno humana for homóloga à de outros primatas, isso sugeriria uma
evolução estratificada da comunicação humana.
- Os primeiros H. erectus herdam o sistema interacional gestual (turn taking gestual)
…e começam a inserir vocalizações “na máquina interacional”. Um “novo modo de
vida” ter-se-ia estruturado nas comunidades H. erectus, co-emergindo com ele o uso
de símbolos vocais linearmente organizados. Hipoteticamente, o processo culmina
com a otimização estrutural do cérebro humano para o uso desta linguagem nas
comunidades H. heidelbergensis.
- No H. heidelbergensis (talvez a origem do turn taking vocal tenha sido há 1 Milhão
A) consolida-se um léxico mental e o plano da “vez” gestual serve de matriz para a
organização temporal das produções vocais.
- As capacidades linguísticas modernas terão surgido há 500 Mil A, com genes
modernos, controlo respiratório e caixa vocal.
A variedade africana do Homo erectus (cerca de 1,6 Milhões A) parecia não ter o controlo
da respiração necessário para a fala moderna, mas pode (tal como os outros grandes
primatas) ter tido um sistema de gestos desenvolvido que ainda é visível na comunicação
humana. Algures antes do ancestral comum dos humanos modernos e dos neandertais
(600 000 A) todos os pré-requisitos genéticos e fisiológicos para a fala parecem ter sido
criados.
- Durante os milhões de anos que se passaram, o simples turn taking vocal pode ter
fornecido a estrutura para uma complexidade linguística em evolução, exatamente
como acontece com os bebés de hoje.
- As propriedades temporais da tomada de turno podem ter permanecido fixas,
enquanto material linguístico cada vez mais complexo foi sendo
progressivamente incluído nos turnos, com a diversidade linguística a ser
agora influenciada pela evolução cultural. Isto explicaria, de certa forma, como
o sistema moderno evoluiu com o processamento intensivo forçado pela
produção e resposta rápidas de turnos vocais breves.
NOTA!
Gentilucci e Corballis (2006) propõem que, em particular com os primeiros H. erectus, se
instalou o uso de uma linguagem gestual complexa, baseada num léxico mental que
associava por um lado movimentos manuais a significados (denotação de referentes) e,
por outro, gestos faciais sobretudo a elementos modificadores desses conteúdos,
talvez mesmo, especulativamente, a uma protossintaxe.
Progressivamente, talvez devido a maior solicitação das mãos para a manipulação de

instrumentos, os padrões de gestos faciais subalternizam os gestos manuais.
Com a complexificação dos modos de vida das comunidades de H. erectus vai-se
instalando e intensificando uma insuficiência do vocabulário disponível de gestos faciais e
manuais. Corbalis (2003) propõe que esta pressão leva finalmente à junção do sistema de
aprendizagem e controlo de vocalizações com o sistema de comunicação gestual-facial,
permitindo primeiro o contraste entre consoantes sonoras e surdas, e introduzindo depois
na comunicação os sistemas de contrastes entre as vogais.
Teria resultado deste processo o código fonético das línguas humanas atuais, que consiste,
a partir desta perspetiva, na associação do sistema gestual de contrastes entre as
consoantes surdas (gestual-visual, auxiliado por informação acústica: diferentes
turbulências criadas pelos gestos faciais – sibilações, trilos e percussões de ar comprimido),
com marcas diferenciadoras vocais (presença/ausência de vozeamento- sonoras/surdas),
que duplica o número de consoantes. O código fonético associa estes padrões de
gestos articulatórios com identidades abstratas de fonemas, e.g., /p/ /b/, cujas
combinações definem as entradas do léxico mental. Os vozeamentos das consoantes
sonoras integram-se num fundo de “canto” de variações entre vogais, cada uma delas
também associada pelo código a uma identidade fonética.
- A adição de sons aos gestos faciais aumentou a acessibilidade e criou distinções

entre, o que de outra forma seriam, gestos faciais idênticos, aumentando o repertório
fonológico. Por exemplo, as oclusivas sonoras [b], [d], [g], distinguem-se das
oclusivas surdas [p], [t], [k] devido à vocalização. Deste modo, a vocalização
(movimento do ar nas cordas vocais, que faz com que elas vibrem, na laringe, atrás
da maçã de Adão) permite duplicar muitos dos possíveis sons da fala.
Teoria motora da perceção dos sons da fala

- A PSF é realizada por um sistema especializado, que usa conhecimento relativo
ao modo de produção desses sons (a perceção dos fonemas “refaz” a sua
produção: representações fonológicas de palavras < [“pauta articulatória” (gesture
score) < movimentos articulatórios] < sons
- Deste modo, esta teoria basicamente indica que o processo de perceção
da fala segue o trajeto inverso ao da sua formação: neste caso
passaríamos dos sons da fala para os movimentos articulatórios que foram
feitos pelo nosso interlocutor, e depois haveria identificação das entidades
dos fonemas.
- O conhecimento motor não está apenas implicado na formação da fala, mas
também na sua perceção.
- O sistema de PSF é geneticamente determinado e exclusivo da espécie humana
- O SPSF é inato e encontra-se disponível pouco tempo após o nascimento.
De acordo com a teoria motora da percepção dos sons da fala, o processamento da fala
humana envolve mecanismos percetivos que são influenciados pela gestualidade,
sugere que os movimentos articulatórios envolvidos na produção da fala são essenciais
para a percepção e compreensão dos sons da fala.
6. Saber reconhecer as semelhanças entre os circuitos cerebrais relacionados com

vocalizações nos seres humanos e nas aves canoras.
Nenhum primata partilha as capacidades de aprendizagem vocal do H. sapiens. As
vocalizações de outros primatas pertencem a um repertório instintivo fixo. De entre os
mamíferos apenas os cetáceos e os morcegos dispõe de capacidades de aprendizagem
vocal bem desenvolvidas.
O substrato neuronal que permite o controlo e a aprendizagem vocais nos humanos é

homólogo ao que existe nas aves canoras, em resultado de um fenómeno de
evolução convergente, ou seja, evoluíram de forma independente.
- Núcleo motor nas aves é semelhante ao córtex motor laryngeal dos humanos
- Núcleo estriatal nas aves é semelhante às partes do estriado que controlam a
produção e aprendizagem da fala nos humanos
A maioria dos genes convergentes especializados operam no controlo motor e na

conectividade cerebral.
“A Área X das aves canoras, uma região estriatal necessária para a aprendizagem vocal,
era mais semelhante a uma parte do estriado humano ativada durante a produção da fala.
O análogo da AR (núcleo robusto do arcopálio) das aves, necessário para a produção de
canções, era mais semelhante às regiões do córtex motor da laringe em humanos que
controlam a produção da fala. Mais de 50 genes contribuíram para a sua especialização
convergente e foram enriquecidos em funções de controlo motor e de conectividade neural.
Estes padrões não foram encontrados nos não-aprendentes vocais, mas o AR das aves
canoras era semelhante à camada 5 do córtex motor dos primatas para outro conjunto de
genes, apoiando hipóteses anteriores sobre a semelhança destes tipos de células entre os
cérebros das aves e dos mamíferos.”
“Resumindo, comparações de transcriptomas cerebrais de aves canoras e de humanos em

relação a não aprendizes vocais identificaram especializações convergentes de expressão
genética em regiões cerebrais específicas do canto e da fala de aves canoras e de
humanos. Os perfis partilhados mais fortes relacionam os núcleos motores e estriatais de
aprendizagem do canto das aves, respectivamente, com o córtex motor laríngeo humano e
com partes do estriado que controlam a produção e a aprendizagem da fala. A maioria dos
genes associados funciona no controlo motor e na conectividade cerebral. Assim, o
comportamento convergente e a conectividade neural para uma característica complexa
estão associados à expressão especializada convergente de múltiplos genes.”
7. Saber reconhecer a relação entre o fenómeno de evolução convergente no controlo
e aprendizagem de vocalizações em humanos e aves canoras com hipóteses relativas
à história evolutiva da fala humana.
A capacidade de controlo e aprendizagem vocal em aves canoras tem sido comparada com
a evolução da fala humana. Acredita-se que existam semelhanças entre os processos
neuronais envolvidos na aprendizagem vocal em aves canoras e na aquisição da linguagem
em humanos. Essas semelhanças sugerem a possibilidade de uma convergência
evolutiva, ou seja, de que diferentes linhagens evolutivas tenham desenvolvido
mecanismos semelhantes para a produção e aprendizagem de vocalizações
complexas.
A existência de um sistema de comunicação gestual a ocupar, no último antepassado

comum de chimpanzés, bonobos e humanos, o nicho da alternância de vez na interação
torna improvável que a pressão para a seleção positiva do controlo e aprendizagem
vocais tenha assentado na eficácia comunicacional. O fenómeno da evolução
convergente na linhagem humana e nas aves canoras, (talvez já em curso no
Australopithecus africanus, 3.3 MAA), dos circuitos cerebrais responsáveis por esse
controlo e capacidade de aprendizagem sugere que, tal como nas aves canoras, essa
pressão tenha consistido em seleção sexual (preferência por parceiros reprodutivos com
melhores desempenhos na suas vocalizações).
Em The Descent of Man (1871), o próprio Darwin apresentou uma teoria "Caruso" para a
evolução da linguagem: os machos que cantavam melhor eram selecionados
sexualmente pelas fêmeas [como nas aves canoras, mas a direção oposta na seleção
sexual é igualmente possível para os seres humanos], o que, por sua vez, levou ao
aperfeiçoamento do aparelho vocal, como a cauda do pavão. Uma melhor competência
vocal foi acompanhada por um aumento geral do tamanho do cérebro que, por sua
vez, conduziu à linguagem - linguagem usada para o pensamento mental interno:
"Uma longa e complexa linha de pensamento não pode ser levada a cabo sem palavras,
faladas ou silenciosas, tal como um longo cálculo sem o uso de números ou álgebra"
(Darwin, 1871).
8. Compreender a natureza da operação Merge proposta por Chomsky e saber

relacioná-la com a evolução humana, identificando razões para a sua seleção
positiva.
Chomsky defende que terá sido através de uma mutação casual, ocorrida há cerca de 100
mil anos, que permitiu o desenvolvimento da faculdade linguística dos humanos modernos.
Para o autor, a mutação simples veio possibilitar uma operação cognitiva simples- Merge.
- O Merge que funde 2 representações pré-existentes, criando a partir delas um

conglomerado unitário, esta representação pode ser novamente fundida com outra.
- Permite a construção de representações com estruturas hierárquicas muito
complexas.
- A operação é recursiva, pois podemos conglomerar conglomerados previamente
produzidos e, hipoteticamente amodal pois qualquer tipo de representação (não)
linguística poderia ser objeto de conglomeração.
Vantagem adaptativa de transmissão exata de informação, permitiu a formação de memória

histórica coletiva. Tornou-a universal nos H. sapiens há cerca de 100.000 anos. É ela que
permite o processamento morfológico e sintático das línguas humanas contemporâneas.
9. Saber relacionar a operação Merge com o conceito de recursividade e com a

produtividade linguística. Nota: Na notação utilizada nas apresentações das aulas
teóricas, a expressão [bonito] + [menino] = [menino [bonito]] significaria que, ao
aplicar-se Merge ao significados dos morfemas da sequência “bonito menino”, se
obteria uma estrutura em que o significado de “menino” subordina/domina o
significado de “bonito”, que, por sua vez, complementa/modifica o significado de
“menino”.
A relação entre a operação Merge, o conceito de recursividade e a produtividade linguística
está ligada à capacidade de gerar um número infinito de estruturas gramaticais, a partir
de um conjunto finito de elementos linguísticos, organizadas hierarquicamente.
- Recursividade: refere-se à capacidade das estruturas linguísticas se repetirem

dentro de si mesmas de forma hierárquica, trabalha de forma repetitiva e iterativa,
combinando elementos de várias fontes de dados até que todos os elementos
estejam devidamente organizados e hierarquizados.
Pelo Merge, é possível criar estruturas recursivas, nas quais um constituinte
pode ser combinado com outro constituinte do mesmo tipo, gerando uma
estrutura hierárquica. Por exemplo, a frase "o homem que viu o menino que
eu conheço" contém uma recursão de cláusulas relativas.
- Produtividade linguística: está relacionada à capacidade de um orador produzir e

compreender uma infinidade de estruturas gramaticais bem formadas, mesmo
que nunca tenha encontrado ou produzido aquelas estruturas específicas
antes.
Através da operação Merge, que permite combinar elementos linguísticos de
diferentes maneiras, a gramática humana é capaz de gerar uma variedade
de estruturas sintáticas novas e expressar uma ampla gama de significados.
A operação Merge combina elementos de diferentes níveis sintáticos e semânticos para

criar uma hierarquia. Neste caso, "menino" é o núcleo da estrutura e "bonito" complementa
ou modifica o significado de "menino".
10. Saber relacionar a operação Merge com a capacidade expressiva das línguas
humanas nos níveis de organização morfológico, sintático e discursivo.
A operação Merge desempenha um papel essencial na capacidade expressiva das línguas
humanas nos níveis morfológico, sintático e discursivo, possibilitando a criação de novas
palavras, a formação de estruturas sintáticas complexas e a organização do discurso
de maneira coerente e coesa.
. No nível morfológico, o Merge permite a formação de palavras compostas ou

derivadas, onde morfemas são combinados para criar novos vocábulos com
significados distintos. Por exemplo, em inglês, o Merge de "black" (preto) e "bird"
(pássaro) resulta na palavra composta "blackbird" (melro). Esse processo de combinação
morfológica amplia a capacidade de expressão lexical, permitindo a criação de novos
termos para descrever conceitos específicos.
. No nível sintático, o Merge é responsável pela formação de estruturas de frases. Por via
da combinação de palavras, frases e constituintes, a operação Merge gera hierarquias
sintáticas complexas. Essa capacidade expressiva permite a construção de frases com
diferentes estruturas, como perguntas, negações, orações relativas, etc. O Merge também
permite a expressão de relações gramaticais, como sujeito-verbo-objeto, adjetivo-nome,
entre outras, fornecendo um meio para organizar as informações dentro da frase.
. No nível discursivo, o Merge contribui para a organização e coesão do discurso. Através
da operação Merge, é possível combinar frases e orações para formar parágrafos e
textos coesos. A estruturação hierárquica proporcionada pelo Merge ajuda na formação
de relações lógicas e temporais entre as partes do discurso, permitindo a expressão
de ideias complexas e a narrativa de eventos de forma coerente.

11. Compreender a estrutura e funções do código fonético
- Sistema Fonético: permite a identificação de diferentes movimentos articulatórios:
vogal /o/ (posterior, com língua levantada, o sistema cognitivo deteta estes
movimentos sem termos consciência, depois entramos na consoante /r/ (que é
vibrante, na parte de trás do véu palatino).
- O Sistema Cognitivo deteta a vibração, que é produzida cá atrás, e que as
cordas vocais estão fechadas nesta vibração, e depois toda essa informação
vai sendo traduzida para identidades abstratas de fonemas que, aí sim,
somos capazes de tomar consciência, que é o output do código
fonético.
INPUT: Componentes articulatórios percecionados (traços fonéticos)

- [+post +abr] [+ocl+lab+sonor+nas]…
OUTPUT: Identidades abstratas de fonemas
- /ɔ/ /m/ /ɐ/ /ɨ/ >> acesso ao léxico
O código fonético é uma parte essencial da linguagem e é responsável por

representar os sons da fala de forma sistemática e convencional. Ele consiste num
conjunto de símbolos fonéticos usados para transcrever foneticamente os sons presentes
na fala.
- Temos, neste código, a operar componentes articulatórios na criação de imagens
acústicas, o código fonético identifica os movimentos articulatórios e emerge a
identidade abstrata dos fonemas que constituem, p.e. a palavra “/h/ /o/ /m/ /e/ /m/”.
- Código Fonético (patamar articulatório do funcionamento das línguas):
- Movimentos Articulatórios -> fonema – sequência percebida e descodificada
É no interior dos signos que se articula o funcionamento do código semântico e o

código fonético!
- O significante/representamen do signo corresponde ao código fonético
12. Compreender o papel do momento da inserção da voz (Voice Onset Time, VOT) e
da duração das turbulências na codificação da identidade dos fonemas da fala
humana.
- VOT (é uma variável contínua): o breve instante que decorre entre o movimento
inicial dos órgãos da fala, quando se começa a articular um som vocal, e a vibração
da corda vocal.
- Por outras palavras, é o tempo que decorre entre a libertação do fecho e o início da
vocalização da vogal seguinte; é um tempo relativo, tempo que torna como
referência a libertação da oclusão, momento em que o som sai para o exterior.
- Se o início da vocalização ocorrer antes da oclusão, o VOT é negativo. Caso
contrário, o VOT é positivo.
- Fronteira fonémica de consoantes oclusivas sonoras/surdas em fala “normal”:

25 ms (=sonora) > VOT > 25 ms (=surda), o que as distingue é o momento em que
as cordas vocais começam a vibrar.
- Consoantes oclusiva sonoras: VOT <25 ms (ex: b,d,g) - as cordas vocais começam
a vibrar muito cedo, antes do movimento articulatório
- Consoantes oclusivas surdas: VOT >25 ms (ex: p,t,k)- as cordas vocais começam a
vibrar tardiamente, tem um momento inicial de turbulência, o impacto do ar no
exterior, pelo que não há uma intervenção das cordas vocais no processo de
identificação. (com cordas vocais o f torna-se um v)
- A duração das turbulências serve de base para a codificação de
diferentes consoantes.
- Consoantes oclusivas surdas: 10-15 ms (travo a saída do ar e acumulo
pressão) (ex: p, t, k)
- Consoantes constritivas fricativas: 100 ms (não impeço completamente a
saída do ar mas restrinjo-a de forma significativa, é algo tipo assobio) (ex: f,
s, c, ç, x, ch)
- Presença de voz (vibração das pregas vocais) e consoantes
constritivas fricativas: distinção entre consoantes constritivas fricativas
surdas (/f/, /s/, /x/) e sonoras (/v/, /z/, /j/).
13. Compreender a estrutura e funções do código semântico.

- Sistema Semântico: Faz a representação e processamento do significado
lexical. Recebe como input formas léxico-semânticas, componentes de significado,
que dizem respeito ao verbo bater (que poderia ser decomposto, tal como a palavra
rapaz, que seria humano, masculino e não adulto). Mas assumimos as palavras
como organizadas já, verbo bater, rapaz, bola… O trabalho do código semântico é
traduzir esta configuração para um esboço quase perceptivo: um padrão que
corresponderia de uma forma grosseira a UMA ESTRUTURA DE UM ASPETO
VISUAL PASSÍVEL DE COMPREENDER ESTA FRASE.
INPUT: Componentes dos significados lexicais (conceitos atómicos/traços (distintivos)
semânticos)
+HUMANO+MASCULINO+ADULTO
OUTPUT: Representação quasi-percetiva = 2.5D sketch de Marr (1982)) uma ativação do

sistema visual (mundo final, através da ativação de conceitos e informação que vai para o
córtex visual).
Através da Teoria da mente >> a representação gerada é situada num modelo da
mente do interlocutor, não no modelo da realidade exterior
- Este código gera uma sobreativação no sistema de processamento visual que

corresponde aos traços imagéticos que deverão estar presentes no espectro visual
para que este possa ser designado pela palavra “homem”.
- Código semântico: pai do irmão vs irmão do pai -> duas entidades distintas, mas
com os mesmos elementos a serem utilizados (a combinatória dos elementos é que
realiza a operação para o exterior).
- Este procedimento é uma forma de analisar o significado em termos de
características semânticas (+ animate, -animate, +human, -human, +male, -male),
que podem ser usadas como características básicas envolvidas na diferenciação de
cada palavra na linguagem.
- Também é crucial num nome para ser o sujeito do verbo, suplementando a análise
sintática com características semânticas.
É no interior dos signos que se articula o funcionamento do código semântico e o

código fonético!
- O significado/interpretante do signo corresponde ao código semântico
14. Compreender o papel atribuído pela teoria da linguagem e simulação situada

(Language and Situated Simulation theory, LASS) às simulações nos subsistemas
modais do sistema cognitivo humano durante a compreensão de linguagem.
Usamos um sistema atencional poderoso para nos focarmos em componentes da
experiência multimodal e formar conceitos que representam conhecimento sobre eles.
Após nos focarmos em x conceito, outros conceitos desenvolvem-se para representar essa
categoria.
- O cérebro capta estados modais durante a perceção, ação e instrospeção, e
depois simula estes estados para representar conhecimento.
- Na perceção de cães, o cérebro capta estados modais nos sistemas visual,
auditivo e somatossensorial sobre como os cães são fisicamente, soam e o
seu toque.
- Na interação com cães, o cérebro capta estados modais nos sistemas motor
e proprioceptivo sobre ações apropriadas.
- Durante as interações, o cérebro também capta estados introspectivos
associados com afeto e operações mentais.
- No futuro, quando representando o conhecimento sobre cães, o cérebro
tenta reativar estes estados multimodais, tipicamente apenas é parcialmente
bem-sucedido.
- As simulações resultantes dos estados cerebrais associados com a
convivência com cães podem ser usados para vários fins, como inferência,
linguagem e pensamento.
- Assim que o sistema linguístico começa a reconhecer a palavra apresentada, a

palavra começa imediatamente a ativar simulações associadas. As formas
linguísticas associadas com a palavra também ficam ativas e começam,
também elas, a ativar simulações. Assim, as formas linguísticas ativadas servem
de apontadores para simulações que possam ser potencialmente úteis para
representar o significado da palavra.
- A informação correlacionada nas áreas cerebrais visuais, motora, auditiva e
introspectiva ficam ativas para representar o conceito numa situação
semelhante, visto que as simulações são situadas.
- Assume-se que estas simulações são ativadas de forma automática e rápida, mas
podem não dominar a cognição consciente deliberada, de forma imediata.
- Assim que a palavra é reconhecida, assume-se que as formas linguísticas
associadas são geradas como inferências, e como apontadores para a informação
conceptual associada.
A teoria da linguagem e simulação situada, retém alguns aspetos da análise

componencial. Os “componentes” não pretendem no entanto ser atómicos, e são ainda
palavras, designadamente um primeiro núcleo de palavras mais diretamente associado
à palavra que iniciou o acesso ao léxico. A partir deste núcleo outras palavras são
ativadas. Todas elas constituem apontadores para simulações nos processadores modais
do sistema cognitivo (visual, auditivo, motor, introspetivo (= estados internos como afeto,
motivação, intenções, meta-cognição, etc.))
A forma léxico-semântica (início do processo) e simulação situada pode ser relacionada
com a distinção de Frege entre sentido (condições que o mundo tem que satisfazer para
que a frase seja verdadeira- definição do conceito) e significado (verdade da frase num
mundo que satisfaz essas condições- há uma componente experiencial tendo em conta o
uso da palavra/ frase).
- O significado frásico é acedido simulando uma transformação do contexto/situação
atual, que torna a frase verdadeira.
15. Compreender o significado do termo “situada” na expressão “simulação situada”,

tal como utilizada na LASS.
As representações de conhecimento são situadas pois, em vez de serem abstratas, são
simuladas no contexto de situações prováveis, no contexto de settings, ações, eventos
e introspeções relevantes.
- A presença de informação situacional prepara o agente para ação situada, para
a interação com os membros do contexto. Em vez de apenas representar
conhecimento foco do interesse, como uma entrada num dicionário ou enciclopédia.
Informação correlacionada nas áreas cerebrais perceptuais, motoras e
introspectivas ficam ativas para representar o conceito numa situação
provável.
. Ex: A frase “traz-me uma escada”:
- Se eu for funcionária de uma pequena biblioteca, a minha simulação será de
uma escada não muito grande, para chegar aos livros.
- Se eu for pintar uma casa, a minha simulação será de uma escada grande.
. Ex: “Andar” ativa códigos motores + representações visuais, o significado da palavra é
uma nuvem de ativação.
16. Compreender o papel da “teoria da mente” na compreensão da linguagem e saber

relacioná-la com o conceito de “simulação situada”.
A simulação situada é possível devido à teoria da mente.
- Teoria da Mente: Capacidade de inferir os estados mentais do próprio e de outros, e

utilizar esse conhecimento para prever as ações dos mesmos. No fundo, é o
simulacro dos sistemas cognitivos de outras pessoas.
- A representação gerada é situada num modelo da mente do interlocutor, não
no modelo da realidade exterior.
- Há algumas fases até ao aparecimento do estímulo no sistema cognitivo. Não
podemos inserir diretamente o resultado da interpretação de “O homem com a bola”
no mundo exterior, visualizar literalmente isso, senão estaríamos a alucinar. A Teoria
da Mente permite-me entender que o interlocutor quer falar de um homem com uma
bola, qual o contexto, e assim fazer a simulação situada,
17. Compreender os conceitos de “léxico mental” e de “sistema sintático” e saber

relacioná-los com a integração do funcionamento dos códigos fonético e semântico.
O sistema sintático e o léxico mental são os dois mediadores entre o código fonético
(output: entidades abstratas de fonemas) e o código semântico (input: componentes de
significado léxico-semânticos).
● Léxico mental - contacto entre os dois códigos. Corresponde ao dicionário mental,

tem as entradas e o significado das palavras, associando os fonemas à
configuração de componentes de significado que corresponde ao conceito
subjacente a essa sequência de fonemas. Léxico mental tem a função de dar
ao código semântico as componentes de configuração de significado.
○ (tradução de fonemas para o seu significado)
○ Permite a compreensão da linguagem
- Uma entrada lexical para uma palavra é tipicamente modelada como uma
representação complexa feita de: uma forma semântica (significado da palavra nas
frases que a contém), uma forma gramatical (categoria gramatical), uma forma
morfológica (estrutura morfémica), uma forma fonológica e uma forma ortográfica.
- O acesso lexical a partir da forma ortográfica está dissociado do acesso a
partir da forma fonológica, configurando léxicos mentais parcialmente
segregados.
Nota: inputs – é o processo de entrada no léxico mental. É um processo que vai estar
constantemente à procura de uma correspondência entre a lista de entidades de fonemas e
entradas no nosso dicionário mental. Por exemplo, o processo de acesso lexical, mal
aparece a sequência “ra” vai logo procurar no léxico mental se há uma entrada com isso.
● Sistema sintático: Permite transformar um conjunto desordenado de símbolos

disponíveis para a produção, num plano de produção da frase. Diz por que
ordem é que vou transmitir as palavras e que preposições vou utilizar para que haja
uma sequência que denote o que pretendo informar.
○ (organiza os blocos de componentes de significado no primeiro patamar de
significado da frase com a junção do significado das palavras)
○ Ordem e palavras funcionais que comunicam ao ouvinte o “algoritmo” da
frase.
O sistema sintático permite: Linearizar as configurações que representam o conteúdo

semântico que se pretende comunicar; Recuperar de uma sequência linear de elementos a
configuração que representa o conteúdo semântico que se pretende apreender;
Compatibilizar a natureza configuracional não-linear dos conteúdos semânticos com a
sequenciação linear imposta pela utilização do aparelho vocal como dispositivo de
comunicação.
A relação entre o sistema fonético e o sistema semântico deverá ser: Mediada, uma vez que
os outputs de cada um deles são de natureza distinta dos inputs aceitáveis pelo outro.
18. Saber relacionar o léxico mental e o sistema sintático com as principais

localizações cerebrais envolvidas na computação das funções desses sistemas.
- Léxico mental: refere-se ao armazenamento e processamento das palavras e dos

seus significados.
● Área de Wernicke: Situada no lobo temporal esquerdo, a área de Wernicke
desempenha um papel importante na compreensão da linguagem.
- Sistema sintático: lida com a estrutura e a organização das frases e das relações
gramaticais entre as palavras.
● Área de Broca: Localizada no lobo frontal esquerdo, a área de Broca está
envolvida na produção e processamento da estrutura sintática da
linguagem.
Fascículo arqueado: é uma via de comunicação entre as áreas de Broca e Wernicke, e

desempenha um papel crucial na integração entre a produção e a compreensão da
linguagem. O fascículo arqueado conecta as áreas responsáveis pela sintaxe e pelo
significado.
19. Saber relacionar a síndroma afásica de Broca com a organização do sistema

linguístico humano (códigos que esse sistema integra e subsistemas que asseguram
a conectividade destes).
20. Saber relacionar a síndroma afásica de Wernicke com a organização do sistema
linguístico humano (códigos que esse sistema integra e subsistemas que asseguram
a conectividade destes).
21. Saber diferenciar as síndromas afásicas de Broca e de Wernicke.
- Área de Broca: Pars Triangularis e Pars Opercularis da circunvolução frontal inferior
(Hemisfério esquerdo/dominante) – Áreas de Brodmann 44 (córtex pré-motor) e 45
(córtex pré-frontal).
- Afeta o sistema sintático
● Sistema fonético: Não há perturbação do código fonético. A afasia de Broca afeta

principalmente as capacidades de expressão, incluindo dificuldades em
produzir um discurso fluente. Os indivíduos com esta síndrome apresentam
frequentemente uma articulação deficiente (disartria quando na forma pura),
dificuldade em combinar fonemas - as palavras são produzidas com pausas
indevidas. Pode haver mutismo articulatório (anartria, em casos graves). Há
alterações profundas na articulação e prosódia da língua - pode parecer um
“sotaque” de um estrangeiro.
○ desintegração fonética
● Sistema morfológico: pode afetar a estrutura e a formação das palavras. Os

indivíduos podem apresentar dificuldades na produção de formas complexas de
palavras, como inflexões de palavras (plurais, tempos verbais) e derivações
morfológicas (adição de prefixos ou sufixos).
○ agramatismo
● Sistema sintático: discurso agramático e telegráfico, visto que não são capazes de
produzir frases completas. Os indivíduos podem ter dificuldades com a ordem das
palavras, muitas vezes dizem palavras soltas (substantivos, adjetivos e verbos)
as palavras funcionais estão ausentes e são incapazes de usar frases
complexas.
○ agramatismo
- Área de Wernicke: Porção posterior da circunvolução superior do lobo temporal

(Hemisfério esquerdo/dominante) – Área de Brodmann 22 posterior.
- Afeta o léxico mental
● Sistema fonético/fonologia: A perturbação do código fonético prejudica a
capacidade de perceber e processar os sons da fala com precisão. Há a
perturbação de todos os comportamentos expressivos: repetição, nomeação, leitura
em voz alta, escrita livre e ditado.
○ há compromisso do código fonémico (receção): não “ouve” o interlocutor nem
a si próprio - não há identificação de entradas no léxico mental a partir da sua
forma fonológica
● Sistema semântico: envolve deficiências no processamento semântico, que se

relaciona com o significado das palavras e as suas associações. Os indivíduos
podem ter dificuldade em compreender e recuperar os significados adequados
das palavras, o que resulta em parafasias semânticas (substituição de palavras
por palavras semanticamente relacionadas mas incorrectas).
○ Embora, geralmente exista a utilização correta de palavras funcionais: frases
bem formadas mas com seleção de palavras aparentemente aleatória
(parafasias verbais/semânticas), e por vezes parafasias fonémicas.
● Sistema sintático: pode afetar o processamento sintático, embora seja menos

frequente, geralmente exista a utilização correta de palavras funcionais, mas pode
haver dificuldades na produção de frases gramaticalmente correctas. Os indivíduos
com esta síndrome podem apresentar uma estrutura de frases deficiente e
dificuldades com a ordem das palavras e as funções gramaticais.
○ Os indivíduos podem ter um discurso fluente e bem articulado, mas é
frequentemente caracterizado por neologismos (palavras inventadas ou
sem sentido) e substituições/desaparição de palavras (substantivos, adjetivos
e verbos podem estar ausentes).
- Na afasia de Wernicke existe défice na mobilização de conhecimento lexical e a

compreensão da linguagem está afetada. Caracteriza-se por anosognosia (a pessoa
não está consciente da sua doença, provavelmente porque a B22 está perto de
sistemas de memória), pelo que os doentes são bastantes reativos e tem um humor
positivo, é comum em idades mais avançadas (+ 50A).
- Na afasia de Broca existe défice na mobilização de conhecimento sintático e é uma

afasia de expressão. Há uma consciência muito vívida da doença, pelo que o humor
é frequentemente depressivo, pode haver hemiplegia do lado direito (paralisia do
lado oposto). Aqui a compreensão está aparentemente preservada na conversação
corrente, mas quando são frases com sequências inabituais, a compreensão está
afetada (a compreensão residual não se deve a uma compreensão sintática, mas
sim de conhecimento geral).
- Nota: em nenhuma destas perturbações o pensamento está alterado, é apenas um

problema linguístico!
22. Saber relacionar os conceitos de competência e desempenho (performance)

linguísticos com a produtividade linguística.
A capacidade de produção do conhecimento linguístico pode ser perspectivada e estudada
a dois níveis de abstração: enquanto geradora de frases e enquanto geradora de
enunciados.
- Enunciados (objetos concretos/comportamentos verbais observáveis):

Instanciações reais do conhecimento linguístico detido por alguém e utilizado
numa circunstância particular. Os enunciados refletem assim a interação desse
conhecimento com as caraterísticas do sistema cognitivo que o representa e usa, e
da situação de comunicação, que motiva a forma particular que assume esse uso.
São comportamentos observáveis, determinados por variáveis cognitivas e
situacionais.
- Um enunciado sem erros, na medida em que é um comportamento e reflete
portanto o contributo de variáveis cognitivas e situacionais, continuará a ser
designado como “enunciado”, não como “frase”.
- Frases (objetos teóricos/abstratos): “Cálculo” teórico do que seria uma
instanciação direta e perfeita do conhecimento linguístico, SEM interação com
as caraterísticas do sistema cognitivo que representa e usa esse conhecimento e
da situação de comunicação. São a instanciação de um conhecimento linguístico
situado num nível de abstração superior ao do conhecimento que reside num
sistema cognitivo humano.
Em correspondência com a distinção frase / enunciado, o conhecimento linguístico pode

ser estudado com foco na competência linguística (objeto de estudo da linguística)
ou com foco no desempenho (performance) linguístico (objeto de estudo da
psicolinguística).
- Competência linguística: Conhecimento necessário para produzir todas as frases

bem formadas de uma determinada língua, e apenas essas frases
- Objeto de estudo da Linguística – Descrição de gramáticas (descritivas,
não prescritivas: “os menino corre” é uma frase bem formada em certos
dialetos PT) que procuram capturar os algoritmos em que consiste a
competência.
- Enquanto competência, gera um conjunto aberto (capaz de expansão
infinita) de produções, propriedade designada em linguística por
produtividade linguística.
- O sistema é recursivo, podemos elaborar frases nas línguas humanas até ao
infinito (embora possam ficar de compreensão complexa)
- Right embedding- é algo explícito, a seguir ao verbo, não requer espaço
particularmente grande na MT Linguística
- Desempenho (performance) linguístico: Utilização da competência linguística para

produzir/compreender enunciados
- Objeto de estudo da psicolinguística, implicando o relacionamento da
competência linguística com as capacidades de representar e processar
informação no sistema cognitivo humano e com as características das
situações de comunicação.
- Enquanto sistema de desempenho, disponibiliza para apreensão consciente
a sua produtividade potencial, mas essa produtividade é limitada pela
capacidade individual da memória de trabalho linguística (MT-ling).
(compreensão sensível a diferenças individuais na capacidade da MT-ling)
- Center embedding- O encaixe duplo central está no limite da capacidade do
processamento automático, é quase impossível a compreensão de frases de
encaixe triplo.
- Há esforço de processamento na MT para ir buscar formas léxico-semânticas
para executar a simulação.
23. Saber relacionar os conceitos de competência e desempenho (performance)

linguísticos com as restrições que a capacidade individual da memória de trabalho
linguística impõe à produtividade linguística.
- A competência, gera um conjunto aberto (capaz de expansão infinita) de produções,

propriedade designada em linguística por produtividade linguística. Não requer
espaço particularmente grande na MT-ling.
- O sistema de desempenho, disponibiliza para apreensão consciente a sua
produtividade potencial, mas essa produtividade é limitada pela capacidade
individual da memória de trabalho linguística (MT-ling).
- É possível a facilitação mantendo a estrutura sintática e aliviando a carga da
MT-ling, pela substituição de nomes por pronomes. A sua interpretação na
frase não implica introdução de novas formas léxico-semânticas nem de
simulações específicas, apenas a ativação de procedimentos sintáticos de
atribuição de valor (resolução pronominal), semelhantes à atribuição de um
valor a uma variável. Este fator de facilitação é caracteristicamente
psicolinguístico, sem relevância para a linguística enquanto tal.
24. Compreender o papel dos procedimentos taxonómicos (estruturação de

hierarquias de classes) na linguística taxonómica ou estruturalista.
- Condição taxonómica: os elementos de um nível de descrição são classes de
elementos do nível imediatamente inferior.
- Os procedimentos taxonómicos envolvem a estruturação de hierarquias de classes
que permitem agrupar e categorizar os elementos linguísticos com base nas suas
características partilhadas.
- A estruturação de hierarquias de classes permite que a linguística taxonómica

descreva a estrutura interna da língua de forma sistemática e organizada.
Essas hierarquias ajudam a identificar as relações hierárquicas entre os
elementos linguísticos, fornecendo uma visão mais abrangente da organização da
língua.
- A Linguística Taxonómica nasce nos EUA nos anos 50, os departamentos das
Universidades confrontaram-se com uma questão prática que motivou um
crescimento dos estudos linguísticos: começou a tornar-se evidente nessa época
que muitas das línguas nativas dos EUA estavam prestes a desaparecer
completamente (algumas delas eram faladas por escassas centenas de pessoas) e
assim percebeu-se que estavam condenadas ao desaparecimento, se não houvesse
uma forma de registar o conhecimento linguístico correspondente a essas línguas.
- E será esse o propósito: encontrar métodos que permitam registar de
forma exaustiva o conhecimento que permite produzir e compreender
essas línguas (entrevistas às pessoas, por exemplo). A partir desse
momento, seria possível preservá-las para sempre na história. O
conhecimento não desapareceria. Neste esforço estes cientistas procuram
instrumentos na biologia (subdisciplina taxonomia - descrições sistemáticas
dos seres vivos).
- Taxonomia é o método de descrição que parte de um nível base e
sistematiza essas observações organizando classes. Observando diferentes
seres vivos posso constatar que há um conjunto de seres vivos que partilham
características e assim agrupo-os por classes (espécies - 1a classe).
estruturadas por hierarquia de classes, depois passa-se para género (várias
espécies com base nas mesmas semelhanças), etc. Depois agrupar vários
géneros semelhantes, agrupar em Famílias, depois ordens, depois Filos…
Tudo em função da criação de classes (nível básico) encontrando
semelhanças e fazendo assim a hierarquia de agrupamento.
- Há um som que é parecido com o [d], o [t]. Quando chego a estes sons d vs t, constato
que há pelo menos uma língua humana onde esta diferença já não é irrelevante. Assim
posso encontrar no português onde a diferença entre d e t pode por si só encontrar
contraste de significado (Drama / Trama) - palavras iguais, o que as diferencia é d ou t.
- Uma vez que existe pelo menos uma língua onde estes sons podem criar um contraste e
diferença, não podem pertencer ao mesmo fonema (classe), terei de criar uma classe
diferente para o t.
25. Saber distinguir fone de fonema, morfo de morfema e sintagmas de frases.

Observáveis- sons presentes na produção de palavras das línguas conhecidas.
FONE- é universal, classes de sons semelhantes, ignorando diferenças que não

diferenciam qualquer palavra nas línguas conhecidas (um fone diferencia em pelo menos
uma).
- qualquer som distinto, independentemente de ser ou não relevante para o
significado da palavra
PT drama/trama: [d], [t]; EN dime/thyme: [d], [teta]
FONEMA- não é universal, classes de fones, que na língua em estudo não diferenciam
quaisquer palavras (fones distintos diferenciam pelo menos uma) - /d/, /t/
Distingue uma palavra (ou elemento de palavra) de outra, como o elemento /p/ em "tap",
que separa essa palavra de "tab", "tag" e "tan".
- Um fonema pode ter mais do que uma variante, chamada alofone (diferentes
fones que representam o mesmo fonema), que funciona como um som único;
por exemplo, os /p/ de "pat", "spat" e "tap" diferem ligeiramente foneticamente, mas
essa diferença, determinada pelo contexto, não tem significado em inglês, ou o
/d/ e /teta/ em português.
- Nalgumas línguas, onde os sons variantes do p podem alterar o significado, são
classificados como fonemas separados - por exemplo, em tailandês, o p aspirado
(pronunciado com um sopro de ar que o acompanha) e o p não aspirado
distinguem-se um do outro.
MORFO- classes ordenadas de fonemas, que na língua em estudo tem significado estável
(são pedaços isolados de fonemas).
/ˈto.ɾu/, /ˈtow.ɾu/, /ʃ/, /ʒ/, /z/ = touroS pretos/loucos/árabes
MORFEMA- classes de morfos, que na língua em estudo diferem apenas por fonemas em
variação livre (a sua permutação não altera o significado do morfo) ou distribuição
complementar (um está sistematicamente excluído dos contextos fonéticos do outro). É a
menor unidade portadora de significado. Cada palavra é formada por um ou mais
morfemas.
ex: {/mar/}, {/gat/./o/}
/ˈto.ɾu/ = alomorfos {/ˈto.ɾu/, /ˈtow.ɾu/}, /PT/ = alomorfos {/ʃ/, /ʒ/, /z/} - vários morfos
do mesmo morfema
CLASSE LEXICAL- classes de morfemas, que na língua em estudo, partilham privilégios de

ocorrência, ou seja, podem ser permutados sem que a frase deixe de estar bem formada.
“o rato comeu o queijo” / “o rato olhou o queijo” “o gato comeu o queijo”, etc.
Nome = {rato, gato, etc.}; Verbo = {comer, olhar, etc.}; Proposição; Adj; D; etc.
SINTAGMA- classes formadas por classes lexicais ordenadas, que na língua em estudo,
partilham privilégios de ocorrência, ou seja, podem ser permutadas sem que a frase deixe
de estar bem formada.
“[o rato] [comeu o queijo]” / “[um gato] [fugiu para o jardim]
[syntagma nominal] + [syntagma verbal] = SN + SV
FRASE- classes formadas por sintagmas ordenados, que na língua em estudo, formam
frases bem formadas.
para “o rato fugiu para o jardim” e “o rato que o gato mordeu fugiu para o jardim”
F = SN + SV + SP; F = SN + RelPr + F + SV + SP
26. Entender o critério que determina a inclusão de morfemas na mesma classe
lexical ou em classes lexicais diferentes.
Os morfemas que estão na mesma classe lexical são os que se podem substituir uns pelos
outros numa mesma frase sem alterar o caráter bem formado da frase. Esta particularidade
de livre substituição em contexto frásico, designada partilha de privilégios de ocorrência,
permite identificar a classe dos morfemas.
- Por exemplo: O, UM e ESTE podem ser trocados livremente entre si sem alterar o
caráter bem formado da frase: pertencem à mesma classe lexical.
- ex: verbos, nomes, adjetivos, substantivos, advérbios
27. Saber prever observações que refletem a impossibilidade de segmentar o sinal

acústico em elementos correspondentes aos fonemas percecionados e compreender
a razão dessa impossibilidade.
O sinal da fala é contínuo, não há espaços entre as consoantes e as vogais, ou grandes
espaços entre as palavras. Mas, o sinal acústico da fala humana pode conter pausas
curtas, conhecidas como "micro-silêncios", que indicam a separação entre as palavras de
uma frase. Essas pausas são uma parte importante da estruturação e segmentação da fala,
permitindo ao ouvinte discernir onde uma palavra termina e a próxima começa. As pausas
podem variar em duração e são influenciadas por fatores linguísticos, sintáticos e
prosódicos. Portanto, a presença de micro-silêncios no sinal acústico ajuda na
compreensão e organização das palavras numa sequência linguística.
Um objetivo central dos mecanismos da perceção da fala é segmentar um sinal

contínuo em unidades discretas: fonemas, sílabas e palavras
O gato caçou o rato - parece que o pack de sons é divisível em 5 unidades, 5 palavras com
significado. No entanto, se pegarmos no espectrograma do sinal acústico, verificamos que
não existem interrupções entre cada um dos 5 elementos que percebemos como separados
(na dialética das frases) - fluxo contínuo de sons sem qualquer interrupção…
A ilusão de descontinuidade é um artefacto no sistema de codificação da linguagem.
Quando ouvimos uma língua desconhecida, parece que ouvimos grandes pacotes de
informação auditiva que não são segmentadas, são contínuos.
Possibilidade de segmentação da informação relativa aos sons da linguagem: parece ser

impossível de acordo com a informação acústica.
• /Du/_________________________: não existe a possibilidade de separar o fonema do
resto da informação presente na sílaba. Não existe possibilidade de segmentar, a partir
da experiência do sinal acústico (na silaba du). Se for feito playback das partes da fita
magnética que foram rejeitadas, é possível encontrar lá a vogal (u) e este consegue
separar-se do resto da sílaba (o d isolado parece uma linguagem não humana).
- A informação das vogais é passível de ser separada da sílaba- correspondência
mais direta com características objetivas do sinal acústico, mas o mesmo não
acontece com as consoantes: não conseguimos encontrar no sinal acústico um
elemento singular que corresponde à nossa perceção da presença dessa consoante.
PARA QUALQUER CONSOANTE NUNCA É POSSÍVEL ISOLÁ-LA DA SÍLABA,
ELA PERDE A IDENTIDADE!
28. Saber prever observações que refletem a impossibilidade de identificar

invariabilidades no sinal acústico (aspectos fixos) correspondentes a invariantes na
perceção de fonemas e compreender a razão dessa impossibilidade.
A representação mental abstrata de um elemento fonológico não varia. Mas um som
da fala pode variar bastante de cada vez que é pronunciado. Há vários fatores que
contribuem para o facto da mesma consoante ou vogal, a mesma sílaba, e a mesma
palavra nunca serem pronunciadas da mesma forma.
Há variabilidade:
- ao longo dos oradores (a frequência fundamental e propriedades do espectro das
vogais e consoantes, o timbre de cada pessoa é único)
- no mesmo orador (ás vezes falamos mais rápido, mais devagar, podemos sussurrar,
gritar, falar enquanto estamos felizes, ou tristes)
- o som ambiente conduz à variabilidade (como música ou trânsito, a mesma frase vai
soar de forma diferente consoante a presença desses aspetos)
- o contexto afeta a variabilidade (a articulação dos fonemas é afetada pelos fonemas
que os rodeiam, como unidades fonológicas, o contexto da frase e palavras, vão
afetar a pronúncia de itens individuais)
Os mecanismos da perceção da fala operam de forma a ultrapassar a variabilidade do sinal.

Ilusão de invariância: estes fonemas que parecem existir autonomamente nas palavras,
parece que os 4 segmentos são passíveis de se repetirem sempre iguais a si próprios
dentro da mesma palavra ou dentro de palavras diferentes (palavra diga). Se escrever a
palavra GUIDA, parece que são os mesmos 4 segmentos, mas ordenados de outra forma,
parecem iguais em termos de sons, mas reordenados.
Trata-se de uma ilusão, de uma percepção de algo que não está a ocorrer de facto no
mundo físico que é o artefacto de descodificação dos sons da sala.
Será que noutras sílabas vou encontrar a presença do mesmo elemento acústico que
identifiquei na sílaba du (assobio descendente do mais agudo para o grave)?
• Di - cifra. Transformado na identidade da consoante d? - Experiência com outras sílabas
que se iniciam com o mesmo som. Nos primeiros cortes os participantes dizem ouvir a
sílaba com uma duração mais compacta, tal como na 1a experiência. “I” consegue ser
identificada sem problemas também. Também chega ao momento crítico em que os
participantes referem deixar de ouvir uma língua humana.
• Mas em di é diferente da silaba du. Na du era descrito um silvo descendente, agora na di é
descrita um silvo ascendente, de grave para agudo. Sugere que de facto a perceção das
consoantes não corresponde a nada que esteja objetivamente presente no sinal acústico, é
uma perceção, resultado de uma ativação de um código. E trata-se de facto de um
verdadeiro código e não de uma cifra, demonstrado pelo facto de, em circunstâncias
diferentes, sinais que aparentemente não tem nada a ver um com outros (silvo descendente
e silvo ascendente) participarem na identificação exatamente da mesma consoante (d) -
verdadeiro código que extrai do sinal acústico a identidade dos fonemas, neste caso o
fonema d.
- Não há correspondência direta ou consistente entre características específicas

do sinal acústico (por exemplo, propriedades acústicas como frequência, duração,
intensidade) e as percepções ou categorias fonéticas que os ouvintes extraem
desse sinal. Ou seja, não existem padrões acústicos fixos ou invariantes que
possam ser atribuídos a um determinado fonema.
- Isso implica que, ao ouvirmos diferentes pronúncias de um mesmo fonema ou

categorias fonéticas semelhantes, não encontramos traços acústicos consistentes
que possam ser diretamente associados a essas percepções. Em vez disso, a
percepção de fonemas é influenciada por uma variedade de fatores, incluindo
contexto linguístico, características individuais do falante, variações dialetais
e até mesmo o conhecimento prévio do ouvinte.
Essa falta de correspondência direta entre as características acústicas e as percepções

fonéticas destaca a complexidade envolvida na percepção da fala e a importância de outros
fatores além do sinal acústico na interpretação e categorização dos sons da fala.
NOTA:
Devido à coarticulação (a articulação de dois ou mais sons da fala em conjunto, de modo a
que um influencie o outro; "os alofones podem ocorrer como resultado da coarticulação
entre as fronteiras das palavras"), o sinal da fala caracteriza-se pela transmissão paralela de
informação sobre segmentos fonémicos. Ou seja, o sinal da fala transmite mais do que 1
unidade fonológica em simultâneo. Conseguimos perceber que isto acontece quando
examinamos um espectrograma.
- Como é que a informação sobre as 3 unidades fonológicas na palavra “bag” se
distribuem ao longo da palavra?
- As propriedades do /b/ estendem-se para a vogal /ae/ e persistem até o início do /g/
- As propriedades do /g/ começam com o /b/ e continuam até à segunda parte da
vogal.
- A vogal influencia a pronúncia de toda a palavra, e transporta informação acústica
sobre ambas as consoantes da palavra.
A estrutura acústica (+ informação visual?) constitui um código sobre a estrutura fonémica
- os fonemas de uma sílaba não são um dado sensorial, nem o resultado de

uma simples cifra: resultam de um código complexo: código (consoantes) +
cifra (vogais)
- Estrutura acústica (veículo da linguística - sons no ar) constitui um código sobre a
estrutura fonémica. Os sons elementares que compõem uma sílaba não é algo que
aconteça no exterior (essa identidade de fonemas nem sequer está presente nos
primeiros patamares do sistema auditivo), são o resultado de um nível mais elevado
do processamento linguístico, que produz como output a identidade dos fonemas.
Este sistema de alto nível corresponde à mobilização de um código (verdadeiro
código que não é uma cifra simples). Um código complexo porque articula dois
modos de funcionamento: um relativo às consoantes e outro às vogais. O das vogais
é relativamente mais simples (em bom rigor acaba por ser uma cifra, invariável no
sinal acústico que permite perceber a identidade da vogal), a parte do código que diz
respeito às consoantes é um verdadeiro código (sem invariância) que representa a
identidade de uma determinada consoante.
Deverá existir um sistema de processamento que descodifique as consoantes e

decifre as vogais
A possibilidade de segmentação e invariância são de facto ilusões. Foram feitas

experiências nos anos 50 no sentido de testar a realidade da segmentação.
29. Compreender a relação entre as dimensões gráficas de um espectrograma e
aquilo que representam.
O som é representado através dos espectrogramas, que associam várias dimensões na
representação dos sons da linguagem
- Eixo horizontal (x): tempo e e etiquetas fonémicas

- Colocam-se os fonemas que deverão ir sendo percecionados à medida que o
sinal vai sendo percebido pelo sistema.
- Eixo vertical (y): frequência dos sons grave-agudo
- A frequência em Hz dos sons que estão a ser produzidos em cada um dos
vários instantes representados no gráfico, varia do mais grave para o agudo
- Corpo do gráfico: amplitude/intensidade/volume do som
- A intensidade ou acústica do som é codificada através da cor ou tons de
cinza no espectrograma. Geralmente, áreas mais escuras ou cores mais
intensas representam maiores amplitudes sonoras ou níveis de energia,
enquanto áreas mais claras ou cores mais claras representam menores
amplitudes sonoras.
Ao combinar essas dimensões gráficas, um espectrograma permite a visualização das

propriedades acústicas de um sinal sonoro em relação ao tempo e à frequência. Através da
análise do espectrograma, é possível identificar e interpretar várias características do som,
como:
- Representação de diferentes componentes de frequência presentes no sinal, como
formantes, harmónicos ou componentes espectrais específicos.
- Identificação de mudanças na intensidade ou energia do sinal ao longo do tempo.
- Análise de padrões de frequência, como transições rápidas ou lentas entre
diferentes frequências.
- Deteção de eventos acústicos, como intervalos de silêncio, explosões ou transições
abruptas.
2 dimensões dependentes do som: frequência e amplitude

- Quanto maior a frequência, mais agudo (alto) é o som (- comprimento de onda);
e quanto menor a frequência, mais grave (baixo) é o som (+ comprimento de
onda). Essa frequência corresponde aos ciclos (oscilações por segundo) da onda
sonora.
- Um som com uma maior amplitude é um som forte, enquanto que um som com
uma pequena amplitude é um som fraco. Os sons fortes transportam uma maior
quantidade de energia que os fracos. Uma onda sonora perde intensidade no
decurso da sua propagação.
30. Compreender a diferença entre sons periódicos e aperiódicos.

- Sons periódicos: produzidos por vibração - têm zonas da onda sonora que se vão
repetindo de forma igual, completa-se e reproduz-se de igual forma na fase seguinte.
(os ciclos são regulares e repetitivos)
- No espectrograma, os sons periódicos são exibidos como linhas verticais
contínuas e regulares, conhecidas como formantes.
- Exemplos de sons periódicos incluem vogais e consoantes nasais sonoras
(ex: /n/; /m/; /nh/).
- Sons aperiódicos: produzidos por turbulências/ percussão - é virtualmente

impossível identificar quaisquer 2 intervalos de igual duração nos quais as
características do movimento vibratório sejam idênticos - papel fundamental nas
consoantes.
- A frequência fundamental não pode ser calculada.
- Essas regiões podem ter uma aparência esborratada, no espectrograma,
sem linhas definidas ou estruturas harmónicas discerníveis. A amplitude
ou intensidade destas regiões pode variar, dependendo da energia sonora do
som aperiódico em questão.
- Exemplos de sons aperiódicos incluem ruídos brancos, como o som do
vento, e consoantes constritivas fricativas (ex: /s/; /f/ )
31. Compreender a relação dos sons periódicos e aperiódicos com diferentes tipos de
fonemas.
- Os sons periódicos estão associados principalmente aos fonemas vocálicos e às
consoantes nasais sonoras (m, n, nh) - durante a produção destas consoantes, o
ar passa pelas vias vocais e pelas cavidades nasais, resultando em sons com
ressonância nasal. Os fonemas vocálicos são sons em que o ar passa livremente
pelas vias vocais sem obstrução significativa, resultando num padrão harmónico
regular e contínuo. Esses fonemas são caracterizados por uma estrutura
harmónica clara, com formantes distintos representando diferentes
frequências de ressonância vocal.
- Os sons aperiódicos são, por exemplo, as consoantes oclusivas surdas (p, t, k)

e as consoantes constritivas fricativas surdas (f, s, c, ç, x, ch). As consoantes
surdas são sons em que há obstrução parcial ou total do fluxo de ar nas vias vocais,
resultando em ausência de fonação vocal. Os sons fricativos são produzidos quando
o ar passa por uma estreita passagem nas vias respiratórias, criando turbulência e
gerando um som sibilante ou fricativo. Estes fonemas aperiódicos não possuem uma
estrutura harmónica clara e são caracterizados por uma distribuição ampla de
energia em várias frequências.
Alguns idiomas podem ter fonemas vocálicos que apresentam características aperiódicas,
como nasalização ou tremor vocal, enquanto outros idiomas podem ter consoantes sonoras
que possuem propriedades aperiódicas.
32. Compreender o conceito de “formante”.

Frequências harmónicas modeladas por ressonâncias no trato vocal, (no espectro
correspondem a cada pico) durante a produção dos sons da fala. Conforme o ar passa pelo
trato vocal, ele é modulado pelas cavidades da boca, faringe e nasofaringe, criando
diferentes regiões de intensidade acústica em frequências específicas, essas regiões
de intensidade são conhecidas como formantes.
- Modificações dinâmicas das dimensões e forma das cavidades de ressonância:
alteram a posição dos formantes criando sinal/informação. Isto pode ser feito
alterando a posição da língua, a posição dos lábios, etc.
Na linguística, um formante refere-se a um pico acústico ou uma região de frequência

distintiva que ocorre na produção e perceção dos sons da fala. Os formantes são
importantes na análise dos sons vocálicos, como as vogais, e desempenham um
papel fundamental na distinção e identificação dos fonemas.
Os formantes são gerados pelas ressonâncias do trato vocal.

- O primeiro formante (F1) refere-se à região de frequência mais baixa - 300-700 HZ
- O segundo formante (F2) é a região de frequência subsequente - 1000-1800 HZ
- O terceiro formante (F3) - 2500-3000 HZ
- Acima do F3 já não são usadas para fins linguísticos, mas sim para fazer a distinção
entre diferentes falantes, para reconhecer características individuais da voz
NOTA!
A frequência fundamental (F0) refere-se à taxa de vibração das pregas vocais durante a
produção da voz. É a frequência mais baixa e fundamental presente no espectro do som
vocal. Ela está relacionada à percepção da altura do tom da voz e é responsável por
distinguir se um som é agudo ou grave.
33. Saber caraterizar a relação entre as posições relativas dos formantes no sinal
acústico e a identificação percetiva das vogais.
Cada formante representa uma região de energia acústica concentrada numa frequência
específica. Normalmente, os primeiros formantes são os mais proeminentes e são os
principais responsáveis pela identificação das vogais.
- Quando varia a “entrada” no F2 e varia a distância entre F1 e F2 – varia a vogal

percecionada e a consoante é constante.
- A distância entre F1 e F2 cifra a identidade das vogais (e.g. /i/ 2400 Hz), em
vogais, os formantes F1 e F2 são particularmente relevantes para distinguir e
classificar os sons vocálicos.
- Precisamos de transições descendentes para ouvir do A até ao U.
34. Saber caraterizar a relação entre a transição do segundo formante e a

identificação percetiva de consoantes oclusivas sonoras, e compreender o efeito que
tem sobre essa relação a vogal associada à consoante.
- Quando varia a “entrada” no F2- transição de formante- e está constante a distância
entre o F1 e F2 – varia a consoante percecionada e a vogal é constante
- A transição do formante F2 codifica a identidade das consoantes oclusivas
sonoras
- Não há uma caraterística invariável no sinal acústico, que esteja sempre a codificar
uma mesma consoante, a forma como a consoante é codificada varia com a vogal
que se segue.
- Ou, em vez de uma codificação das consoantes assente diretamente em

características acústicas, a informação acústica presente na sílaba (juntamente com
informação visual?) permitiria identificar um movimento articulatório que, esse sim,
codificaria a identidade da consoante? [notar que na articulação de /di/ e /da/ está
presente o mesmo gesto inicial, ajustado em preparação da vogal que se irá seguir
(i.e., coarticulado com a vogal)].
- A ideia é que a identificação da consoante ocorreria por via da
observação de movimentos articulatórios associados à produção da
consoante.
As consoantes oclusivas sonoras, como /b/, /d/ e /g/, são caracterizadas pela presença de
uma obstrução completa do fluxo de ar nas vias vocais, juntamente com a fonação vocal. A
identificação destas consoantes depende das transições dos formantes ao longo do tempo,
especialmente durante a libertação da obstrução.
- Por exemplo, a consoante /b/ geralmente tem uma queda acentuada do F2 durante
a libertação, enquanto a consoante /d/ tem um aumento gradual do F2.
A vogal associada à consoante também tem um impacto na relação entre a transição do F2

e a identificação perceptiva. A qualidade vocal da vogal pode influenciar a percepção da
consoante subsequente. Por exemplo, a vogal /a/ é frequentemente associada a uma queda
acentuada do F2 durante a libertação da consoante, enquanto a vogal /i/ está relacionada a
um aumento gradual do F2. Isso ocorre porque a configuração das vias vocais durante a
produção dessas vogais afeta o formato dos formantes.
35. Reconhecer a argumentação que faz decorrer da complexidade da relação entre a

identificação percetiva das consoantes e o sinal acústico a hipótese de que o código
fonético tome por base informação articulatória.
A identificação perceptiva das consoantes envolve a análise de várias características
acústicas, como a frequência fundamental (F0), os formantes, a duração e a intensidade.
No entanto, a relação entre essas características acústicas e a identificação precisa dos
fonemas é complexa e não é possível identificar invariabilidades acústicas claras que
correspondam a invariantes perceptivos dos fonemas.
Por outro lado, as informações articulatórias fornecem uma base mais robusta e consistente
para a identificação dos fonemas. Os movimentos articulatórios envolvidos na
produção da fala, como a posição dos articuladores, a abertura e fechamento dos
pontos de articulação, e a coarticulação, fornecem pistas mais confiáveis e distintivas
para a identificação dos fonemas.
NOTA:
Devido à coarticulação (a articulação de dois ou mais sons da fala em conjunto, de modo a
que um influencie o outro), o sinal da fala caracteriza-se pela transmissão paralela de
informação sobre segmentos fonémicos. Ou seja, o sinal da fala transmite mais do que 1
unidade fonológica em simultâneo. Conseguimos perceber que isto acontece quando
examinamos um espectrograma.
A estrutura acústica (+ informação visual, como os movimentos articulatórios) constitui um
código sobre a estrutura fonémica
- os fonemas de uma sílaba não são um dado sensorial, nem o resultado de

uma simples cifra: resultam de um código complexo: código (consoantes) +
cifra (vogais)
- Estrutura acústica (veículo da linguística - sons no ar) constitui um código sobre a
estrutura fonémica. Os sons elementares que compõem uma sílaba não é algo que
aconteça no exterior (essa identidade de fonemas nem sequer está presente nos
primeiros patamares do sistema auditivo), são o resultado de um nível mais elevado
do processamento linguístico, que produz como output a identidade dos fonemas.
Este sistema de alto nível corresponde à mobilização de um código (verdadeiro
código que não é uma cifra simples). Um código complexo porque articula dois
modos de funcionamento: um relativo às consoantes e outro às vogais. O das vogais
é relativamente mais simples (em bom rigor acaba por ser uma cifra, invariável no
sinal acústico que permite perceber a identidade da vogal), a parte do código que diz
respeito às consoantes é um verdadeiro código (sem invariância) que representa a
identidade de uma determinada consoante.
36. Compreender a relação entre diferentes traços articulatórios e a distinção entre

consoantes surdas e sonoras e entre consoantes oclusivas e constritivas.
As consoantes surdas e sonoras são distinguidas com base na presença ou ausência de
vibração das cordas vocais durante a produção do som.
- Consoantes sonoras são aquelas em que as cordas vocais vibram
- Consoantes surdas são aquelas em que as cordas vocais não vibram
- Esta distinção é crucial em muitas línguas para contrastar pares de palavras, como
"bala" (com som sonoro /b/) e "pala" (com som surdo /p/).
Por outro lado, a distinção entre consoantes oclusivas e constritivas refere-se à forma como
o fluxo de ar é obstruído durante a produção do som.
- Consoantes oclusivas são aquelas em que há uma obstrução completa do
fluxo de ar em algum ponto da cavidade oral, seguida de uma libertação
explosiva, ou seja, há acumulação de pressão. Por exemplo, as consoantes /p/ e
/b/ são oclusivas, pois o fluxo de ar é completamente bloqueado pelos lábios e, em
seguida, libertado.
- Consoantes constritivas envolvem uma obstrução parcial do fluxo de ar, em
que o ar passa através de um estreitamento na cavidade oral. Por exemplo, as
consoantes /s/ e /z/ são constritivas, pois o ar passa por um estreitamento na região
dos dentes.
- VOT e consoantes oclusivas: distinção entre consoantes oclusivas sonoras (VOT <
25 ms: /b/, /d/, /g/) e consoantes oclusivas surdas (VOT > 25 ms: /p/, /t/, /k/)
- Duração de sons aperiódicos ou turbulências (em fala “normal”): distinção entre

consoantes oclusivas surdas (10-15ms) e consoantes constritivas fricativas (100ms)
- Presença de voz (vibração das pregas vocais) e consoantes constritivas fricativas:

distinção entre consoantes constritivas fricativas surdas (/f/, /s/, /x/) e sonoras (/v/,
/z/, /j/).
37. Compreender as teorias motora e auditiva da perceção da fala e as previsões

empíricas contrastantes que delas decorrem.
38. Compreender como certas evidências empíricas apoiam diferencialmente a teoria
motora ou a teoria auditiva.
- TEORIA MOTORA: A perceção dos sons da fala é realizada por um sistema

especializado, que utiliza conhecimento relativo ao modo de produção desses
sons – relação com a transmissão paralela/coarticulação (a perceção dos
fonemas “refaz” a sua produção:
- representações fonológicas de palavras < [“pauta articulatória” (gesture
score) < movimentos articulatórios] < sons. Permite-nos perceber como é que
a coarticulação pode ser ultrapassada quando estamos a identificar os
fonemas produzidos numa sílaba (Ex: “di” e “du”: os movimentos que
fazemos para os produzir são diferentes: o fonema “di” está contaminado
pelo som que vem a seguir. Quando nos parece que “di” e “du” têm dois sons
idênticos, aquilo que percecionamos como idêntico não é o som, mas a
coreografia articulatória).
- O sistema de PSF é geneticamente determinado e exclusivo da espécie humana
(cf. problemas de produção e compreensão na dispraxia verbal do desenvolvimento
e gene FOXP2- cromossoma 7).
- O sistema PSF é inato e encontra-se operativo muito cedo após o nascimento.
- TEORIA AUDITIVA: A perceção dos sons da fala é realizada pelo sistema auditivo
de forma inespecífica.
- A PSF deverá ser semelhante à humana para qualquer espécie com um
sistema auditivo semelhante (amplitude auditiva 20 a 20000 Hz).
- A PSF poderá apresentar as suas características adultas muito cedo, na
medida em que o sistema auditivo se encontra já muito desenvolvido logo após o
nascimento.
Suporte Empírico Diferencial para as Duas Teorias: Sistema Genérico ou Sistema

Especializado?
- Perceção categorial dos sons da fala vs perceção contínua de outros sons.
- APOIA A TEORIA MOTORA DA PSF- há um sistema especializado
- Perceção categorial: relaciona-se com a perceção dos sons da fala
- precisão na discriminação idêntica à precisão na identificação.
(somos surdos a diferenças de sons que pertençam à mesma categoria)
- Aparentemente, a categorização baseia-se em características articulatórias.
- Perceção contínua: relaciona-se com a perceção dos sons sem ser da fala
- precisão na discriminação superior à precisão na identificação. (na
identificação os participantes conseguem identificar corretamente entre 5 e 9
sons diferentes e na discriminação conseguem diferenciar cerca de 1200
sons não linguísticos diferentes)- aqui deteta-se diferenças nos sons.
. Não somos capazes de discriminar mais sons da fala do que aqueles que somos capazes
de identificar isoladamente. Em sons que não são da fala somos capazes de discriminar
muito mais sons do que os que identificamos isoladamente (habitualmente identificamos
isoladamente 9 sons diferentes e discriminamos cerca de 1200 sons).
- Lateralização de funções: Investigações no paradigma da audição dicótica

com sujeitos normais e comissurotomizados (sem corpo caloso)
- APOIA A TEORIA MOTORA DA PSF- há um sistema especializado
- Algumas funções cognitivas têm tendência a estar mais representadas num
determinado hemisfério, mas o funcionamento auditivo não é lateralizado, a nossa
capacidade de ouvir está igualmente representada nos dois hemisférios. Pelo que,
segundo a hipótese da teoria auditiva, percepcionariamos os sons da fala
igualmente bem nos dois ouvidos.
- Segundo as experiências realizadas (anos 60- escuta dicótica), muitos sujeitos

ouviam apenas o som do ouvido direito, o que levou a pensar que o processamento
dos sons da fala é lateralizado, e que o hemisfério esquerdo seria responsável
pela compreensão dos sons da fala.
- Nota: a informação do ouvido direito é processada no hemisfério esquerdo.
- Mas haviam pessoas que ouviam dos 2 lados: ou o hemisfério direito também teria
uma função importante, ou o hemisfério direito realmente não tinha um papel no
processamento dos sons da fala, e a informação transitava, pelo corpo caloso, para
o hemisfério esquerdo…
- No caso dos sujeitos comissurotomizados (não pode haver a transição de
informação de um lado para o outro), nenhum declarou ter conseguido
ouvir o que lhe foi apresentado ao ouvido esquerdo, confirmando a ideia
que o hemisfério esquerdo é superior no processamento dos sons da fala.
- Isto vai contra a Teoria Auditiva, então talvez exista mesmo um
sistema especializado para a PSF.
- Estas experiências ainda não fornecem dados suficientes para concluir que o
sistema de PSF estará de facto a utilizar informação motora/articulatória para chegar
à identidade dos sons da fala a que está a ser exposto.
- A fronteira fonémica entre /ba/ e /da/ na curva de identificação é influenciada

por informação visual relativa à articulação (Massaro & Cohen, 1983, com base
em McGurk & MacDonald 1976 – “McGurk effect” ba ga “McGurk effect” ba da
ga).
- APOIA A TEORIA MOTORA DA PSF- uso de info articulatória para identificar
os fonemas
- Efeito McGurk: quando apresentadas em conjunto, a informação visual e auditiva,

afetam a construção de uma perceção fonológica.
- Este efeito acontece quando, por exemplo, parece que ouvimos “da”,
quando, na verdade, nem o movimento articulatório responde ao “da” nem o
som corresponde ao “da”. O som é um “ba”, por exemplo, mas o movimento
articulatório é de um “ga”.
- Dependendo das combinações, o visual pode sobrepor-se ao áudio, o áudio
pode sobrepor-se ao visual, ou, o áudio e o visual podem combinar-se e dar
origem a um novo fonema. Contudo, se fecharmos os olhos, ouvimos
corretamente o som, e só com a imagem, percebemos o que está a ser
articulado.
- São apresentados 9 estímulos variando entre /ba/ e /da/, perfeitamente identificáveis
e são apresentados em 3 condições distintas: neutra- estímulos aleatorizados sem
info visual; condição auditiva /ba/ com info visual /da/ e condição auditiva /da/ com
info visual /ba/;
- Condição neutra: estímulos aleatorizados sem inf. visual.
- Condição /ba/ : 9 estímulos sincronizados com face pronunciando /ba/
- Condição /da/: 9 estímulos sincronizados com face pronunciando /da/
- A info visual afeta a localização da fronteira fonémica (efeito McGurk) e não há

consciência de discrepâncias entre info visual e auditiva (tb: Fowler & Deckle,
1991 – efeito Mcgurk áudio-háptico).
- Estas experiências sugerem que o sistema de PSF é multimodal: não usa apenas
a experiência auditiva, mas também outras modalidades perceptivas, como a visão
e o tacto, que possam informar sobre os movimentos articulatórios para
produzir os sons percepcionados.
- Investigação com espécies com amplitude auditiva semelhante à humana:

chinchilas (Kuhl & Miller, 1978) (tb Kluender, K., Diehl, R., & Killeen, P. (1987):
fronteira fonémica /ba/ /pa/ para valor de VOT semelhante ao da fronteira humana.
Japanese quail (codornizes) can learn phonetic categories. Science, 237,
1195-1197 : /b/ /d/ /g/, com compensação para a coarticulação – 4 vogais nas
sílabas na aprendizagem à generalização a 8 novas vogais) - APOIA A TEORIA
AUDITIVA DA PSF- o sistema auditivo faz a PSF
- Existência de perceção da fala privilegiadamente baseada num código
articulatório não implica que seja necessariamente impossível ao sistema
auditivo fazer essa descodificação:
- e.g., músicos profissionais não evidenciam efeito McGurk; não existem
também experiências com chinchilas ou codornizes que reproduzam com
consoantes surdas (o ponto de articulação não deixa marca nos formantes
da vogal – identidade mais marcadamente articulatória que sonora?) os
resultados obtidos com consoantes sonoras (o ponto articulação determina a
forma da transição de F2).
- 9 estímulos variando entre /ba/ (VOT < 25 ms) e /pa/ (VOT > 25 ms), em
incrementos de VOT de 10ms, de 0 a 80 ms.
As chinchilas foram expostas a 9 estímulos sonoros distintos, produzidos, através de
espectrogramas sintéticos. A consoante “b” e “p” distinguem-se porque “b” (a vibração das
cordas vocais começa muito cedo) é uma consoante sonora e a segunda (p é mais tardio
porque as cordas vocais vibram pelo menos 25 ms após a libertação da oclusão) é surda -
tem exatamente o mesmo ponto de articulação, pois são produzidas criando uma
oclusão/obstrução completa à saída do ar, utilizando os 2 lábios- são consoantes oclusivas
bilabiais.
Nestes estímulos é manipulado o VOT, ou seja, o momento em que as cordas vocais
começam a vibrar após a libertação da oclusão, e essas variações vão dos 0ms (as cordas
vocais vibram exatamente ao mesmo tempo da libertação da oclusão) aos 80ms (por
incrementos de 10 em 10).
Como “perguntar” às chinchilas se estão a ouvir /ba/ ou /pa/?

Foi usada uma técnica de condicionamento aversivo: as chinchilas começam por ser
privadas de água (estão sequiosas). Depois de estar garantido esse estado motivacional,
começa a aprendizagem. Metade das chinchilas são expostas à audição da sílaba /ba/ mais
perfeita (VOT mais curto – 0 ms), de modo repetitivo. A outra metade da amostra é exposta
à sílaba /pa/ mais perfeita de todas (VOT mais longo – 80ms). Depois passaram pela fase
de aprendizagem.
Há momentos em que se desliga a corrente elétrica e o som muda de /ba/ ou /pa/ (para o
oposto do que ouviram antes) - para chinchilas em que ouviam o /ba/ com corrente elétrica,
quando se desligava ouviam /pa/. Este protocolo é repetido várias vezes até que esteja
criada a associação e a aprendizagem (deixa de ser preciso ter corrente para que as
chinchilas fujam quando ouvem o som associado ao choque).
Na fase de teste as chinchilas ouvem todos os novos sons. para os seres humanos a
fronteira fonémica está entre os 20 e os 30 de VOT. De VOT de 30 para cima ouvimos um
/pa/. As chinchilas caracterizam os /ba/ e os /pa/ de forma idêntica aos humanos.
- A pequena diferença nos tempos entre chinchilas e humanos não é significativa.
• Fronteira fonémica para seres humanos: 26.8ms
• Inflexão da curva de discriminação para as chinchilas: 23.3 ms
Este resultado foi replicado num protocolo experimental ainda mais exigente, no que diz
respeito à discriminação de material fonético, tendo sido usado um animal filogeneticamente
ainda mais distante de nós- as codornizes japonesas- mas têm uma acuidade auditiva
semelhante à nossa.
- Nesta investigação foram usadas 3 consoantes oclusivas sonoras: /b/, /d/ e /g/.
- Na fase de treino estas aparecem conjugadas com vogais e a fase de teste é feita
com 8 vogais diferentes (as características das consoantes mudam de acordo com o
contexto vocálico, com as vogais que lhes seguem).
- As codornizes são capazes de generalizar a aprendizagem de discriminação
destas 3 consoantes apresentadas inicialmente no treino com 4 vogais, e são
capazes de generalizar esta discriminação das 3 consoantes na fase de testes feitas
com 8 novas vogais (é ainda mais impressionante que as chinchilas).
Os participantes que eram músicos profissionais ouviram sons e não foram afetados
pelos movimentos articulatórios (sem efeito McGurk).
O sistema auditivo dos músicos “reaprendeu” processos que continuam naturalmente
presentes em espécies com acuidade auditiva semelhante à nossa?
Temos que conciliar estas evidências. Uma possibilidade é que nos momentos iniciais da
nossa espécie para as línguas humanas é possível que o sistema auditivo estivesse
implicado de forma mais poderosa na discriminação dos sons da fala. Ao longo desta
evolução surge um processo mais eficaz, que deixa de usar apenas o sistema auditivo e
passa a usar um sistema multimodal (usando também informação visual articulatória). Há
uma investigação que sugere que isto aconteceu: Proverbio, A., Massetti, G., Rizzi, E. &
Alberto Zani (2016). Skilled musicians are not subject to the McGurk effect: foram
comparados os efeitos diferentes em músicos e pessoas normais.
O problema na interpretação dos dados acima é que, por um lado, vamos ser forçados a
admitir que um sistema auditivo com a mesma capacidade que o nosso é capaz de fazer a
mesma discriminação (pelo menos de algumas consoantes- sonoras) de forma
praticamente idêntica à que caracteriza o sistema auditivo humano. No entanto,
continuamos a ter evidência medida nos seres humanos que sugere de uma forma bastante
poderosa que de facto há utilização de informação motora durante a percepção de sons da
fala (efeito McGurk).
- Neurónios espelho - APOIA A TEORIA MOTORA DA PSF- uso de info motora para
identificar os fonemas
- a área F5 (área parieto-frontal, PF) dos macacos nemestrina, estruturalmente
análoga à área de Broca em humanos, incluiu neurónios motores ativos
quer no desempenho de uma ação, quer na observação da ação
realizada por outro indivíduo, quer na audição de sons associados com
a ação (Rizzolatti & Arbib, 1998 -- investigações com técnicas invasivas, não
reproduzíveis em humanos, por razões éticas (single-cell recording); RMf e
gravação EEG com encéfalo exposto mostram envolvimento da área de
Broca na PSF- St. Heim, Opitz, & Friederici, 2003)
- É o mesmo neurónio ativo na realização da ação que se ativa na observação
dessa ação. Neurónios motores da área de Broca estão ativos na percepção
de sons da fala. Ou seja, deverá haver envolvimento de áreas motoras
quando estamos a realizar tarefas relacionadas com a percepção de
sons da fala.
Podemos considerar que a Teoria Motora da percepção dos sons da fala recebe suporte
empírico de investigações que mostraram que:
Com sons da fala, o desempenho em tarefas de discriminação de estímulos não é superior
ao desempenho em tarefas de identificação de estímulos.
A percepção dos sons da fala é categorial e não contínua.
A localização da fronteira fonética é influenciada por informação visual relativa ao modo de
articulação.
39. Compreender de que forma o efeito McGurk pode ser informativo na comparação
das teorias motora e auditiva da perceção da fala.
- APOIA A TEORIA MOTORA DA PSF
- Nos indivíduos não-músicos: A info visual afeta a localização da fronteira
fonémica (efeito McGurk) e não há consciência de discrepâncias entre inf.visual
e auditiva (tb: Fowler & Deckle, 1991 – efeito Mcgurk áudio-háptico).
- Sugerindo que o sistema de PSF é multimodal: não usa apenas a experiência
auditiva, mas também outras modalidades perceptivas, como a visão, que possam
informar sobre os movimentos articulatórios para produzir os sons
percepcionados.
- APOIA A TEORIA AUDITIVA DA PSF

- Os participantes que eram músicos profissionais ouviram sons e não foram
afetados pelos movimentos articulatórios (sem efeito McGurk).
40. Compreender de que forma experiências sobre a discriminação de fonemas por

animais com amplitude auditiva semelhante à humana podem ser informativas na
comparação das teorias motora e auditiva da perceção da fala.
- APOIA A TEORIA AUDITIVA DA PSF

- Existem experiências com chinchilas que reproduzem consoantes oclusivas sonoras
/b/ e surdas /p/- a diferença entre elas é o momento em que as cordas vocais
começam a vibrar/libertação da oclusão; e com codornizes que reproduzem
consoantes oclusivas sonoras (b, d, g).
- com consoantes surdas o ponto de articulação não deixa marca nos
formantes vocálicos – (identidade mais marcadamente articulatória que
sonora?), com consoantes sonoras (o ponto articulação determina a forma
da transição de F2).
- As chinchilas têm uma fronteira fonémica /ba/ /pa/ para valor de VOT
semelhante ao da fronteira humana
-Fronteira fonémica para seres humanos: 26.8ms .
-Inflexão da curva de discriminação para as chinchilas: 23.3 ms
- As codornizes são capazes de generalizar a aprendizagem de discriminação
das 3 consoantes oclusivas sonoras apresentadas inicialmente no treino com
4 vogais; e são capazes de generalizar a discriminação das 3 consoantes na
fase de testes feitas com 8 novas vogais (é ainda mais impressionante que
as chinchilas).
- /b/ /d/ /g/, com compensação para a coarticulação – 4 vogais nas
sílabas na aprendizagem há a generalização a 8 novas vogais.
Surge a ilação:
• Aspetos ligados à categorização das consoantes podem ser diretamente
processados pelo sistema auditivo, sendo então esses processos e capacidades
deles dependentes partilhados por várias espécies? Aparentemente estes processos
são partilhados por espécies que não a nossa e que têm sistemas auditivos
semelhantes.
- APOIA A TEORIA MOTORA DA PSF

- No caso das codornizes não aprenderam a discriminar consoantes oclusivas surdas,
que terá uma componente articulatória mais marcada.
41. Compreender a relevância para a teorização da perceção da fala das alterações no

efeito McGurk associadas à profissão de músico.
Os participantes músicos profissionais não foram afetados pelos movimentos articulatórios
(sem efeito McGurk). McGurk diz que a forma como interpretamos consoantes é afetada
pela informação que retiramos da face do falante (articulação). Não usamos apenas o
sistema auditivo para a PSF, mas um sistema multimodal, mas neste caso isso não
acontece.
O efeito McGurk é um fenómeno perceptivo (ilusão) que ocorre quando a percepção de um
som da fala é influenciada pela informação visual simultânea dos movimentos labiais de
quem está a falar. Quando os sinais visuais e auditivos não estão alinhados, pode ocorrer
uma percepção alterada, diferente do estímulo acústico original.
No contexto da profissão de músico, as alterações no efeito McGurk podem ser relevantes

para a teorização da percepção da fala devido à experiência e treino auditivo e visual
intensivos que os músicos adquirem. Eles são menos suscetíveis ao efeito McGurk e
mostram uma maior dependência das informações acústicas em comparação com
informações visuais.
- Estudos têm mostrado que músicos treinados têm uma capacidade aprimorada
de integração audiovisual e percepção da fala em comparação com indivíduos
não músicos. Isso pode ser atribuído à sua habilidade em processar e interpretar
informações auditivas e visuais de maneira mais precisa e eficiente. A prática
musical intensiva pode levar a uma maior sensibilidade aos detalhes acústicos e
visuais da fala.
- Essa sensibilidade pode influenciar a percepção do efeito McGurk. Por exemplo,

músicos treinados podem ser menos suscetíveis a ilusões audiovisuais
geradas pelo efeito McGurk, pois estão mais acostumados a integrar
informações auditivas e visuais de maneira precisa. A sua experiência em
discriminar sons e captar variações visuais relacionadas à produção da fala pode
ajudar a minimizar a influência de estímulos visuais inconsistentes na percepção da
fala.
- Além disso, estudos também têm mostrado que músicos podem ter uma maior
capacidade de atenção seletiva e controlo inibitório, o que pode contribuir para a
habilidade de filtrar informações irrelevantes e focarem-se nas informações auditivas
relevantes para a percepção da fala.
- A pesquisa de Proverbio et al. (2016) mostrou que músicos profissionais têm menor
suscetibilidade ao efeito McGurk em comparação com não músicos. Isso sugere que
a prática musical pode ter um efeito modulador na percepção da fala. Os
músicos são treinados para discriminar e integrar diferentes estímulos auditivos e
visuais de forma mais precisa, o que pode influenciar a habilidade para evitar a
fusão incorreta dos sinais auditivos e visuais no efeito McGurk.
- Esta descoberta tem relevância para a teorização da percepção da fala, pois indica
que a experiência musical pode ter um impacto na forma como processamos e
integramos informações audiovisuais na percepção da fala. Isso sugere que a
plasticidade do sistema perceptual pode ser influenciada por fatores como
treinamento musical, e que as habilidades desenvolvidas num domínio
específico, como a música, podem ter transferências para outros aspetos da
percepção da fala.
42. Compreender a possível função dos neurónios espelho na perceção dos sons da
fala.
- O homólogo da área de Broca no macaco é F5, que é o local dos
"neurónios-espelho", estes estão relacionados com a percepção e a produção do
alcance e da preensão manual. Nos macacos, o sistema de neurónios-espelho
parece ser bilateral.
- No entanto, nos seres humanos, o sistema é maioritariamente hemisférico esquerdo
e, nos seres humanos, a área de Broca está obviamente envolvida na
vocalização, e na atividade manual. Além disso, há evidências de que a área de
Broca no hemisfério cerebral esquerdo em humanos é maior do que a área
homóloga no hemisfério direito. A área de Broca inclui as áreas 44 e 45 de
Brodmann, e também há evidências de que a assimetria pode estar restrita à área
44. Mas, independentemente do facto de as assimetrias anatómicas refletirem ou
não assimetrias funcionais, há poucas dúvidas de que a área de Broca, na grande
maioria dos seres humanos, é notoriamente assimétrica, com apenas o lado
esquerdo a desempenhar um papel na fala e, talvez, na sintaxe. A região
homóloga do lado direito pode estar envolvida no que se designa por sintaxe
musical. A área de Broca pode então ter sido o local da interação entre a
programação manual e vocal que permitiu que a assimetria vocal criasse uma
assimetria manual.
No contexto da percepção dos sons da fala, acredita-se que os neurónios espelho também
desempenhem um papel relevante. Propõe que a observação de outra pessoa a falar
ativa os mesmos circuitos neurais envolvidos na produção desses sons. Isso permite
que o ouvinte mapeie as informações visuais e auditivas recebidas durante a fala do
interlocutor numa representação interna, que é usada para compreender e interpretar a
mensagem.
- Ao ativar os neurónios espelho durante a percepção da fala, é possível que ocorra
uma simulação interna da produção dos sons da fala. Isso pode facilitar a
compreensão dos sons articulatórios e ajudar na identificação de fonemas e padrões
de fala. Os neurónios espelho podem permitir que o ouvinte mapeie os movimentos
articulatórios e a sequência temporal dos sons da fala, contribuindo para a
percepção e discriminação precisa dos fonemas.
Os neurónios motores da área de Broca estão ativos na perceção dos sons da fala.
Pelo que deve haver envolvimento de áreas motoras quando estamos a realizar
tarefas relacionadas com a perceção de sons da fala. APOIA A TEORIA MOTORA
Os neurónios espelho envolvidos na produção de movimentos articulatórios seriam

mobilizados durante a PSF, a partir de pistas acústicas e visuais? A evolução da
linguagem humana combinou um sistema acústico-auditivo (vogais; marcação das
consoantes sonoras) e um sistema gestual manual/facial (restringido aos lábios e
interior visível da boca, servindo de base à perceção das consoantes) preexistentes?
Gentilucci & Corballis sugerem que os 2 sistemas convergiram para dar origem às línguas
humanas. Ou seja, o padrão de atividade nas zonas motoras articulatórias serve de base ao
processo de identificação dos fonemas a que estamos a ser expostos através da interação
com o interlocutor, sugerem ainda que se passou na espécie humana o que terá dado
origem às línguas humanas que conhecemos.
Será isto verdade?
Para outros primatas há sistemas de comunicação assentes em sons, os gritos dos

primatas são sons vocálicos. Uma outra particularidade na comunicação dos primatas é o
uso da gestualidade (movimentos das mãos, dos braços e da parte superior do corpo). Nós,
humanos, também gesticulamos bastante - este sistema comunicativo assenta na
gestualidade e é primitivo, sendo que o partilhamos com outros primatas. Assim, estes
investigadores sugerem que estes 2 sistemas (dos gritos e o que tem origem na
gestualidade manual) teriam convergido para dar origem às línguas humanas que hoje
conhecemos. Este sistema gestual manual teria sido sintetizado nos movimentos
articulatórios que fazemos com os lábios e com a língua.
Há uma possibilidade de resposta alternativa, que diz que existe um sistema de correção
dos nossos movimentos articulatórios durante a produção da fala (falamos sempre a corrigir
os nossos movimentos articulatórios e os sons que produzimos). Esta auto-monitorização
faz retro-avaliação no sistema motor (ouço-me e o sistema motor ativa-se a partir desta
informação).
- … ou a resposta das regiões motoras durante a PSF resultará apenas da ativação
do circuito de automonitorização-correção da articulação, com significando funcional
apenas na produção? (correção articulatória de discurso electronicamente alterado
com latência inferior a 150 ms: Tourville, Reilly, & Guenther, 2007). quando estamos
a ouvir sons da fala de outras pessoas também ativamos o circuito da
auto-monitorização (isto pode ser um efeito secundário).
43. Compreender a distinção entre acesso lexical e acesso semântico (ativação do

significado).
A PSF cria, num armazém mnésico temporário (buffer mnésico), com uma lista de
identidades de fonemas, há medida que estes são percepcionados.
A presença dessa lista em formação, ativa o processo de acesso lexical, definível como
uma busca por uma correspondência entre a lista em desenvolvimento e as entradas no
léxico mental fonológico de inputs
O acesso ao léxico é dissociável da ativação do significado
Apenas quando a entrada corresponde com o fonema, esta é ativada no léxico
mental e se passa para a fase de ativação de significado- acesso semântico
Armazém/Sistema Lexical → Relativo ao conjunto de representações que codificam a

forma das palavras
- O acesso lexical refere-se ao processo de identificação e recuperação das
palavras armazenadas no léxico mental. Quando encontramos uma palavra,
ativamos a representação fonológica ou ortográfica dela no nosso léxico mental.
Esse processo ocorre de forma rápida e automática, permitindo-nos reconhecer e
compreender palavras com facilidade. O acesso lexical está relacionado com a
forma da palavra, a estrutura e aspetos fonológicos e ortográficos.
Armazém/Sistema Semântico → Relativo ao conjunto de representações que codificam o

significado das palavras
- O acesso semântico refere-se ao processo de ativação e recuperação do
significado associado a uma palavra. Envolve a compreensão do significado da
palavra, das suas relações com outras palavras e o conhecimento de como ela é
usada em diferentes contextos. O acesso semântico ocorre após o acesso
lexical, quando o significado da palavra é ativado e integrado ao processo de
compreensão.
- O orador entra no léxico usando informação sobre significado para recuperar a
estrutura fonológica das palavras apropriadas para expressar o significado que está
a construir para uma frase - léxico fonológico de outputs.
- O ouvinte, ou leitor, tem a tarefa oposta, usa a representação fonológica
(descodificada usando informação do sinal acústico) para recuperar informação
sobre o significado. Procura uma entrada lexical cuja representação fonológica
corresponda àquela que foi ouvida. Quando há uma correspondência, então a
palavra é recuperada, e a informação sobre o significado da palavra e os
requerimentos estruturais estão disponíveis- léxico fonológico/ ortográfico de inputs.
- O processo de acesso ao léxico privilegia a via de processamento visual ventral - via

da identificação.
O acesso lexical e o acesso semântico são dois processos cognitivos distintos, mas
relacionados, envolvidos no processamento de palavras. Estes processos ocorrem em
sequência e são essenciais para a compreensão e produção da linguagem.
44. Saber diferenciar o processamento de não-palavras e de pseudopalavras.

- Não palavras: violam as regras fonotáticas da língua alvo, que definem as
sequências de fonemas que são admissíveis numa determinada língua
apresentando clusters de consoantes, sequências de vogais ou estruturas silábicas
que não ocorrem em nenhuma palavra da língua em causa.
- conduzem a respostas negativas mais rápidas (menor RT)
- a resposta “não” parece resultar de um filtro percetivo, que reconhece a
violação fonotática e dispensa a realização de uma busca no léxico
mental
- ex: btrog, zmara, nrola
- Pseudopalavras: não violam as regras fonotáticas (conformam-se às regras

ortográficas e fonológicas) mas não tem significado na língua alvo
- conduzem a respostas negativas mais lentas (maior RT)
- a resposta “não” parece exigir uma busca mais exaustiva no léxico mental,
sendo que apenas há a resposta quando é constatado que a busca não pode
localizar uma entrada idêntica à pseudopalavra
- ex: troma, parlo, farba
- Há um filtro perceptivo que ocorre no córtex visual extraestriado medial esquerdo
(v4), ativado por palavras e pseudopalavras, mas não por não-palavras ou
sequências falsas de letras.
45. Saber diferenciar o processamento de pseudopalavras e de palavras.

- O córtex frontal esquerdo é ativado por palavras, mas não por pseudopalavras
(apenas para as palavras é disponibilizado um significado a ser processado
sintaticamente, mobilizando a área de Broca- processamento frásico)
- Em termos de processamento, as palavras são processadas de forma mais

rápida e eficiente, pois o acesso ao léxico mental é direto e automático. Por
outro lado, as pseudopalavras exigem um processamento mais consciente e
esforçado, uma vez que os participantes precisam de aplicar estratégias de análise
fonotática para determinar se a sequência de sons é real ou não.
- Quando a busca é bem sucedida no léxico, depois será ativado um significado.
Nesse instante, o sistema de processamento da linguagem vai passar para o nível
seguinte, isto é, procurar processar a sequência de palavras. Associar o significado
de uma sequência de palavras de forma a aceder ao significado frásico. Os
significados das palavras ativados no léxico mental – no córtex temporal – vão
entrar em contacto com zonas do córtex frontal esquerdo. Sendo que essas
zonas vão procurar verificar se aquela sequência de palavras configura uma frase
(um significado frásico).
46. Saber caracterizar as tarefas de decisão lexical.

Parte substancial da investigação do acesso lexical tem assentado no uso de tarefas de
decisão lexical
- TDL: apresentação breve (~ 500 ms) de sequências de letras num monitor de
computador (não-palavras ou pseudopalavras e palavras), sendo que o mesmo
número de palavras e pseudopalavras é apresentado.
- Tarefa: identificar com pressão num de dois botões, tão rapidamente quanto
possível, se a sequência de letras é uma palavra ou não.
- VD: tempo de reação (usual: 400-600 ms), e precisão.
- VI(s): caraterísticas das palavras que o investigador pretende estudar (e.g.,
frequência, familiaridade, imaginabilidade, idade de aquisição, …).
47. Saber prever as manifestações numa tarefa de decisão lexical das diferenças no
acesso ao léxico para palavras muito frequente e palavras pouco frequentes.
Frequência lexical: contagem das ocorrências de uma palavra numa amostra extensa de
uso de uma língua (corpus linguístico: e.g. transcrições de interações linguísticas orais;
textos escritos).
CORLEX, o corpus de referência para o português europeu tem 16.210.438 de ocorrências
de palavras.
- A frequência de uso de uma palavra numa língua correlaciona-se com a facilidade

de acesso à entrada correspondente no léxico mental dos falantes dessa língua:
palavras frequentes evidenciam tempos de decisão lexical (TR) inferiores aos
de palavras pouco frequentes.
- Palavras que são usadas mais frequentemente estão mais disponíveis no sistema
de recuperação lexical.
48. Saber prever as manifestações numa tarefa de decisão lexical de efeitos de

priming criados por diferentes tipos de sequências de material apresentado.
Priming: [Propriedade geral da cognição] Durante um determinado lapso de tempo, o
processamento de um estímulo poderá influenciar o processamento de um estímulo
subsequente, facilitando (priming positivo) ou dificultando (priming negativo) esse
processamento. Verifica-se para qualquer tipo de estímulo, linguístico ou não (imagens,
cheiros, sons não-linguísticos, etc.).
- No fundo é uma ativação residual de um estímulo anteriormente experienciado.
Mecanismo do priming positivo: Quando o primeiro estímulo (dito prime, numa tarefa
experimental) é processado, é ativada uma representação mental que lhe corresponde. O
processo de busca por essa representação específica ativa também outras representações
associadas à do estímulo em causa. Essas outras representações vão assim encontrar-se
“preparadas” (primed) para processamento subsequente, facilitando o reconhecimento e
resposta a um estímulo que lhes corresponda (dito alvo, numa tarefa experimental).
- As palavras MÃE e FILHO estão relacionadas semanticamente e as palavras

FARBA e FARDA estão relacionadas fonologicamente. Assim, MÃE e FARBA
(primes) deverão ter facilitado a resposta para a palavra que se lhe seguiu
(alvos/targets), em virtude da ativação residual que criaram para as
representações dessas palavras (priming positivo).
Quando um prime e um alvo estão em línguas diferentes, uma relação semântica entre
ambos facilita a recuperação da palavra alvo.
EX: pessoa que fala inglês e francês- o acesso a “cat” é facilitado por “dog” e por
“chien”.
- A força do priming pode ser assimétrica, geralmente é mais forte para a língua
dominante do indivíduo bilíngue (que costuma ser a língua-mãe). Isto porque o
léxico dominante é maior, visto que foi aprendido primeiro, fazendo as ligações para
as representações dos conceitos (não-linguísticos) mais fortemente para palavras na
língua dominante.
Priming semântico/associativo: há uma relação de significado entre o prime e o alvo.

Priming fonológico/da forma: o prime e o alvo não estão relacionados semanticamente,
mas estão relacionados na sua forma fonológica. (EX: table - fable; able - axle)
49. Saber prever as manifestações numa tarefa de decisão lexical das diferenças no
acesso ao léxico para palavras homónimas e palavras polissémicas e as razões que
justificam essas diferenças.
Ambiguidade lexical: Uma palavra é lexicalmente ambígua quando, mantendo-se
fisicamente constante (mesma sequência de fonemas/grafemas), pode ativar dois ou mais
significados distintos. Existem dois tipos de palavras ambíguas:
- Homonímia: Os vários significados não se relacionam (e.g. banco [assento];

banco [instituição]).
- Várias entradas no léxico mental competem durante o acesso lexical,
dificultando-o.
- Polissemia: Os vários significados são especificações de um mesmo

significado-base (e.g. dente [da boca]; dente [de um pente]).
- A mesma entrada é ativada mais frequentemente, uma vez que cada
significado distinto da palavra mobiliza a mesma entrada no léxico. Esta
frequência acrescida facilita o acesso lexical, e são recuperadas mais
rapidamente pelo sistema lexical.
- As palavras ambíguas por polissemia são mais rapidamente identificadas

como palavras bem formadas numa tarefa de decisão lexical do que palavras
ambíguas por homonímia.
50. Saber prever as manifestações numa tarefa de decisão lexical de efeitos

contrastantes previstos por um lado por uma teoria decomposicional da
representação e processamento de palavras complexas e, por outro lado, por uma
teoria holística (ou lexicalista).
Palavras complexas: “Divisão de trabalho” entre conhecimento declarativo (armazenamento
lexical a longo prazo) e conhecimento procedimental (composição no momento do uso, à
semelhança do processamento frásico)? A economia computacional sugere que sim.
Teoria Decomposicional: De acordo com esta teoria, as palavras complexas são

decompostas nos seus constituintes menores, como morfemas, e o processamento ocorre
de forma incremental.
- Nesse caso, prevê-se que os efeitos contrastantes sejam influenciados pela
estrutura interna das palavras. Por exemplo, se uma palavra complexa for
composta por um morfema familiar e um morfema não familiar, espera-se que os
participantes tenham TR menores para reconhecer a palavra como real se os
morfemas forem comuns.
- Efeito de complexidade morfológica: Palavras complexas que contêm morfemas
menos frequentes podem levar mais tempo para serem processadas devido à
necessidade de acesso e análise dos morfemas individuais.
- ex: representação lexical para 3 bases e 3 afixos (+ procedimento de
decomposição/composição): 6 entradas
Teoria Holística ou Lexicalista: o nosso léxico mental tem entradas distintas/exaustivas para
cada uma das várias palavras complexas esgotando todas as possibilidades de afixos ou
radicais. Esta teoria enfatiza o processamento das palavras como unidades inteiras,
sem uma decomposição em constituintes menores. Segundo essa visão, as palavras são
armazenadas no léxico mental como unidades completas e a sua identificação ocorre
de forma global.
- Prevê-se que os efeitos contrastantes estejam relacionados com a familiaridade
e frequência das palavras.
- Efeito de frequência: Palavras complexas que são frequentes, são processadas
mais rapidamente do que aquelas que as que não são frequentes ou que
apresentam formas irregulares ou exceções.
- ex: representação lexical exaustiva para a combinar 3 bases e 3 afixos: 9 entradas

Perguntas de PL

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Perguntas de PL

Enviado por

Direitos autorais:

Formatos disponíveis

OBJETIVOS DO EXAME DE PSICOLOGIA DA LINGUAGEM

2022/2023 - Inês Oliveira

1. Compreender a distinção entre códigos e cifras.

- Código: articulação dupla (articula o código fonético e o código semântico); os

2. Compreender a distinção entre símbolos e índices e saber relacioná-la com a

Há evidências de que outras espécies realizam naturalmente atividades, aparentemente,

A distinção entre símbolo e coisa simbolizada num sistema de comunicação de outros

- Símbolos: dependem de uma associação convencional ou arbitrária entre o

3. Compreender o conceito de turn-taking

O sistema é altamente eficiente: menos de 5% do fluxo de fala envolve dois ou mais

Tanto quanto se sabe, o sistema geral empregue na conversação é fortemente universal,

Consequências cognitivas do sistema de tomada de vez

Assim que a compreensão identifica a função de um turno, a preparação da resposta pode

A estimativa temporal da duração de um turno pode utilizar a estrutura lexical, semântica e

As pistas prosódicas, tais como as sílabas alongadas, ocorrem frequentemente no final

A hipótese é a de que as conquistas marcantes da nossa espécie - a linguagem e a

Levinson sugere que o instinto da tomada de turnos está profundamente enraizado na

. Levinson também destaca o surgimento precoce dos comportamentos de tomada de

. Um terceiro argumento a favor da natureza biológica da tomada da vez pelos humanos

Em resumo, Levinson argumenta que a universalidade entre culturas, o surgimento precoce

5. Saber relacionar o provável veículo expressivo (gestualidade) do turn-taking que

- Um quebra-cabeças, no entanto, é o facto de a tomada de turno vocal não ser

Progressivamente, talvez devido a maior solicitação das mãos para a manipulação de

- A adição de sons aos gestos faciais aumentou a acessibilidade e criou distinções

Teoria motora da perceção dos sons da fala

6. Saber reconhecer as semelhanças entre os circuitos cerebrais relacionados com

O substrato neuronal que permite o controlo e a aprendizagem vocais nos humanos é

A maioria dos genes convergentes especializados operam no controlo motor e na

“Resumindo, comparações de transcriptomas cerebrais de aves canoras e de humanos em

A existência de um sistema de comunicação gestual a ocupar, no último antepassado

8. Compreender a natureza da operação Merge proposta por Chomsky e saber

- O Merge que funde 2 representações pré-existentes, criando a partir delas um

Vantagem adaptativa de transmissão exata de informação, permitiu a formação de memória

9. Saber relacionar a operação Merge com o conceito de recursividade e com a

- Recursividade: refere-se à capacidade das estruturas linguísticas se repetirem

- Produtividade linguística: está relacionada à capacidade de um orador produzir e

A operação Merge combina elementos de diferentes níveis sintáticos e semânticos para

. No nível morfológico, o Merge permite a formação de palavras compostas ou

. No nível discursivo, o Merge contribui para a organização e coesão do discurso. Através

da operação Merge, é possível combinar frases e orações para formar parágrafos e

textos coesos. A estruturação hierárquica proporcionada pelo Merge ajuda na formação

de relações lógicas e temporais entre as partes do discurso, permitindo a expressão

de ideias complexas e a narrativa de eventos de forma coerente.

INPUT: Componentes articulatórios percecionados (traços fonéticos)

O código fonético é uma parte essencial da linguagem e é responsável por

É no interior dos signos que se articula o funcionamento do código semântico e o

- Fronteira fonémica de consoantes oclusivas sonoras/surdas em fala “normal”:

13. Compreender a estrutura e funções do código semântico.

OUTPUT: Representação quasi-percetiva = 2.5D sketch de Marr (1982)) uma ativação do

- Este código gera uma sobreativação no sistema de processamento visual que

É no interior dos signos que se articula o funcionamento do código semântico e o

14. Compreender o papel atribuído pela teoria da linguagem e simulação situada

- Assim que o sistema linguístico começa a reconhecer a palavra apresentada, a

A teoria da linguagem e simulação situada, retém alguns aspetos da análise

15. Compreender o significado do termo “situada” na expressão “simulação situada”,

16. Compreender o papel da “teoria da mente” na compreensão da linguagem e saber

- Teoria da Mente: Capacidade de inferir os estados mentais do próprio e de outros, e

17. Compreender os conceitos de “léxico mental” e de “sistema sintático” e saber

● Léxico mental - contacto entre os dois códigos. Corresponde ao dicionário mental,

● Sistema sintático: Permite transformar um conjunto desordenado de símbolos

O sistema sintático permite: Linearizar as configurações que representam o conteúdo

18. Saber relacionar o léxico mental e o sistema sintático com as principais

- Léxico mental: refere-se ao armazenamento e processamento das palavras e dos

Fascículo arqueado: é uma via de comunicação entre as áreas de Broca e Wernicke, e