Você está na página 1de 113

[Digite aqui]

i
Autores

Roberto Aguilar Machado Santos Silva


Suzana Portuguez Viñas
Santo Ângelo, RS
2021
Exemplares desta publicação podem ser adquiridos com:

e-mail: Suzana-vinas@yahoo.com.br
robertoaguilarmss@gmail.com

Supervisão editorial: Suzana Portuguez Viñas


Projeto gráfico: Roberto Aguilar Machado Santos Silva
Editoração: Suzana Portuguez Viñas

Capa:. Roberto Aguilar Machado Santos Silva

1ª edição

2
Autores

Roberto Aguilar Machado Santos Silva


Membro da Academia de Ciências de Nova York (EUA), escritor
poeta, historiador
Doutor em Medicina Veterinária
robertoaguilarmss@gmail.com

Suzana Portuguez Viñas


Pedagoga, psicopedagoga, escritora,
editora, agente literária
suzana_vinas@yahoo.com.br

3
Dedicatória
ara todos os mestres, pedagogos, psicopedagogos e psicólogos.

P Roberto Aguilar Machado Santos Silva


Suzana Portuguez Viñas

4
A língua... é uma ponte que te
permite atravessar com
segurança de um lugar para
outro.
Arnold Wesker.

Arnold Wesker (Stepney, 24 de maio de 1932 – Brighton, 12


de abril de 2016) foi um dramaturgo britânico. Autor de 42
peças de teatro, 4 volumes de contos, 2 volumes de ensaios,
um livro sobre jornalismo, um livro infantil, entre outras obras,
teve suas peças traduzidas para 17 idiomas e executadas no
mundo todo.

5
Apresentação

A
linguagem é uma adaptação chave de nossa espécie,
mas não sabemos quando ela evoluiu. Aqui, usamos
dados sobre a diversidade fonêmica da língua para
estimar uma data mínima para a origem da língua. Aproveitamos
o fato de que a diversidade fonêmica evolui lentamente e a
usamos como um relógio para calcular quanto tempo as línguas
africanas mais antigas deveriam existir para acumular o número
de fonemas que possuem hoje. Nossa análise é consistente com
as evidências arqueológicas que sugerem que o comportamento
humano complexo evoluiu durante a Idade da Pedra Média na
África. A linguagem é uma adaptação recente que provocou a
dispersão de humanos para fora da África.
Roberto Aguilar Machado Santos Silva
Suzana Portuguez Viñas

6
Sumário

Introdução.....................................................................................8
Capítulo 1 - A origem da linguagem.........................................10
Capítulo 2 - Origem dos sons da fala.......................................82
Capítulo 3 - Linha do tempo da evolução da fala..................102
Epílogo.......................................................................................105
Bibliografia consultada............................................................107

7
Introdução

A
aquisição da linguagem é o processo pelo qual o ser
humano adquire a capacidade de perceber e
compreender a linguagem (as palavras ganham a
capacidade de estar atento à linguagem e compreendê-la), bem
como de produzir e usar palavras e frases para se comunicar.
A aquisição da linguagem envolve estruturas, regras e
representação. A capacidade de usar a linguagem com sucesso
requer a aquisição de uma variedade de ferramentas, incluindo
fonologia, morfologia, sintaxe, semântica e um vocabulário
extenso. A linguagem pode ser vocalizada como na fala, ou
manual como no signo. A capacidade de linguagem humana está
representada no cérebro. Embora a capacidade da linguagem
humana seja finita, pode-se dizer e compreender um número
infinito de sentenças, que se baseia em um princípio sintático
denominado recursão. As evidências sugerem que todo indivíduo
possui três mecanismos recursivos que permitem que as
sentenças sejam indeterminadas. A capacidade do homem
moderno (Homo.sapiens sapiens) para o uso e desenvolvimento
de linguagem complexa é uma característica dos humanos
modernos e está relacionada à estrutura evolutiva do cérebro.
Especula-se sobre as origens da linguagem. É provável que essa
capacidade pré-existisse e evoluísse de outros hominídeos. Há
8
especulação sobre as origens da linguagem a esse respeito. Os
humanos modernos são o resultado de milhões de anos de
evolução pelo jogo da "seleção natural" e da "seleção sexual". Os
caracteres desenvolvidos ao longo desse longo processo
evolutivo provavelmente aumentaram as chances de
sobrevivência de nossa espécie, ao melhorar nossa
adaptabilidade a um ambiente natural muitas vezes hostil, ou seja,
obter alimentos e água, proteção contra predadores, proteção
contra o frio, e isso até a idade de reprodução bem-sucedida. e
produzindo numerosos descendentes.

9
Capítulo 1
A origem da linguagem

A
origem da linguagem (falada e sinalizada, bem como os
sistemas tecnológicos relacionados à linguagem, como a
escrita), sua relação com a evolução humana e suas
consequências têm sido objetos de estudo por séculos. Os
estudiosos que desejam estudar as origens da linguagem devem
tirar inferências de evidências como o registro fóssil, evidências
arqueológicas, diversidade da linguagem contemporânea, estudos
de aquisição da linguagem e comparações entre a linguagem
humana e os sistemas de comunicação existentes entre os
animais (particularmente outros primatas). Muitos argumentam
que as origens da linguagem provavelmente estão intimamente
relacionadas às origens do comportamento humano moderno,
mas há pouco acordo sobre os fatos e implicações dessa
conexão.
Várias hipóteses foram desenvolvidas sobre como, por que,
quando e onde a linguagem pode ter surgido. Ainda assim, pouco
mais foi universalmente aceito hoje do que cem anos atrás,
quando a teoria da evolução por seleção natural de Charles
Darwin provocou uma onda de especulação sobre o assunto.
Desde o início da década de 1990, entretanto, vários linguistas,
arqueólogos, psicólogos, antropólogos e outros tentaram resolver
esse problema com métodos novos e modernos.

10
Abordagens
Pode-se subdividir as abordagens da origem da linguagem de
acordo com alguns pressupostos subjacentes:
• As "teorias da continuidade" baseiam-se na ideia de que a
linguagem exibe tanta complexidade que não se pode imaginá-la
simplesmente surgindo do nada em sua forma final; portanto,
deve ter evoluído de sistemas pré-linguísticos anteriores entre os
ancestrais primatas dos humanos.
• As "teorias da descontinuidade" adotam a abordagem oposta -
que a linguagem, como uma característica única que não pode
ser comparada a qualquer coisa encontrada entre os não-
humanos, deve ter aparecido de repente durante o curso da
evolução humana.
• Algumas teorias consideram a linguagem principalmente como
uma faculdade inata - amplamente codificada geneticamente.
• Outras teorias consideram a linguagem um sistema
principalmente cultural - aprendido por meio da interação social.

A maioria dos estudiosos de lingüística em 2018 acredita em


teorias baseadas na continuidade, mas elas variam em como
hipotetizam o desenvolvimento da linguagem. Entre aqueles que
consideram a linguagem principalmente inata, alguns -
notavelmente Steven Pinker - evitam especular sobre precursores
específicos em primatas não humanos, enfatizando simplesmente

11
que a faculdade da linguagem deve ter evoluído da maneira usual
e gradual.

Steven Arthur Pinker (Montreal, 18 de setembro de 1954) é


um psicólogo e linguista canadense naturalizado norte-
americano. Ele é professor da Universidade Harvard e escritor
de livros de divulgação científica. Durante 21 anos Pinker foi
professor no Departamento de Cérebro e Ciências Cognitivas
do Massachusetts Institute of Technology antes de regressar a
Harvard em 2003.

Outros neste campo intelectual - notavelmente Ib Ulbæk -


sustentam que a linguagem evoluiu não da comunicação primata,
mas da cognição primata, que é significativamente mais
complexa.
Aqueles que consideram a linguagem aprendida socialmente,
como Michael Tomasello, consideram que ela se desenvolve a
partir dos aspectos cognitivamente controlados da comunicação
dos primatas, sendo estes principalmente gestuais em oposição
aos vocais. No que diz respeito aos precursores vocais, muitos
teóricos da continuidade imaginam a linguagem evoluindo a partir
das primeiras capacidades humanas para cantar.
Noam Chomsky, um defensor da teoria da descontinuidade,
argumenta que uma única mutação casual ocorreu em um
indivíduo na ordem de 100.000 anos atrás, instalando a faculdade
de linguagem (um componente hipotético do mesencéfalo) em
"perfeito" ou "quase perfeito " Formato.

12
Avram Noam Chomsky (Filadélfia, 7 de dezembro de 1928) é
um linguista, filósofo, sociólogo, cientista cognitivo,
comentarista e ativista político norte-americano, reverenciado
em âmbito acadêmico como "o pai da linguística moderna",
também é uma das mais renomadas figuras no campo da
filosofia analítica.

Transcendendo a divisão continuidade versus descontinuidade,


alguns estudiosos vêem o surgimento da linguagem como
consequência de algum tipo de transformação social que, ao
gerar níveis sem precedentes de confiança pública, liberou um
potencial genético para a criatividade linguística que antes estava
adormecido. A "teoria da coevolução ritual / fala" exemplifica essa
abordagem. Os estudiosos desse campo intelectual apontam para
o fato de que mesmo os chimpanzés e bonobos têm capacidades
simbólicas latentes que raramente - ou nunca - usam na natureza.
Objetando à ideia de mutação repentina, esses autores
argumentam que mesmo se uma mutação casual instalasse um
órgão da linguagem em um primata bípede em evolução, seria
adaptativamente inútil sob todas as condições sociais primatas
conhecidas. Uma estrutura social muito específica - capaz de
sustentar níveis incomumente altos de responsabilidade pública e
confiança - deve ter evoluído antes ou simultaneamente com a
linguagem para tornar a confiança em "sinais baratos" (palavras)
uma estratégia evolutivamente estável.
Como o surgimento da linguagem remonta à pré-história humana,
os desenvolvimentos relevantes não deixaram vestígios históricos
diretos; nem podem processos comparáveis ser observados hoje.
Apesar disso, o surgimento de novas línguas de sinais nos
tempos modernos - a Língua de Sinais da Nicarágua, por exemplo

13
- pode oferecer insights sobre os estágios de desenvolvimento e
processos criativos necessariamente envolvidos. Outra
abordagem inspeciona os primeiros fósseis humanos, procurando
traços de adaptação física ao uso da linguagem. Em alguns
casos, quando o DNA de humanos extintos pode ser recuperado,
a presença ou ausência de genes considerados relevantes para a
linguagem - FOXP2, por exemplo - pode ser informativa. Outra
abordagem, desta vez arqueológica, envolve a invocação de
comportamento simbólico (como atividade ritual repetida) que
pode deixar um traço arqueológico - como mineração e
modificação de pigmentos ocres para pintura corporal - enquanto
desenvolve argumentos teóricos para justificar inferências do
simbolismo em geral para a linguagem em particular.

FOXP2 ("proteínas FOX P2") é um gene que é relacionado com


o desenvolvimento da linguagem, incluindo uma capacidade
gramatical.
Anthony Monaco, geneticista inglês, professor da Universidade
de Oxford e integrante do Projeto Genoma Humano, anunciou
que o gene FOXP2, está, aparentemente, destinado a controlar
a capacidade linguística humana. Segundo suas pesquisas,
pessoas que dissipados na unidade de DNA do FOXP2,
possuíam distúrbios concernentes à conjugação verbal, à
distribuição e à referencialidade dos pronomes, à preparação
de orações subordinadas. Diversos casos de dispraxia
desenvolvimental verbal em humanos têm sido relacionados a
mutações sem gene FOXP2

A variação do FOXP2 em
populações de grandes símios
oferece uma visão sobre a evolução
das habilidades de comunicação
14
De acordo com Nicky Staes e colegas (2017), a linguagem é uma
característica definidora da singularidade humana. Portanto, os
fundamentos cognitivos, motores e neurais que distinguem a fala
e a linguagem humanas de outros sistemas de comunicação
animal têm sido o foco central da pesquisa nas ciências sociais e
biológicas por mais de 200 anos. Para resolver o quebra-cabeça
das origens da linguagem humana, é essencial examinar os
processos cognitivos, neurobiologia e genética subjacentes a esta
forma única de comunicação em um contexto evolutivo,
particularmente em comparação com os parentes vivos mais
próximos da nossa espécie, os grandes macacos (chimpanzés,
bonobos, gorilas e orangotangos). Embora se presuma que os
grandes macacos sejam limitados em sua capacidade vocal de
produzir a variedade de sons na fala humana, eles apresentam
variações locais nos chamados vocais que parecem ser herdados
através das gerações por meio da transmissão social. Tal
aprendizado vocal refere-se à habilidade de um indivíduo de
modificar as características acústicas ou o tempo de chamadas
típicas de espécies existentes, ou de aprender novas chamadas
completamente, expandindo o repertório vocal. Evidências de
aprendizagem vocal por modifcação de chamada foram
documentadas em várias espécies de primatas e estudos
recentes também relatam alguma capacidade de invenção vocal,
que tipicamente engloba vocalizações sem voz. Por exemplo, em
chimpanzés, o uso de novos sinais vocais, como sons para
chamar a atenção, foi relatado em populações cativas, como um
meio de atrair a atenção de um público desatento. A capacidade

15
de produzir essas vocalizações é hereditária e possivelmente
aprendida socialmente, sugerindo que esses macacos têm
controle voluntário tanto dos sinais vocais quanto da musculatura
orofacial.
Alguns macacos também podem adquirir e usar símbolos durante
a comunicação bidirecional entre espécies por meio de sistemas
alternativos e aumentativos, como a linguagem de sinais
americana e símbolos visuais-gráficos. Além disso, muitos
paralelos foram encontrados nos gestos dos macacos em
comparação com as crianças pré-verbais, como a iniciação e a
resposta aos sinais de apontar, a sinalização intencional e
referencial e a elaboração e reparação de falhas na comunicação.
Muitos comportamentos não-verbais encontrados em grandes
macacos, como atenção conjunta, também foram observados em
crianças pré-verbais pouco antes do início da fala, o que pode
servir como parte da base cognitiva do desenvolvimento da
linguagem. Portanto, em termos de compreensão da evolução da
linguagem, os grandes macacos representam espécies-chave de
referência. As mudanças genéticas responsáveis pela capacidade
humana de aumentar o aprendizado vocal provavelmente
ocorreram desde que nossa linhagem se separou dos chimpanzés
e bonobos. Um candidato bem estudado é o gene que codifica o
fator de transcrição FOXP2 (forkhead box P2). FOXP2 é o
primeiro gene que foi descoberto por estar associado a distúrbios
de linguagem e controle motor orofacial fino, já que duas cópias
funcionais são necessárias para o desenvolvimento normal da fala
e da linguagem em humanos.

16
As mutações afetam principalmente a coordenação dos
movimentos orofaciais necessários para a fala. Vários estudos
recentes compararam a evolução desse gene em primatas e
outras espécies. Curiosamente, a sequência de codificação da
proteína está entre as 5% de proteínas mais altamente
conservadas em vertebrados, e seu papel na regulação da
aprendizagem e comunicação vocal parece ser compartilhado por
uma variedade de espécies animais, assim como a expressão do
gene em vários cérebros importantes. regiões relacionadas à
linguagem e ao controle motor fne. Mais especificamente, o gene
é crucial para o desenvolvimento e função dos circuitos cerebrais
que envolvem o neocórtex, gânglios da base e cerebelo. O mRNA
do FOXP2 é expresso nessas regiões cerebrais entre mamíferos
e aves, reforçando a visão de que desempenha um papel na fala
em humanos e no aprendizado motor em outras espécies, como
pássaros e camundongos.
O gene que codifica para a proteína P2 da caixa forkhead
(FOXP2) está associado a distúrbios da linguagem humana.
Acredita-se que as mudanças evolutivas nesse gene tenham
contribuído para o surgimento da fala e da linguagem na linhagem
humana. Embora o FOXP2 seja altamente conservado na maioria
dos mamíferos, os humanos diferem em duas substituições de
aminoácidos funcionais dos chimpanzés, bonobos e gorilas, com
uma substituição fixa adicional encontrada nos orangotangos. A
modelagem estrutural e funcional de proteínas indica um efeito
bioquímico da substituição em orangotangos, e por causa de sua
presença apenas na espécie de orangotango de Sumatra, a

17
mutação pode estar associada a diferenças populacionais
relatadas nas vocalizações.

Evolução do FOXP2 em primatas (Anthropoidea). (A) Proteína FOXP2 humana


(hsaFOXP2: NP_055306) com dois aminoácidos característicos nas posições 303 e
325 destacados em vermelho. Sublinhando define amplamente o domínio de
repressão da transcrição. O domínio FOX é mostrado em cinza. A rotulagem azul
destaca o trecho de poli-glutamina mais longo dentro do N-terminal enriquecido
com glutamina. Os pontos acima da sequência de aminoácidos indicam
incrementos de cinco aminoácidos, cada. Os números à direita fornecem o
número total de aminoácidos. (B) Árvore do gene FOXP2 (Primatas,
Anthropoidea). Os comprimentos dos ramos horizontais (linhas verdes grossas)
correspondem ao número de trocas sinônimas. Rótulos vermelhos indicam duas
trocas não sinônimas, que ocorreram no ramo humano (linha pontilhada). As
respectivas trocas de aminoácidos ocorreram dentro do domínio de repressão da
transcrição, conforme mostrado em (A). Outra troca não sinônima ocorreu na
linhagem com o sagui. Uma lista detalhada das centrais de agências específicas é
fornecida na Tabela Suplementar 1.1. Os cDNAs de FOXP2 (cjaFOXP2 etc.) são
designados de acordo com os nomes das espécies em latim (cja, Callithrix
jacchus etc.) Oswald et al. (2017).

18
O intervalo de tempo para a evolução da linguagem ou de seus
pré-requisitos anatômicos se estende, pelo menos em princípio,
da divergência filogenética do Homo (2,3 a 2,4 milhões de anos
atrás) de Pan (5 a 6 milhões de anos atrás) ao surgimento da
modernidade comportamental completa cerca de 50.000-150.000
anos atrás. Poucos contestam que o Australopithecus
provavelmente carecia de uma comunicação vocal
significativamente mais sofisticada do que a dos grandes
macacos em geral, mas as opiniões dos estudiosos variam quanto
ao desenvolvimento desde o aparecimento do Homo, há cerca de
2,5 milhões de anos. Alguns estudiosos presumem o
desenvolvimento de sistemas primitivos semelhantes à linguagem
(protolinguagem) já no Homo habilis, enquanto outros colocam o
desenvolvimento da comunicação simbólica apenas com o Homo
erectus (1,8 milhões de anos atrás) ou com o Homo
heidelbergensis (0,6 milhões de anos atrás) e o desenvolvimento
da linguagem propriamente dito com o Homo sapiens, atualmente
estimado em menos de 200.000 anos atrás.
A comunicação simbólica é a troca de mensagens que mudam a
expectativa a priori dos eventos. Exemplos disso são as
modernas tecnologias de comunicação e a troca de informações
entre os animais. Ao referir-se a objetos e ideias não presentes no
momento da comunicação, um mundo de possibilidades se abre.
Em humanos, esse processo foi agravado para resultar no atual
estado de modernidade. Um símbolo é qualquer coisa que alguém
diga ou faça para descrever algo, e esse algo pode ter uma série
de muitos significados. Uma vez que os símbolos são aprendidos

19
por um grupo específico, esse símbolo permanece intacto com o
objeto. A comunicação simbólica inclui gestos, linguagem corporal
e expressões faciais, bem como gemidos vocais que podem
indicar o que um indivíduo deseja sem precisar falar. A pesquisa
argumenta que cerca de 55% de toda a comunicação provém da
linguagem não verbal. A comunicação simbólica varia da
linguagem de sinais ao braille e às habilidades de comunicação
tátil.

Homo habilis ("homem habilidoso") é uma espécie de humano


arcaico do Pleistoceno Inferior da África do Sul e Oriental há
cerca de 2,3-1,65 milhões de anos atrás (mya). Após a
descrição da espécie em 1964, H. habilis foi altamente
contestado, com muitos pesquisadores recomendando que
fosse sinonimizado com Australopithecus africanus, o único
outro hominídeo primitivo conhecido na época, mas H. habilis
recebeu mais reconhecimento com o passar do tempo e
descobertas mais relevantes foram fez. Na década de 1980, foi
proposto que H. habilis foi um ancestral humano, evoluindo
diretamente para o Homo erectus, que levou diretamente aos
humanos modernos. Este ponto de vista está agora em debate.
Vários espécimes com identificação de espécie insegura foram
atribuídos a H. habilis, levando a argumentos para a divisão,
nomeadamente em "H. rudolfensis" e "H. gautengensis", dos
quais apenas o primeiro recebeu amplo apoio.
Homo heidelbergensis (também H. sapiens heidelbergensis)
é uma espécie extinta ou subespécie de humano arcaico que
existiu durante o Pleistoceno Médio. Foi incluída como uma
subespécie de H. erectus em 1950 como H. e. heidelbergensis,
mas no final do século, foi mais amplamente classificado como
sua própria espécie. É debatido se deve ou não restringir H.
heidelbergensis apenas à Europa ou incluir também espécimes
africanos e asiáticos, e isso é ainda confundido pelo espécime
tipo (Mauer 1) ser um osso maxilar, porque os maxilares
apresentam poucos traços diagnósticos e geralmente estão
ausentes entre os espécimes do Pleistoceno Médio. Assim, é
debatido se alguns desses espécimes poderiam ser divididos
em suas próprias espécies ou uma subespécie de H. erectus.

Usando métodos estatísticos para estimar o tempo necessário


para atingir a atual disseminação e diversidade em línguas
modernas, Johanna Nichols - uma lingüista da Universidade da
20
Califórnia, Berkeley - argumentou em 1998 que as línguas vocais
devem ter começado a se diversificar na espécie humana há pelo
menos 100.000 anos atrás. Um estudo posterior de Q. D. Atkinson
(2011) sugere que sucessivos gargalos populacionais ocorreram
quando ancestrais humanos africanos migraram para outras
áreas, levando a uma diminuição na diversidade genética e
fenotípica.

Atkinson argumenta que esses gargalos também afetaram a


cultura e a linguagem, sugerindo que quanto mais longe uma
determinada língua está da África, menos fonemas ela contém.

A título de evidência, Atkinson afirma que as línguas africanas de


hoje tendem a ter um número relativamente grande de fonemas,
enquanto as línguas de áreas na Oceania (o último lugar para o
qual os humanos migraram) têm relativamente poucos.
Baseando-se fortemente no trabalho de Atkinson, um estudo
subsequente explorou a taxa em que os fonemas se desenvolvem
naturalmente, comparando essa taxa com algumas das línguas
mais antigas da África.

21
Os resultados sugerem que a linguagem evoluiu pela primeira vez
por volta de 50.000-150.000 anos atrás, que é mais ou menos na
época em que o Homo sapiens moderno evoluiu. Estimativas
desse tipo não são universalmente aceitas, mas considerando
conjuntamente as evidências genéticas, arqueológicas,
paleontológicas e muitas outras evidências indicam que a
linguagem provavelmente surgiu em algum lugar na África
subsaariana durante a Idade da Pedra Média, aproximadamente
contemporânea à especiação do Homo sapiens.

Hipóteses de origem da
linguagem
Especulações iniciais
Não posso duvidar que a linguagem deve sua origem à imitação e
modificação, auxiliada por sinais e gestos, de vários sons

22
naturais, as vozes de outros animais e os gritos instintivos do
próprio homem.
- Charles Darwin, 1871.
A descendência do homem e a seleção em relação ao sexo [

Charles Robert Darwin, (Shrewsbury, 12 de fevereiro de 1809


- Downe, 19 de abril de 1882) foi um naturalista, geólogo e
biólogo britânico, célebre por seus avanços sobre evolução nas
ciências biológicas. Juntamente com Alfred Wallace, Darwin
cria a ideia que todos os seres vivos descendem de um
ancestral em comum, argumento agora amplamente aceito e
considerado um conceito fundamental no meio científico, e
propôs a teoria de que os ramos evolutivos são resultados da
seleção natural e sexual , onde a luta pela resultado em
consequências semelhantes às da seleção artificial.

Em 1861, o linguista histórico Max Müller publicou uma lista de


teorias especulativas sobre as origens da língua falada: [
• Bow-wow. A teoria do wow ou cuco, que Müller atribuiu ao
filósofo alemão Johann Gottfried Herder, via as primeiras palavras
como imitações dos gritos de animais e pássaros.
• Pooh-pooh. A teoria do pooh-pooh viu as primeiras palavras
como interjeições emocionais e exclamações desencadeadas por
dor, prazer, surpresa, etc.
• Ding-dong. Müller sugeriu o que chamou de teoria ding-dong,
que afirma que todas as coisas têm uma ressonância natural
vibrante, ecoada de alguma forma pelo homem em suas primeiras
palavras.
• Yo-he-ho. A teoria do yo-he-ho afirma que a linguagem surgiu do
trabalho rítmico coletivo, a tentativa de sincronizar o esforço
muscular resultando em sons como o de levantar e alternar com
sons como o ho.

23
• Ta-ta. Isso não constava da lista de Max Müller, tendo sido
proposto em 1930 por Sir Richard Paget. De acordo com a teoria
ta-ta, os humanos faziam as primeiras palavras por movimentos
da língua que imitavam gestos manuais, tornando-os audíveis.

A maioria dos estudiosos hoje considera todas essas teorias não


tão erradas - eles ocasionalmente oferecem percepções
periféricas - como ingênuas e irrelevantes. O problema com essas
teorias é que são estritamente mecanicistas. Eles presumem que,
uma vez que os ancestrais humanos descobriram o engenhoso
mecanismo apropriado para ligar sons e significados, a linguagem
evoluiu e mudou automaticamente.

Problemas de confiabilidade e
engano
Do ponto de vista da teoria da sinalização, o principal obstáculo
para a evolução da comunicação semelhante à linguagem na
natureza não é mecanicista. Em vez disso, é o fato de que os
símbolos - associações arbitrárias de sons ou outras formas
perceptíveis com significados correspondentes - não são
confiáveis e podem muito bem ser falsos. Como diz o ditado, "as
palavras são baratas". O problema da confiabilidade não foi
reconhecido por Darwin, Müller ou os outros primeiros teóricos da
evolução.
Os sinais vocais dos animais são, em sua maioria,
intrinsecamente confiáveis. Quando um gato ronrona, o sinal
24
constitui uma evidência direta do estado de contentamento do
animal. O sinal é confiável, não porque o gato esteja inclinado a
ser honesto, mas porque ele simplesmente não pode falsificar
esse som. Chamadas vocais de primatas podem ser um pouco
mais manipuláveis, mas permanecem confiáveis pelo mesmo
motivo - porque são difíceis de falsificar. A inteligência social dos
primatas é "maquiavélica" - servindo a si mesma e não sendo
restringida por escrúpulos morais.

Quando você pensa na frase “política de escritório”, pode imaginar uma espécie
de jogo de xadrez maquiavélico, cheio de manipulações complicadas e traição. E
às vezes é. Ou talvez você pense em algo mais sutil: fofoca, sugação estratégica,
escolha cuidadosa de quando cobrar seus favores. Pode ser isso também. Mas há
uma coisa que a política de escritório definitivamente não é, e isso é
exclusivamente humano. Cientistas que estudam nossos primos animais mais
próximos descobriram que macacos e macacos praticam muito do mesmo tipo de
construção de alianças, escalada de escadas, nepotismo e aquisição de controle
que nós primatas de gravata (Strauss, 2021).

25
Macacos frequentemente tentam enganar uns aos outros,
enquanto ao mesmo tempo permanecem constantemente em
guarda contra serem eles próprios vítimas de enganos.
Paradoxalmente, teoriza-se que a resistência dos primatas ao
engano é o que bloqueia a evolução de seus sistemas de
sinalização ao longo de linhas semelhantes às da linguagem. A
linguagem é descartada porque a melhor maneira de se proteger
contra o engano é ignorar todos os sinais, exceto aqueles que
podem ser verificados instantaneamente. As palavras falham
automaticamente neste teste.
As palavras são fáceis de falsificar. Se acabarem sendo mentiras,
os ouvintes se adaptarão ignorando-as em favor de índices ou
pistas difíceis de falsificar. Para que a linguagem funcione, então,
os ouvintes devem estar confiantes de que aqueles com quem
estão se comunicando geralmente são honestos. Uma
característica peculiar da linguagem é a "referência deslocada",
que significa referência a tópicos fora da situação perceptível
atualmente. Esta propriedade evita que os enunciados sejam
corroborados no "aqui" e no "agora" imediatos. Por essa razão, a
linguagem pressupõe níveis relativamente altos de confiança
mútua para se estabelecer ao longo do tempo como uma
estratégia evolutivamente estável. Essa estabilidade nasce de
uma longa confiança mútua e é o que garante à linguagem sua
autoridade. Uma teoria das origens da linguagem deve, portanto,
explicar por que os humanos podem começar a confiar em sinais
baratos de maneiras que outros animais aparentemente não
podem (veja a teoria da sinalização).

26
Teoria da sinalização: dentro da biologia evolutiva, a teoria da
sinalização é um corpo de trabalho teórico que examina a
comunicação entre indivíduos, tanto dentro da espécie como
entre espécies. A questão central é quando se espera que
organismos com interesses conflitantes, como na seleção
sexual, forneçam sinais honestos (nenhuma presunção sendo
feita de intenção consciente) em vez de trapacear. Modelos
matemáticos descrevem como a sinalização pode contribuir
para uma estratégia evolutivamente estável. Os sinais são
dados em contextos como a seleção de parceiros pelas
fêmeas, o que sujeita os sinais dos machos publicitários a uma
pressão seletiva. Os sinais, portanto, evoluem porque
modificam o comportamento do receptor para beneficiar o
sinalizador. Os sinais podem ser honestos, transmitindo
informações que aumentam a aptidão do receptor, ou
desonestos. Um indivíduo pode trapacear dando um sinal
desonesto, o que pode beneficiar brevemente aquele
sinalizador, com o risco de minar o sistema de sinalização para
toda a população.

A hipótese das “línguas maternas”


A hipótese das "línguas maternas" foi proposta em 2004 como
uma possível solução para este problema. W. Tecumseh Fitch
sugeriu que o princípio darwiniano de 'seleção de parentesco' - a
convergência de interesses genéticos entre parentes - pode ser
parte da resposta.

William Tecumseh Fitch III (Boston, 1963) é um biólogo e


cientista da cognição estadunidense, professor da
Universidade de Viena, onde é co-fundador do Departamento
de Biologia Cognitiva. Ele estuda a biologia e a evolução da
cognição e comunicação em humanos e outros animais e, em
particular, a evolução da fala, linguagem e música. Seu
trabalho concentra-se em abordagens comparativas, como
preconizado por Charles Darwin. A pesquisa mais reconhecida
de Fitch diz respeito à capacidade de fala dos macacos. Ele fez
com que um macaco chamado Emiliano emitisse vários filhos
enquanto estava sujeito à gravação de vídeo em raio-X para
estabelecer um modelo das partes de seu corpo que realizaram
sons. Este trabalho determinou quais vogais Emiliano poderia e
não poderia produzir.

27
Fitch sugere que as línguas eram originalmente 'línguas
maternas'. Se a linguagem evoluiu inicialmente para a
comunicação entre as mães e seus próprios filhos biológicos,
estendendo-se posteriormente para incluir também parentes
adultos, os interesses dos falantes e dos ouvintes tenderiam a
coincidir. Fitch argumenta que interesses genéticos
compartilhados teriam levado a confiança e cooperação
suficientes para que sinais intrinsecamente não confiáveis -
palavras - fossem aceitos como confiáveis e, assim, começassem
a evoluir pela primeira vez.
Os críticos dessa teoria apontam que a seleção de parentesco
não é exclusiva dos humanos. Portanto, mesmo que aceitemos as
premissas iniciais de Fitch, a extensão das redes postuladas de
"língua materna" de parentes próximos para parentes mais
distantes permanece inexplicada. Fitch argumenta, no entanto,
que o longo período de imaturidade física dos bebês humanos e o
crescimento pós-natal do cérebro humano dão ao relacionamento
humano-bebê um período diferente e mais extenso de
dependência intergeracional do que aquele encontrado em
qualquer outra espécie.

A hipótese do 'altruísmo recíproco


obrigatório'
Ib Ulbæk, professor associado emérito, Departamento de Estudos
Nórdicos e Linguística, Universidade de Copenhagen
(Dinamarca), invoca outro princípio darwiniano padrão - 'altruísmo
28
recíproco - para explicar os níveis incomumente altos de
honestidade intencional necessários para a evolução da
linguagem. O "altruísmo recíproco" pode ser expresso como o
princípio de que, se você coçar minhas costas, eu coçarei as
suas. Em termos linguísticos, significaria que se você falar a
verdade comigo, eu falarei a verdade com você. O altruísmo
recíproco darwiniano comum, Ulbæk aponta, é uma relação
estabelecida entre indivíduos que interagem com frequência. Para
que a linguagem prevalecesse em toda uma comunidade,
entretanto, a reciprocidade necessária teria que ser imposta
universalmente, em vez de ser deixada para a escolha individual.
Ulbæk conclui que, para a linguagem evoluir, a sociedade como
um todo deve estar sujeita à regulamentação moral.
Os críticos apontam que esta teoria falha em explicar quando,
como, por que ou por quem 'altruísmo recíproco obrigatório'
poderia possivelmente ter sido imposto. Várias propostas foram
apresentadas para remediar este defeito. Outra crítica é que a
linguagem não funciona com base no altruísmo recíproco de
qualquer maneira. Os humanos em grupos de conversação não
ocultam informações para todos, exceto para ouvintes que
provavelmente ofereçam informações valiosas em troca. Ao
contrário, parecem querer anunciar ao mundo seu acesso a
informações socialmente relevantes, divulgando-as sem
expectativa de reciprocidade para quem as ouvir.

A hipótese da fofoca e do aliciamento


29
A fofoca, de acordo com Robin Dunbar em seu livro Grooming,
Gossip and the Evolution of Language, faz para os humanos que
vivem em grupo o que o aliciamento manual faz para outros
primatas - permite que os indivíduos atendam a seus
relacionamentos e, assim, mantenham suas alianças com base no
princípio : se você coçar minhas costas, eu coço as suas.

Dunbar argumenta que, à medida que os humanos começaram a


viver em grupos sociais cada vez maiores, a tarefa de cuidar
manualmente de todos os amigos e conhecidos tornou-se tão
demorada que se tornou inacessível. Em resposta a esse
problema, os humanos desenvolveram 'uma forma barata e
ultraeficiente de tratamento' - tratamento vocal. Para manter os
aliados felizes, agora é necessário apenas 'prepará-los' com sons
vocais de baixo custo, atendendo a vários aliados
simultaneamente, mantendo ambas as mãos livres para outras

30
tarefas. A preparação vocal então evoluiu gradualmente para a
linguagem vocal - inicialmente na forma de 'fofoca'. A hipótese de
Dunbar parece ser sustentada pelo fato de que a estrutura da
linguagem apresenta adaptações à função da narração em geral.
Os críticos dessa teoria apontam que a própria eficiência do
'tratamento vocal' - o fato de que as palavras são tão baratas -
teria minado sua capacidade de sinalizar um compromisso do tipo
transmitido por um tratamento manual demorado e caro. Outra
crítica é que a teoria não faz nada para explicar a transição crucial
do cuidado vocal - a produção de sons agradáveis, mas sem
sentido - para as complexidades cognitivas da fala sintática.

Ritual / co-evolução da fala


A teoria da coevolução ritual / fala foi originalmente proposta pelo
antropólogo social Roy Rappaport antes de ser elaborada por
antropólogos como Chris Knight, Jerome Lewis, Nick Enfield,
Camilla Power e Ian Watts.

Roy A. Rappaport (1926–1997) foi um antropólogo americano


conhecido por suas contribuições para o estudo antropológico
do ritual e para a antropologia ecológica.

31
O cientista cognitivo e engenheiro de robótica Luc Steels é outro
defensor proeminente dessa abordagem geral, assim como o
antropólogo biológico e neurocientista Terrence Deacon.
Esses estudiosos argumentam que não pode haver uma 'teoria
das origens da linguagem'. Isso ocorre porque a linguagem não é
uma adaptação separada, mas um aspecto interno de algo muito
mais amplo - a saber, a cultura simbólica humana como um todo.
As tentativas de explicar a linguagem independentemente desse
contexto mais amplo falharam espetacularmente, dizem esses
cientistas, porque estão abordando um problema sem solução. A
linguagem não funcionaria fora de um conjunto específico de
mecanismos e instituições sociais. Por exemplo, não funcionaria
para um primata não humano se comunicar com outras pessoas
na natureza. Nem mesmo o primata não humano mais inteligente
poderia fazer a linguagem funcionar sob tais condições.

Mentira e alternativa, inerentes à linguagem ... colocam


problemas para qualquer sociedade cuja estrutura seja fundada
na linguagem, ou seja, todas as sociedades humanas.
Portanto, argumentei que, para haver palavras, é necessário
estabelecer a Palavra, e que A Palavra é estabelecida pela
invariância da liturgia.
Roy Rappaport

Os defensores dessa escola de pensamento afirmam que as


palavras são baratas. Como alucinações digitais, [esclarecimentos
necessários] são intrinsecamente não confiáveis. Se um macaco
não humano especialmente inteligente, ou mesmo um grupo de
macacos não humanos articulados, tentasse usar palavras na
natureza, eles não teriam nenhuma convicção. As vocalizações
primatas que carregam convicção - aquelas que eles realmente
32
usam - são diferentes das palavras, pois são emocionalmente
expressivas, intrinsecamente significativas e confiáveis porque
são relativamente caras e difíceis de falsificar.
A linguagem consiste em contrastes digitais cujo custo é
essencialmente zero. Como puras convenções sociais, sinais
desse tipo não podem evoluir em um mundo social darwiniano -
eles são uma impossibilidade teórica. Por ser intrinsecamente não
confiável, a linguagem só funciona se for possível construir uma
reputação de confiabilidade dentro de um certo tipo de sociedade
- a saber, aquela em que fatos culturais simbólicos (às vezes
chamados de 'fatos institucionais') podem ser estabelecidos e
mantidos por meio de endosso social coletivo. Em qualquer
sociedade de caçadores-coletores, o mecanismo básico para
estabelecer confiança em fatos culturais simbólicos é o ritual
coletivo. Portanto, a tarefa que os pesquisadores das origens da
linguagem enfrentam é mais multidisciplinar do que normalmente
se supõe. Envolve abordar o surgimento evolutivo da cultura
simbólica humana como um todo, com a linguagem um
componente importante, mas subsidiário.
Os críticos da teoria incluem Noam Chomsky, que a denomina
hipótese de 'não existência' - uma negação da própria existência
da linguagem como um objeto de estudo para as ciências
naturais. A própria teoria de Chomsky é que a linguagem surgiu
em um instante e de forma perfeita, levando seus críticos, por sua
vez, a retrucar que apenas algo que não existe - uma construção
teórica ou ficção científica conveniente - poderia surgir de forma
tão milagrosa. A controvérsia permanece sem solução.

33
Resiliência e gramática da cultura de
ferramentas no início do Homo
Embora seja possível imitar a fabricação de ferramentas como as
feitas pelos primeiros Homo em circunstâncias de demonstração,
pesquisas sobre culturas de ferramentas de primatas mostram
que culturas não-verbais são vulneráveis a mudanças ambientais.
Em particular, se o ambiente no qual uma habilidade pode ser
usada desaparecer por um longo período de tempo do que a
expectativa de vida de um macaco individual ou do início da vida
de um ser humano, a habilidade será perdida se a cultura for
imitativa e não verbal. Chimpanzés, macacos e macacos-prego
são conhecidos por perder técnicas de ferramentas sob tais
circunstâncias. Os pesquisadores sobre a vulnerabilidade da
cultura dos primatas, portanto, argumentam que desde as
primeiras espécies de Homo, desde o Homo habilis mantiveram
suas culturas de ferramentas, apesar de muitos ciclos de
mudança climática em escalas de tempo de séculos a milênios
cada, essas espécies desenvolveram habilidades de linguagem o
suficiente para descrever verbalmente procedimentos completos,
e portanto, gramática e não apenas "protolinguagem" de duas
palavras.
A teoria de que as primeiras espécies de Homo tinham cérebros
suficientemente desenvolvidos para a gramática também é
apoiada por pesquisadores que estudam o desenvolvimento do
cérebro em crianças, observando que a gramática é desenvolvida
enquanto as conexões através do cérebro ainda são
34
significativamente mais baixas do que no nível adulto. Esses
pesquisadores argumentam que esses requisitos de sistema
reduzidos para a linguagem gramatical tornam plausível que o
gênero Homo tivesse gramática em níveis de conexão no cérebro
que eram significativamente mais baixos do que os do Homo
sapiens e que as etapas mais recentes na evolução do cérebro
humano não diziam respeito língua.

Teoria humanística
A tradição humanística considera a linguagem uma invenção
humana. O filósofo renascentista Antoine Arnauld deu uma
descrição detalhada de sua ideia da origem da linguagem na
Gramática de Port-Royal. De acordo com Arnauld, as pessoas
são sociais e racionais por natureza, e isso as incentivou a criar a
linguagem como um meio de comunicar suas idéias aos outros. A
construção da linguagem teria ocorrido por meio de um processo
lento e gradual. Na teoria posterior, especialmente na linguística
funcional, a primazia da comunicação é enfatizada sobre as
necessidades psicológicas.
A maneira exata como a linguagem evoluiu, no entanto, não é
considerada vital para o estudo de línguas. O linguista estrutural
Ferdinand de Saussure abandonou a linguística evolucionária
após ter chegado à firme conclusão de que ela não seria capaz de
fornecer qualquer outra visão revolucionária após a conclusão das
principais obras em linguística histórica no final do século XIX.
Saussure era particularmente cético em relação às tentativas de
35
August Schleicher e de outros linguistas darwinianos de acessar
as línguas pré-históricas por meio de uma série de reconstruções
de protolínguas.

A linguagem proto-humana (também proto-sapiens, proto-


mundo) é o hipotético predecessor genético direto de todas as
línguas faladas no mundo. Não seria ancestral das línguas de
sinais. O conceito é especulativo e não passível de análise em
linguística histórica. Ela pressupõe uma origem monogenética
da linguagem, ou seja, a derivação de todas as línguas naturais
de uma única origem, presumivelmente em algum ponto do
Paleolítico Médio. Como o predecessor de todas as línguas
existentes faladas pelos humanos modernos (Homo sapiens),
não seria necessariamente ancestral de uma língua Neandertal
hipotética.

A pesquisa evolucionária também teve muitos outros críticos. A


sociedade linguística de Paris proibiu o tópico da evolução da
linguagem em 1866 por ser considerado carente de provas
científicas. Na mesma época, Max Müller ridicularizou relatos
populares para explicar a origem da língua. Em suas
classificações, a 'teoria do bow-wow' é o tipo de explicação que
considera as línguas como tendo evoluído como uma imitação de
sons naturais. A 'teoria do pooh-pooh' sustenta que a fala
originou-se de gritos e exclamações humanas espontâneas; a
'teoria yo-he-ho' sugere que a linguagem se desenvolveu a partir
de grunhidos e suspiros evocados pelo esforço físico; enquanto a
'teoria do canto' afirma que a fala surgiu de cantos rituais
primitivos.
A solução de Saussure para o problema da evolução da
linguagem envolve a divisão da lingüística teórica em duas. A
lingüística evolucionária e histórica são renomeadas como
lingüística diacrônica. É o estudo da mudança de linguagem, mas
36
tem um poder explicativo limitado devido à inadequação de todo o
material de pesquisa confiável que poderia ser disponibilizado. A
linguística sincrônica, ao contrário, visa ampliar a compreensão da
linguagem pelos cientistas por meio do estudo de um determinado
estágio de linguagem contemporâneo ou histórico como um
sistema em seu próprio direito.
Embora Saussure tenha dado muito enfoque à lingüística
diacrônica, os estruturalistas posteriores que igualaram o
estruturalismo à análise sincrônica foram às vezes criticados por
não historicismo. Segundo o antropólogo estrutural Claude Lévi-
Strauss, a linguagem e o significado - em oposição ao
"conhecimento, que se desenvolve lenta e progressivamente" -
devem ter aparecido em um instante.
O estruturalismo, conforme introduzido pela primeira vez na
sociologia por Émile Durkheim, é, no entanto, um tipo de teoria
evolucionária humanística que explica a diversificação necessária
para a complexidade crescente. Houve uma mudança de foco
para a explicação funcional após a morte de Saussure.
Estruturalistas funcionais, incluindo os lingüistas do Círculo de
Praga e André Martinet, explicaram o crescimento e a
manutenção das estruturas como sendo necessários para suas
funções. Por exemplo, novas tecnologias tornam necessário que
as pessoas inventem novas palavras, mas estas podem perder
sua função e ser esquecidas à medida que as tecnologias são
eventualmente substituídas por outras mais modernas.

Teoria do passo único de Chomsky


37
De acordo com a teoria da mutação única de Noam Chomsky, o
surgimento da linguagem se assemelha à formação de um cristal;
com o infinito digital como o cristal de semente em um cérebro de
primata supersaturado, à beira de florescer na mente humana, por
lei física, uma vez que a evolução adicionou uma única pedra
angular pequena, mas crucial. Assim, nesta teoria, a linguagem
apareceu repentinamente na história da evolução humana.
Chomsky, escrevendo com o linguista computacional e cientista
da computação Robert C. Berwick, sugere que esse cenário é
totalmente compatível com a biologia moderna. Eles observam
que "nenhum dos relatos recentes da evolução da linguagem
humana parece ter compreendido completamente a mudança do
darwinismo convencional para sua versão moderna totalmente
estocástica - especificamente, que há efeitos estocásticos não
apenas devido à amostragem, como deriva sem direção, mas
também devido a variação estocástica na aptidão, migração e
herdabilidade - na verdade, todas as "forças" que afetam as
frequências individuais ou genéticas ... Tudo isso pode afetar os
resultados evolutivos - resultados que, tanto quanto podemos
perceber, não são apresentados em livros recentes sobre a
evolução da linguagem, mas surgiria imediatamente no caso de
qualquer nova inovação genética ou individual, precisamente o
tipo de cenário que provavelmente estará em jogo quando se fala
sobre o surgimento da linguagem. "
Citando o geneticista evolucionista Svante Pääbo, eles
concordam que uma diferença substancial deve ter ocorrido para

38
diferenciar o Homo sapiens dos neandertais para "estimular a
disseminação implacável de nossa espécie que nunca cruzou
águas abertas para cima e para fora da África e depois em todo o
planeta em apenas um poucas dezenas de milhares de anos ... O
que não vemos é qualquer tipo de 'gradualismo' em novas
tecnologias de ferramentas ou inovações como fogo, abrigos ou
arte figurativa. " Berwick e Chomsky, portanto, sugerem que a
linguagem surgiu aproximadamente entre 200.000 e 60.000 anos
atrás (entre o aparecimento dos primeiros humanos
anatomicamente modernos no sul da África e o último êxodo da
África, respectivamente). "Isso nos deixa com cerca de 130.000
anos, ou aproximadamente 5.000-6.000 gerações de tempo para
a mudança evolutiva. Isso não é 'durante a noite em uma
geração', como alguns (incorretamente) inferiram - mas também
não está na escala de eras geológicas. tempo suficiente - dentro
da estimativa para o que Nilsson e Pelger (1994) estimaram como
o tempo necessário para a evolução completa de um olho de
vertebrado a partir de uma única célula, mesmo sem a invocação
de quaisquer efeitos de 'evo-devo'. "

A biologia evolutiva do desenvolvimento (informalmente,


evo-devo) é um campo de pesquisa biológica que compara os
processos de desenvolvimento de diferentes organismos para
inferir as relações ancestrais entre eles e como os processos
de desenvolvimento evoluíram.

A teoria da mutação única da evolução da linguagem foi


questionada diretamente em diferentes bases. Uma análise formal
da probabilidade de tal mutação ocorrer e ir para a fixação na
espécie concluiu que tal cenário é improvável, com múltiplas
39
mutações com efeitos de aptidão mais moderados sendo mais
prováveis. Outra crítica questionou a lógica do argumento da
mutação única e afirma que a partir da simplicidade formal de
Merge, a capacidade que Berwick e Chomsky consideram a
propriedade central da linguagem humana que surgiu
repentinamente, não se pode derivar os (número de) etapas
evolutivas que levou a isso.

A hipótese de Rômulo e Remo


A hipótese de Rômulo e Remo, proposta pelo neurocientista
Andrey Vyshedskiy, busca abordar a questão de por que o
aparelho de fala moderno se originou mais de 500.000 anos antes
dos primeiros sinais da imaginação humana moderna. Essa
hipótese propõe que houve duas fases que levaram à linguagem
recursiva moderna. O fenômeno de recursão ocorre em vários
domínios linguísticos, sem dúvida com mais destaque na sintaxe
e na morfologia. Assim, ao aninhar uma estrutura como uma frase
ou uma palavra dentro de si, permite a geração de novas
variações potencialmente (contáveis) infinitas dessa estrutura. Por
exemplo, a frase base (Peter gosta de maçãs) pode ser aninhada
em cláusulas irrealis para produzir (Mary disse que Peter gosta de
maçãs), Paul acreditou que Mary disse que Peter gosta de
maçãs) e assim por diante.
A primeira fase inclui o desenvolvimento lento da linguagem não
recursiva com um grande vocabulário junto com o aparato
moderno da fala, que inclui mudanças no osso hióide, aumento do
40
controle voluntário dos músculos do diafragma, evolução do gene
FOXP2, também como outras mudanças por 600.000 anos atrás.
Então, a segunda fase foi uma rápida Etapa Única de Chomsk,
consistindo em três eventos distintos que aconteceram em rápida
sucessão há cerca de 70.000 anos e permitiram a mudança da
linguagem não recursiva para a recursiva nos primeiros
hominíneos.
1. Uma mutação genética que desacelerou o período crítico de
síntese pré-frontal (PFS do inglês Prefrontal Synthesis) de pelo
menos duas crianças que viveram juntas;
2. Isso permitiu que essas crianças criassem elementos
recursivos da linguagem, como preposições espaciais;
3. Em seguida, isso se fundiu com a linguagem não recursiva de
seus pais para criar uma linguagem recursiva.
Não é suficiente para as crianças ter um córtex pré-frontal
moderno (PFC, do inglês Prefrontal Cortex) para permitir o
desenvolvimento de PFS; as crianças também devem ser
estimuladas mentalmente e ter elementos recursivos já em sua
linguagem para adquirir PFS. Como os pais ainda não teriam
inventado esses elementos, os filhos teriam de inventá-los
sozinhos, o que é comum em crianças pequenas que vivem
juntas, em um processo denominado criptofasia. Isso significa que
o atraso no desenvolvimento do PFC permitiria mais tempo para
adquirir o PFS e desenvolver elementos recursivos.
O atraso no desenvolvimento de PFC também traz consequências
negativas, como um período mais longo de dependência dos pais
para sobreviver e taxas de sobrevivência mais baixas. Para que a

41
linguagem moderna tenha ocorrido, o atraso de PFC teve que ter
um imenso benefício de sobrevivência na vida adulta, como a
habilidade de PFS. Isso sugere que a mutação que causou o
atraso do PFC e o desenvolvimento da linguagem recursiva e do
PFS ocorreu simultaneamente, o que se alinha com a evidência
de um gargalo genético há cerca de 70.000 anos. Isso pode ter
sido o resultado de alguns indivíduos que desenvolveram PFS e
linguagem recursiva, o que lhes deu uma vantagem competitiva
significativa sobre todos os outros humanos da época.

Teoria gestual
A teoria gestual afirma que a linguagem humana se desenvolveu
a partir de gestos que eram usados para uma comunicação
simples.
Dois tipos de evidências apóiam essa teoria.
1. A linguagem gestual e a linguagem vocal dependem de
sistemas neurais semelhantes. As regiões do córtex responsáveis
pelos movimentos da boca e das mãos fazem fronteira entre si.
2. Os primatas não humanos podem usar gestos ou símbolos pelo
menos para a comunicação primitiva, e alguns de seus gestos se
assemelham aos dos humanos, como a "postura implorando",
com as mãos estendidas, que os humanos compartilham com os
chimpanzés.
A pesquisa encontrou um forte apoio para a ideia de que a
linguagem verbal e a linguagem de sinais dependem de estruturas
neurais semelhantes. Os pacientes que usavam a linguagem de
42
sinais e que sofriam de uma lesão no hemisfério esquerdo
apresentaram os mesmos distúrbios com a linguagem de sinais
que os pacientes com voz apresentavam com a linguagem oral.
Outros pesquisadores descobriram que as mesmas regiões
cerebrais do hemisfério esquerdo estavam ativas durante a
linguagem de sinais e durante o uso da linguagem vocal ou
escrita.
O gesto dos primatas é pelo menos parcialmente genético:
diferentes macacos não humanos realizarão gestos
característicos de sua espécie, mesmo que nunca tenham visto
outro macaco realizar esse gesto. Por exemplo, os gorilas batem
no peito. Isso mostra que os gestos são uma parte intrínseca e
importante da comunicação primata, o que sustenta a ideia de
que a linguagem evoluiu a partir do gesto.
Outras evidências sugerem que o gesto e a linguagem estão
ligados. Em humanos, gesticular manualmente tem um efeito nas
vocalizações simultâneas, criando assim certas associações
vocais naturais de esforços manuais. Os chimpanzés movem a
boca ao realizar tarefas motoras finas. Esses mecanismos podem
ter desempenhado um papel evolutivo ao permitir o
desenvolvimento da comunicação vocal intencional como um
suplemento à comunicação gestual. A modulação de voz pode ter
sido solicitada por ações manuais preexistentes.
Desde a infância, os gestos complementam e predizem a fala.
Isso aborda a ideia de que os gestos mudam rapidamente nos
humanos de um único meio de comunicação (desde uma idade
muito jovem) para um comportamento suplementar e preditivo que

43
é usado apesar da capacidade de se comunicar verbalmente. Isso
também serve como um paralelo à ideia de que os gestos se
desenvolveram primeiro e a linguagem posteriormente se
construiu sobre eles.
Dois cenários possíveis foram propostos para o desenvolvimento
da linguagem, um dos quais sustenta a teoria gestual:
1. Linguagem desenvolvida a partir de chamadas de ancestrais
humanos.
2. A linguagem foi derivada do gesto.
A primeira perspectiva de que a linguagem evoluiu a partir dos
chamados dos ancestrais humanos parece lógica porque tanto os
humanos quanto os animais emitem sons ou gritos. Uma razão
evolutiva para refutar isso é que, anatomicamente, o centro que
controla as chamadas em macacos e outros animais está
localizado em uma parte do cérebro completamente diferente da
dos humanos. Nos macacos, esse centro está localizado nas
profundezas do cérebro, relacionado às emoções. No sistema
humano, ele está localizado em uma área não relacionada à
emoção. Os humanos podem se comunicar simplesmente para se
comunicar - sem emoções. Então, anatomicamente, esse cenário
não funciona. Isso sugere que a linguagem foi derivada do gesto
(os humanos se comunicaram primeiro por meio de gestos e o
som foi anexado depois).
A questão importante para as teorias gestuais é por que houve
uma mudança para a vocalização. Várias explicações foram
propostas:

44
1. Os ancestrais humanos começaram a usar cada vez mais
ferramentas, o que significa que suas mãos estavam ocupadas e
não podiam mais ser usadas para gesticular.
2. Os gestos manuais exigem que os alto-falantes e os ouvintes
estejam visíveis uns para os outros. Em muitas situações, eles
podem precisar se comunicar, mesmo sem contato visual - por
exemplo, após o anoitecer ou quando a folhagem obstrui a
visibilidade.
3. Uma hipótese composta sustenta que a linguagem primitiva
assumiu a forma de mimesis em parte gestual e em parte vocal
('canto e dança' imitativa), combinando modalidades porque todos
os sinais (como aqueles de macacos e macacos não humanos)
ainda precisavam ser caros em para ser intrinsecamente
convincente. Nesse caso, cada monitor multimídia teria que não
apenas eliminar a ambigüidade de um significado pretendido, mas
também inspirar confiança na confiabilidade do sinal. A sugestão
é que apenas depois que os entendimentos contratuais em toda a
comunidade entrassem em vigor, a confiança nas intenções
comunicativas poderia ser automaticamente assumida, permitindo
finalmente que o Homo sapiens mudasse para um formato padrão
mais eficiente. Uma vez que as características vocais distintas
(contrastes de som) são ideais para este propósito, foi apenas
neste ponto - quando a linguagem corporal intrinsecamente
persuasiva não era mais necessária para transmitir cada
mensagem - que a mudança decisiva do gesto manual para a
atual confiança primária na fala linguagem ocorreu.

45
Uma hipótese comparável afirma que, na linguagem "articulada",
o gesto e a vocalização estão intrinsecamente ligados, uma vez
que a linguagem evoluiu de dança e música igualmente
intrinsecamente ligadas.
Os humanos ainda usam gestos manuais e faciais quando falam,
especialmente quando se encontram pessoas que não têm uma
linguagem em comum. Também existe um grande número de
línguas de sinais ainda existentes, comumente associadas a
comunidades surdas. Essas linguagens de sinais são iguais em
complexidade, sofisticação e poder expressivo a qualquer
linguagem oral. As funções cognitivas são semelhantes e as
partes do cérebro usadas são semelhantes. A principal diferença
é que os "fonemas" são produzidos fora do corpo, articulados com
as mãos, corpo e expressão facial, ao invés de dentro do corpo
articulados com língua, dentes, lábios e respiração. [Carece de
fontes? a teoria motora da percepção da fala.)
Os críticos da teoria gestual observam que é difícil nomear
motivos sérios pelos quais a comunicação vocal inicial baseada
no tom (que está presente nos primatas) seria abandonada em
favor da comunicação gestual não vocal, muito menos eficaz. No
entanto, Michael Corballis apontou que se supõe que a
comunicação vocal dos primatas (como chamadas de alarme) não
pode ser controlada conscientemente, ao contrário do movimento
das mãos e, portanto, não é confiável como precursora da
linguagem humana; a vocalização de primatas é homóloga e
continuada em reflexos involuntários (conectados com emoções
humanas básicas), como gritos ou risos (o fato de que estes

46
podem ser fingidos não desmente o fato de que existam respostas
involuntárias genuínas ao medo ou surpresa).

Michael Charles Corballis ONZM (nascido em 10 de setembro


de 1936) é um psicólogo e autor da Nova Zelândia. Ele é
professor emérito do Departamento de Psicologia da
Universidade de Auckland. Seus campos de pesquisa são
neurociência cognitiva, incluindo percepção visual, imagens
visuais, atenção, memória e evolução da linguagem.

Além disso, o gesto geralmente não é menos eficaz e,


dependendo da situação, pode até ser vantajoso, por exemplo,
em um ambiente barulhento ou onde é importante ficar em
silêncio, como em uma caça. Outros desafios para a teoria do
"primeiro gesto" foram apresentados por pesquisadores em
psicolinguística, incluindo David McNeill.

Glenn David McNeill (nascido em 1933 na Califórnia, Estados


Unidos) é um psicólogo e escritor americano especializado em
pesquisa científica em psicolinguística e, especialmente, na
relação da linguagem com o pensamento e os gestos que
acompanham o discurso.

Som associado ao uso de ferramentas


na evolução da linguagem
Os proponentes da teoria motora da evolução da linguagem
concentraram-se principalmente no domínio visual e na
comunicação por meio da observação de movimentos. A hipótese

47
do som do uso da ferramenta sugere que a produção e percepção
do som também contribuíram substancialmente, particularmente o
som incidental da locomoção (ISOL, do inglês Incidental Sound Of
Locomotion) e o som do uso da ferramenta (TUS, do inglês Tool-
Use Sound). O bipedalismo humano resultou em ISOL rítmico e
mais previsível. Isso pode ter estimulado a evolução das
habilidades musicais, memória auditiva de trabalho e habilidades
para produzir vocalizações complexas e imitar sons naturais. Uma
vez que o cérebro humano extrai proficientemente informações
sobre objetos e eventos dos sons que eles produzem, o TUS e o
mimetismo do TUS podem ter alcançado uma função icônica. A
prevalência do simbolismo do som em muitas línguas existentes
apóia essa ideia. A TUS autoproduzida ativa o processamento
cerebral multimodal (neurônios motores, audição, propriocepção,
tato, visão) e a TUS estimula os neurônios-espelho audiovisual
dos primatas, que provavelmente estimulam o desenvolvimento
de cadeias de associação. O uso de ferramentas e gestos
auditivos envolvem o processamento motor dos membros
anteriores, que está associado à evolução da comunicação vocal
dos vertebrados. A produção, percepção e mimetismo de TUS
podem ter resultado em um número limitado de vocalizações ou
protopalavras associadas ao uso de ferramentas. Uma nova
maneira de se comunicar sobre ferramentas, especialmente
quando fora de vista, teria uma vantagem seletiva. Uma mudança
gradual nas propriedades acústicas, no significado, ou em ambos,
poderia ter resultado em arbitrariedade e um repertório expandido
de palavras. Os humanos têm sido cada vez mais expostos ao

48
TUS ao longo de milhões de anos, coincidindo com o período
durante o qual a linguagem falada evoluiu.

Neurônios-espelho e origens da
linguagem
Em humanos, estudos funcionais de ressonância magnética
relataram a descoberta de áreas homólogas ao sistema de
neurônios-espelho do macaco no córtex frontal inferior, próximo à
área de Broca, uma das regiões de linguagem do cérebro. Isso
levou a sugestões de que a linguagem humana evoluiu de um
sistema de compreensão / desempenho de gestos implementado
em neurônios-espelho. Foi dito que os neurônios-espelho têm o
potencial de fornecer um mecanismo para a compreensão da
ação, a aprendizagem por imitação e a simulação do
comportamento de outras pessoas. Esta hipótese é apoiada por
algumas homologias citoarquitetônicas entre a área F5 de macaco
pré-motor e a área de Broca humana.
As taxas de expansão do vocabulário estão relacionadas à
capacidade das crianças de espelhar vocalmente não palavras e,
assim, adquirir as novas pronúncias de palavras. Essa repetição
da fala ocorre de forma automática, rápida e separada no cérebro
para a percepção da fala. Além disso, essa imitação vocal pode
ocorrer sem compreensão, como em sombreamento de fala e
ecolalia. Outras evidências para essa ligação vêm de um estudo
recente no qual a atividade cerebral de dois participantes foi
medida usando fMRI enquanto eles gesticulavam palavras um
49
para o outro usando gestos com as mãos com um jogo de
charadas - uma modalidade que alguns sugeriram que pode
representar o precursor evolucionário da linguagem humana. A
análise dos dados usando a causalidade de Granger revelou que
o sistema de neurônios-espelho do observador de fato reflete o
padrão de atividade do sistema motor do emissor, apoiando a
ideia de que o conceito motor associado às palavras é de fato
transmitido de um cérebro para outro usando o sistema de
espelho. Nem todos os linguistas concordam com os argumentos
acima, no entanto. Em particular, os defensores de Noam
Chomsky argumentam contra a possibilidade de que o sistema de
neurônios-espelho possa desempenhar qualquer papel nas
estruturas recursivas hierárquicas essenciais à sintaxe.

Teoria de derrubar o bebê


De acordo com a teoria de 'colocar o bebê no chão' de Dean Falk,
as interações vocais entre as primeiras mães hominídeos e os
bebês deram início a uma sequência de eventos que levou, por
fim, às primeiras palavras dos ancestrais humanos.

Dean Falk (nascida em 25 de junho de 1944) é uma


neuroantropologista acadêmica americana especializada na
evolução do cérebro e da cognição em primatas superiores. Ela
é professora de antropologia da Hale G. Smith e distinta
professora de pesquisa na Florida State University.

50
A ideia básica é que as mães humanas em evolução, ao contrário
de suas contrapartes em outros primatas, não podiam se mover e
forragear com seus bebês agarrados às suas costas. A perda de
pêlo no caso humano deixava os bebês sem meios de se agarrar.
Freqüentemente, portanto, as mães tinham que colocar seus
bebês no chão. Como resultado, esses bebês precisavam ter
certeza de que não estavam sendo abandonados. As mães
responderam desenvolvendo o "manhês" - um sistema
comunicativo dirigido por bebês que abrange expressões faciais,
linguagem corporal, toques, tapinhas, carícias, risos, cócegas e
chamadas de contato emocionalmente expressivas. O argumento
é que a linguagem de alguma forma se desenvolveu a partir de
tudo isso.
Em The Mental and Social Life of Babies, o psicólogo Kenneth
Kaye observou que nenhuma linguagem adulta utilizável poderia
ter evoluído sem a comunicação interativa entre crianças muito
pequenas e adultos.

Kenneth Kaye (nascido em 24 de janeiro de 1946) é um


psicólogo e escritor americano cujas pesquisas, livros e artigos
conectam os campos do desenvolvimento humano, relações
familiares e resolução de conflitos.

"Nenhum sistema simbólico poderia ter sobrevivido de uma


geração para a outra se não pudesse ser facilmente adquirido por
crianças pequenas em suas condições normais de vida social."

51
Teoria de onde para qual
O modelo "de onde para o quê" é um modelo de evolução da
linguagem derivado principalmente da organização do
processamento da linguagem no cérebro e de duas de suas
estruturas: o fluxo dorsal auditivo e o fluxo ventral auditivo. Ele
levanta a hipótese de sete estágios de evolução da linguagem
(veja a ilustração). A fala se originou com o propósito de trocar
ligações de contato entre mães e seus filhos para se encontrarem
no caso de se separarem (ilustração parte 1). As chamadas de
contato podem ser modificadas com entonações a fim de
expressar um nível mais alto ou mais baixo de angústia (ilustração
parte 2). O uso de dois tipos de chamadas de contato possibilitou
a primeira conversa de perguntas e respostas. Nesse cenário, a
criança emitiria um chamado de socorro de baixo nível para
expressar o desejo de interagir com um objeto, e a mãe
responderia com outro chamado de socorro de baixo nível (para
expressar aprovação da interação) ou um alto nível pedido de
socorro (para expressar desaprovação) (ilustração parte 3). Com
o tempo, o uso aprimorado de entonações e controle vocal levou
à invenção de chamadas únicas (fonemas) associadas a objetos
distintos (ilustração parte 4). No início, as crianças aprenderam as
chamadas (fonemas) de seus pais imitando seus movimentos
labiais (ilustração parte 5). Por fim, os bebês foram capazes de
codificar na memória de longo prazo todas as chamadas
(fonemas). Consequentemente, o mimetismo por meio da leitura
labial foi limitado à infância e as crianças mais velhas aprenderam
52
novos chamados por meio do mimetismo sem a leitura labial
(ilustração parte 6). Uma vez que os indivíduos se tornaram
capazes de produzir uma sequência de chamadas, isso permitiu
palavras multissilábicas, que aumentaram o tamanho de seu
vocabulário (ilustração parte 7). O uso de palavras, compostas por
sequências de sílabas, proporcionou a infra-estrutura para a
comunicação com sequências de palavras (ou seja, frases).

O modelo de evolução da linguagem 'de onde para o quê' tem como hipótese 7 estágios de evolução da
linguagem: 1. A origem da fala é a troca de ligações entre mães e filhos, usados para realocar um ao
outro em casos de separação. 2. A descendência do Homo primitivo modificou as chamadas de contato
com entonações para emitir dois tipos de chamadas de contato: chamadas de contato que sinalizam
baixo nível de socorro e chamadas de contato que sinalizam alto nível de socorro. 3. O uso de dois tipos
de chamadas de contato possibilitou a primeira conversa de pergunta e resposta. Nesse cenário, a prole
emite uma chamada de socorro de baixo nível para expressar o desejo de interagir com um objeto, e a
mãe responde com uma chamada de socorro de baixo nível para permitir a interação ou uma chamada de
socorro de alto nível para proibi-la. 4. O uso de entonações melhorou com o tempo e, eventualmente, os
indivíduos adquiriram controle vocal suficiente para inventar novas palavras para objetos. 5. No início, a
prole aprendeu os chamados de seus pais imitando seus movimentos labiais. 6. À medida que a
aprendizagem das chamadas melhorou, os bebês aprenderam novas chamadas (ou seja, fonemas) por
meio da imitação dos lábios apenas durante a infância. Após esse período, a memória dos fonemas
perdurou por toda a vida, e as crianças mais velhas tornaram-se capazes de aprender novos chamados
(por meio da mímica) sem observar os movimentos labiais dos pais. 7. Os indivíduos tornaram-se
capazes de ensaiar sequências de chamadas. Isso possibilitou o aprendizado de palavras com várias
sílabas, o que aumentou o tamanho do vocabulário. Os avanços posteriores no circuito cerebral
responsável pelo ensaio de palavras polissilábicas resultaram em indivíduos capazes de ensaiar listas de
palavras (memória operacional fonológica), que serviam de plataforma de comunicação com as frases.

53
O nome da teoria é derivado de duas correntes auditivas, ambas
encontradas no cérebro de humanos e de outros primatas. O fluxo
ventral auditivo é responsável pelo reconhecimento do som e, por
isso, é denominado fluxo what auditivo. Em primatas, o fluxo
dorsal auditivo é responsável pela localização do som. É um
chamado fluxo auditivo. Apenas em humanos (no hemisfério
esquerdo), também é responsável por outros processos
associados ao uso e aquisição da linguagem, como repetição e
produção de fala, integração de fonemas com seus movimentos
labiais, percepção e produção de entonações, memória fonológica
de longo prazo (armazenamento da memória de longo prazo dos
sons das palavras) e memória operacional fonológica
(armazenamento temporário dos sons das palavras). Algumas
evidências também indicam um papel no reconhecimento de
outras pessoas por suas vozes. O surgimento de cada uma
dessas funções na corrente dorsal auditiva representa um estágio
intermediário na evolução da linguagem.
Uma origem de chamada de contato para a linguagem humana é
consistente com os estudos com animais, como a linguagem
humana, a discriminação de chamada de contato em macacos é
lateralizada para o hemisfério esquerdo. Camundongos com
nocaute para genes relacionados à linguagem (como FOXP2 e
SRPX2) também fizeram com que os filhotes não emitissem mais
chamadas de contato quando separados de suas mães. Apoiar
este modelo também está sua capacidade de explicar fenômenos
humanos únicos, como o uso de entonações ao converter
palavras em comandos e perguntas, a tendência dos bebês de

54
imitar vocalizações durante o primeiro ano de vida (e seu
desaparecimento mais tarde) e as protuberâncias e lábios
humanos visíveis, que não são encontrados em outros macacos.
Essa teoria pode ser considerada uma elaboração da teoria da
evolução da linguagem "colocar o bebê no chão".

Teoria da gramaticalização
A 'gramaticalização' é um processo histórico contínuo no qual
palavras independentes se desenvolvem em apêndices
gramaticais, enquanto estes, por sua vez, se tornam cada vez
mais especializados e gramaticais. Um uso inicialmente
'incorreto', ao ser aceito, leva a consequências imprevistas,
desencadeando efeitos indiretos e sequências prolongadas de
mudança. Paradoxalmente, a gramática evolui porque, em última
análise, os humanos se importam menos com as sutilezas
gramaticais do que em se fazer entender. Se é assim que a
gramática evolui hoje, de acordo com essa escola de
pensamento, princípios semelhantes em ação podem ser
legitimamente inferidos entre ancestrais humanos distantes,
quando a própria gramática estava sendo estabelecida pela
primeira vez.
Para reconstruir a transição evolutiva da linguagem primitiva para
línguas com gramáticas complexas, é necessário saber quais
sequências hipotéticas são plausíveis e quais não são. Para
transmitir ideias abstratas, o primeiro recurso dos falantes é
recorrer a imagens concretas imediatamente reconhecíveis,
55
muitas vezes empregando metáforas enraizadas [coloquialismo]
na experiência corporal compartilhada. Um exemplo conhecido é
o uso de termos concretos como 'barriga' ou 'costas' para
transmitir significados abstratos como 'dentro' ou 'atrás'.
Igualmente metafórica é a estratégia de representar padrões
temporais no modelo dos espaciais. Por exemplo, quem fala
inglês pode dizer 'Vai chover', baseado em 'Eu estou indo para
Londres'. Isso pode ser abreviado coloquialmente para 'Vai
chover'. Mesmo quando estão com pressa, os falantes de inglês
não dizem 'I'm going London' - a contração se restringe ao
trabalho de especificar o tempo. A partir de tais exemplos, pode-
se ver por que a gramaticalização é consistentemente
unidirecional - do significado concreto ao abstrato, e não o
contrário.
Os teóricos da gramaticalização descrevem a linguagem primitiva
como simples, talvez consistindo apenas de substantivos. Mesmo
sob essa suposição teórica extrema, no entanto, é difícil imaginar
o que teria impedido realisticamente as pessoas de usar,
digamos, 'lança' como se fosse um verbo ('Lança aquele porco!').
As pessoas podem ter usado seus substantivos como verbos ou
seus verbos como substantivos conforme a ocasião exigia. Em
suma, embora uma linguagem apenas com nomes possa parecer
teoricamente possível, a teoria da gramaticalização indica que ela
não pode ter permanecido fixa nesse estado por qualquer período
de tempo.
A criatividade impulsiona a mudança gramatical. Isso pressupõe
uma certa atitude por parte dos ouvintes. Em vez de punir os

56
desvios do uso aceito, os ouvintes devem priorizar a leitura
imaginativa da mente. A criatividade imaginativa - emitir um
alarme de leopardo quando nenhum leopardo estava presente,
por exemplo - não é o tipo de comportamento que, digamos,
macacos vervet apreciariam ou recompensariam. Criatividade e
confiabilidade são demandas incompatíveis; tanto para primatas
“maquiavélicos” quanto para animais em geral, a pressão
dominante é demonstrar confiabilidade. Se os humanos escapam
dessas restrições, é porque, no caso deles, os ouvintes estão
principalmente interessados nos estados mentais.
Concentrar-se nos estados mentais é aceitar as ficções -
habitantes da imaginação - como potencialmente informativas e
interessantes. Um exemplo é a metáfora: uma metáfora é,
literalmente, uma declaração falsa. Em Romeu e Julieta, Romeu
declara "Julieta é o sol!". Juliet é uma mulher, não uma bola de
plasma no céu, mas os ouvintes humanos não são (ou geralmente
não) pedantes insistentes na precisão factual ponto a ponto. Eles
querem saber o que o orador tem em mente. A gramatização
baseia-se essencialmente na metáfora. Proibir seu uso seria
impedir a evolução da gramática e, da mesma forma, excluir toda
possibilidade de expressão de pensamento abstrato.
Uma crítica a tudo isso é que, embora a teoria da gramatização
possa explicar a mudança da linguagem hoje, ela não aborda de
forma satisfatória o desafio realmente difícil - explicar a transição
inicial da comunicação de estilo primata para a linguagem como é
conhecida em 2021. Em vez disso, a teoria pressupõe essa
linguagem já existe. Como Bernd Heine e Tania Kuteva

57
reconhecem: “A gramatização requer um sistema linguístico que é
usado regular e frequentemente dentro de uma comunidade de
falantes e é transmitido de um grupo de falantes para outro”. Fora
dos humanos modernos, essas condições não prevalecem.

Modelo de evolução-progressão
A linguagem humana é usada para autoexpressão; no entanto, a
expressão exibe diferentes estágios. A consciência de si mesmo e
dos sentimentos representa o estágio imediatamente anterior à
expressão fonética externa dos sentimentos na forma de som, ou
seja, a linguagem. Animais inteligentes como golfinhos, pega-
pega e chimpanzés vivem em comunidades, onde atribuem a si
próprios papéis para a sobrevivência do grupo e mostram
emoções como simpatia. Quando esses animais veem seu reflexo
(teste do espelho), eles se reconhecem e exibem
autoconsciência. Notavelmente, os humanos evoluíram em um
ambiente bastante diferente daquele desses animais. A
sobrevivência humana tornou-se mais fácil com o
desenvolvimento de ferramentas, abrigo e fogo, facilitando assim
o avanço da interação social, autoexpressão e fabricação de
ferramentas, como para caça e coleta. O tamanho crescente do
cérebro permitiu provisionamento e ferramentas avançadas, e os
avanços tecnológicos durante a era Paleolítica, que se basearam
nas inovações evolutivas anteriores do bipedalismo e da
versatilidade das mãos, permitiram o desenvolvimento da
linguagem humana.
58
Teoria do macaco auto-domesticado
De acordo com um estudo que investigou as diferenças musicais
entre os munias-de-rabo-branco e sua contraparte domesticada
(tentilhão-de-bengala), os munias selvagens usam uma sequência
de canções altamente estereotipada, enquanto os domesticados
cantam uma canção altamente irrestrita. Em tentilhões selvagens,
a sintaxe da canção está sujeita à preferência feminina - seleção
sexual - e permanece relativamente fixa. No entanto, no tentilhão
de Bengala, a seleção natural é substituída pela reprodução,
neste caso pela plumagem colorida, e assim, desacoplada das
pressões seletivas, a sintaxe da canção estereotipada pode se
desviar. É substituído, supostamente em 1000 gerações, por uma
sequência variável e aprendida. Além disso, os tentilhões
selvagens são considerados incapazes de aprender sequências
de canções de outros tentilhões. No campo da vocalização dos
pássaros, os cérebros capazes de produzir apenas um canto inato
têm vias neurais muito simples: o centro motor primário do
prosencéfalo, denominado núcleo robusto de arcopallium, se
conecta às saídas vocais do mesencéfalo, que por sua vez se
projetam para os núcleos motores do tronco cerebral. Em
contraste, em cérebros capazes de aprender canções, o
arcopallium recebe informações de várias regiões do prosencéfalo
adicionais, incluindo aquelas envolvidas na aprendizagem e na
experiência social. O controle sobre a geração de músicas se
tornou menos restrito, mais distribuído e mais flexível.
59
Uma maneira de pensar sobre a evolução humana é que os
humanos são macacos auto-domesticados. [De acordo com
quem?] Assim como a domesticação relaxou a seleção de
canções estereotipadas nos tentilhões - a escolha do
companheiro foi suplantada por escolhas feitas pela sensibilidade
estética dos criadores de pássaros e seus clientes - a
domesticação cultural humana também pode ter relaxado a
seleção de muitos de seus traços comportamentais primatas,
permitindo que antigos caminhos se degenere e se reconfigure.
Dada a maneira altamente indeterminada como os cérebros dos
mamíferos se desenvolvem - eles basicamente se constroem "de
baixo para cima", com um conjunto de interações neuronais se
preparando para a próxima rodada de interações - caminhos
degradados tenderiam a procurar e encontrar novas
oportunidades para conexões sinápticas. Essas desdiferenciações
herdadas das vias cerebrais podem ter contribuído para a
complexidade funcional que caracteriza a linguagem humana. E,
como exemplificado pelos tentilhões, tais desdiferenciações
podem ocorrer em intervalos de tempo muito rápidos.

Fala e linguagem para


comunicação
Uma distinção pode ser feita entre fala e linguagem. A linguagem
não é necessariamente falada: pode, alternativamente, ser escrita
ou assinada. A fala está entre vários métodos diferentes de

60
codificação e transmissão de informações linguísticas, embora
seja indiscutivelmente o mais natural.
Alguns estudiosos vêem a linguagem como um desenvolvimento
inicialmente cognitivo, sua "externalização" para servir a
propósitos comunicativos ocorrendo posteriormente na evolução
humana. De acordo com uma dessas escolas de pensamento, a
característica principal que distingue a linguagem humana é a
recursão (neste contexto, a incorporação iterativa de frases dentro
de frases). Outros estudiosos - notadamente Daniel Everett -
negam que a recursão seja universal, citando certas línguas (por
exemplo, o pirahã) que supostamente carecem dessa
característica.

Pirahã (também soletrado Pirahá, Pirahán), ou Múra-Pirahã, é


a língua indígena do povo Pirahã isolado do Amazonas, Brasil.
Os Pirahã vivem ao longo do rio Maici, afluente do rio
Amazonas. O pirahã é o único dialeto da língua Mura que
sobreviveu, tendo todos os outros sido extintos nos últimos
séculos, uma vez que a maioria dos grupos do povo Mura
passaram para o português. Parentes suspeitos, como
Matanawi, também estão extintos. Estima-se que tenha entre
250 e 380 alto-falantes. Não corre perigo imediato de extinção,
visto que o seu uso é vigoroso e a comunidade Pirahã é
maioritariamente monolíngue. A língua Pirahã é mais notável
como objeto de várias reivindicações controversas; por
exemplo, que fornece evidências para a relatividade linguística.
A polêmica é agravada pela simples dificuldade de aprender a
língua; o número de linguistas com experiência de campo em
Pirahã é muito pequeno.

A habilidade de fazer perguntas é considerada por alguns para


distinguir a linguagem dos sistemas não humanos de
comunicação. Alguns primatas cativos (notadamente bonobos e
chimpanzés), tendo aprendido a usar sinais rudimentares para se
comunicar com seus treinadores humanos, provaram ser capazes

61
de responder corretamente a perguntas e solicitações complexas.
No entanto, eles próprios não conseguiram fazer as perguntas
mais simples. Por outro lado, as crianças humanas são capazes
de fazer suas primeiras perguntas (usando apenas a entonação
da pergunta) no período de balbucio de seu desenvolvimento,
muito antes de começarem a usar estruturas sintáticas. Embora
bebês de culturas diferentes adquiram línguas nativas de seu
ambiente social, todas as línguas do mundo, sem exceção - tonal,
não tonal, entonacional e acentuada - usam "entonação de
pergunta" ascendente semelhante para perguntas sim-não. Esse
fato é uma forte evidência da universalidade da entonação da
pergunta. Em geral, de acordo com alguns autores, a entonação /
altura da frase é fundamental na gramática falada e é a
informação básica usada pelas crianças para aprender a
gramática de qualquer idioma.

Origem da fala
A origem da fala refere-se ao problema mais geral da origem da
linguagem no contexto do desenvolvimento fisiológico dos órgãos
da fala humana, como a língua, os lábios e os órgãos vocais
usados para produzir unidades fonológicas em todas as línguas
humanas. Embora relacionada ao problema mais geral da origem
da linguagem, a evolução das capacidades de fala distintamente
humanas tornou-se uma área distinta e em muitos aspectos
separada da pesquisa científica. O tópico é separado porque a
linguagem não é necessariamente falada: pode igualmente ser
62
escrita ou assinada. A fala é, neste sentido, opcional, embora seja
a modalidade padrão para a linguagem.
Incontroversamente, macacos e humanos, como muitos outros
animais, desenvolveram mecanismos especializados para
produzir sons para fins de comunicação social. Por outro lado,
nenhum macaco ou símio usa a língua para tais fins. O uso sem
precedentes da língua, lábios e outras partes móveis de nossa
espécie parece colocar a fala em uma categoria bastante distinta,
tornando seu surgimento evolutivo um desafio teórico intrigante
aos olhos de muitos estudiosos.
No entanto, insights recentes sobre a evolução humana - mais
especificamente, a evolução litorânea do Pleistoceno humano -
ajudam a entender como a fala humana evoluiu: diferentes pré-
adaptações biológicas à linguagem falada têm sua origem em
nosso passado próximo à água, como um cérebro maior e outro
nutrientes específicos para o cérebro em frutos do mar),
respiração voluntária (mergulho em apneia para crustáceos, etc.)
e alimentação por sucção de frutos do mar moles e
escorregadios. A alimentação por sucção explica por que os
humanos, ao contrário de outros hominóides, desenvolveram
descendência hioidal (osso da língua descendo na garganta),
fileiras de dentes fechadas (com dentes caninos incisiformes) e
uma língua globular perfeitamente ajustada a um palato
abobadado e liso (sem transverso cristas como em macacos):
tudo isso permitiu a pronúncia de consoantes. Outras pré-
adaptações à fala humana, provavelmente mais antigas, são
canções territoriais, duetos semelhantes aos do gibão e

63
aprendizagem vocal. O aprendizado vocal, a habilidade de imitar
sons - como em muitos pássaros e morcegos e vários cetáceos e
pinipedia - é indiscutivelmente necessário para localizar ou
reencontrar (em meio à folhagem ou no mar) a prole ou os pais.
Na verdade, linhas de evidência independentes (comparativas,
fósseis, arqueológicas, paleoambientais, isotópicas, nutricionais e
fisiológicas) mostram que o Homo "arcaico" do início do
Pleistoceno se espalhou intercontinentalmente ao longo das
costas do Oceano Índico (eles chegaram até mesmo a ilhas
ultramarinas, como Flores). onde eles mergulhavam regularmente
em busca de alimentos litorâneos, como crustáceos e crustáceos,
que são extremamente ricos em nutrientes específicos para o
cérebro, explicando o aumento do cérebro do Homo. O mergulho
raso para frutos do mar requer controle voluntário das vias
aéreas, um pré-requisito para a linguagem falada. Frutos do mar,
como crustáceos, geralmente não precisam ser mordidos e
mastigados, mas sim o uso de ferramentas de pedra e
alimentação por sucção. Esse controle mais refinado do aparelho
oral foi sem dúvida outra pré-adaptação biológica à fala humana,
especialmente para a produção de consoantes.

64
Independência da modalidade
O termo modalidade significa o formato representacional
escolhido para codificar e transmitir informações. Uma
característica marcante da linguagem é que ela é independente
da modalidade. Se uma criança deficiente for impedida de ouvir
ou produzir sons, sua capacidade inata de dominar uma língua
pode igualmente encontrar expressão na sinalização. As línguas
de sinais dos surdos são inventadas de forma independente e têm
todas as propriedades principais da linguagem falada, exceto a
modalidade de transmissão. A partir disso, parece que os centros
de linguagem do cérebro humano devem ter evoluído para
funcionar perfeitamente, independentemente da modalidade
selecionada.

O desligamento das entradas específicas da modalidade pode


representar uma mudança substancial na organização neural,
que afeta não apenas a imitação, mas também a comunicação;
apenas humanos podem perder uma modalidade (por exemplo,
audição) e compensar esse déficit comunicando-se com total
competência em uma modalidade diferente (ou seja,
sinalização).
Hauser, et al. (2002)

Esse recurso é extraordinário. Os sistemas de comunicação


animal rotineiramente combinam propriedades e efeitos visíveis
com audíveis, mas ninguém é independente de modalidade.
Nenhuma baleia, golfinho ou ave canora com deficiência vocal,
por exemplo, poderia expressar seu repertório de canções
igualmente em exibição visual. De fato, no caso da comunicação
65
animal, mensagem e modalidade não são capazes de se
desemaranhar. Qualquer mensagem transmitida decorre das
propriedades intrínsecas do sinal.
A independência da modalidade não deve ser confundida com o
fenômeno comum da multimodalidade. Macacos e macacos
contam com um repertório de "gestos-chamados" específicos da
espécie - vocalizações emocionalmente expressivas inseparáveis
das exibições visuais que os acompanham. Os humanos também
têm chamadas gestuais específicas da espécie - risos, gritos,
soluços e assim por diante - junto com gestos involuntários que
acompanham a fala. Muitos monitores de animais são polimodais
no sentido de que cada um parece projetado para explorar vários
canais simultaneamente.
A propriedade linguística humana de "independência de
modalidade" é conceitualmente distinta desta. Ele permite que o
locutor codifique o conteúdo informativo de uma mensagem em
um único canal enquanto alterna entre os canais conforme
necessário. Os modernos moradores das cidades alternam
facilmente entre a palavra falada e a escrita em suas várias
formas - caligrafia, digitação, e-mail e assim por diante. Qualquer
que seja a modalidade escolhida, ele pode transmitir de forma
confiável todo o conteúdo da mensagem sem ajuda externa de
qualquer tipo. Ao falar ao telefone, por exemplo, quaisquer gestos
faciais ou manuais que acompanham, por mais naturais que
sejam para o interlocutor, não são estritamente necessários. Ao
digitar ou assinar manualmente, ao contrário, não há necessidade
de adicionar sons. Em muitas culturas aborígenes australianas,

66
uma seção da população - talvez mulheres observando um tabu
ritual - tradicionalmente se restringe por longos períodos a uma
versão silenciosa (assinada manualmente) de sua língua. Então,
quando libertados do tabu, esses mesmos indivíduos voltam a
narrar histórias ao lado da lareira ou no escuro, mudando para
som puro sem sacrificar o conteúdo informativo.

Evolução dos órgãos da fala


Falar é a modalidade padrão para o idioma em todas as culturas.
O primeiro recurso dos humanos é codificar nossos pensamentos
em som - um método que depende de sofisticadas capacidades
para controlar os lábios, a língua e outros componentes do
aparelho vocal.
Os órgãos da fala, todos concordam, evoluíram em primeira
instância não para a fala, mas para funções corporais mais
básicas, como alimentação e respiração. Primatas não humanos
67
têm órgãos amplamente semelhantes, mas com controles neurais
diferentes. Os macacos usam suas línguas altamente flexíveis e
manobráveis para comer, mas não para vocalizar. Quando um
macaco não está comendo, o controle motor fino sobre sua língua
é desativado. Ou está fazendo ginástica com a língua ou está
vocalizando; ele não pode realizar as duas atividades
simultaneamente. Uma vez que isso se aplica aos mamíferos em
geral, o Homo sapiens é excepcional no aproveitamento de
mecanismos projetados para respiração e ingestão para as
necessidades radicalmente diferentes da fala articulada.

O modelo de evolução da linguagem 'de onde para o quê' tem como hipótese 7
estágios de evolução da linguagem:
1. A origem da fala é a troca de ligações entre mães e filhos, usados para realocar
um ao outro em casos de separação.
2. A descendência do Homo primitivo modificou as chamadas de contato com
entonações para emitir dois tipos de chamadas de contato: chamadas de contato
que sinalizam baixo nível de socorro e chamadas de contato que sinalizam alto
nível de socorro.
3. O uso de dois tipos de chamadas de contato possibilitou a primeira conversa
de pergunta e resposta. Nesse cenário, a prole emite uma chamada de socorro de
baixo nível para expressar o desejo de interagir com um objeto, e a mãe responde

68
com uma chamada de socorro de baixo nível para permitir a interação ou uma
chamada de socorro de alto nível para proibi-la.
4. O uso de entonações melhorou com o tempo e, eventualmente, os indivíduos
adquiriram controle vocal suficiente para inventar novas palavras para objetos.
5. No início, a prole aprendeu os chamados de seus pais imitando seus
movimentos labiais.
6. À medida que a aprendizagem das chamadas melhorou, os bebês aprenderam
novas chamadas (ou seja, fonemas) por meio da imitação dos lábios apenas
durante a infância. Após esse período, a memória dos fonemas perdurou por toda
a vida, e as crianças mais velhas tornaram-se capazes de aprender novos
chamados (por meio da mímica) sem observar os movimentos labiais dos pais.
7. Os indivíduos tornaram-se capazes de ensaiar sequências de chamadas. Isso
possibilitou o aprendizado de palavras com várias sílabas, o que aumentou o
tamanho do vocabulário. Os avanços posteriores no circuito cerebral responsável
pelo ensaio de palavras polissilábicas resultaram em indivíduos capazes de
ensaiar listas de palavras (memória operacional fonológica), que serviam de
plataforma de comunicação com as frases.

Língua
A palavra "idioma" deriva da língua latina, "língua". Os foneticistas
concordam que a língua é o articulador mais importante da fala,
seguida dos lábios. Uma linguagem natural pode ser vista como
uma forma particular de usar a língua para expressar o
pensamento.
A língua humana tem um formato incomum. Na maioria dos
mamíferos, é uma estrutura longa e plana, em grande parte
contida na boca. Ele está preso na parte posterior do osso hióide,
situado abaixo do nível oral na faringe. Em humanos, a língua tem
um contorno sagital (linha média) quase circular, grande parte
dele deitada verticalmente em uma faringe estendida, onde está
presa a um osso hióide em uma posição abaixada. Em parte
como resultado disso, os tubos horizontais (dentro da boca) e
verticais (garganta abaixo) que formam o trato vocal supralaríngeo
(TVS) são quase iguais em comprimento (enquanto em outras

69
espécies, a seção vertical é mais curta ) Conforme movemos
nossas mandíbulas para cima e para baixo, a língua pode variar a
área da seção transversal de cada tubo independentemente em
cerca de 10: 1, alterando as frequências dos formantes de acordo.
O fato de os tubos serem unidos em um ângulo reto permite a
pronúncia das vogais [i], [u] e [a], o que os primatas não humanos
não podem fazer. Mesmo quando não executada de forma
particularmente precisa, em humanos a ginástica articulatória
necessária para distinguir essas vogais produz resultados
acústicos consistentes e distintos, ilustrando a natureza quântica
dos sons da fala humana. Pode não ser coincidência que [i], [u] e
[a] sejam as vogais mais comuns nas línguas do mundo. As
línguas humanas são muito mais curtas e finas do que os outros
mamíferos e são compostas por um grande número de músculos,
o que ajuda a formar uma variedade de sons dentro da cavidade
oral. A diversidade da produção de som também é aumentada
com a capacidade humana de abrir e fechar as vias aéreas,
permitindo que quantidades variáveis de ar saiam pelo nariz. Os
movimentos motores finos associados à língua e às vias aéreas
tornam os humanos mais capazes de produzir uma ampla gama
de formas intrincadas, a fim de produzir sons em diferentes taxas
e intensidades.

70
Lábios
Em humanos, os lábios são importantes para a produção de
plosivas e fricativas, além das vogais. Nada, porém, sugere que
os lábios tenham evoluído por essas razões. Durante a evolução
dos primatas, uma mudança da atividade noturna para a diurna
em társios e macacos (os haplorrinos) trouxe consigo uma maior
dependência da visão em detrimento do olfato. Como resultado, o
focinho ficou reduzido e o rinário ou "nariz molhado" foi perdido.
Os músculos da face e lábios, conseqüentemente, tornaram-se
menos contraídos, permitindo sua cooptação para servir a
propósitos de expressão facial. Os lábios também ficaram mais
grossos e a cavidade oral escondida atrás ficou menor.
"Conseqüentemente", de acordo com uma autoridade importante,
"a evolução dos lábios musculosos e móveis, tão importantes
para a fala humana, foi o resultado exaptivo da evolução da
diurnidade e da comunicação visual no ancestral comum dos
haplorrinos". Não está claro se nossos lábios sofreram uma
adaptação mais recente às necessidades específicas da fala.

Controle respiratório
Comparados com os primatas não humanos, os humanos
aumentaram significativamente o controle da respiração,
permitindo que as exalações sejam estendidas e as inalações
encurtadas enquanto falamos. Enquanto falamos, os músculos

71
intercostais e abdominais internos são recrutados para expandir o
tórax e puxar o ar para os pulmões e, subsequentemente,
controlar a liberação de ar à medida que os pulmões esvaziam.
Os músculos envolvidos são marcadamente mais inervados em
humanos do que em primatas não humanos. Evidências de
hominíneos fósseis sugerem que o alargamento necessário do
canal vertebral e, portanto, das dimensões da medula espinhal,
pode não ter ocorrido no Australopithecus ou no Homo erectus,
mas estava presente nos Neandertais e nos primeiros humanos
modernos.

Laringe
A laringe ou caixa vocal é um órgão do pescoço que abriga as
pregas vocais, responsáveis pela fonação. Em humanos, a laringe
desce, está posicionada mais abaixo do que em outros primatas.
Isso ocorre porque a evolução dos humanos para a posição
vertical deslocou a cabeça diretamente acima da medula espinhal,
forçando todo o resto para baixo. O reposicionamento da laringe
resultou em uma cavidade mais longa, denominada faringe,
responsável por aumentar o alcance e a clareza do som
produzido. Outros primatas quase não têm faringe; portanto, sua
potência vocal é significativamente mais baixa. Nossa espécie
não é única nesse aspecto: cabras, cachorros, porcos e micos
abaixam a laringe temporariamente, para emitir gritos altos. Várias
espécies de veados têm uma laringe abaixada permanentemente,
que pode ser abaixada ainda mais pelos machos durante suas

72
exibições de rugido. Leões, onças, chitas e gatos domésticos
também fazem isso. No entanto, a descida laríngea em não
humanos (de acordo com Philip Lieberman) não é acompanhada
pela descida do hióide; portanto, a língua permanece horizontal
na cavidade oral, impedindo-a de atuar como um articulador da
faringe.

Apesar de tudo isso, os estudiosos permanecem divididos sobre o


quão "especial" o trato vocal humano realmente é. Foi
demonstrado que a laringe desce até certo ponto durante o
desenvolvimento nos chimpanzés, seguido pela descida hioidal.
Em oposição a isso, Philip Lieberman aponta que apenas os
humanos desenvolveram uma descendência laríngea permanente
e substancial em associação com a descida hioidal, resultando
em uma língua curva e trato vocal de dois tubos com proporções
de 1: 1. Excepcionalmente no caso humano, o simples contato
entre a epiglote e o véu, não é mais possível, interrompendo a
separação mamífera normal dos tratos respiratório e digestivo
durante a deglutição. Uma vez que isso acarreta custos

73
substanciais - aumentando o risco de engasgar ao engolir
alimentos - somos forçados a perguntar quais benefícios
poderiam ter superado esses custos.

Philip Lieberman (1934) é um linguista, antropólogo e cientista


da cognição estadunidense, professor da Universidade Brown.
Seus trabalhos de maior destaque enfatizam a evolução da
linguagem e, particularmente, a relação entre a evolução do
aparelho vocal e do cérebro humano e a evolução da fala,
cognição e linguagem. Bacharel em engenharia elétrica e
Doutor em linguística pelo Instituto Tecnológico de
Massachusetts (MIT), ele serviu a Força Aérea dos Estados
Unidos no final da década de 1950 e foi professor da
Universidade de Connecticut de 1967 a 1974. Após sua estadia
nesta última, tornada -se professor da Universidade Brown,
onde é emérito. Lieberman foi condecorado com a Bolsa
Guggenheim em 1987, deu diversas palestras no Instituto Max
Planck de Psicolinguística e também é membro da Associação
Americana para o Avanço da Ciência, da Associação
Americana de Psicologia e da Associação Americana de
Antropologia.

O benefício óbvio - assim se afirma - deve ter sido a fala. Mas


essa ideia foi vigorosamente contestada. Uma objeção é que os
humanos, na verdade, não correm seriamente o risco de
engasgar com a comida: as estatísticas médicas indicam que
acidentes desse tipo são extremamente raros. Outra objeção é
que, na visão da maioria dos estudiosos, a fala como a
conhecemos surgiu relativamente tarde na evolução humana,
quase simultaneamente com o surgimento do Homo sapiens. Um
desenvolvimento tão complexo quanto a reconfiguração do trato
vocal humano teria demandado muito mais tempo, implicando em
uma data de origem precoce. Essa discrepância nas escalas de
tempo abala a ideia de que a flexibilidade vocal humana foi
inicialmente impulsionada por pressões de seleção para a fala.

74
Pelo menos um orangotango demonstrou capacidade de controlar
a caixa de voz

A hipótese de exagero do tamanho


Abaixar a laringe é aumentar o comprimento do trato vocal, por
sua vez diminuindo as frequências dos formantes para que a voz
soe "mais profunda" - dando uma impressão de maior tamanho.
John Ohala argumenta que a função da laringe abaixada em
humanos, especialmente no sexo masculino, é provavelmente
aumentar as exibições de ameaça, e não a própria fala. Ohala
aponta que, se a laringe abaixada fosse uma adaptação para a
fala, esperaríamos que os machos humanos adultos estivessem
melhor adaptados a esse respeito do que as fêmeas adultas, cuja
laringe é consideravelmente menos baixa. Na verdade, as
mulheres invariavelmente superam os homens nos testes verbais,
falsificando toda essa linha de raciocínio. W. Tecumseh Fitch
também argumenta que esta foi a vantagem seletiva original do
rebaixamento da laringe em nossa espécie. Embora (de acordo
com Fitch) o abaixamento inicial da laringe em humanos não
tivesse nada a ver com a fala, a gama aumentada de padrões
formantes possíveis foi subsequentemente cooptada para a fala.
O exagero de tamanho continua sendo a única função da extrema
descendência laríngea observada em cervos machos. Consistente
com a hipótese de exagero de tamanho, uma segunda descida da
laringe ocorre na puberdade em humanos, embora apenas em
homens. Em resposta à objeção de que a laringe descende em

75
fêmeas humanas, Fitch sugere que mães que vocalizam para
proteger seus filhos também teriam se beneficiado dessa
habilidade.

John Jerome Ohala (19 de julho de 1941 a 22 de agosto de


2020) foi um linguista especializado em fonética e fonologia.
Ele foi um professor emérito de linguística na Universidade da
Califórnia, Berkeley. Ele recebeu seu PhD em linguística em
1969 pela University of California, Los Angeles (UCLA); seu
orientador de graduação foi Peter Ladefoged. Ele é mais
conhecido por sua insistência em que muitos aspectos das
fonologias das línguas (também conhecidos como "padrões de
som") derivam de restrições físicas e fisiológicas que são
independentes da língua e, portanto, não têm lugar na
"gramática" de uma língua, ou seja, o que os falantes têm
aprender indutivamente com a exposição à comunidade de fala
na qual nasceram. Ele também propôs que os princípios
etológicos influenciam certos aspectos dos padrões prosódicos
das línguas, simbolismo sonoro e expressões faciais, como
movimentos labiais e sobrancelhas.

Discurso do Neandertal
O homem de Neandertal (Homo neanderthalensis na
nomenclatura binomial) é uma espécie prima humana extinta com
o qual o homem moderno conviveu.Surgiram durante o
Pleistoceno Médio na Europa e no Médio Oriente há cerca de 400
mil anos na Europa e no Médio Oriente e, na Península Ibérica,
extinguiram-se há 28 mil anos. O fóssil possivelmente pertencente
à espécie mais antigo encontrado de 430 mil anos atrás. Ambas
as espécies derivaram de um ancestral em comum da linhagem
de Homo heidelbergensis e conviveram após a migração de
Homo sapiens para a Eurásia.
A maioria dos especialistas atribui aos Neandertais habilidades de
fala que não são radicalmente diferentes daquelas do Homo

76
sapiens moderno. Uma linha indireta de argumento é que suas
táticas de fabricação de ferramentas e caça seriam difíceis de
aprender ou executar sem algum tipo de discurso. Uma recente
extração de DNA de ossos de neandertais indica que os
neandertais tinham a mesma versão do gene FOXP2 que os
humanos modernos. Este gene, antes erroneamente descrito
como o "gene da gramática", desempenha um papel no controle
dos movimentos orofaciais que (nos humanos modernos) estão
envolvidos na fala.
Durante a década de 1970, acreditava-se amplamente que os
neandertais não tinham habilidades modernas de fala. Alegou-se
que eles possuíam um osso hióide tão alto no trato vocal que
excluía a possibilidade de produzir certos sons vocálicos.

77
A presença de artefatos de Micoquian na Caverna Chagyrskaya sugere pelo
menos duas dispersões separadas de Neandertais no sul da Sibéria. Locais como
a caverna Denisova foram ocupados por Neandertais que entraram na região
antes de 100.000 anos atrás, enquanto os Neandertais Chagyrskaya chegaram
mais tarde. Os artefatos de Chagyrskaya se assemelham mais aos encontrados
em locais localizados de 3.000 a 4.000 quilômetros a oeste, entre a Crimeia e o
norte do Cáucaso, na Europa Oriental. A comparação de dados genéticos apóia
essas ligações geográficas, com o Neandertal Chagyrskaya compartilhando
afinidades mais estreitas com vários Neandertais europeus do que com um
Neandertal da caverna Denisova.

O osso hióide está presente em muitos mamíferos. Ele permite


uma ampla gama de movimentos da língua, da faringe e da
laringe, colocando essas estruturas lado a lado para produzir
variação. Percebe-se agora que sua posição abaixada não é
exclusiva do Homo sapiens, embora sua relevância para a
flexibilidade vocal possa ter sido exagerada: embora os homens
tenham uma laringe mais baixa, eles não produzem uma gama
maior de sons do que as mulheres ou crianças de dois anos de
idade. bebês. Não há evidências de que a posição da laringe dos
neandertais impedia a gama de sons vocálicos que eles podiam
produzir. A descoberta de um osso hióide de aparência moderna

78
de um homem de Neandertal na Caverna Kebara em Israel levou
seus descobridores a argumentar que os Neandertais tinham uma
laringe descendente e, portanto, capacidades de fala semelhantes
às humanas. No entanto, outros pesquisadores afirmaram que a
morfologia do hióide não é indicativa da posição da laringe. É
necessário levar em consideração a base do crânio, a mandíbula
e as vértebras cervicais e um plano de referência cranial.
A morfologia do ouvido externo e médio dos hominíneos do
Pleistoceno Médio de Atapuerca SH na Espanha, considerados
proto-Neandertais, sugere que eles tinham uma sensibilidade
auditiva semelhante à dos humanos modernos e muito diferente
dos chimpanzés. Eles provavelmente foram capazes de
diferenciar entre muitos sons de fala diferentes.

Canal hipoglosso
O nervo hipoglosso desempenha um papel importante no controle
dos movimentos da língua. Em 1998, uma equipe de pesquisa
usou o tamanho do canal hipoglosso na base de crânios fósseis
em uma tentativa de estimar o número relativo de fibras nervosas,
alegando com base nisso que os hominíneos e os neandertais do
Pleistoceno Médio tinham um controle da língua mais refinado do
que qualquer um dos dois. australopitecinos ou macacos.
Subseqüentemente, entretanto, foi demonstrado que o tamanho
do canal hipoglosso e os tamanhos dos nervos não estão
correlacionados, e agora é aceito que tais evidências não são
informativas sobre o tempo de evolução da fala humana.

79
O canal hipoglosso dos mamíferos transmite o nervo que supre os
músculos da língua. Este canal é absolutamente e relativamente
maior nos humanos modernos do que nos macacos africanos
(Pan e Gorila). Nossa hipótese é que a língua humana é suprida
mais ricamente com nervos motores do que os dos macacos vivos
e propomos que o tamanho do canal em hominídeos fósseis pode
fornecer uma indicação sobre a coordenação motora da língua e
refletir a evolução da fala e da linguagem. Os canais do
Australopithecus grácil e, possivelmente, do Homo habilis, estão
dentro da faixa de Pan existente e são significativamente menores
do que os do Homo moderno. Os canais dos neandertais e de um
Homo sapiens “moderno” antigo, bem como do Homo africano e
europeu do Pleistoceno médio (Kabwe e Swanscombe), estão
dentro da faixa do Homo existente e são significativamente
maiores do que os dos Pan troglodytes. Essas descobertas
anatômicas sugerem que as capacidades vocais dos neandertais
eram as mesmas dos humanos de hoje. Além disso, as

80
habilidades vocais do Australopithecus não eram muito
avançadas em relação às dos chimpanzés, ao passo que as do
Homo podem ter sido essencialmente modernas há pelo menos
400.000 anos. Assim, as habilidades vocais humanas podem ter
surgido muito antes do tempo do que a primeira evidência
arqueológica de comportamento simbólico (Richard F. Kay e
colegas, 1998).

81
Capítulo 2
Origem dos sons da fala

D
e acordo com uma escola influente, o aparelho vocal
humano é intrinsecamente digital no modelo de um
teclado ou computador digital. Se for assim, isso é
notável: nada no aparelho vocal de um chimpanzé sugere um
teclado digital, apesar das semelhanças anatômicas e fisiológicas.
Isso levanta a questão de quando e como, durante o curso da
evolução humana, ocorreu a transição da estrutura e função
analógica para a digital.
O trato supralaríngeo humano é considerado digital no sentido de
que é um arranjo de botões ou interruptores móveis, cada um dos
quais, a qualquer momento, deve estar em um estado ou outro.
As cordas vocais, por exemplo, estão vibrando (produzindo um
som) ou não (no modo silencioso). Em virtude da física simples, a
característica distintiva correspondente - neste caso, "voz" - não
pode estar em algum lugar entre os dois. As opções são limitadas
a "off" e "on". Igualmente digital é o recurso conhecido como
"nasalização". A qualquer momento, o palato mole ou velum
permite ou não permite que o som ressoe na câmara nasal. No
caso de posições de lábios e língua, mais de dois estados digitais
podem ser permitidos.
A teoria de que os sons da fala são entidades compostas
constituídas por complexos de características fonéticas binárias

82
foi apresentada pela primeira vez em 1938 pelo lingüista russo
Roman Jakobson.

Roman Osipovich Jakobson (em russo: Роман Осипович


Якобсон; Moscou, 11 de outubro de 1896 - Estados Unidos, 18
de julho de 1982) foi um pensador. É considerado um dos mais
importantes linguistas do século XX e um pioneiro da análise
estrutural da linguagem, da poesia e da arte. Foi chamado de
"o poeta da linguística" por Haroldo de Campos, sendo
conhecido por sua concepção das funções da linguagem, entre
elas figurando a função poética, e tendo feito, por exemplo,
estudos sobre as obras de Edgar Allan Poe, Fernando Pessoa
e Bertolt Brecht. No campo da lingüística estrutural,
desenvolvida, com colaboradores como Nikolaj Trubetzkoy e
Morris Halle, o conceito de traço distintivo em fonologia,
posteriormente expandido para outros níveis de análise
lingüística.

Um defensor inicial proeminente dessa abordagem foi Noam


Chomsky, que a estendeu da fonologia para a linguagem de
maneira mais geral, em particular para o estudo da sintaxe e da
semântica. Em seu livro de 1965, Aspects of the Theory of Syntax,
Chomsky tratou os conceitos semânticos como combinações de
elementos atômicos digitais binários explicitamente no modelo da
teoria dos traços distintivos.

83
O item lexical "solteiro", nesta base, seria expresso como [+
Humano], [+ Masculino], [- Casado].
Os defensores dessa abordagem vêem as vogais e consoantes
reconhecidas por falantes de uma determinada língua ou dialeto
em um determinado momento como entidades culturais de pouco
interesse científico. Do ponto de vista das ciências naturais, as
unidades que importam são aquelas comuns ao Homo sapiens
em virtude de nossa natureza biológica. Ao combinar os
elementos atômicos ou "características" com as quais todos os
humanos são inatamente equipados, qualquer um pode, em
princípio, gerar toda a gama de vogais e consoantes que podem
ser encontradas em qualquer uma das línguas do mundo, seja no
passado, no presente ou no futuro. Os traços distintivos são,
nesse sentido, componentes atômicos de uma linguagem
universal.

Crítica
Nos últimos anos, a noção de uma "gramática universal" inata
subjacente à variação fonológica foi questionada. A monografia
mais abrangente já escrita sobre os sons da fala, Sounds of the
World Languages, de Peter Ladefoged e Ian Maddieson, não
encontrou praticamente nenhuma base para a postulação de um
pequeno número de características fonéticas fixas, discretas e
universais. Examinando 305 idiomas, por exemplo, eles
encontraram vogais que estavam posicionadas basicamente em
todos os lugares ao longo do continuum articulatório e acústico.
84
Ladefoged conclui que as características fonológicas não são
determinadas pela natureza humana: “As características
fonológicas são mais bem vistas como artefatos que os linguistas
criaram para descrever os sistemas linguísticos.” A controvérsia
permanece sem solução.

O título deste livro, The Sounds of the World's Languages (Os Sons das Línguas
do Mundo), implica duas afirmações muito significativas. Uma é que faz sentido
falar sobre entidades que podem ser rotuladas de 'sons'. A outra é que sabemos o
suficiente sobre as línguas do mundo para poder escrever um livro que abranja
todas elas.

Teoria da auto-organização
A auto-organização caracteriza os sistemas em que as estruturas
macroscópicas são formadas espontaneamente a partir de

85
interações locais entre os vários componentes do sistema. Em
sistemas auto-organizados, as propriedades organizacionais
globais não podem ser encontradas no nível local. Em termos
coloquiais, a auto-organização é aproximadamente capturada
pela ideia de organização "de baixo para cima" (em oposição a
"de cima para baixo"). Exemplos de sistemas auto-organizados
variam de cristais de gelo a espirais de galáxias no mundo
inorgânico e de manchas na pele de leopardo à arquitetura de
ninhos de cupins ou a forma de um bando de estorninhos.

Passando em bandos, um exemplo de auto-organização em biologia

De acordo com muitos foneticistas, os sons da linguagem se


organizam e se reorganizam por meio da auto-organização. Os

86
sons da fala têm propriedades perceptuais ("como você os ouve")
e articulatórias ("como você os produz"), todas com valores
contínuos. Os alto-falantes tendem a minimizar o esforço,
favorecendo a facilidade de articulação em vez da clareza. Os
ouvintes fazem o oposto, favorecendo os sons que são fáceis de
distinguir, mesmo que difíceis de pronunciar. Visto que falantes e
ouvintes estão constantemente trocando de papéis, os sistemas
de sílabas realmente encontrados nas línguas do mundo acabam
sendo um meio-termo entre distinção acústica, por um lado, e
facilidade articulatória, por outro.
Como, precisamente, surgem os sistemas de vogais, consoantes
e sílabas? Os modelos de computador baseados em agentes
assumem a perspectiva da auto-organização no nível da
comunidade de fala ou da população. Os dois paradigmas
principais aqui são:
(1) o modelo de aprendizagem iterada e
(2) o modelo do jogo de linguagem. O aprendizado iterado se
concentra na transmissão de geração em geração, normalmente
com apenas um agente em cada geração. No modelo do jogo de
linguagem, toda uma população de agentes simultaneamente
produz, percebe e aprende a linguagem, inventando novas formas
quando surge a necessidade.
Vários modelos mostraram como interações vocais ponto a ponto
relativamente simples, como a imitação, podem se auto-organizar
espontaneamente um sistema de sons compartilhado por toda a
população e diferentes em diferentes populações. Por exemplo,
modelos recentemente reformulados usando a teoria bayesiana

87
mostraram como um grupo de indivíduos jogando jogos de
imitação pode auto-organizar repertórios de sons vocálicos que
compartilham propriedades substanciais com sistemas vocálicos
humanos. Por exemplo, no modelo de Boer, inicialmente as
vogais são geradas aleatoriamente, mas os agentes aprendem
uns com os outros à medida que interagem repetidamente ao
longo do tempo. O Agente A escolhe uma vogal de seu repertório
e a produz, inevitavelmente com algum ruído. O Agente B ouve
essa vogal e escolhe o equivalente mais próximo de seu
repertório. Para verificar se isso realmente corresponde ao
original, B produz a vogal que pensa ter ouvido, ao que A se
refere mais uma vez ao seu próprio repertório para encontrar o
equivalente mais próximo. Se corresponder ao que ela selecionou
inicialmente, o jogo foi bem-sucedido, caso contrário, falhou. "Por
meio de interações repetidas", de acordo com de Boer, "emergem
sistemas vocálicos muito parecidos com os encontrados nas
línguas humanas".
Em um modelo diferente, o foneticista Björn Lindblom foi capaz de
prever, em bases auto-organizacionais, as escolhas favorecidas
de sistemas vocálicos variando de três a nove vogais com base
em um princípio de diferenciação perceptual ótima.

Björn E. Lindblom (nascido em 19 de junho de 1934 em


Estocolmo) é um lingüista e foneticista sueco conhecido por
suas contribuições para a fonologia e fonética empirista (em
oposição à fonologia chomskyana). Ele leciona na
Universidade de Estocolmo e na Universidade do Texas em
Austin.

88
Outros modelos estudaram o papel da auto-organização nas
origens da codificação fonêmica e da combinatorialidade, que é a
existência de fonemas e sua reutilização sistemática para
construir sílabas estruturadas. Pierre-Yves Oudeyer desenvolveu
modelos que mostraram que o equipamento neural básico para
imitação vocal holística adaptativa, acoplando diretamente
representações motoras e perceptivas no cérebro, pode gerar
sistemas combinatórios de vocalizações espontaneamente
compartilhados, incluindo padrões fonotáticos, em uma sociedade
de indivíduos balbuciantes.

Pierre-Yves Oudeyer é Diretor de Pesquisa do Instituto


Francês de Pesquisa em Ciência da Computação e Automação
(Inria) e chefe da equipe Inria e Ensta-ParisTech FLOWERS.
Antes, ele foi um pesquisador permanente no Sony Computer
Science Laboratory por 8 anos (1999-2007). Ele estudou
ciência da computação teórica na Ecole Normale Supérieure
em Lyon e recebeu seu doutorado. licenciatura em inteligência
artificial pela Universidade Paris VI, França. Depois de
trabalhar em modelos computacionais de evolução da
linguagem, ele agora está trabalhando em robótica de
desenvolvimento e social, com foco no desenvolvimento
sensório-motor, aquisição de linguagem e aprendizagem ao
longo da vida em robôs. Fortemente inspirado pelo
desenvolvimento infantil, os mecanismos que ele estuda
incluem curiosidade artificial, motivação intrínseca, o papel da
morfologia na aprendizagem do controle motor, interfaces
humano-robô, atenção conjunta e compreensão intencional
conjunta e aprendizagem por imitação.

Esses modelos também caracterizam como restrições


morfológicas e fisiológicas inatas podem interagir com esses
mecanismos auto-organizados para dar conta da formação de
regularidades estatísticas e da diversidade nos sistemas de
vocalização.

89
Teoria Gestual da Origem da
linguagem
A teoria gestual afirma que a fala foi um desenvolvimento
relativamente tardio, evoluindo gradualmente a partir de um
sistema que era originalmente gestual. Nossos ancestrais eram
incapazes de controlar sua vocalização na época em que os
gestos eram usados para se comunicar; no entanto, conforme
eles lentamente começaram a controlar suas vocalizações, a
linguagem falada começou a evoluir.
Três tipos de evidências apóiam essa teoria:
1. A linguagem gestual e a linguagem vocal dependem de
sistemas neurais semelhantes. As regiões do córtex responsáveis
pelos movimentos da boca e das mãos fazem fronteira entre si.
2. Os primatas não humanos minimizam os sinais vocais em favor
de gestos manuais, faciais e outros gestos visíveis, a fim de
expressar conceitos simples e intenções comunicativas na
natureza. Alguns desses gestos se assemelham aos dos
humanos, como a "postura implorando", com as mãos estendidas,
que os humanos compartilham com os chimpanzés.
3. Neurônios de espelho.

90
A pesquisa encontrou forte apoio para a ideia de que a linguagem
falada e a sinalização dependem de estruturas neurais
semelhantes. Os pacientes que usavam a linguagem de sinais e
que sofriam de uma lesão no hemisfério esquerdo apresentaram
os mesmos distúrbios com a linguagem de sinais que os
pacientes com voz apresentavam com a linguagem oral. Outros
pesquisadores descobriram que as mesmas regiões cerebrais do
hemisfério esquerdo estavam ativas durante a linguagem de
sinais e durante o uso da linguagem vocal ou escrita.
Os humanos usam gestos faciais e manuais espontaneamente ao
formular ideias a serem transmitidas pela fala. É claro que
também existem muitas línguas de sinais, comumente associadas
a comunidades surdas; conforme observado acima, eles são
iguais em complexidade, sofisticação e poder expressivo a
qualquer linguagem oral. A principal diferença é que os "fonemas"
são produzidos fora do corpo, articulados com as mãos, corpo e
expressão facial, em vez de dentro do corpo articulados com
língua, dentes, lábios e respiração.
Muitos psicólogos e cientistas examinaram o sistema de espelho
do cérebro para responder a essa teoria, bem como a outras
teorias comportamentais. As evidências para apoiar os neurônios-
espelho como um fator na evolução da fala incluem neurônios-
espelho em primatas, o sucesso de ensinar macacos a se
comunicar gestualmente e apontar / gesticular para ensinar a
linguagem a crianças pequenas. Fogassi e Ferrari (2007)
monitoraram a atividade do córtex motor em macacos,
especificamente a área F5 na área de Broca, onde os neurônios-

91
espelho estão localizados. Eles observaram mudanças na
atividade elétrica nesta área quando o macaco executou ou
observou diferentes ações manuais realizadas por outra pessoa.
A área de Broca é uma região do lobo frontal responsável pela
produção e processamento da linguagem. A descoberta de
neurônios-espelho nessa região, que disparam quando uma ação
é feita ou observada especificamente com a mão, apóia
fortemente a crença de que a comunicação antes era realizada
com gestos. O mesmo é verdade quando se ensina a linguagem
para crianças pequenas. Quando alguém aponta para um objeto
ou local específico, os neurônios-espelho da criança disparam
como se estivessem fazendo a ação, o que resulta em um
aprendizado de longo prazo.

Neurônios espelho e a evolução da


linguagem incorporada
Os neurônios-espelho são uma classe de neurônios descobertos
pela primeira vez no córtex pré-motor do macaco que se ativam
quando o macaco executa uma ação e quando observa a mesma
ação feita por outro indivíduo. Esses neurônios permitem que os
indivíduos entendam as ações realizadas por outros. Duas
subcategorias de neurônios-espelho em macacos são ativadas
quando ouvem sons de ação e quando observam gestos
comunicativos feitos por outros, respectivamente. As propriedades
dos neurônios-espelho poderiam constituir um substrato a partir
do qual formas mais sofisticadas de comunicação evoluíram; isso
92
faria sentido, dada a homologia anatômica e funcional entre parte
do córtex pré-motor do macaco e a área de Broca (a área de
"fala" do cérebro) em humanos. Nossa hipótese é que vários
componentes da linguagem humana, incluindo alguns aspectos
da fonologia e sintaxe, podem estar embutidos nas propriedades
organizacionais do sistema motor e que um conhecimento mais
profundo desse sistema pode lançar luz sobre como a linguagem
evoluiu.

Nos macacos, a parte rostral do córtex pré-motor ventral (área


F5) contém neurônios que se descarregam, tanto quando o
macaco agarra ou manipula objetos quanto quando observa o
experimentador fazendo ações semelhantes. Esses neurônios
(neurônios-espelho) parecem representar um sistema que
combina eventos observados com ações semelhantes geradas
internamente e, dessa forma, forma um elo entre o observador
e o ator. Os experimentos de estimulação magnética
transcraniana e tomografia por emissão de pósitrons (PET)
sugerem que um sistema de espelho para reconhecimento de
gestos também existe em humanos e inclui a área de Broca.
Giacomo Rizzolatti e Michael A.Arbi (1998) propuseram aqui
que tal sistema de correspondência de observação / execução
fornece uma ponte necessária do `fazer 'para a` comunicação',
visto que o elo entre o ator e o observador torna-se um elo
entre o emissor e o receptor de cada mensagem.

A teoria gestual da origem da


linguagem: implicações filosóficas?
Ao pesquisar este tópico, encontramos um artigo de Robin Allott
(2003) que era um tanto técnico e abrangente na cobertura de
questões de filosofia, linguística, psicologia e neurologia. A
discussão de Allott pode interessar a um público mais amplo, e
tomei a liberdade de escrever este pequeno artigo não técnico,
apresentando o que acreditamos ser um tema-chave em seu
93
artigo, as implicações filosóficas da teoria gestual da origem da
linguagem. A teoria apresenta uma oportunidade para
colaboração mutuamente frutífera entre a pesquisa sobre a
origem da linguagem e a filosofia da linguagem.
A Pesquisa de Origem da Língua (LOR, do inglês Language
Origin Research) é multidisciplinar, baseada na antropologia,
arqueologia, lingüística, psicologia e ciências biológicas. Apesar
de compartilhar a preocupação com as condições necessárias e
suficientes para a linguagem, filosofia e LOR raramente se
cruzam. A questão central em LOR é: se a linguagem é um
estágio natural na evolução da comunicação animal, por que os
humanos são as únicas espécies conhecidas de uso da
linguagem? A aparente singularidade da linguagem para os
humanos sugere que ela se desenvolveu em uma época em que
a espécie humana se ramificou a partir da árvore evolucionária e
assumiu características únicas que levaram ao uso da linguagem.
Para identificar esse ponto de partida, a teoria gestual da origem
da linguagem (TG, ou do inglês GT gestural theory) postula que a
linguagem começou como língua de sinais (talvez acompanhada
de vocalização marginal). De acordo com TG, a linguagem se
desenvolveu rapidamente no período evolutivo, depois que os
humanos ganharam tamanho cerebral suficiente, bipedalismo
completo e destreza manual. Na hipótese TG, o "evento
desencadeador" para a linguagem humana foi o bipedalismo, que
liberou as mãos não apenas para a fabricação de ferramentas,
mas também para assinar. A TG seria responsável pela
discrepância entre o longo intervalo de tempo aparentemente

94
necessário para a evolução da linguagem e a evidência fóssil que
parece mostrar um desenvolvimento tardio do aparelho vocal para
a fala articulada em nossos ancestrais hominídeos.
Se a linguagem começou como gestos, as razões para a
mudança para a comunicação verbal não são claras. A fala tem
vantagens distintas sobre a sinalização, como a capacidade de se
comunicar fora da vista, à distância e à noite, com as mãos livres.
Essas vantagens podem ter desempenhado um papel na
transição. A linguagem de sinais permite a comunicação
silenciosa, que teria se adaptado melhor às atividades diurnas dos
primeiros humanos; caça, guerra e prevenção de predadores.
Dados seus papéis mutuamente contrastantes, é plausível que a
linguagem de sinais e a fala coexistiram por algum tempo, e a
mudança para um ambiente humano mais estável e seguro
desempenhou um papel na marginalização do gesto.
TG também aborda uma questão filosófica central: Por que
achamos que a linguagem "espelha" o mundo? As tentativas de
postular a vocalização como o meio original da linguagem
encontram problemas para explicar a origem da indicialidade (a
capacidade da linguagem de se referir a objetos), significado (a
estrutura mediadora, em parte mental e em parte social, que
determina a que uma palavra se refere) e gramática (o fato de que
as palavras têm uma configuração de 'bloco de construção', elas
podem ser alteradas para formar uma variedade de frases), todas
aparentemente ausentes da 'comunicação' de animais não
humanos. A linguagem de sinais é inerentemente icônica e
indexical. Os sinais podem ser organizados de maneiras

95
diferentes para formar frases diferentes. Em combinação, esses
recursos tornam a linguagem de sinais um sistema para
"espelhar" o mundo.
Se a fala se desenvolveu muito mais tarde no tempo evolutivo do
que a assinatura, é provável que um correlato neural da
sinalização ocorra no cérebro quando falamos. Essa hipótese está
sendo testada em neurologia, com alguns resultados iniciais
promissores. Como a descoberta de "neurônios-espelho", na área
de Broca do cérebro humano, que se acredita desempenhar um
papel importante tanto na fala quanto na execução, imaginação e
imitação de movimentos de mão-braço. Os neurônios-espelho são
ativados quando o sujeito executa uma ação ou vê outra pessoa
realizando-a, e podem ser a base da intersubjetividade que é
parte integrante da comunicação humana (Rizzolatti e Arbib,
1998).
Se a hipótese TG estiver correta, o correlato neural de signos que
acompanha a fala é o progenitor do sentido linguístico ou
"significado", o mediador no cérebro entre a palavra e o objeto. A
hipótese TG apresenta uma teoria elegante e poderosa da origem
da linguagem como um fenômeno exclusivamente humano, bem
como uma base biológica para a estrutura analógica ou
"espelhada" da linguagem e do pensamento.
TG pode, portanto, ter implicações filosóficas, uma vez que a
teoria sugere que a "estrutura profunda" da linguagem, a
"imagem" ou relação analógica com a realidade, está
possivelmente embutida no cérebro humano. Esta afirmação vai
de encontro a uma visão familiar (às vezes rotulada de "pós-

96
modernista") do significado como "uso", que caracteriza a
hipótese do espelhamento como, na melhor das hipóteses,
enganosa e, na pior, ideológica em ocultar usos da linguagem
para legitimar e reproduzir estruturas de poder por trás de um
fachada de 'apenas espelhar a realidade'.
Existem, sem dúvida, muitos exemplos históricos e
contemporâneos de "tirania linguística" (por exemplo, na palavra
grega antiga para "escravo", que carregava conotações de
inferioridade inata e, assim, legitimou o domínio dos gregos
livres). Mas a tirania linguística explora elementos necessários do
'sistema de espelhamento' da linguagem, as distinções entre
objetivo e subjetivo, semântica e pragmática, denotação e
conotação (embora aplicações específicas dessas distinções
possam ser contestadas de várias maneiras), ou é o
'espelhamento o próprio sistema é uma construção ideológica ou,
na melhor das hipóteses, um mito que precisa ser eliminado,
como sugerem os pós-modernistas radicais?
A teoria do "significado como uso" levanta uma grande
dificuldade. Como a ideia de linguagem (e pensamento) como um
"espelho" decolou em primeiro lugar, e se realmente é apenas
uma ilusão, por que continuamos nos apaixonando por ela? Este
problema encontra eco nas Investigações filosóficas de
Wittgenstein, mais memoravelmente em sua observação de que
"a filosofia é uma batalha contra o encantamento de nossa
inteligência por meio da linguagem". Wittgenstein alude
repetidamente à tendência da linguagem de enganar por meio de
semelhanças analógicas superficiais (por exemplo, entre "Eu

97
tenho um besouro em uma caixa" e "Eu tenho um pensamento em
mente"), e a aparente impossibilidade de nos libertarmos desse
tipo de confusão linguística.
Se, como sugere o TG, a estrutura analógica da linguagem é
"embutida" no cérebro, então a fonte da confusão e sua
intratabilidade podem ser explicadas ao longo das seguintes
linhas:

O "sistema de espelhamento" da linguagem não foi uma


invenção ideológica (na verdade, tal invenção teria sido
literalmente impensável). Nem pode ser "desinventado" pela
política ou por uma teoria filosófica como o "significado como
uso". O "sistema de espelhamento" e suas distinções objetivo-
subjetivo, semântico-pragmático e denotação-conotação são
inatos em nossas estruturas cerebrais e, portanto, no
pensamento e na linguagem humanos. Mesmo os pós-
modernistas mais radicais não podem pensar de outra maneira,
mesmo que possam (pelo menos na torre de marfim) falar
como se pensassem. As analogias não são cópias carbono.
Eles funcionam simplificando a realidade para fornecer um
esquema de organização para tarefas específicas e, portanto,
têm uma tendência embutida de enganar quando aplicadas a
tarefas para as quais não foram originalmente destinadas (a
analogia da "mente como um contêiner" é um exemplo infame).

Saímos de uma armadilha analógica e caímos em outra. Não


podemos, entretanto, remover os óculos que nos fazem cair
nessas armadilhas. Não podemos parar de pensar que a
linguagem tem que descrever algo "objetivo" (o alvo, distinto do
análogo), que algumas crenças e sistemas de crenças são mais
"verdadeiros" do que outros (como algumas analogias são mais
"adequadas" do que outras) , que há uma diferença substantiva
entre semântica e pragmática, denotação e conotação (como
entre um modelo e vários usos que podem ser feitos, alguns

98
menos enganosos do que outros). Não pode haver uma "utopia"
futura, desnudando a reconexão neural em massa, na qual as
coisas serão de outra forma. A linguagem é inerentemente
enganosa e devemos estar constantemente atentos a suas
limitações e abusos, mas seus pressupostos estruturais básicos
nunca podem ser outra coisa senão o que são.
Não está claro o que contaria como prova empírica da TG, muito
menos para a tese filosófica esboçada acima. Se TG fosse
demonstrado ser verdadeiro além de qualquer dúvida razoável, os
cientistas ainda enfrentariam a difícil tarefa de rastrear seu
impacto no aparelho cognitivo humano e extrair quaisquer
implicações para a "estrutura profunda" do pensamento e da
linguagem. Também existe a possibilidade de que, mesmo que a
hipótese TG seja falsa, as mesmas implicações filosóficas podem
decorrer de estruturas mentais que são o resultado de algum
outro acidente evolutivo.
O que está claro é que, para ter validade metodológica, um
programa científico que busque mapear a origem da linguagem
aos processos cognitivos e linguísticos não pode excluir a
participação de filósofos. Muitos dos quais questionaram o
paradigma "de dentro para fora" que domina LOR, a ideia de que
a linguagem é simplesmente um subproduto do pensamento
complexo (e pode, portanto, ocorrer em qualquer espécie não
humana suficientemente complexa). Os filósofos
wittgensteinianos, em particular, defenderam uma abordagem "de
fora para dentro", que a linguagem é um sistema semiautônomo
que molda as estruturas mentais. TG se encaixa bem no modelo

99
"de fora para dentro" (particularmente em termos de semântica e
sintaxe), mas continua sendo uma visão minoritária em LOR. Por
outro lado, a filosofia não pode se dar ao luxo de ignorar as
descobertas científicas de que a linguagem pode ter uma
"estrutura profunda" que molda a forma como pensamos e nos
comunicamos, estruturas que não podem ser abolidas por
decreto. Ambos os lados precisam trabalhar juntos para garantir
um "ajuste" adequado entre teoria e evidência.

Crítica
Os críticos observam que, para os mamíferos em geral, o som
acaba sendo o melhor meio para codificar informações para
transmissão a distâncias em velocidade. Dada a probabilidade de
isso se aplicar também aos primeiros humanos, é difícil ver por
que eles deveriam ter abandonado esse método eficiente em
favor de sistemas mais caros e complicados de gestos visuais -
apenas para voltar ao som em um estágio posterior.
A título de explicação, foi proposto que em um estágio
relativamente avançado da evolução humana, as mãos de nossos
ancestrais tornaram-se tão solicitadas para fazer e usar
ferramentas que as demandas concorrentes de gestos manuais
se tornaram um obstáculo. Diz-se que a transição para a
linguagem falada ocorreu apenas nesse ponto. Como os
humanos, ao longo da evolução, vêm fazendo e usando
ferramentas, entretanto, a maioria dos estudiosos permanece não
convencida por esse argumento. (Para uma abordagem diferente
100
para este quebra-cabeça - uma partindo de considerações de
confiabilidade e confiabilidade do sinal - consulte "da pantomima à
fala" abaixo).

101
Capítulo 3
Linha do tempo da evolução
da fala
Pouco se sabe sobre o momento do surgimento da linguagem na
espécie humana. Ao contrário da escrita, a fala não deixa
vestígios materiais, o que a torna arqueologicamente invisível. Na
falta de evidências linguísticas diretas, os especialistas em
origens humanas recorreram ao estudo de características
anatômicas e genes indiscutivelmente associados à produção da
fala. Embora tais estudos possam fornecer informações sobre se
as espécies pré-modernas de Homo tinham capacidade de fala,
ainda não se sabe se eles realmente falavam. Embora possam ter
se comunicado verbalmente, os dados anatômicos e genéticos
não têm a resolução necessária para diferenciar a protolinguagem
da fala.

102
Usando métodos estatísticos para estimar o tempo necessário
para alcançar a atual disseminação e diversidade nas línguas
modernas hoje, Johanna Nichols - uma lingüista da Universidade
da Califórnia, Berkeley - argumentou em 1998 que as línguas
vocais devem ter começado a se diversificar em nossa espécie há
pelo menos 100.000 anos atrás.
Mais recentemente - em 2012 - os antropólogos Charles Perreault
e Sarah Mathew usaram a diversidade fonêmica para sugerir uma
data consistente com esta. "Diversidade fonêmica" denota o
número de unidades de som perceptualmente distintas -
consoantes, vogais e tons - em uma língua. O atual padrão
mundial de diversidade fonêmica contém potencialmente o sinal
estatístico da expansão do Homo sapiens moderno para fora da
África, começando por volta de 60-70 mil anos atrás. Alguns
estudiosos argumentam que a diversidade fonêmica evolui
lentamente e pode ser usada como um relógio para calcular
quanto tempo as línguas africanas mais antigas teriam de existir
para acumular o número de fonemas que possuem hoje.
Conforme as populações humanas deixaram a África e se
expandiram para o resto do mundo, elas passaram por uma série
de gargalos - pontos nos quais apenas uma pequena população
sobreviveu para colonizar um novo continente ou região.
Supostamente, tal queda populacional levou a uma redução
correspondente na diversidade genética, fenotípica e fonêmica.
As línguas africanas hoje possuem alguns dos maiores
inventários fonêmicos do mundo, enquanto os menores
inventários são encontrados na América do Sul e na Oceania,

103
algumas das últimas regiões do globo a serem colonizadas. Por
exemplo, Rotokas, uma língua da Nova Guiné, e Pirahã, falada na
América do Sul, têm apenas 11 fonemas, enquanto! Xun, uma
língua falada na África do Sul, tem 141 fonemas. Os autores usam
um experimento natural - a colonização do sudeste da Ásia
continental por um lado, as ilhas Andaman isoladas, por outro -
para estimar a taxa na qual a diversidade fonêmica aumenta ao
longo do tempo. Usando essa taxa, eles estimam que as línguas
do mundo datam da Idade da Pedra Média na África, em algum
momento entre 350 mil e 150 mil anos atrás. Isso corresponde ao
evento de especiação que deu origem ao Homo sapiens.
Esses e outros estudos semelhantes foram, no entanto, criticados
por linguistas que argumentam que eles são baseados em uma
analogia falha entre genes e fonemas, uma vez que os fonemas
são frequentemente transferidos lateralmente entre línguas
diferentes de genes, e em uma amostragem falha das línguas do
mundo, desde Oceania e as Américas também contêm línguas
com um número muito alto de fonemas, e a África contém línguas
com muito poucos. Eles argumentam que a distribuição real da
diversidade fonêmica no mundo reflete o contato recente com a
linguagem e não uma história profunda da linguagem - uma vez
que está bem demonstrado que as línguas podem perder ou
ganhar muitos fonemas em períodos muito curtos. Em outras
palavras, não há razão linguística válida para esperar que os
efeitos genéticos do fundador influenciem a diversidade fonêmica.

104
Epílogo
Quando as pessoas conversam umas com as outras, de acordo
com o filósofo americano John Searle, elas estão fazendo
movimentos, não no mundo real que outras espécies habitam,
mas em um reino virtual compartilhado peculiar a nós. Ao
contrário do desdobramento do esforço muscular para mover um
objeto físico, o desdobramento da força ilocucionária não requer
nenhum esforço físico (exceto o movimento da língua / boca para
produzir a fala) e não produz nenhum efeito que qualquer
dispositivo de medição possa detectar. Em vez disso, nossa ação
ocorre em um nível bastante diferente - o da realidade social.
Esse tipo de realidade é, em certo sentido, alucinatório, sendo um
produto da intencionalidade coletiva. Não consiste em "fatos
brutos" - fatos que existem de qualquer maneira,
independentemente da crença de qualquer pessoa - mas em
"fatos institucionais", que "existem" apenas se você acreditar
neles. Governo, casamento, cidadania e dinheiro são exemplos
de “fatos institucionais”. Pode-se distinguir entre fatos "brutos" e
"institucionais" aplicando um teste simples. Suponha que ninguém
acreditasse no fato - ainda seria verdade? Se a resposta for "sim",
é "bruto". Se a resposta for "não", é "institucional".

“Imagine um grupo de criaturas primitivas, mais ou menos


como nós ... Agora imagine que agindo em grupo, eles
constroem uma barreira, um muro ao redor do lugar onde
vivem ... O muro é projetado para manter os intrusos fora e
105
mantê-los membros do grupo em ... Suponhamos que a parede
gradualmente se deteriora. Ela se deteriora lentamente até que
tudo o que resta é uma linha de pedras. Mas suponhamos que
os habitantes continuem a tratar a linha de pedras como se ela
pudesse funcionar a função da parede. Suponhamos que, de
facto, tratem a linha de pedras como se entendessem que ela
não deve ser cruzada ... Esta mudança é o movimento decisivo
na criação da realidade institucional . É nada menos do que o
movimento decisivo na criação do que pensamos ser distinto
nos humanos, em oposição aos animais, às sociedades. "

John R. Searle (1995).

Os fatos da linguagem em geral e da fala, em particular, são,


nessa perspectiva, "institucionais" e não "brutos". O significado
semântico de uma palavra, por exemplo, é o que seus usuários
imaginam que seja. "Fazer coisas com palavras" é operar em um
mundo virtual que parece real porque o compartilhamos em
comum. Neste mundo incorpóreo, as leis da física, química e
biologia não se aplicam. Isso explica por que a força ilocucionária
pode ser implantada sem exercer esforço muscular. Macacos e
macacos habitam o mundo "bruto". Para causar impacto, eles
devem gritar, latir, ameaçar, seduzir ou de qualquer outra forma
investir esforço corporal. Se fossem convidados a jogar xadrez,
não seriam capazes de resistir a atirar as peças uns contra os
outros. A fala não é assim. Alguns movimentos da língua, em
condições apropriadas, podem ser suficientes para abrir o
parlamento, anular um casamento, conferir um título de cavaleiro
ou declarar guerra. Para explicar, em uma base darwiniana, como
essa aparente magia começou a funcionar, devemos perguntar
como, quando e por que o Homo sapiens conseguiu estabelecer o
domínio mais amplo dos fatos institucionais.

106
Bibliografia consultada

A
ALLOTT, R. (2003) Language as a mirror of the world:
reconciling picture theory and language games. Disponível
em: < http://cogprints.org/3110/ > Acesso em: 30 jul. 2021.

ATKINSON, Q. Phonemic diversity supports a serial founder effect


model of language expansion from Africa. Science Magazine. v.
332, n., 6027, p. 346-349. 2011.

C
CORBALLIS, M. C. The Gestural Origins of language: human
language may have evolved from manual gestures, which survive
today as a "behavioral fossil" coupled to speech. American
Scientist, v. 87, n. 2, p. 138-145, 1999.

107
F
FOGASSI, L.; FERRARI, P. F. Mirror neurons and the evolution of
embodied language. Current Directions in Psychological Science, v. 16, n. 3, p.
136-141, 2007.

G
GIBRAN, B. The Gestural Theory of Language origin:
philosophical implications? Disponível em: <
https://medium.com/science-and-philosophy/the-gestural-theory-
of-language-origin-philosophical-implications-c2646d89d4bb >
Acesso em: 30 jul. 2021.

108
HAUSER, M. D.; CHOMSKY, N; FITCH, W. T. The faculty of
language: what is it, who has it, and how did it evolve? Science, v.
298, n. 5598, p. 1569-1579, 2002.

K
KAY, R. F.; CARTMILL, M.; BALOW, M. The hypoglossal canal
and the origin of human vocal behavior. Proc. Natl. Acad. Sci.
USA, v. 95, p. 5417-5419, 1998.

N
NILSSON, D. E.; PELGER, S. A pessimistic estimate of the time
required for an eye to evolve. Proceedings of the Royal Society
B: Biological Sciences, v. 256, n. 1345, p. 53-58, 1994.

O
109
OSWALD, F.; KLÖBLE, P.; RULAND, A.; ROSENKRANZ, D.;
HINZ, B.; BUTTER, F.; RAMLJAK, S.; ZECHNER, U.; HERLYN,
H. The FOXP2-Driven network in developmental disorders and
neurodegeneration. Frontiers in Cellular Neuroscience, July, v.
11, article 212, p. 1-24, 2017.

P
PERREAULT, C.; MATHEW, S. Dating the origin of language
using phonemic diversity. PLoS ONE, v. 7, n. 4/e35289, p. 1-8,
2012.

R
RIZZOLATTI, G.; ARBIB, M. A. Language within our grasp.
Trends in Neurosciences, v. 21, n. 5, p. 188-194, 1998.

S
110
STAES, N.; SHERWOOD, C. C.; WRIGHT, K.; DE MANUEL, M.;
GUEVARA, E. E.; MARQUES-BONET, T.; KRÜTZEN, M.;
MASSIAH, M.; HOPKINS, W. D.; ELY, J. J.; BRADLEY, B. J.
FOXP2 variation in great ape populations offers insight into the
evolution of communication skills. Nature Scientific Reports, v. 7,
article 16866, p. 1-10, 2017.

STRAUSS, I. Turns out apes are pretty good at office


politics, too. Disponível em: <
https://www.thecut.com/article/apes-office-politics-
evolution-group-dynamics.html > Acesso em 29 jul. 2021.

111
112

Você também pode gostar