Uma das impressões mais profundas causadas em alguém que por acaso adentre
um estúdio de mixagem de filmes é a de não haver conexão entre fins e meios. Às vezes,
para criar a simplicidade natural de uma cena cotidiana entre duas pessoas, dezenas de
canais de áudio têm que ser criados e totalmente misturados em apenas um. Outras vezes
uma trilha sonora de “ação” aparentemente complexa pode ser resolvida com apenas alguns
elementos cuidadosamente selecionados. Em outras palavras, não é sempre óbvio o que foi
necessário para chegar ao resultado final: pode ser simples ser complexo, e pode ser
complexo ser simples.
A conseqüência disso, para o som, é que durante a gravação final de quase todo
filme há momentos em que o equilíbrio entre diálogo, música, e efeitos sonoros irá
repentinamente (e algumas vezes imprevisivelmente) tornar-se um emaranhado tão
complicado que mesmo o mais experiente dos diretores, editores, e mixadores pode ficar
sobrecarregado pelas escolhas que tenha que fazer.
Então o que eu gostaria de focar esta noite são esses momentos “emaranhados”:
como aparecem, e como lidar com eles quando isso acontece. Como escolher que sons
devem predominar quando não podem ser todos incluídos? Que sons devem permanecer em
segundo plano? E que sons – se há algum – devem ser eliminados? Por mais difícil que
essas questões sejam, e por mais vulneráveis que sejam às políticas do processo de
realização dos filmes, gostaria de sugerir algumas linhas de orientação práticas e conceituais
para ajudá-los a atravessar esses nós, e talvez até desembaraçar estes emaranhados.
1
N. do T.: apesar do nome estéreo, o Dolby Stereo era produzido por 4 canais: centro, direita e esquerda atrás da tela mais o
surround.
Ou – melhor ainda – nem permitir que eles aconteçam.
Código e Corpo
A luz branca, por exemplo, que nos parece tão simples, na verdade é uma
sobreposição misturada de todos os comprimentos de onda (quer dizer, de todas as cores)
de luz simultaneamente. Vocês podem observar isso ao contrário quando vocês acendem
uma lanterna através de um prisma e vêem o raio de luz branca se espalhar nas cores
familiares do arco-íris, do violeta (o mais curto comprimento de onda da luz visível) –
passando pelo anil, azul, verde, amarelo, e laranja – até o vermelho (o comprimento de onda
mais longo).
Com isso em mente, gostaria que vocês agora imaginassem um som branco –
todos os sons imagináveis soando juntos ao mesmo tempo: o som de Nova Iorque, por
exemplo – gritos e sussurros, sirenes e rangidos, motores, metrôs, britadeiras, música de
rua, o Teatro Grand Opera e o Estádio Shea.
Agora imaginem que vocês pudessem “acender” este som branco através de
algum tipo de prisma mágico que nos revelaria seu espectro oculto.
Quando vocês pensam sobre isso, vêem que toda linguagem é basicamente um
código, com seu conjunto de regras próprias. Deve-se entender essas regras para poder
romper a superfície da linguagem e extrair quaisquer significados que ela contenha. Só
porque fazemos isso automaticamente, sem nos darmos conta, não quer dizer que não
esteja acontecendo. Está acontecendo agora mesmo, enquanto vocês escutam esta
palestra. O significado do que estou dizendo está “codificado” pelas palavras que estou
usando. O som, neste caso, está atuando simplesmente como um veículo através do qual se
envia o significado.
O que existe para além desses limites externos? Assim como todo som audível se
enquadra entre os limites graves e agudos de 20 e 20.000 ciclos, também todos os sons se
encontrarão em algum lugar nesse espectro conceitual da fala à música.
2
A maioria dos efeitos sonoros, por exemplo, se encontram no meio do caminho:
como “centauros-sonoros”, eles são metade língua, metade música. Já que um efeito sonoro
geralmente se refere a algo específico – ao motor de um trem a vapor, uma batida à porta, o
gorjeio dos pássaros, o tiro de uma arma – ele não é um som tão “puro” como a música. Por
outro lado, a linguagem dos efeitos sonoros, se eu puder usar esse termo, é mais universal e
imediatamente entendida do que qualquer língua falada.
Amarelo
Efeitos Sonoros
Codificados-Incorporados
Violeta Vermelho
Linguagem Música
Codificado Incorporado
Verde e Laranja
Agora vou desenhar uma curva (vocês esperaram por isso, tenho certeza) e
digamos que na prática as coisas não são tão simples como fiz parecer. Há alguns
elementos musicais que aparecem em quase todas as falas – pensem em como alguém diz
alguma coisa, como uma forma de música. Por exemplo, vocês podem dizer se alguém está
bravo ou feliz, mesmo se vocês não entendem o que é falado, só de ouvir o tom (a música)
da sua voz. Nós entendemos R2-D2 totalmente pela música de seus bips e bups, não por
suas “palavras” (só C-3PO e Luke Skywalker podem fazer isso). A fala computadorizada de
Stephen Hawking, por outro lado, é perfeitamente inteligível, mas monotonamente igual – ela
tem muito pouco conteúdo musical – então nós temos que escutar cuidadosamente o que ele
fala, e não como ele fala.
Conforme o grau de música que a fala contém, sua “cor” vai se deslocar em
direção à extremidade mais quente (musical) do espectro. Quanto a isso, R2-D2 é mais
quente que Stephen Hawking, e o sr. Spock é mais frio que Rambo.
3
Eraserhead. E outras vezes um efeito sonoro pode transmitir pacotes de sentido
discriminável que são quase como palavras. Batidas à porta, por exemplo, podem ser uma
micro-linguagem “azul” que diz: “Alguém está aqui!”. E certos tipos de passos podem estar
dizendo simplesmente: “Passo! Passo! Passo!”
Além disso, há uma consideração prática sobre tudo isso quando falamos a
respeito da mixagem final: parece que a combinação de certos sons irá adquirir um caráter
correspondentemente diferente dependendo de qual região do espectro eles pertencem –
alguns sons irão se sobrepor transparente e efetivamente, enquanto outros tenderão a se
interferir destrutivamente e se “bloquear”, resultando numa mixagem embolada e confusa.
Harmônicos e Não-Harmônicos
Quando vocês olham para uma pintura ou uma fotografia, ou para a vista da sua
janela, vocês vêem áreas distintas de cor – um vestido amarelo num varal, por exemplo,
contornado por um céu azul. O vestido e o céu ocupam áreas separadas da imagem. Se eles
não ocupassem – se o vestido da frente fosse transparente, os comprimentos de onda do
amarelo e do azul se somariam e criariam uma nova cor – verde, neste caso. Essa é a forma
natural de percebermos a luz.
Vocês podem sobrepor sons, porém, e eles ainda assim reterem suas identidades
originais. As notas dó, mi e sol criam algo novo: um harmonioso acorde de dó maior. Mas se
vocês escutarem cuidadosamente ainda podem perceber as notas individuais. Seria como
se, ao olhar para algo verde, ainda pudéssemos ver o azul e o amarelo que se juntaram para
formá-lo.
E é uma coisa boa que seja assim, porque a trilha sonora de um filme (assim
como a própria música) é totalmente dependente da habilidade de se sobrepor sons (“notas”)
transparentemente uns sobre os outros, criando novos “acordes”, sem transformá-los em
algo totalmente diferente.
Bem, depende do que queremos dizer com sobreposição. Toda nota tocada por
todo instrumento é na verdade uma sobreposição de uma série de tons. 3 Um violoncelo
2
N. do T.: O conceito de trilha sonora é usado aqui no sentido amplo, sendo o conjunto de todos os sons de um filme.
3
N. do T.: Nesse trecho, Walter Murch fala, com algumas imprecisões, de Teoria Musical. Por se tratar de um
texto didático, o tradutor tomou a liberdade de corrigir o autor, enquadrando o texto do mestre Murch dentro da
mais rigorosa acuidade teórica. O texto então ficou assim:
4
tocando a nota “lá”, por exemplo, irá vibrar fortemente na freqüência fundamental daquela
corda, digamos 110 ciclos. Mas a corda também vibra em múltiplos exatos daquela
fundamental: 220, 330, 440, 550, 660, 770, 880, etc. Essas vibrações excedentes são
chamadas de harmônicos da freqüência fundamental.
Harmônicos, como o nome indica, são sons cujos formatos de onda estão
fortemente ligados – literalmente “aninhados” juntos. No exemplo acima, 220, 440, e 880 são
todas oitavas mais altas da fundamental “lá” (110). E os outros harmônicos – 330, 550, 660, e
770 – correspondem às notas mi, ré bemol, mi, e sol, os quais, junto com o lá, são as quatro
notas do acorde de lá maior (lá, ré bemol, mi, sol, lá). Então quando a nota lá é tocada no
violino (ou no piano, ou em qualquer outro instrumento) o que você ouve é na verdade um
acorde. Mas porque essa ligação harmônica é tão próxima, e porque a fundamental (110
neste caso) é quase duas vezes mais forte que todos os seus harmônicos soando juntos, nós
percebemos “lá” como uma nota única, apesar de uma nota com “identidade”. Essa
identidade – ou timbre – é ligeiramente diferente em cada instrumento, e esta diferença é o
que nos permite distinguir não apenas os diferentes tipos de instrumento – clarinetes de
violinos, por exemplo – mas algumas vezes também diferenciar instrumentos individuais do
mesmo tipo – um violino Stradivarius de um Guarnieri.∗
Este tipo de sobreposição harmônica não possui quaisquer limites objetivos que
possam ser comentados. Enquanto os sons estiverem harmonicamente vinculados, você
pode sobrepor quantos elementos quiserem. Imaginem uma orquestra, com todos os
instrumentos tocando oitavas da mesma nota. Acrescentem um órgão, tocando mais oitavas.
Agora um coro de 200 vozes, cantando ainda mais oitavas. Nós estamos sobrepondo mais e
mais instrumentos e vozes, mas ainda assim tudo soará unificado. Se todos começarem a
tocar e cantar o que bem entenderem, entretanto, essa unidade imediatamente se
transformará num caos.
“Um violoncelo tocando a nota “lá”, por exemplo, sua corda irá vibrar fortemente na freqüência fundamental
daquela nota, digamos 110 ciclos por segundo. Mas a corda também vibra em múltiplos daquela fundamental,
no caso: 220, 330, 440, 550, 660, 770, 880, etc. Essas vibrações excedentes são chamadas de harmônicos da
freqüência fundamental. Harmônicos, como o nome indica, são sons cujos formatos de onda estão fortemente
ligados – literalmente “aninhados” juntos. No exemplo acima, 220, 440, e 880 são todas oitavas mais altas da
fundamental “lá” (110).E os outros harmônicos – 330, 550, 660, e 770 – correspondem às notas mi, dó
sustenido, mi, e sol, os quais, junto com o lá, são as quatro notas do acorde de lá maior com sétima (lá, dó
sustenido, mi, sol). Então quando a nota lá é tocada no violoncelo (ou no piano, ou em qualquer outro
instrumento) o que você ouve é na verdade um acorde. Mas porque essa ligação harmônica é tão próxima, e
porque a fundamental (110 neste caso) é quase duas vezes mais forte que todos os seus harmônicos soando
juntos, nós percebemos “lá” como uma nota única, apesar de uma nota com “identidade”. Essa identidade – ou
timbre – é diferente em cada instrumento, e esta diferença é que nos permite distinguir não apenas os
diferentes tipos de instrumento – clarinetes de violinos, por exemplo – mas algumas vezes também diferenciar
instrumentos individuais do mesmo tipo – um violino Stradivarius de um Guarnieri.”
Fim do trecho corrigido.
5
anterior. Isso não é música, mas mesmo assim se qualificaria, no meu entender, como um
exemplo de sobreposição harmônica.
Dagwood e Blondie4
O problema, é claro, é que mais cedo ou mais tarde (na maioria das vezes mais
cedo) esse tipo de colocação de camadas em excesso, acaba soando como a confusão de
sons entre as estações de rádio – ruído branco – que é por onde nós começamos nossa
discussão. O problema com o ruído branco é que, como luz branca, não há muita informação
para se extrair. Ou melhor, há tanta informação embaralhada, que é impossível para o
cérebro separar tudo de novo. É indigesto como um dos sanduíches do Dagwood. Você
ainda ouve tudo, tecnicamente falando, mas é impossível escutar o que quer que seja – para
apreciar ou até mesmo distinguir cada elemento individualmente. Então os cineastas teriam
feito todo aquele trabalho, posto todos aqueles sons juntos, para nada. Eles poderiam
simplesmente ter sintonizado entre as estações de rádio e obtido o mesmo resultado.
1. Diálogo
2. Helicópteros
4
N. do T.: personagens de histórias em quadrinhos.
6
3. Música (As Valquírias5)
4. Pequenas armas de fogo (AK47 e M16)
5. Explosões (Morteiros, Granadas, Artilharia Pesada)
6. Passos e outros tipos de foley
Então me perguntei; qual é o som mais dominante da cena? Nesse caso calhou
de serem os helicópteros, então eu mixei todos os canais de helicópteros juntos num outro
rolo de filme de 35mm, enquanto escutava o diálogo sendo tocado, para ter certeza de que
não faria nada com os helicópteros que obscurecesse o diálogo.
Então passei ao terceiro som mais dominante, que era a Cavalgada das Valquírias
como se tocada pelos amplificadores dos helicópteros de Kilgore. Eu mixei isso num terceiro
rolo de filme enquanto monitorava as duas pré-mix dos helicópteros e do diálogo.
O que eu descobri para minha consternação, contudo, foi que, no primeiro ensaio
da mixagem final, tudo pareceu desmoronar na grande avalanche de ruído que mencionei
antes. Cada um dos grupos sonoros que eu tinha pré-mixado estava justificado pelo que
estava acontecendo na tela, mas por causa de alguma alquimia demoníaca, fundiram-se
numa algazarra tosca quando foram tocados juntos.
Robôs e Uvas
5
N. do T.: “A Cavalgada das Valquírias”, composição de Richard Wagner de meados do século XIX.
7
Isso aconteceu em 1969, em um dos primeiros filmes em que trabalhei: THX-1138
de George Lucas. Era um filme de baixo orçamento, mas também era de ficção científica,
então meu trabalho era produzir uma trilha sonora mundialmente reconhecida por alguns
trocados. A parte dos trocados era fácil, porque era só assim que tinha trabalhado até então.
A parte do “mundialmente reconhecida”, entretanto, significava que a maioria dos sons que
vinham automaticamente “junto com” a imagem (o som sincado) tinha que ser refeita. Um
caso em especial: os passos dos policiais do filme, que eram supostamente robôs de
trezentos quilos de aço e cromo. Durante as filmagens, é claro, esses robôs foram feitos por
atores com figurino que faziam o som normal que todo mundo faz quando anda. Mas no filme
nós queríamos que os passos soassem gigantescos, então construí calçados especiais de
metal, presos com elásticos e placas de ferro, fui para o Museu de História Natural de São
Francisco às 2 da manhã, calcei-os e gravei vários tipos de caminhadas em diferentes tipos
de ambientes sonoros, andando e passeando como um tipo de monstro de Frankenstein.
Eles soaram otimamente, mas agora eu tinha que sincar todos esses passos. Nós
faríamos isso diferente hoje – os passos seriam gravados num chamado palco de Foley, em
sincronia com o filme logo desde o começo. Mas eu era um jovem idealista – Eu queria que
soassem bem! – e além disso nós não tínhamos dinheiro para ir a Los Angeles e alugar um
palco de Foley.
De algum jeito, parece que nossos cérebros podem seguir os passos de uma
pessoa, ou até os passos de duas pessoas, mas com três ou mais pessoas nossos cérebros
simplesmente desistem – há passos demais acontecendo muito rápido. Como resultado,
cada passo não é mais percebido individualmente, mas antes um conjunto de passos é
percebido como uma entidade única, como um acorde musical. Se o ritmo dos passos é
aproximado, e se temos a impressão de que eles estão na superfície correta parece que isto
nos é suficiente. , o cérebro diz “Sim, vejo um conjunto de pessoas andando por um corredor
e quero ouvir os sons de um conjunto de pessoas andando por um corredor.”
8
mesmo tipo de erro que a estudante de Manet estava cometendo. Você prestou atenção
demais a algo que o cérebro é incapaz de assimilar, mesmo se quisesse.
Árvores e Florestas
O exemplo mais claro do que eu estou dizendo pode ser visto nos ideogramas
chineses para “árvore” e “floresta”. Em chinês, a palavra “árvore” se parece com uma árvore
mesmo – uma espécie de pinheiro com troncos inclinados. E a palavra chinesa para
“floresta” são três árvores. Agora, era obviamente os chineses quem deveriam decidir sobre
quantas árvores seriam necessárias para transmitir a idéia de “floresta”, mas
duas não pareciam suficientes, imagino, e dezesseis, digamos, seria muito além
do necessário – demoraria muito para escrever e estragaria a página toda. Mas
três árvores parece ser o exato. Então, no desenvolvimento do sistema de escrita
deles, os chineses antigos perceberam o fato com o qual esbarrei com os meus passos de
robô: que três é a fronteira na qual você transita de “coisas individuais” para “conjunto”.
Então o que começou a me interessar sob o ponto de vista criativo era o ponto
onde eu pudesse ver a floresta e as árvores – onde houvesse, simultaneamente, Clareza,
que vem de uma discriminação dos elementos individuais (as notas), e Densidade, que vem
de uma sensação do todo (o acorde). E descobri que esse ponto de equilíbrio ocorre mais
freqüentemente quando há um pouco menos do que três camadas de alguma coisa. Eu
passei a apelidar isto de a minha “Lei dos Dois-e-Meio”.
Direito e Esquerdo
Por que é assim? Bem, provavelmente tem algo a ver com as áreas do cérebro
nas quais essa informação é processada. Parece que o som Codificado (linguagem) é
controlado em sua maioria no lado esquerdo do cérebro, e o som Incorporado (música) é
cuidado pela parte do outro lado da sala, à direita. Há exceções, é claro: por exemplo, parece
que os elementos rítmicos da música são controlados pelo lado esquerdo, e as vogais da fala
pelo lado direito. Mas falando genericamente, os dois departamentos parecem ser capazes
de operar simultaneamente sem se atrapalhar um com o outro. O que quer dizer que
dividindo o trabalho eles podem lidar com um número total de camadas que seria impossível
para cada lado individualmente.
Densidade e Clareza
Codificados-Incorporados
Azul-Esverdeado Laranja
Efeitos “Lingüísticos Efeitos “Musicais”
(Passos, Batidas à Porta, etc. (Atmosferas,
Efeitos Rítmicos) Ambiências)
Violeta Vermelho
Linguagem Música
Codificado Incorporado
Hemisfério Esquerdo Hemisfério Direito
10
para a mixagem. Em outras palavras, se você quer que a experiência se torne
simultaneamente Densa e Clara.
Mas a precondição para se estar apto a manter cinco camadas, é que as camadas
estejam uniformemente distribuídas pelo espectro conceitual. Se os sons se amontoam em
uma região (uma cor), os limites encolhem para duas-e-meia. Se vocês querem ter duas
camadas e meia de diálogo, por exemplo, e querem que as pessoas entendam cada palavra,
é melhor que eliminem a competição com quaisquer outros sons que possam estar
ocorrendo ao mesmo tempo.
Como regra geral, então, quanto mais “quente” for o som, mais ele tenderá a ter
um tratamento estéreo (multicanal), e quanto mais “frio” for o som, mais ele tenderá a ser
colocado monofonicamente no centro. E ainda assim nós parecemos não ter nenhum
problema com essa incongruência – na verdade, é o contrário. Os experimentos iniciais (nos
anos 1950) que envolviam o diálogo se movendo pela tela foram eventualmente
abandonados como parecendo “artificiais”.
Os filmes monofônicos sempre foram assim – essa parte não é nova. O que é
novo e peculiar, entretanto, é que nós nos tornamos aptos a tolerar – até apreciar – essa
mistura entre mono e estéreo no mesmo filme.
Por que é assim? Acredito que tenha algo a ver com a maneira como deciframos a
linguagem, e porque enquanto nossos cérebros estão ocupados com o som Codificado, nós
descartamos de bom grado qualquer questão sobre a sua origem no visual, permitindo que a
imagem “gire” a fonte do som. Quando o som é incorporado, porém, e pouca decodificação
está ocorrendo, a localização do som no espaço torna-se cada vez mais importante, quanto
menos lingüístico ele seja. Nos termos desta palestra, quanto mais “quente” ele seja. O fato
de que podemos processar tanto o Codificado mono quanto o Incorporado estéreo
simultaneamente, parece demonstrar claramente algumas das diferenças na forma como
nossos dois hemisférios trabalham.
Voltando ao meu problema com Apocalipse: parecia ser causado por eu ter mais
de seis camadas de som, e seis camadas é essencialmente o mesmo que dezesseis, ou
sessenta: eu tinha passado por um limiar além do qual os sons se cristalizam numa nova
singularidade: ruído denso no qual um fragmento ou outro pode talvez ser distinguido, mas
11
não as linhas de desenvolvimento das camadas em si. Com seis camadas, eu tinha obtido
Densidade, mas em detrimento da Clareza.
O que eu fiz como conseqüência foi restringir as camadas daquela seção do filme
para um máximo de cinco camadas. Por sorte ou por design, pude fazer isso porque meus
sons estavam distribuídos uniformemente pelo espectro conceitual.
1. Diálogo (violeta)
2. Pequenas armas de fogo (palavras azul-esverdeadas que dizem “Tiro! Tiro! Tiro!”)
3. Explosões (“tímpanos” amarelos com conteúdo)
4. Passos e misturas (azul até o laranja)
5. Helicópteros (zumbido como música laranja)
6. Música das Valquírias (vermelha)
Se as camadas não tivessem sido distribuídas uniformemente, o limite seria
menos que cinco. Conforme mencionei antes, se todas tivessem sido concentradas em uma
“área de cor” do espectro, (todas em violeta ou todas em vermelho, por exemplo) o limite
encolheria para duas-e-meia. Parece, então, que quanto mais monocromática for a palheta,
menor é o número de camadas que podem ser sobrepostas; quanto mais policromática a
palheta, por outro lado, maior é o número de camadas que você pode utilizar.
Nestas circunstâncias, a música foi a vítima sacrificada. Uma coisa incrível é que
você não a ouve indo embora – você acredita que ela ainda esteja tocando, embora, como
mencionei antes, ela devesse estar mais forte no helicóptero do que em qualquer lugar. E, na
verdade, logo que esse diálogo termina, nós trouxemos a música de volta e sacrificamos
outra coisa. Todos os momentos desta seção são igualmente fluidos, como se fosse um
truque de ilusionismo onde as camadas vão desaparecendo e reaparecendo conforme o foco
dramático do momento. Isso é um resultado da aplicação da lei das “cinco camadas”, mas é
também uma das coisas que fazem a escuta de uma trilha sonora ser tão excitante.
Mas gostaria de enfatizar que isso não quer dizer que sempre se deva ter cinco
camadas rolando. Densidade conceitual é algo que deve obedecer às mesmas regras de
intensidade dinâmica. A sua mixagem, momento a momento, deve ser tão densa (ou tão
forte) quanto a história e seus eventos pedirem. Uma trilha sonora densamente monótona é
tão cansativa quanto um filme monotonamente barulhento. Assim como uma sinfonia seria
insuportável se todos os instrumentos tocassem juntos o tempo todo. Mas meu ponto é que,
sob a mais favorável das circunstâncias, cinco camadas é um limiar que não deve ser
12
ultrapassado sem reflexão, da mesma maneira que não se deve ultrapassar certos limites de
intensidade. Os dois limiares parecem ter fundamento em nossa neurobiologia.
Como disse no começo, pode ser complicado ser simples e simples ser
complicado.
13