Escolar Documentos
Profissional Documentos
Cultura Documentos
15-10
1. Introdução
O streaming está rapidamente se tornando um importante veículo para a entrega de mídia. Como
resultado, as formas como o áudio é gravado, mixado, pós-produzido e entregue foram radicalmente
afetadas. A qualidade de áudio começou a sofrer como resultado das diferenças de intensidade entre
e dentro de fluxos, bem como algumas metas de intensidade muito alta, resultando em distorção.
Assim, o streaming requer uma solução de nivelamento baseada no volume, com um alvo
apropriado de intensidade.
2. Objetivos Primários
A intenção deste documento é fornecer recomendações para a normalização do volume do
streaming e do conteúdo de reprodução do arquivo de rede.
Existem muitas boas razões para definir alguns requisitos básicos de volume:
3. Recomendações
● Recomenda-se que a Loudness alvo do stream não exceda -16 LUFS: para evitar excessivos
limites de pico, e permitir uma maior faixa dinâmica em um fluxo de programa.1
● Recomenda-se que o Loudness de destino de um fluxo não seja menor que -20 LUFS: para
melhorar a audibilidade de fluxos em dispositivos móveis.
● Recomenda-se que a programação de forma curta (60 segundos ou menos) seja ajustada limitando
a Loudness Máxima de Curto Prazo a não mais do que 5 LU acima do Loudness Alvo ou de
Destino: Isso garante que os comerciais e conteúdos curtos semelhantes sejam consistentes com o
volume do fluxo.
● Recomenda-se que o nível máximo de pico não exceda −1,0 dB TP: para evitar cortes quando
usar codificadores com perda.
Cada fluxo tem um único volume alvo, com a possível exceção de fluxos multi-formatados, por ex.
programas de entrevistas pela manhã e programas de música à noite. Nesses casos, é recomendado
que a diferença máxima entre quaisquer alvos seja tão pequena quanto possível, e não menor que
−20 nem maior que −16 LUFS. Recomenda-se que o Loudness Integrado de cada programa
corresponda ao alvo da maneira mais prática possível. Para transmissões ao vivo, uma tolerância
maior pode ser necessária, enquanto arquivos pré-gravados podem ser correspondidos dentro de ±
0,5 LU, por exemplo.
Os usuários podem escolher um Loudness de Destino menor que o máximo de 16 LUFS, por
exemplo, -18 LUFS, para melhor atender às características dinâmicas do programa. Um Loudness
de alvo mais baixo ajuda a melhorar a qualidade do som, permitindo que os programas tenham uma
relação de pico-volume maior sem limite de pico excessivo.
O limite inferior de -20 LUFS foi escolhido como o menor valor prático atual para streaming, já que
alguns dispositivos móveis atuais têm ganho insuficiente para permitir que os alvos de produção
comuns de -23 ou -24 LUFS sejam ouvidos em um volume satisfatório mesmo se o volume o
controle está todo voltado para cima.
C. Conteúdo simplificado (por exemplo, comerciais)
Recomenda-se que a Loudness do Programa (PL) das quebras de programa com duração de 60
segundos ou menos não exceda o Loudness de Destino do fluxo. Além disso, recomenda-se que a
Loudness Máxima de Curto Prazo dessas quebras curtas de programa não exceda 5 LU acima do
Loudness de Destino do fluxo.
Por exemplo, se um fluxo for direcionado para −20 LUFS Integrated Loudness, o volume máximo
de curto prazo de um segmento comercial (ou outro comprimento curto) não excederia −15 LUFS.
Além disso, o PL do comercial não excederia −20 LUFS. Se o PL do comercial for −20 LUFS, mas
seu máximo Loudness de curto prazo for, por exemplo, −13 LUFS, o comercial teria que ser
atenuado por 2 LU, o que reduziria seu PL para −22 LUFS. Nesse caso, o fornecedor comercial
pode desejar remixar o comercial para reduzir a diferença entre o seu Loudness máximo de curto
prazo e seu PL para 5 LU ou menos, de modo que essa atenuação não seja necessária.
Alguns transmitirão material de palavra falada que soa mais natural com um intervalo dinâmico
menos processado. Outros irão transmitir material “fine arts” que soa mais natural quando
transmitido para um alvo mais baixo com sua faixa dinâmica original. Outros podem segmentar
dispositivos móveis ou sistemas de reprodução de alta fidelidade. Independentemente disso, se
todos os streamers seguirem as recomendações deste documento, não haverá mais do que um spread
de 4 LUs entre todos os participantes.
5. Controle de Pico
Os picos geralmente não afetam a medição de intensidade, embora afetem a qualidade do sinal
percebido. Uma gravação com alta razão de pico a intensidade (PLR) é freqüentemente percebida
como mais clara e menos fatigante do que aquela que foi excessivamente limitada no pico. Nesta
discussão, “dB TP” refere-se a níveis de pico medidos usando um medidor de “pico real” de acordo
com a ITU-R BS.1770-3, Anexo 2.
Se o streamer escolher um ruído de destino menor que o LUFS –16 recomendado (por exemplo, –
18 LUFS), as sobrecargas de pico raramente são um problema. Normalmente, a limitação de pico
não é necessária, a menos que o nível de entrada de áudio deva ser aumentado para atender a
intensidade do alvo. O áudio que foi atenuado para atingir o volume alvo terá seu nível de pico
diminuído na mesma quantidade. Áudio altamente processado em que os níveis de pico originais
excedem 0 dB TP normalmente não sobrecarregará, pois o volume teria que ser bastante reduzido
para atingir o volume desejado. O material recebido que tenha sido processado suavemente ou não
processado raramente excederá 0 dB TP.
No entanto, o nível de pico pode aumentar após a codificação com perdas, portanto, recomendamos
usar um limitador de segurança com um limiar de -1,0 dB TP antes da codificação. Veja o Apêndice
para sugestões técnicas sobre como lidar com limites de pico e codecs.
Dentro de um determinado programa, a maior diferença percebida a ser notada é a fala versus a
música. O discurso normalizado para o mesmo Loudness integrado como um fluxo de música
inevitavelmente soa muito alto. Recomenda-se normalizar segmentos de fala (diálogo) dentro de
outros segmentos 2 a 4 LU (ou mais) abaixo do volume dos outros segmentos.
O ideal é que os ouvintes não precisem ajustar seus controles de volume ao alternar entre fluxos
com formatos semelhantes. Embora dois fluxos de formatos diferentes com Loudness Integrado
medido idêntico possam não soar igualmente altos, a diferença não é sacudida para o ouvinte,
portanto, é geralmente tolerada e aceita.
Fluxos multi-formatados: Este é um caso especial em que um streamer pode produzir conteúdo de
belas artes com um PLR alto em um alvo de, por exemplo, -20 LUFS à noite e de manhã, talk
shows com um alvo de -16 LUFS . Isso não é um problema porque os ouvintes só precisarão ajustar
seus controles de volume uma vez quando a alteração de formato ocorrer. O Loudness Integrado de
todo o fluxo ainda estará dentro da janela aceita de –16 LUFS até –20 LUFS.
8. Transmissões ao vivo
Transmissões ao vivo obviamente não podem ser normalizadas antecipadamente. A maneira mais
transparente de lidar com fluxos ao vivo é definir ganhos antecipadamente em um segmento
moderadamente alto, de modo que o Loudness de Curto Prazo seja aproximadamente −20 LUFS e
ajuste conforme o fluxo progride. Inclua um limitador de proteção em -1 dB TP antes de codificar
para evitar sobrecargas acidentais.
9. Apêndice
A. Notas Técnicas
1. Media Players Portáteis (PMPs) e Perda Auditiva
Se os PMPs forem tocados muito alto por muito tempo, eles causarão perda auditiva. O Comité
Científico dos Riscos para a Saúde Emergentes e Recentemente Identificados estima que entre 2,5 e
10 milhões de pessoas na UE correm o risco de desenvolver uma perda auditiva precoce como
resultado da escuta dos PMPs (ver Bibliografia: “Prevenção da Perda Auditiva…”). A Europa é a
primeira região a implementar regulamentos para proteger a audiência dos usuários do PMP. Isso
derrubou com sucesso o SPL máximo dos PMPs vendidos em toda a Europa, mas com o efeito
adverso de que música e programas não produzidos como o pop moderno não podem ser
reproduzidos em voz alta o suficiente para serem ouvidos em condições de escuta exigentes.
O regulamento atual especifica um sinal de teste em vez de um método para determinar o alcance e
a duração do volume do material real do programa. Em termos de sua capacidade de prever a perda
auditiva, este sinal de teste é inaplicável para programar material com características, intensidade e
duração diferentes. O regulamento também não reflete o volume e dosagem reais ouvidos pelo
ouvinte. Além disso, o regulamento especifica um SPL do sinal de teste, resultando em um limite de
ganho para os jogadores, o que leva os produtores a comprimirem material do mundo real para
serem ouvidos. Inadvertidamente, os próprios regulamentos destinados a prevenir a perda de
audição desencadearam uma corrida de loudness para produzir música excessivamente comprimida
e cansativa. Este desenvolvimento não pode ser bom para nossa audição ou nossa herança musical.
CENELEC TC108X / WG3 está trabalhando para melhorar o padrão, EN 50332, adicionando
estimativas de dose de som que levam em conta o áudio real. No entanto, até que o regulamento
revisado entre em vigor, os PMPs europeus podem ter ganho insuficiente para permitir a reprodução
satisfatória de material com alta PLR e LRA (Loudness Range). Além disso, até que o regulamento
seja revisado, o volume de ruído abaixo de -20 LUFS e possivelmente abaixo de -16 LUFS pode
não ser compatível com os PMPs europeus de geração atual.
À medida que os jogadores portáteis eliminam as limitações atuais de ganho e espaço, todos os
alvos podem ser reduzidos juntos, de modo que a diferença entre os fluxos mais baixo e mais alto
não seja superior a 4 LU.
Da mesma forma, alguns sistemas operacionais comuns (como Microsoft Windows, Vista ou
superior) possuem limitadores de pico internos que produzem redução de ganho em oversecots de
codec que, de outra forma, causariam recorte em uma conversão de ponto flutuante para fixo
seguindo o decodificador. Consequentemente, a falha em fornecer margem suficiente para
overshoots de codec no lado da transmissão pode produzir até 3 dB de redução de ganho no
limitador de pico no lado de decodificação.
A medição de pico real exige que o sinal de áudio seja sobreamostrado em pelo menos 4x, de modo
que se aproxime do nível de pico verdadeiro após a conversão D / A ou a conversão da taxa de
amostragem. Os medidores de pico reais normalmente têm um erro menor que 0,6 dB, assumindo
um conversor D / A ideal com um filtro de reconstrução de fase linear.
A filtragem Lowpass pode adicionar overshoots, portanto a filtragem de baixa passagem (se usada)
deve ocorrer antes do limitador de pico. Se o caminho do sinal após o limitador de pico tiver uma
característica de alta freqüência (como a maioria dos caminhos analógicos), a frequência de -3 dB
deve estar abaixo de 0,15 Hz para evitar que o caminho introduza mais de 0,1 dB de superação.
Fluxos com uma Loudness Integrada de acordo com as recomendações deste documento estarão
disponíveis em aparelhos de reprodução que também podem reproduzir material de programa com a
Loudness Integrada de -23 LUFS recomendada para o R 128. Isso pode causar saltos de intensidade
de até 7 LUs, o que está fora da zona de conforto da maioria dos ouvintes. A melhor solução para
essa situação é incluir os metadados de segmentação de meta no fluxo do programa. Isso permite
que um player com reconhecimento de metadados ajuste seu ganho automaticamente para evitar
alterações de intensidade entre -16 LUFS e -23 LUFS streams. Esses dispositivos normalmente
normalizam todo o material do programa para uma referência interna abaixo de -23 LUFS.
Com os metadados cada vez mais difundidos, torna-se viável não usar um volume de alvo fixo de
forma alguma! Em vez disso, o controle de ganho ("controle deslizante de volume") pode ajustar a
intensidade do alvo ("alvo em movimento"). Quanto menor o controle deslizante, menor a
intensidade do alvo e maior o número de programas que podem ser normalizados sem qualquer
limitação. Deve-se ter cuidado para que a posição máxima do controle de ganho seja igual ou
superior ao limite de destino superior de -16 LUFS.
6. Prática de Normalização
Normalização é o processo de ajustar o volume de um programa para se adequar ao alvo por meio
de um algoritmo. Três algoritmos possíveis são:
b. Execute o parágrafo a, mas continue elevando o nível até que o nível do programa atinja o alvo e
aplique a limitação de pico ou permita algum corte para lidar com picos excessivos. A vantagem é
um volume mais consistente no fluxo, mas este é um potencial comprometimento sonoro
comparado ao parágrafo a. A melhor maneira de manter a qualidade do som e ter um volume mais
consistente é o algoritmo a. com um alvo menor.
c. Programas de formato curto que ficam por conta própria (60 segundos ou menos, tipicamente
intervalos comerciais): Meça a Loudness do Programa (PL) BS.1770-3 e a Loudness de Curto Prazo
(que usa uma janela de medição de 3 segundos - veja EBU - Tech 3341 e ITU-R BS.1771-1).
Aumentar ou diminuir o nível até que o PL corresponda ao alvo, exceto se o máximo de Loudness
de curto prazo exceder 5 LU acima do alvo; nesse caso, diminua o nível até que o Loudness
máximo de curto prazo não seja maior que 5 dB acima do alvo. Alternativamente, um remix do
programa pode ser entregue pelo provedor de conteúdo.
No momento da redação deste artigo, não há outra solução fácil além dos metadados para a
coexistência de conteúdo altamente dinâmico e “fluxos de radiostilo” no mesmo fluxo. No entanto,
como o conteúdo altamente dinâmico é projetado para ser reproduzido em uma sala silenciosa em
um bom sistema de reprodução com capacidade de surround, então, normalmente, ele não seria
adicionado em um player de mídia pessoal em uma sala barulhenta. Portanto, há pouco conflito ou
sobreposição entre esses dois tipos de fluxos, por enquanto. No futuro, os metadados ajudarão a
reconciliar os conflitos.
Definições
Loudness Integrado: O volume médio medido eletricamente entre dois pontos no tempo. Loudness
integrado de acordo com o padrão internacional ITU-R BS.1770-3 usa um algoritmo fechado. Se a
Loudness Integrada for medida ao longo de todo o comprimento de um programa, o resultado é
chamado de Loudness de Programa (Program Loudness - PL). Para determinar o Loudness
Integrado de um fluxo contínuo, é necessário escolher uma janela de tempo de integração que seja
suficientemente longa (tipicamente 24 horas).
Loudness de Curto Prazo: Conforme definido na EBU Tech 3341, o loudness de Curto Prazo
utiliza o algoritmo ITU-R BS.1770-3, mas sem gating e um intervalo de tempo retangular deslizante
de 3 s de comprimento. A taxa de atualização de “live meters” deve ser de pelo menos 10 Hz.
Alvo: O Loudness Integrado pretendido de todo o fluxo. Em fluxos de formato misto, ele também
pode se referir ao Loudness Integrado de programas com um determinado formato dentro do fluxo.