Escolar Documentos
Profissional Documentos
Cultura Documentos
Speech-to-speech. criar
uma neuronal
rede que forja voz
Adicionar a favoritos
Conteúdo do artigo
01. voz geração
01.1 Texto para sons de
01.3 fala-to-speech
03.
voz geração
uma voz de homem - o resultado do movimento dos ligamentos, língua, lábios. À disposição
do computador apenas, descrevendo a onda registrada microfone. Como o computador faz
um som que podemos ouvir nos alto-falantes ou fones de ouvido?
Text to Speech
Os benefícios de tais programas são óbvios: eles são fáceis de escrever, usar, suporte,
pode jogar todas as palavras, que só existem na língua, previsível - tudo ao mesmo tempo
era a razão de seu uso comercial. Mas a qualidade das vozes criadas por este método é
pobre. Todos nos lembramos das características distintivas do gerador - é insensível, o
acento errado, separados uns dos outros com palavras e letras.
Soa no discurso
Este método de geração de voz de forma relativamente rápida substituiu o primeiro, porque é
melhor imitar a fala humana: nós não falar da carta, e sons. É por isso que os sistemas
baseados em Alfabeto fonético internacional - IPA, melhor e mais agradável ao ouvido.
A base do método previsto pré-gravado em um estúdio sons distintos, que são colados em
palavras. Em comparação com a primeira abordagem, nomeadamente melhoria qualitativa:
em vez de simplesmente colando faixas de áudio soar métodos de mistura são utilizados
tanto com base em leis matemáticas, e com base em redes neurais.
Speech-to-Speech
A chave para esta tecnologia - o uso correto dos neurônios recursiva Memória Long
Short-Term Que mantêm o seu estado não só a nível de cada célula individual de uma rede
neural, mas também a nível de toda a camada.
Esquema de WAVENET
INFO
gravação de voz;
espectrograma;
WAVENET Realce Vocal - melhoria da qualidade de voz
gravação.
Para recriar o discurso, esses sistemas usam geradores de notação de som dos
geradores de texto e entoação (estresse, pausa), para criar uma voz soando natural.
Isto está criando a tecnologia de fala mais avançado: ele não apenas ficar juntos ou mix soa
carro estranho, mas você mesmo cria transições entre eles, faz uma pausa entre as
palavras, alterar a altura, força e tom de voz por causa da pronúncia correta - ou qualquer
outra finalidade.
Para criar um modelo de "voto de voz" plausível com base WAVENET, exigem um grande
esforço: você tem que escrever um monte de texto, disse que duas pessoas diferentes, e para
que todos os sons corresponder segunda no segundo - e torná-lo complicado. No entanto, há
um outro método.
Todos baseados nos mesmos princípios que a tecnologia de síntese de som, é possível
alcançar, pelo menos, uma transferência realista de todos os parâmetros de voz. Assim, foi
criado programa que clones
voz com base em um gravador de voz pequena. É isso que estamos com você e usá-lo.
codificação de voz
cada voz humana tem uma série de recursos - que nem sempre é possível identificar de
ouvido, mas eles são importantes. Para separar com precisão a um do outro orador, seria a
criação de uma rede neural especial, formando seus conjuntos de recursos para pessoas
diferentes.
Este codificador permite ainda, não só para levar a voz, mas também para comparar os
resultados com o desejado.
Criando um espectrograma
Com base estas características podem ser a partir do texto para criar um
espectrograma fine-som. Trata-se do sintetizador, que se baseia na Tacotron 2
usando WAVENET.
Exemplo gerado espectrograma
síntese de som
Agora outra rede neural - com base WaveRNN - vai gradualmente ser criado a partir de um
giz-espectrograma de uma onda de som. Esta onda de som e será jogado como um som
acabado.
Métodos de teste
Agora que sabemos como criar uma imitação plausível de vozes, vamos tentar aplicá-la na
prática. o último artigo Eu estava falando sobre dois muito simples, mas os métodos de
trabalho de identificação humana por voz: com o uso de análise e coeficientes finas-cepstral
utilizando redes neurais especificamente treinados para identificar uma pessoa. Vamos ver
o quão bem nós pode enganar as notas falsas sistema.
Dê uma de cinco segundos de gravação de voz e homens criar dois registros com a ajuda de
nossas ferramentas. O original e os registros que eu tenho acabou, é possível baixar ou ouvir .
Vamos comparar esses registros com a ajuda de um Coeficientes de giz-Cepstral.
86,9 %
Convencer a rede neural foi possível, mas não perfeitamente. sistemas de segurança graves, que
são instalados, por exemplo, os bancos são susceptíveis de ser capaz de detectar uma falsificação,
mas as pessoas, especialmente no telefone, é improvável que seja capaz de distinguir entre um
verdadeiro companheiro de sua simulação de computador.
resultados
voz falso já não é tão difícil como era antes, mas é uma grande oportunidade não só para
os hackers, mas também para os criadores de conteúdo: os desenvolvedores de jogos
indie será capaz de fazer qualidade e dublagens baratos, animadores - para expressar
suas personagens, e o diretor do filme - elevador documentários confiáveis.
E deixar que a tecnologia de síntese de voz de qualidade ainda em evolução, mas o seu
potencial já é de tirar o fôlego. Logo, todo o assistente de voz vai encontrar a sua voz pessoal
- não é um metal, frio e cheio de emoções e sentimentos; conversar com o suporte técnico
deixará de incomodar, e você pode obter o seu telefone para responder a chamadas
desagradáveis em vez de você.
Michael Kireev
artigos