Você está na página 1de 9

TRUQUES

Speech-to-speech. criar
uma neuronal
rede que forja voz

Michael Kireev, apenas 0 815

Adicionar a favoritos

a versão móvel do artigo

Conteúdo do artigo
01. voz geração
01.1 Texto para sons de

01.2 fala no discurso

01.3 fala-to-speech

02. Criar voz falso


02.1 O princípio de funcionamento da voz simulador de

02.2métodos de teste Conclusões

03.

Maneiras de identificar uma pessoa aparece em uma voz cada


vez mais. E em paralelo, os pesquisadores inventar, como
contornar esses mecanismos - e para proteger suas próprias
informações pessoais, e para quebrar sistemas de forma segura.
Eu decidi olhar para as últimas realizações dos cientistas neste
campo, para contar-lhe tudo.

voz geração
uma voz de homem - o resultado do movimento dos ligamentos, língua, lábios. À disposição
do computador apenas, descrevendo a onda registrada microfone. Como o computador faz
um som que podemos ouvir nos alto-falantes ou fones de ouvido?

Text to Speech

Um dos métodos mais populares e os mais estudados da geração de som - a


conversão direta de texto que você quer jogar no som. Os primeiros programas deste
tipo
colados letras individuais em palavras, e as palavras - na proposta.

Com o desenvolvimento de softwares sintetizadores conjunto de pré-gravado em um letras microfone

tornou-se um conjunto de sílabas, e depois palavras inteiras.

Os benefícios de tais programas são óbvios: eles são fáceis de escrever, usar, suporte,
pode jogar todas as palavras, que só existem na língua, previsível - tudo ao mesmo tempo
era a razão de seu uso comercial. Mas a qualidade das vozes criadas por este método é
pobre. Todos nos lembramos das características distintivas do gerador - é insensível, o
acento errado, separados uns dos outros com palavras e letras.

Soa no discurso

Este método de geração de voz de forma relativamente rápida substituiu o primeiro, porque é
melhor imitar a fala humana: nós não falar da carta, e sons. É por isso que os sistemas
baseados em Alfabeto fonético internacional - IPA, melhor e mais agradável ao ouvido.

A base do método previsto pré-gravado em um estúdio sons distintos, que são colados em
palavras. Em comparação com a primeira abordagem, nomeadamente melhoria qualitativa:
em vez de simplesmente colando faixas de áudio soar métodos de mistura são utilizados
tanto com base em leis matemáticas, e com base em redes neurais.

Speech-to-Speech

A abordagem relativamente nova é inteiramente baseado em redes neurais. arquitetura


recursiva WAVENET Construído por pesquisadores da DeepMind, que lhe permite converter
texto em som ou outro som
diretamente, sem o envolvimento de blocos de construção pré-gravados ( livro de
memórias ).

A chave para esta tecnologia - o uso correto dos neurônios recursiva Memória Long
Short-Term Que mantêm o seu estado não só a nível de cada célula individual de uma rede
neural, mas também a nível de toda a camada.

Esquema de WAVENET

Em geral, essa arquitetura trabalha com qualquer tipo de onda sonora,


independentemente de se tratar de música ou voz humana.

INFO

WAVENET base tem vários projetos.

A WAVENET para denoising discurso - eliminação de ruído

gravação de voz;

Tacotron 2 ( artigo em um blog do Google ) - o som é gerado a partir da bom-

espectrograma;
WAVENET Realce Vocal - melhoria da qualidade de voz

gravação.

Para recriar o discurso, esses sistemas usam geradores de notação de som dos
geradores de texto e entoação (estresse, pausa), para criar uma voz soando natural.

Isto está criando a tecnologia de fala mais avançado: ele não apenas ficar juntos ou mix soa
carro estranho, mas você mesmo cria transições entre eles, faz uma pausa entre as
palavras, alterar a altura, força e tom de voz por causa da pronúncia correta - ou qualquer
outra finalidade.

Criar voz falso


Para a identificação mais simples, sobre o qual falei no meu artigo anterior , Vai caber
quase qualquer método - hackers suficientes especialmente afortunadas pode até mesmo
ásperas cinco segundos da voz gravada. Mas para ignorar o sistema mais grave com base,
por exemplo, redes neurais, precisamos de um gerador de voz real, de alta qualidade.

O princípio de funcionamento da voz simulador

Para criar um modelo de "voto de voz" plausível com base WAVENET, exigem um grande
esforço: você tem que escrever um monte de texto, disse que duas pessoas diferentes, e para
que todos os sons corresponder segunda no segundo - e torná-lo complicado. No entanto, há
um outro método.

Todos baseados nos mesmos princípios que a tecnologia de síntese de som, é possível
alcançar, pelo menos, uma transferência realista de todos os parâmetros de voz. Assim, foi
criado programa que clones
voz com base em um gravador de voz pequena. É isso que estamos com você e usá-lo.

O programa em si é composto de várias partes importantes do que o trabalho de forma


consistente, então vamos entender em etapas.

codificação de voz

cada voz humana tem uma série de recursos - que nem sempre é possível identificar de
ouvido, mas eles são importantes. Para separar com precisão a um do outro orador, seria a
criação de uma rede neural especial, formando seus conjuntos de recursos para pessoas
diferentes.

Este codificador permite ainda, não só para levar a voz, mas também para comparar os
resultados com o desejado.

Portanto, procure 256 votos características

Criando um espectrograma

Com base estas características podem ser a partir do texto para criar um
espectrograma fine-som. Trata-se do sintetizador, que se baseia na Tacotron 2
usando WAVENET.
Exemplo gerado espectrograma

espectrograma gerado contém todas as informações sobre as pausas, sons e pronúncia,


e tem todas as características de voz pré-computados colocado.

síntese de som

Agora outra rede neural - com base WaveRNN - vai gradualmente ser criado a partir de um
giz-espectrograma de uma onda de som. Esta onda de som e será jogado como um som
acabado.

Todas as características das principais vozes são armazenados no som


sintetizado, que, embora não sem dificuldade, recria a voz original da pessoa em
qualquer texto.

Métodos de teste
Agora que sabemos como criar uma imitação plausível de vozes, vamos tentar aplicá-la na
prática. o último artigo Eu estava falando sobre dois muito simples, mas os métodos de
trabalho de identificação humana por voz: com o uso de análise e coeficientes finas-cepstral
utilizando redes neurais especificamente treinados para identificar uma pessoa. Vamos ver
o quão bem nós pode enganar as notas falsas sistema.

Dê uma de cinco segundos de gravação de voz e homens criar dois registros com a ajuda de
nossas ferramentas. O original e os registros que eu tenho acabou, é possível baixar ou ouvir .
Vamos comparar esses registros com a ajuda de um Coeficientes de giz-Cepstral.

Visualização de coeficientes no gráfico

A diferença nas taxas também é visível nos números:

síntese _1 - Original: ,38612951111628727

síntese _2 - Original: ,3594987201660116

Como poderia responder a uma boa rede neural, tais falso?

síntese _1 - Original: 89,3 % Síntese de _2 - Original:

86,9 %

Convencer a rede neural foi possível, mas não perfeitamente. sistemas de segurança graves, que
são instalados, por exemplo, os bancos são susceptíveis de ser capaz de detectar uma falsificação,
mas as pessoas, especialmente no telefone, é improvável que seja capaz de distinguir entre um
verdadeiro companheiro de sua simulação de computador.

resultados
voz falso já não é tão difícil como era antes, mas é uma grande oportunidade não só para
os hackers, mas também para os criadores de conteúdo: os desenvolvedores de jogos
indie será capaz de fazer qualidade e dublagens baratos, animadores - para expressar
suas personagens, e o diretor do filme - elevador documentários confiáveis.

E deixar que a tecnologia de síntese de voz de qualidade ainda em evolução, mas o seu
potencial já é de tirar o fôlego. Logo, todo o assistente de voz vai encontrar a sua voz pessoal
- não é um metal, frio e cheio de emoções e sentimentos; conversar com o suporte técnico
deixará de incomodar, e você pode obter o seu telefone para responder a chamadas
desagradáveis ​em vez de você.

Michael Kireev

Tags: editor rede neural WAVENET WaveRNN Escolha Forgery

artigos

Você também pode gostar