MelGAN-VC: Преобразование голоса и передача звукового стиля на произвольно длинных сэмплах с использованием спектрограмм
Традиционные методы преобразования голоса основаны на параллельной записи нескольких говорящих, произносящих одни и те же предложения. Однако для реальных приложений параллельные данные доступны редко. Мы предлагаем MelGAN-VC - метод преобразования голоса, который основан на непараллельных речевых данных и способен преобразовывать аудиосигналы произвольной длины из исходного голоса в целевой. Сначала мы вычисляем спектрограммы на основе данных формы сигнала, а затем выполняем преобразование предметной области с использованием архитектуры Generative Adversarial Network (GAN). Дополнительная сет...