Scyclone: Высококачественное и непараллельное преобразование голоса с использованием спектрограмм и CycleGAN

В данной статье предлагается Scyclone, метод высококачественного преобразования голоса (VC) без параллельного обучения данных. Scyclone улучшает естественность речи и сходство дикторов преобразованной речи посредством внедрения основывающегося на CycleGAN преобразования спектрограмм с упрощенным вокодером на основе WaveRNN. В Scyclone в качестве параметров вокодера используется линейная спектрограмма, что позволяет избежать ухудшения качества из-за ошибок извлечения в основной частоте и звонких/глухих параметрах. Спектрограммы исходных и целевых дикторов моделируются модифицированными CycleGAN сетями, а форма сигнала восстанавливается с помощью упрощенного WaveRNN с одной гауссовой функцией плотности вероятности. Субъективные эксперименты с полностью непарными обучающими данными показывают, что Scyclone - это значительно лучше, чем CycleGAN-VC2, один из существующих современных непараллельных методов преобразования голоса.

Некоторые образцы речи, используемые в тестах MOS, доступны по следующему адресу: https://bit.ly/2NFvLhk

Выводы

В данной работе предложен Scyclone, метод преобразования голоса без параллельных данных, использующий основывающееся на CycleGAN преобразование спектрограмм и упрощенный нейронный вокодер WaveRNN с гауссовыми потерями. Для повышения производительности моделирования и преобразования сеть CycleGAN была модифицирована, в которой была использована архитектура без кодирования-декодирвания со спектральной нормализацией. Эксперименты проводились в условиях совершенно непарных тренировочных данных. Субъективные результаты оценки показали превосходство Scyclone над CycleGAN-VC2, современным непараллельным методом преобразования голоса. Более подробное описание и оценка Scylone будут представлены в нашей следующей статье.

Источник