Преобразование голоса "Многие ко многим" с использованием состязательных сетей, согласованных по условному циклу

Преобразование голоса (VC) относится к преобразованию характеристик говорящего при произнесении без изменения его лингвистического содержания. Многие работы по преобразованию голоса требуют наличия данных для параллельного обучения, приобретение которых является очень дорогостоящим. Недавно для преобразования голоса была применена циклически согласованная состязательная сеть (CycleGAN), которая не требует параллельного обучения данных, что демонстрирует самую современную производительность. Однако преобразование голоса на основе CycleGAN может использоваться только для пары говорящих, т.е. преобразование голоса "один к одному" между двумя говорящими. В этой статье мы расширяем возможности CycleGAN, настраивая сеть на говорящих. В результате предложенный метод позволяет выполнять преобразование голоса "многие ко многим" среди нескольких говорящих, используя единую генерирующую состязательную сеть (GAN). По сравнению с созданием нескольких циклоганов для каждой пары динамиков, предлагаемый метод значительно сокращает вычислительные и пространственные затраты без ущерба для качества звучания преобразованного голоса. Результаты экспериментов с использованием корпуса VCC2018 подтверждают эффективность предложенного метода.

Выводы

Мы предложили новый метод непараллельного преобразования голоса "многие ко многим", который называется VC на основе CC-GAN. Он использует только один GAN для преобразования голоса "многие ко многим", в то время как для VC на основе CycleGAN потребуется 𝑛(𝑛-1) GAN для 𝑛 говорящих. В результате VC на базе CC-GAN значительно сокращает время обучения, а также размер модели для преобразования голоса "многие ко многим". Мы экспериментально показали, что предложенный метод сопоставим с VC на базе CycleGAN, который демонстрирует самую современную производительность для непараллельного преобразования голоса один к одному без использования каких-либо дополнительных модулей, таких как ASR-системы. Насколько нам известно, это первая работа, которая показывает возможность расширения CycleGAN для преобразования голоса "многие ко многим" с использованием 12 говорящих.

Источник