Высококачественное непараллельное преобразование голоса на основе циклически согласованной состязательной сети

Несмотря на то, что алгоритмы преобразования голоса достигли значительных успехов с развитием машинного обучения, по-прежнему трудно достичь высокой производительности при использовании непараллельных данных. В этой статье мы предлагаем использовать циклически согласованную состязательную сеть (CycleGAN) для обучения непараллельному преобразованию голоса на основе данных. CycleGAN - это генеративная состязательная сеть (GAN), изначально разработанная для непарного преобразования изображений в изображения. Субъективная оценка межполовой конверсии показала, что предложенный метод значительно превосходит метод, основанный на системе нейросетевого синтеза речи с открытым исходным кодом Merlin (система параллельного преобразования голоса, адаптированная для нашей установки) и системе параллельного преобразования голоса на базе GAN. Это первое исследование, которое показало, что производительность метода непараллельного преобразования голоса может превышать производительность современных методов параллельного преобразования голоса.

Заключение и дальнейшая работа

Мы разработали высококачественный метод непараллельного преобразования голоса, основанный на CycleGAN. Мы сравнили предложенный метод с двумя современными методами параллельного преобразования голоса, один из которых основан на системе Merlin, а другой - на GAN. В эксперименте по межполовому преобразованию предложенный непараллельный метод показал значительно лучшие результаты с точки зрения качества речи и сходства говорящих, чем два параллельных метода.

Будущая работа включает в себя разработку метода строгого ограничения инвариантности лингвистической информации для CycleGAN. Мы также планируем и дальше улучшать качество речи и сходство говорящих и сравнивать наш метод с другими, используя набор данных для задачи преобразования голоса.

Источник