Преобразование голоса с помощью глубоких нейронных сетей стало чрезвычайно популярным за последние несколько лет благодаря усовершенствованиям по сравнению с предыдущими архитектурами преобразования голоса. В частности, архитектуры GAN, такие как CycleGAN и VAEGAN, предоставляют возможность изучать преобразование голоса из непараллельных баз данных. Однако методы, основанные на GAN, крайне нестабильны, часто требуют тщательной настройки гиперпараметров и могут привести к плохому преобразованию голосовой идентификации и существенному ухудшению качества преобразованного речевого сигнала. В этой статье обсуждаются и решаются проблемы стабильности GAN в контексте преобразования голоса. Предлагаемый метод SoftGAN направлен на уменьшение влияния генератора на дискриминатор и наоборот во время обучения, чтобы они оба могли учиться более постепенно и эффективно во время обучения, в частности, избегая обучения не в тандеме. Субъективный эксперимент, проведенный над задачей преобразования голоса в наборе данных voice conversion challenge 2018, показывает, что предлагаемый SoftGAN значительно улучшает качество преобразования голоса при сохранении естественности преобразованной речи.
Вывод
В настоящей статье исследуется преобразование голоса с помощью GAN. Для решения проблемы стабильности обучения GAN мы предлагаем использовать мягкие обучающие метки, на которые влияют выходные данные дискриминатора, и мы исследуем возможность использования дополнительного ограничения атрибута energy, обеспечивающего более стабильную работу генератора. Используя эти средства, мы создали довольно небольшой генератор, состоящий всего из нескольких слоев. Проведенный нами эксперимент показывает, что обучение с помощью SoftGAN позволило стабилизировать небольшую сеть, которая в противном случае не сходилась бы для получения полезного звука, достигнув оценки сходства 3.40 +/- 0.40 и естественности 3.02 +/- 0.35 по шкале MOS. При использовании более крупной сети как естественность, так и сходство были на 0,5 МОS баллов ниже результатов SoftGAN. Кроме того, экспериментальные результаты подтверждают, что положительное влияние ограничения энергопотребления может улучшить сходство и естественность преобразования голоса еще на 0,5 МОS баллов. Результаты экспериментов, по-видимому, подтверждают нашу гипотезу о том, что сети меньшего размера могут быть полезны для обучения сетей преобразования голоса, когда доступны только небольшие обучающие базы данных. Наконец, мы надеемся, что этот инновационный метод GAN может быть полезен и для других приложений.