Непараллельное многодоменное преобразование голоса - это метод изучения сопоставлений между несколькими доменами без использования параллельных данных. Это важно, но сложно из-за необходимости изучения нескольких сопоставлений и отсутствия явного контроля. В последнее время StarGAN-VC привлек к себе внимание благодаря своей способности решать эту проблему только с помощью одного генератора. Однако по-прежнему существует разрыв между реальной и преобразованной речью. Чтобы устранить этот пробел, мы переосмысливаем условные методы StarGAN-VC, которые являются ключевыми компонентами для достижения непараллельного многодоменного преобразования голоса в рамках одной модели, и предлагаем улучшенный вариант под названием StarGAN-VC2. В частности, мы переосмысливаем условные методы в двух аспектах: для целей обучения и сетевых архитектур. В первом случае мы предлагаем условную взаимную защиту источника и цели, которая позволяет преобразовать все данные исходного домена в данные целевого домена. Для последнего мы представляем основанный на модуляции условный метод, который может преобразовывать модуляцию акустического признака в зависимости от конкретной области. Мы оценили наши методы непараллельного преобразования голоса с несколькими говорящими. Объективная оценка показывает, что предложенные нами методы улучшают качество речи как с точки зрения глобальной, так и с точки зрения локальной структуры. Кроме того, субъективная оценка показывает, что StarGAN-VC2 превосходит StarGAN-VC с точки зрения естественности и сходства говорящих. Преобразованные образцы речи представлены по адресу http-URL.
Выводы
Чтобы продвинуть исследования в области многодоменного непараллельного преобразования голоса, мы переосмыслили условные методы в StarGAN-VC в двух аспектах: цели обучения и сетевые архитектуры. Мы разработали условный метод определения потерь при столкновении между источником и целью для первого и условный метод, основанный на модуляции, для второго и предложили включить их в StarGAN-VC2. Эмпирические исследования непараллельного преобразования голоса с несколькими говорящими показывают, что Stargate-VC2 превосходит StarGAN-VC как по объективным, так и по субъективным показателям. Stargate-VC2 - это общая модель для многодоменного преобразования голоса, которая не ограничивается преобразованием голоса с несколькими говорящими. Ее адаптация к другим задачам (например, преобразование голоса с несколькими эмоциями и произношением) остается перспективным направлением в будущем.