Неконтролируемое представление с использованием междоменных функций и состязательного обучения при преобразовании голоса на основе вариационного автоэнкодера

Эффективный подход к преобразованию голоса (VC) заключается в отделении лингвистического контента от других компонентов речевого сигнала. Эффективность VC на основе вариационного автоэнкодера (VAE-VC), например, в значительной степени зависит от этого принципа. В нашей предыдущей работе мы предложили междоменную структуру VAE-VC (CDVAE-VC), которая использовала акустические характеристики с различными свойствами, чтобы улучшить производительность VAE-VC. Мы полагали, что успех был достигнут благодаря более четким скрытым представлениям. В этой статье мы расширяем рамки CDVAE-VC, включая концепцию состязательного обучения, чтобы еще больше повысить степень разборчивости, тем самым улучшая качество и сходство преобразованной речи. Более конкретно, мы сначала исследуем эффективность объединения генеративных состязательных сетей (GAN) с CDVAE-VC. Затем мы рассмотрим концепцию состязательного обучения предметной области и добавим явное ограничение к скрытому представлению, реализуемому классификатором говорящих, чтобы явно исключить информацию о говорящем, которая содержится в скрытом коде. Результаты экспериментов подтверждают, что степень разборчивости усвоенного латентного представления может быть повышена как с помощью GANs, так и с помощью классификатора говорящих. Между тем, результаты субъективной оценки с точки зрения качества и степени сходства демонстрируют эффективность предложенных нами методов.

Выводы

В этой статье мы расширили междоменную структуру VC на основе VAE, интегрировав GAN и CLS в фазу обучения. Цель GAN была использована для лучшего приближения к распределению реальных речевых сигналов. CLS, с другой стороны, был применен к скрытому коду в качестве явного ограничения для устранения факторов, зависящих от говорящего. Объективные и субъективные оценки подтвердили эффективность целей GAN и CLS. Мы также исследовали корреляцию между степенью распутывания и эффективностью преобразования. Был получен новый оценочный показатель DEM, который измеряет степень распутывания в VC. Результаты экспериментов подтвердили положительную корреляцию между степенью распутывания и эффективностью преобразования. В будущем мы планируем использовать больше акустических возможностей системы CDVAE, включая более простые функции, такие как спектр магнитуд, и функции, созданные вручную, такие как линейно-спектральные пары. Эффективный алгоритм, который может оптимально определять размер скрытого пространства, также заслуживает изучения. Наконец, стоит обобщить эту структуру распутывания, чтобы извлечь инвариантное к говорящему скрытое представление из неизвестных исходных текстов, чтобы достичь соотношения "многие к одному". Мы сделали исходный код общедоступным, чтобы читатели могли воспроизвести наши результаты.

Источник