Многоцелевое преобразование голоса без параллельных данных за счет состязательного изучения разрозненных звуковых представлений

Недавно cycle-consistent adversarial network (Cycle-GAN) была успешно применена для преобразования голоса в другого диктора без параллельных данных, хотя при таких подходах для каждого целевого диктора требуется индивидуальная модель. В этой статье мы предлагаем систему состязательного обучения для преобразования голоса, с помощью которой можно обучить одну модель преобразовывать голос для множества разных дикторов без параллельных данных, отделяя характеристики диктора от лингвистического содержания речевых сигналов. Сначала автоэнкодер обучается извлекать скрытые представления, не зависящие от говорящего, и встраивать их отдельно, используя другой вспомогательный классификатор говорящих для упорядочивания скрытого представления. Затем декодер использует скрытое представление, не зависящее от говорящего, и встроенную информацию от целевого говорящего в качестве входных данных для генерации голоса целевого говорящего с лингвистическим содержанием исходного высказывания. Качество выходных данных декодера дополнительно улучшается за счет исправления остаточного сигнала, генерируемого другой парой генератора и дискриминатора. В предварительных экспериментах был протестирован целевой размер набора дикторов, равный 20, и было получено очень хорошее качество передачи голоса. Приведены стандартные показатели преобразования голоса. Мы также показываем, что информация о дикторах была надлежащим образом удалена из скрытых представлений.

Вывод

Мы предложили подход к преобразованию голоса путем извлечения представления, не зависящего от говрящего. Параллельные данные не требуются, и преобразование для нескольких целевых говорящих может быть выполнено с помощью одной модели. Мы показываем, что добавление остаточного сигнала может значительно улучшить качество преобразованного голоса. Объективные показатели оценки глобальной дисперсии показывают, что при таком подходе можно получить четкие голосовые спектры. Это также подтверждается субъективной оценкой человека.

Источник