AUTOVC: передача стиля голоса Zero-Shot с потерей только автоэнкодера

Непараллельное преобразование голоса "многие ко многим", а также преобразование голоса с нулевым кадром остаются недостаточно изученными областями. Алгоритмы глубокой передачи стилей, такие как генеративные состязательные сети (GAN) и условно-вариационный автоэнкодер (CVAE), применяются в качестве новых решений в этой области. Однако обучение стрельбе из пистолета является сложным процессом, и нет убедительных доказательств того, что генерируемая им речь обладает хорошим качеством восприятия. С другой стороны, обучение CVAE является простым, но не обладает свойством сопоставления с распределен...

Исследование использования неразборчивых и интерпретируемых представлений для однократного преобразования голоса на разных языках

Мы изучаем проблему межъязыкового преобразования голоса в непараллельных речевых корпусах и в условиях однократного обучения. Для большинства предварительных работ требуются либо параллельные речевые корпуса, либо достаточное количество обучающих данных от целевого носителя. Однако мы преобразуем произвольные предложения произвольного исходного диктора в целевое высказывание целевого диктора, учитывая только одно тренировочное высказывание целевого диктора. Чтобы достичь этого, мы формулируем задачу как изучение неразборчивых представлений, специфичных для говорящего и контекста, и следуем иде...

Многоцелевое преобразование голоса без параллельных данных за счет состязательного изучения разрозненных звуковых представлений

Недавно cycle-consistent adversarial network (Cycle-GAN) была успешно применена для преобразования голоса в другого диктора без параллельных данных, хотя при таких подходах для каждого целевого диктора требуется индивидуальная модель. В этой статье мы предлагаем систему состязательного обучения для преобразования голоса, с помощью которой можно обучить одну модель преобразовывать голос для множества разных дикторов без параллельных данных, отделяя характеристики диктора от лингвистического содержания речевых сигналов. Сначала автоэнкодер обучается извлекать скрытые представления, не зависящие ...