Многоцелевое преобразование голоса без параллельных данных за счет состязательного изучения разрозненных звуковых представлений
Недавно cycle-consistent adversarial network (Cycle-GAN) была успешно применена для преобразования голоса в другого диктора без параллельных данных, хотя при таких подходах для каждого целевого диктора требуется индивидуальная модель. В этой статье мы предлагаем систему состязательного обучения для преобразования голоса, с помощью которой можно обучить одну модель преобразовывать голос для множества разных дикторов без параллельных данных, отделяя характеристики диктора от лингвистического содержания речевых сигналов. Сначала автоэнкодер обучается извлекать скрытые представления, не зависящие ...