Однократное преобразование голоса путем разделения представлений диктора и контента с нормализацией экземпляра

Недавно преобразование голоса без параллельных данных было успешно адаптировано к многоцелевому сценарию, в котором одна модель обучается преобразованию вводимого голоса для множества различных говорящих. Однако такая модель страдает тем ограничением, что она может преобразовывать голос только дикторов в обучающих данных, что сужает применимый сценарий преобразования голоса. В этой статье мы предложили новый подход к однократному преобразованию голоса, который позволяет выполнять преобразование голоса только с помощью примера произнесения от исходного и целевого диктора соответственно, при это...

Ритмично-гибкое преобразование голоса без параллельных данных с использованием циклических последовательностей фонемных апостериограмм

Скорость произнесения относится к среднему количеству фонем за единицу времени, в то время как ритмические паттерны относятся к распределению длительности для реализации разных фонем в разных фонетических структурах. И то, и другое является ключевыми компонентами просодии в речи, которая отличается у разных носителей языка. Такие модели, как cycle-consistent adversarial network (Cycle-GAN) и variational auto-encoder (VAE), успешно применяются для решения задач преобразования голоса без параллельных данных. Однако из-за архитектуры нейронных сетей и векторов характеристик, выбранных для этих по...

Многоцелевое преобразование голоса без параллельных данных за счет состязательного изучения разрозненных звуковых представлений

Недавно cycle-consistent adversarial network (Cycle-GAN) была успешно применена для преобразования голоса в другого диктора без параллельных данных, хотя при таких подходах для каждого целевого диктора требуется индивидуальная модель. В этой статье мы предлагаем систему состязательного обучения для преобразования голоса, с помощью которой можно обучить одну модель преобразовывать голос для множества разных дикторов без параллельных данных, отделяя характеристики диктора от лингвистического содержания речевых сигналов. Сначала автоэнкодер обучается извлекать скрытые представления, не зависящие ...