StarGAN-VC: Непараллельное преобразование голоса "многие ко многим" с использованием звездообразных генеративных состязательных сетей

В этой статье предлагается метод, который позволяет осуществлять непараллельное преобразование голоса "многие ко многим" с использованием варианта генеративной состязательной сети (GAN) под названием StarGAN. Наш метод, который мы называем StarGAN-VC, примечателен тем, что он (1) не требует параллельного произнесения, транскрипции или процедур выравнивания по времени для обучения генератора речи, (2) одновременно изучает сопоставления "многие ко многим" в разных областях атрибутов, используя единую сеть генераторов, (3) способен генерировать преобразованные речевые сигналы достаточно быстро, ч...

Многоцелевое преобразование голоса без параллельных данных за счет состязательного изучения разрозненных звуковых представлений

Недавно cycle-consistent adversarial network (Cycle-GAN) была успешно применена для преобразования голоса в другого диктора без параллельных данных, хотя при таких подходах для каждого целевого диктора требуется индивидуальная модель. В этой статье мы предлагаем систему состязательного обучения для преобразования голоса, с помощью которой можно обучить одну модель преобразовывать голос для множества разных дикторов без параллельных данных, отделяя характеристики диктора от лингвистического содержания речевых сигналов. Сначала автоэнкодер обучается извлекать скрытые представления, не зависящие ...

Конкурс по преобразованию голоса в 2018 году: Содействие разработке параллельных и непараллельных методов

Мы представляем конкурс Voice Conversion Challenge 2018, разработанный в дополнение к выпуску 2016 года с целью обеспечения общей основы для оценки и сравнения различных современных систем преобразования голоса. Цель задания состояла в том, чтобы выполнить преобразование голоса (т.е. преобразовать голосовую идентификацию) исходного носителя в целевой, сохранив при этом лингвистическую информацию. В дополнение к предыдущему заданию мы рассматривали как параллельные, так и непараллельные данные для формирования задач Hub и Spoke соответственно. В общей сложности 23 команды со всего мира представ...

Высококачественное непараллельное преобразование голоса на основе циклически согласованной состязательной сети

Несмотря на то, что алгоритмы преобразования голоса достигли значительных успехов с развитием машинного обучения, по-прежнему трудно достичь высокой производительности при использовании непараллельных данных. В этой статье мы предлагаем использовать циклически согласованную состязательную сеть (CycleGAN) для обучения непараллельному преобразованию голоса на основе данных. CycleGAN - это генеративная состязательная сеть (GAN), изначально разработанная для непарного преобразования изображений в изображения. Субъективная оценка межполовой конверсии показала, что предложенный метод значительно пре...

Об использовании обратного распространения для генерации текстуры речи и преобразования голоса

Вдохновленные недавними работами по генерации изображений нейронной сетью, которые основаны на обратном распространении к входным данным сети, мы представляем проверенную временем систему для синтеза текстур речи и преобразования голоса, основанную на двух механизмах: приблизительной инверсии представления, полученного нейронной сетью распознавания речи, и сопоставлении статистики активаций нейронов между входными данными. разные исходные и целевые высказывания. Подобно синтезу текстуры изображения и передаче нейронного стиля, система работает путем оптимизации функции затрат по отношению к вы...