Преобразование певческого голоса с использованием разрозненных представлений о певце и вокальной технике с использованием вариационных автоэнкодеров

Мы предлагаем гибкую структуру, которая работает как с преобразованием голоса певца, так и с преобразованием вокальной техники певцов. Предлагаемая модель разработана на непараллельных корпусах, поддерживает преобразование "многие ко многим" и использует последние достижения вариационных автоэнкодеров. В нем используются отдельные кодеры для изучения скрытых представлений об индивидуальности певца и вокальной технике по отдельности, а для реконструкции используется совместный декодер. Преобразование осуществляется с помощью простой векторной арифметики в изученных скрытых пространствах. Как ко...

PitchNet: Неконтролируемое преобразование певческого голоса с помощью состязательной сети по высоте тона

Преобразование певческого голоса заключается в преобразовании голоса певца в голос другого человека без изменения содержания пения. Недавняя работа показывает, что преобразование певческого голоса без контроля может быть достигнуто с помощью подхода, основанного на автоэнкодировании [1]. Однако преобразованный певческий голос может легко сбиться с тональности, что свидетельствует о том, что существующий подход не позволяет точно моделировать информацию о высоте тона. В этой статье мы предлагаем усовершенствовать существующий метод преобразования певческого голоса без контроля, предложенный в [...

Преобразование голоса "Многие ко многим" с использованием состязательных сетей, согласованных по условному циклу

Преобразование голоса (VC) относится к преобразованию характеристик говорящего при произнесении без изменения его лингвистического содержания. Многие работы по преобразованию голоса требуют наличия данных для параллельного обучения, приобретение которых является очень дорогостоящим. Недавно для преобразования голоса была применена циклически согласованная состязательная сеть (CycleGAN), которая не требует параллельного обучения данных, что демонстрирует самую современную производительность. Однако преобразование голоса на основе CycleGAN может использоваться только для пары говорящих, т.е. пре...

MoEVC: Система преобразования голоса, созданная экспертами, с механизмом разреженного стробирования для ускорения онлайн-вычислений

Благодаря последним достижениям в области технологий глубокого обучения производительность преобразования голоса с точки зрения качества и сходства была значительно улучшена. Однако для систем преобразования голоса на основе глубокого обучения, как правило, требуются большие объемы вычислений, что может привести к значительным задержкам и, таким образом, ограничить их применение в реальных приложениях. Поэтому повышение эффективности онлайн-вычислений стало важной задачей. В этом исследовании мы предлагаем новую систему преобразования голоса, основанную на сотрудничестве экспертов (MoE). Модел...

Сеть речевых трансформаторов: Преобразование голоса из последовательности в последовательность с помощью трансформатора с предварительной подготовкой текста в речь

Мы представляем новую модель преобразования голоса из последовательности в последовательность (seq2seq), основанную на архитектуре Transformer с предварительной подготовкой текста в речь. Модели преобразования голоса Seq2seq привлекательны благодаря своей способности преобразовывать просодию. В то время как модели seq2seq, основанные на рекуррентных нейронных сетях (RNNS) и сверточных нейронных сетях (CNNS), успешно применяются для преобразования голоса, использование сети Transformer, которая показала многообещающие результаты в различных задачах обработки речи, еще не исследовалось. Тем не м...

Неконтролируемое преобразование певческого голоса

Мы представляем метод глубокого обучения для преобразования голоса певца. Предлагаемая сеть не зависит от текста или нот и напрямую преобразует аудио одного певца в голос другого. Обучение проводится без какого-либо контроля: никаких текстов или каких-либо фонетических особенностей, никаких нот и совпадающих сэмплов между певцами. Предлагаемая сеть использует единый кодер CNN для всех исполнителей, единый декодер WaveNet и классификатор, который обеспечивает независимое от певца скрытое представление. Каждый исполнитель представлен одним вектором встраивания, к которому привязан декодер. Чтобы...

Иерархическое преобразование голоса из последовательности в последовательность с ограниченными данными

Мы представляем решение для преобразования голоса с использованием рекуррентного моделирования последовательности в последовательность для DNN. Наше решение использует последние достижения в области моделирования на основе внимания в области нейронного машинного перевода (NMT), преобразования текста в речь (TTS) и автоматического распознавания речи (ASR). Проблема заключается в параллельном преобразовании между голосами при наличии аудиопар. В нашей архитектуре seq2seq используется иерархический кодер для суммирования входных аудиокадров. Что касается декодера, мы используем архитектуру, основ...

Исследование формирования F0 и полностью сверточных сетей при преобразовании голоса на основе вариационного автоэнкодера

В этой работе мы исследуем эффективность двух методов улучшения преобразования голоса на основе вариационного автоэнкодера (VAE). Во-первых, мы пересматриваем взаимосвязь между характеристиками вокодера, получаемыми с помощью высококачественных вокодеров, используемых в обычных системах преобразования голоса, и выдвигаем гипотезу о том, что спектральные характеристики на самом деле зависят от F0. Такая гипотеза подразумевает, что на этапе преобразования скрытые коды и преобразованные функции при преобразовании голоса на основе VAE фактически зависят от источника F0. С этой целью мы предлагаем ...

AUTOVC: передача стиля голоса Zero-Shot с потерей только автоэнкодера

Непараллельное преобразование голоса "многие ко многим", а также преобразование голоса с нулевым кадром остаются недостаточно изученными областями. Алгоритмы глубокой передачи стилей, такие как генеративные состязательные сети (GAN) и условно-вариационный автоэнкодер (CVAE), применяются в качестве новых решений в этой области. Однако обучение стрельбе из пистолета является сложным процессом, и нет убедительных доказательств того, что генерируемая им речь обладает хорошим качеством восприятия. С другой стороны, обучение CVAE является простым, но не обладает свойством сопоставления с распределен...

Преобразование голоса "многие ко многим" с поддержкой дикторов вне набора данных

Мы представляем основанный на Cycle-GAN метод преобразования голоса "многие ко многим", который позволяет осуществлять преобразование между говорящими, которых нет в обучающем наборе. Это свойство включается с помощью встроенных говорящих, генерируемых нейронной сетью, которая обучается совместно с Cycle-GAN. В отличие от предыдущих работ в этой области, наш метод позволяет осуществлять преобразование между носителем языка, не имеющим доступа к набору данных, и целевым носителем языка в любом направлении и не требует переобучения. Качество преобразования говорящих вне набора данных оценивается...