Сквозное преобразование голоса без вокодера с помощью трансформаторной сети

Подходы, основанные на использовании банка частотных фильтров Mel (MFB), имеют преимущество в изучении речи по сравнению с необработанным спектром, поскольку MFB имеет меньший размер элемента. Однако для создания генератора речи с использованием методов MFB требуется дополнительный вокодер, что требует огромных вычислительных затрат для процесса обучения. Дополнительная предварительная/постобработка, такая как MFB и вокодер, не обязательна для преобразования реальной человеческой речи в другие звуки. Можно использовать только необработанный спектр вместе с фазой, чтобы генерировать голоса друг...

Преобразование спектра и просодии для эмоционального преобразования голоса с помощью непараллельных обучающих данных

Эмоциональное преобразование голоса заключается в преобразовании спектра и просодии для изменения эмоциональных паттернов речи, сохраняя при этом индивидуальность говорящего и лингвистическое содержание. Во многих исследованиях требуются параллельные речевые данные для различных эмоциональных паттернов, что в реальной жизни практически невозможно. Более того, они часто моделируют преобразование основной частоты (F0) с помощью простого линейного преобразования. Поскольку F0 является ключевым аспектом интонации, который является иерархическим по своей природе, мы считаем, что более адекватным яв...

Преобразование голоса для синтеза шепотной речи

Мы представляем подход к синтезу шепота, применяя разработанный вручную рецепт обработки сигналов и методы преобразования голоса для преобразования обычной фонетической речи в речь шепотом. Мы исследуем, используя модели гауссовой смеси (GMM) и глубокие нейронные сети (DNN), чтобы смоделировать соответствие между акустическими характеристиками обычной речи и речи шепотом. Мы оцениваем естественность и сходство с диктором преобразованного шепота во внутреннем корпусе и в общедоступном корпусе wTIMIT. Мы показываем, что применение методов преобразования голоса значительно эффективнее, чем исполь...

Последовательное акустическое моделирование для преобразования голоса

В этой статье представлена нейронная сеть под названием Sequence-to-sequence ConvErsion NeTwork (SCENT) для акустического моделирования в преобразовании голоса. На этапе обучения модель SCENT оценивается путем неявного сопоставления последовательностей признаков исходного и целевого говорящих, используя механизм внимания. На этапе преобразования акустические характеристики и длительность исходных звуков преобразуются одновременно с использованием единой акустической модели. В качестве акустических характеристик используются спектрограммы в масштабе Mel, которые содержат описания речевых сигнал...

Расширение Mel-спектрограммы для преобразования голоса из последовательности в последовательность

При обучении модели преобразования голоса от последовательности к последовательности нам необходимо решить проблему нехватки данных о количестве речевых кортежей, состоящих из одного и того же высказывания. В этом исследовании было проведено экспериментальное исследование влияния расширения Mel-спектрограммы на модель преобразования голоса от последовательности к последовательности. Для расширения Mel-спектрограммы мы применили правила, предложенные в Spec Augment. Кроме того, мы предлагаем новые правила для большего количества вариаций данных. Чтобы найти оптимальные гиперпараметры политик ус...

MoEVC: Система преобразования голоса, созданная экспертами, с механизмом разреженного стробирования для ускорения онлайн-вычислений

Благодаря последним достижениям в области технологий глубокого обучения производительность преобразования голоса с точки зрения качества и сходства была значительно улучшена. Однако для систем преобразования голоса на основе глубокого обучения, как правило, требуются большие объемы вычислений, что может привести к значительным задержкам и, таким образом, ограничить их применение в реальных приложениях. Поэтому повышение эффективности онлайн-вычислений стало важной задачей. В этом исследовании мы предлагаем новую систему преобразования голоса, основанную на сотрудничестве экспертов (MoE). Модел...

Сеть речевых трансформаторов: Преобразование голоса из последовательности в последовательность с помощью трансформатора с предварительной подготовкой текста в речь

Мы представляем новую модель преобразования голоса из последовательности в последовательность (seq2seq), основанную на архитектуре Transformer с предварительной подготовкой текста в речь. Модели преобразования голоса Seq2seq привлекательны благодаря своей способности преобразовывать просодию. В то время как модели seq2seq, основанные на рекуррентных нейронных сетях (RNNS) и сверточных нейронных сетях (CNNS), успешно применяются для преобразования голоса, использование сети Transformer, которая показала многообещающие результаты в различных задачах обработки речи, еще не исследовалось. Тем не м...

Непараллельное преобразование голоса из последовательности в последовательность с распутанными языковыми представлениями и представлениями говорящего

В этой статье представлен метод преобразования голоса из последовательности в последовательность (seq2seq) с использованием непараллельных обучающих данных. В этом методе из акустических характеристик извлекаются неразборчивые лингвистические представления и представления говорящего, и преобразование голоса достигается путем сохранения лингвистических представлений исходных высказываний при замене представлений говорящего на целевые. Наша модель построена в рамках нейронных сетей кодирования-декодирования. Кодировщик распознавания предназначен для изучения неразборчивых лингвистических предста...

MelGAN-VC: Преобразование голоса и передача звукового стиля на произвольно длинных сэмплах с использованием спектрограмм

Традиционные методы преобразования голоса основаны на параллельной записи нескольких говорящих, произносящих одни и те же предложения. Однако для реальных приложений параллельные данные доступны редко. Мы предлагаем MelGAN-VC - метод преобразования голоса, который основан на непараллельных речевых данных и способен преобразовывать аудиосигналы произвольной длины из исходного голоса в целевой. Сначала мы вычисляем спектрограммы на основе данных формы сигнала, а затем выполняем преобразование предметной области с использованием архитектуры Generative Adversarial Network (GAN). Дополнительная сет...

Эмоциональное преобразование голоса с помощью многозадачного обучения с преобразованием текста в речь

Преобразование голоса - это задача преобразовать голос человека в другой стиль, сохранив при этом лингвистическое содержание. Предыдущее современное решение по преобразованию голоса основано на модели "последовательность в последовательность" (seq2seq), которая могла привести к искажению лингвистической информации. Была предпринята попытка преодолеть это с помощью текстового контроля, который требует явного выравнивания, что лишает преимущества использования модели seq2seq. В этой статье представлен голосовой конвертер, использующий многозадачное обучение с преобразованием текста в речь. Прост...