ConvS2S-VC: Полностью сверточное преобразование голоса из последовательности в последовательность

В этой статье предлагается метод преобразования голоса, основанный на полностью сверточном обучении от последовательности к последовательности (seq2seq). Настоящий метод, который мы называем "ConvS2S-VC", изучает соответствие между последовательностями речевых признаков источника и цели, используя полностью сверточную модель seq2seq с механизмом внимания. Из-за особенностей обучения seq2seq наш метод особенно примечателен тем, что он позволяет гибко преобразовывать не только характеристики голоса, но и контур высоты тона и продолжительность вводимой речи. Текущая модель состоит из шести сетей,...

AttS2S-VC: Преобразование голоса от последовательности к последовательности с механизмами сохранения внимания и контекста

В этой статье описывается метод, основанный на последовательном обучении (Seq2Seq) с механизмом сохранения внимания и контекста для задач преобразования голоса. Seq2Seq отлично справляется с многочисленными задачами, связанными с моделированием последовательности, такими как синтез и распознавание речи, машинный перевод и создание субтитров к изображениям. В отличие от современных методов преобразования голоса, наш метод 1) стабилизирует и ускоряет процедуру обучения за счет учета направленного внимания и предполагаемых потерь при сохранении контекста, 2) позволяет преобразовывать не только сп...

Преобразование шепотного голоса в гортанный с помощью генеративных состязательных сетей

Большинство методов восстановления голоса у пациентов, страдающих афонией, позволяют говорить шепотом или монотонно. Помимо разборчивости, этому типу речи не хватает выразительности и естественности из-за отсутствия тембра (речь шепотом) или его искусственного создания (монотонная речь). Существующие методы восстановления просодической информации обычно сочетают вокодер, который параметризует речевой сигнал, с методами машинного обучения, которые предсказывают просодическую информацию. В отличие от этого, в этой статье описывается комплексный нейронный подход к оценке формы сигнала полностью о...

Сеть уменьшения ошибок для преобразования голоса на основе DBLSTM

На данный момент многие подходы к глубокому обучению для преобразования голоса позволяют получать речь хорошего качества, используя большое количество обучающих данных. В этой статье представлена платформа преобразования голоса на основе глубокой двунаправленной долговременной памяти (DBLSTM), которая может работать с ограниченным количеством обучающих данных. Мы предлагаем реализовать усредненную модель на основе DBLSTM, которая обучается на данных от многих дикторов. Затем мы предлагаем выполнить адаптацию с ограниченным количеством целевых данных. И последнее, но не менее важное: мы предлаг...

Тест на подделку для конкурса по преобразованию голоса в 2018 году: Использование средств противодействия подделке для оценки речевых артефактов

Преобразование голоса направлено на преобразование характеристик говорящего без изменения содержания. Из-за ограниченности обучающих данных и несовершенства моделирования трудно добиться правдоподобной имитации говорящего без внесения артефактов обработки; поэтому оценка эффективности преобразования голоса обычно включает в себя как сходство говорящего, так и оценку качества с помощью человека. Поскольку это трудоемкий, дорогостоящий и невоспроизводимый процесс, он затрудняет быстрое создание прототипов новой технологии преобразования голоса. Мы рассматриваем оценку искажений, используя альтер...

Преобразование голоса на основе междоменных функций с использованием вариационных автокодеров

Эффективным подходом к непараллельному преобразованию голоса является использование глубоких нейронных сетей (DNN), в частности вариационных автокодеров (VAE), для моделирования скрытой структуры речи неконтролируемым образом. Предыдущее исследование подтвердило эффективность VAE, использующего ПРЯМЫЕ спектры для преобразования голоса. Однако, VAE, использующие другие типы спектральных характеристик, такие как мелкоцепстральные коэффициенты (MCC), которые связаны с восприятием человека и широко используются при преобразовании голоса, не были должным образом исследованы. Ожидается, что вместо и...

ACVAE-VC: Непараллельное преобразование голоса "многие ко многим" с помощью вспомогательного классификатора и вариационного автоэнкодера

В данной статье предлагается непараллельный метод преобразования голоса "многие ко многим" с использованием варианта условного вариационного автоэнкодера (VAE), называемого вспомогательным классификатором VAE (ACVAE). Предлагаемый метод имеет три ключевые особенности. Во-первых, он использует полностью сверточную архитектуру для построения сетей кодирования и декодирования, чтобы сети могли изучать правила преобразования, которые фиксируют временные зависимости в последовательностях акустических характеристик исходной и целевой речи. Во-вторых, он использует теоретико-информационную регуляриза...

Преобразование голоса с помощью условного SampleRNN

Здесь мы представляем новый подход к созданию генерирующей модели SampleRNN для преобразования голоса. Традиционные методы преобразования голоса изменяют воспринимаемую идентичность говорящего путем преобразования между исходными и целевыми акустическими характеристиками. Наш подход направлен на сохранение голосового контента и зависит от генерирующей сети для преобразования голоса. Сначала мы обучаем модель выборки для нескольких говорящих, основанную на лингвистических особенностях, контуре высоты тона и идентичности говорящего, используя корпус речи для нескольких говорящих. Преобразованная...

Исследование использования неразборчивых и интерпретируемых представлений для однократного преобразования голоса на разных языках

Мы изучаем проблему межъязыкового преобразования голоса в непараллельных речевых корпусах и в условиях однократного обучения. Для большинства предварительных работ требуются либо параллельные речевые корпуса, либо достаточное количество обучающих данных от целевого носителя. Однако мы преобразуем произвольные предложения произвольного исходного диктора в целевое высказывание целевого диктора, учитывая только одно тренировочное высказывание целевого диктора. Чтобы достичь этого, мы формулируем задачу как изучение неразборчивых представлений, специфичных для говорящего и контекста, и следуем иде...

Ритмично-гибкое преобразование голоса без параллельных данных с использованием циклических последовательностей фонемных апостериограмм

Скорость произнесения относится к среднему количеству фонем за единицу времени, в то время как ритмические паттерны относятся к распределению длительности для реализации разных фонем в разных фонетических структурах. И то, и другое является ключевыми компонентами просодии в речи, которая отличается у разных носителей языка. Такие модели, как cycle-consistent adversarial network (Cycle-GAN) и variational auto-encoder (VAE), успешно применяются для решения задач преобразования голоса без параллельных данных. Однако из-за архитектуры нейронных сетей и векторов характеристик, выбранных для этих по...