Совместная обучающая платформа для преобразования текста в речь и преобразования голоса с использованием Tacotron и WaveNet с несколькими источниками

Мы исследовали процесс обучения общей модели как для задач преобразования текста в речь, так и для задач преобразования голоса. Мы предлагаем использовать архитектуру расширенной модели Tacotron, которая представляет собой модель последовательного преобразования из нескольких источников с механизмом двойного внимания, в качестве общей модели как для задач преобразования текста в речь, так и для задач преобразования голоса. Эта модель может выполнять эти две различные задачи соответственно в зависимости от типа входных данных. Задача сквозного синтеза речи выполняется, когда модели в качестве в...

Преобразование певческого голоса с использованием непараллельных данных

Преобразование певческого голоса - это задача по преобразованию песни, исполняемой певцом-источником, в голос певца-получателя. В этой статье мы предлагаем использовать метод параллельного преобразования множества голосов в один без использования данных для поющих голосов. Фонетическая задняя характеристика сначала генерируется путем декодирования певческих голосов с помощью надежного механизма автоматического распознавания речи (ASR). Затем обученная рекуррентная нейронная сеть (RNN) со структурой глубокой двунаправленной долговременной кратковременной памяти (DBLSTM) используется для моделир...

ConvS2S-VC: Полностью сверточное преобразование голоса из последовательности в последовательность

В этой статье предлагается метод преобразования голоса, основанный на полностью сверточном обучении от последовательности к последовательности (seq2seq). Настоящий метод, который мы называем "ConvS2S-VC", изучает соответствие между последовательностями речевых признаков источника и цели, используя полностью сверточную модель seq2seq с механизмом внимания. Из-за особенностей обучения seq2seq наш метод особенно примечателен тем, что он позволяет гибко преобразовывать не только характеристики голоса, но и контур высоты тона и продолжительность вводимой речи. Текущая модель состоит из шести сетей,...

AttS2S-VC: Преобразование голоса от последовательности к последовательности с механизмами сохранения внимания и контекста

В этой статье описывается метод, основанный на последовательном обучении (Seq2Seq) с механизмом сохранения внимания и контекста для задач преобразования голоса. Seq2Seq отлично справляется с многочисленными задачами, связанными с моделированием последовательности, такими как синтез и распознавание речи, машинный перевод и создание субтитров к изображениям. В отличие от современных методов преобразования голоса, наш метод 1) стабилизирует и ускоряет процедуру обучения за счет учета направленного внимания и предполагаемых потерь при сохранении контекста, 2) позволяет преобразовывать не только сп...

Преобразование шепотного голоса в гортанный с помощью генеративных состязательных сетей

Большинство методов восстановления голоса у пациентов, страдающих афонией, позволяют говорить шепотом или монотонно. Помимо разборчивости, этому типу речи не хватает выразительности и естественности из-за отсутствия тембра (речь шепотом) или его искусственного создания (монотонная речь). Существующие методы восстановления просодической информации обычно сочетают вокодер, который параметризует речевой сигнал, с методами машинного обучения, которые предсказывают просодическую информацию. В отличие от этого, в этой статье описывается комплексный нейронный подход к оценке формы сигнала полностью о...

Сеть уменьшения ошибок для преобразования голоса на основе DBLSTM

На данный момент многие подходы к глубокому обучению для преобразования голоса позволяют получать речь хорошего качества, используя большое количество обучающих данных. В этой статье представлена платформа преобразования голоса на основе глубокой двунаправленной долговременной памяти (DBLSTM), которая может работать с ограниченным количеством обучающих данных. Мы предлагаем реализовать усредненную модель на основе DBLSTM, которая обучается на данных от многих дикторов. Затем мы предлагаем выполнить адаптацию с ограниченным количеством целевых данных. И последнее, но не менее важное: мы предлаг...

Тест на подделку для конкурса по преобразованию голоса в 2018 году: Использование средств противодействия подделке для оценки речевых артефактов

Преобразование голоса направлено на преобразование характеристик говорящего без изменения содержания. Из-за ограниченности обучающих данных и несовершенства моделирования трудно добиться правдоподобной имитации говорящего без внесения артефактов обработки; поэтому оценка эффективности преобразования голоса обычно включает в себя как сходство говорящего, так и оценку качества с помощью человека. Поскольку это трудоемкий, дорогостоящий и невоспроизводимый процесс, он затрудняет быстрое создание прототипов новой технологии преобразования голоса. Мы рассматриваем оценку искажений, используя альтер...

Преобразование голоса на основе междоменных функций с использованием вариационных автокодеров

Эффективным подходом к непараллельному преобразованию голоса является использование глубоких нейронных сетей (DNN), в частности вариационных автокодеров (VAE), для моделирования скрытой структуры речи неконтролируемым образом. Предыдущее исследование подтвердило эффективность VAE, использующего ПРЯМЫЕ спектры для преобразования голоса. Однако, VAE, использующие другие типы спектральных характеристик, такие как мелкоцепстральные коэффициенты (MCC), которые связаны с восприятием человека и широко используются при преобразовании голоса, не были должным образом исследованы. Ожидается, что вместо и...

ACVAE-VC: Непараллельное преобразование голоса "многие ко многим" с помощью вспомогательного классификатора и вариационного автоэнкодера

В данной статье предлагается непараллельный метод преобразования голоса "многие ко многим" с использованием варианта условного вариационного автоэнкодера (VAE), называемого вспомогательным классификатором VAE (ACVAE). Предлагаемый метод имеет три ключевые особенности. Во-первых, он использует полностью сверточную архитектуру для построения сетей кодирования и декодирования, чтобы сети могли изучать правила преобразования, которые фиксируют временные зависимости в последовательностях акустических характеристик исходной и целевой речи. Во-вторых, он использует теоретико-информационную регуляриза...

Преобразование голоса с помощью условного SampleRNN

Здесь мы представляем новый подход к созданию генерирующей модели SampleRNN для преобразования голоса. Традиционные методы преобразования голоса изменяют воспринимаемую идентичность говорящего путем преобразования между исходными и целевыми акустическими характеристиками. Наш подход направлен на сохранение голосового контента и зависит от генерирующей сети для преобразования голоса. Сначала мы обучаем модель выборки для нескольких говорящих, основанную на лингвистических особенностях, контуре высоты тона и идентичности говорящего, используя корпус речи для нескольких говорящих. Преобразованная...