Непараллельное преобразование голоса с дополненным классификатором звездных генеративных состязательных сетей

Ранее мы предложили метод, который позволяет осуществлять непараллельное преобразование голоса (VC) с использованием варианта генеративных состязательных сетей (GANS) под названием StarGAN. Основные особенности нашего метода, получившего название StarGAN-VC, заключаются в следующем. Во-первых, он не требует параллельных высказываний, транскрипций или процедур выравнивания времени для тренировки генератора речи. Во-вторых, он может одновременно изучать сопоставления между несколькими доменами, используя единую генераторную сеть, чтобы в полной мере использовать доступные обучающие данные, собра...

Преобразование спектра и просодии для межъязыкового преобразования голоса с помощью CycleGAN

Межъязыковое преобразование голоса направлено на изменение голоса говорящего источника, чтобы он звучал так же, как у целевого говорящего, когда исходные и целевые говорящие говорят на разных языках. Он основан на непараллельных данных обучения с двух разных языков, следовательно, является более сложным, чем преобразование голоса на одном языке. Предыдущие исследования по межъязыковому преобразованию голоса в основном фокусировались на спектральном преобразовании с линейным преобразованием для передачи F0. Однако, как важный просодический фактор, F0 по своей сути является иерархическим, поэтом...

VAW-GAN для преобразования певческого голоса с использованием непараллельных обучающих данных

Преобразование голоса певца направлено на преобразование голоса певца из исходного в целевой без изменения содержания пения. Данные параллельного обучения обычно требуются для обучения системы преобразования певческого голоса, что, однако, непрактично в реальных приложениях. Новейшие структуры кодер-декодер, такие как вариационная автоэнкодирующая генеративно-состязательная сеть Вассерштейна (VAW-GAN), обеспечивают эффективный способ изучения отображения с помощью непараллельных обучающих данных. В этой статье мы предлагаем фреймворк преобразования певческого голоса, основанный на VAW-GAN. Мы ...

Неконтролируемое междоменное преобразование певческого голоса

Мы представляем генерирующую модель wav-to-wav для задачи преобразования певческого голоса из любого идентификатора. Наш метод использует как акустическую модель, обученную для задачи автоматического распознавания речи, так и функции извлечения мелодии для управления генератором на основе формы сигнала. Предлагаемая генеративная архитектура инвариантна к личности говорящего и может быть обучена генерировать целевых исполнителей на основе немаркированных обучающих данных, используя либо речевые, либо певческие источники. Модель оптимизируется сквозным образом без какого-либо ручного контроля, т...

Непараллельное преобразование голоса на основе распознавания и синтеза с состязательным обучением

В данной статье представлен метод состязательного обучения для непараллельного преобразования голоса на основе распознавания и синтеза. Распознаватель используется для преобразования акустических признаков в лингвистические представления, в то время как синтезатор восстанавливает выходные признаки из выходных данных распознавателя вместе с идентификатором говорящего. Отделяя характеристики говорящего от лингвистических представлений, преобразование голоса может быть достигнуто путем замены идентификатора говорящего на целевой. В предлагаемом нами методе используется состязательная потеря говор...

Защита вашего голоса: состязательная атака на преобразование голоса

В последние годы были достигнуты существенные улучшения в преобразовании голоса, которое преобразует характеристики диктора в характеристики другого диктора без изменения лингвистического содержания высказывания. Тем не менее, усовершенствованные технологии преобразования также привели к проблемам конфиденциальности и аутентификации. Таким образом, становится очень желательным иметь возможность предотвратить неправильное использование своего голоса с помощью таких технологий преобразования голоса. Вот почему мы сообщаем в этой статье о первой известной попытке выполнить состязательную атаку на...

Преобразование чьей-либо эмоции: на пути к независимому от диктора эмоциональному преобразованию голоса

Эмоциональное преобразование голоса направлена на преобразование эмоции речи из одного состояния в другое при сохранении языкового содержания и идентичности говорящего. Предыдущие исследования по эмоциональному преобразованию голоса в основном проводились в предположении, что эмоции зависят от говорящего. Мы считаем, что эмоции выражаются универсально у всех говорящих, поэтому возможно независимое от говорящего отображение эмоциональных состояний речи. В этой статье мы предлагаем построить независимую от диктора структуру эмоционального преобразования голоса, которая может конвертировать любые...

Scyclone: Высококачественное и непараллельное преобразование голоса с использованием спектрограмм и CycleGAN

В данной статье предлагается Scyclone, метод высококачественного преобразования голоса (VC) без параллельного обучения данных. Scyclone улучшает естественность речи и сходство дикторов преобразованной речи посредством внедрения основывающегося на CycleGAN преобразования спектрограмм с упрощенным вокодером на основе WaveRNN. В Scyclone в качестве параметров вокодера используется линейная спектрограмма, что позволяет избежать ухудшения качества из-за ошибок извлечения в основной частоте и звонких/глухих параметрах. Спектрограммы исходных и целевых дикторов моделируются модифицированными CycleGAN...

Преобразование эмоционального голоса с помощью циклически согласованной генерирующей состязательной сети

Эмоциональное преобразование голоса, или эмоциональный VC, - это техника преобразования речи из одного эмоционального состояния в другое с сохранением основной лингвистической информации и идентичности говорящего. Предыдущие подходы к преобразованию эмоционального голоса требовали параллельных данных и использовали метод динамического выравнивания времени (DTW) для временного выравнивания параметров речи источника и цели. Эти подходы часто определяют минимальные потери генерации в качестве целевой функции, такой как потери L1 или L2, для изучения параметров модели. Недавно для непараллельного ...

PitchNet: Неконтролируемое преобразование певческого голоса с помощью состязательной сети по высоте тона

Преобразование певческого голоса заключается в преобразовании голоса певца в голос другого человека без изменения содержания пения. Недавняя работа показывает, что преобразование певческого голоса без контроля может быть достигнуто с помощью подхода, основанного на автоэнкодировании [1]. Однако преобразованный певческий голос может легко сбиться с тональности, что свидетельствует о том, что существующий подход не позволяет точно моделировать информацию о высоте тона. В этой статье мы предлагаем усовершенствовать существующий метод преобразования певческого голоса без контроля, предложенный в [...