Непараллельное преобразование голоса с дополненным классификатором звездных генеративных состязательных сетей

Ранее мы предложили метод, который позволяет осуществлять непараллельное преобразование голоса (VC) с использованием варианта генеративных состязательных сетей (GANS) под названием StarGAN. Основные особенности нашего метода, получившего название StarGAN-VC, заключаются в следующем. Во-первых, он не требует параллельных высказываний, транскрипций или процедур выравнивания времени для тренировки генератора речи. Во-вторых, он может одновременно изучать сопоставления между несколькими доменами, используя единую генераторную сеть, чтобы в полной мере использовать доступные обучающие данные, собра...

Преобразование спектра и просодии для межъязыкового преобразования голоса с помощью CycleGAN

Межъязыковое преобразование голоса направлено на изменение голоса говорящего источника, чтобы он звучал так же, как у целевого говорящего, когда исходные и целевые говорящие говорят на разных языках. Он основан на непараллельных данных обучения с двух разных языков, следовательно, является более сложным, чем преобразование голоса на одном языке. Предыдущие исследования по межъязыковому преобразованию голоса в основном фокусировались на спектральном преобразовании с линейным преобразованием для передачи F0. Однако, как важный просодический фактор, F0 по своей сути является иерархическим, поэтом...

VAW-GAN для преобразования певческого голоса с использованием непараллельных обучающих данных

Преобразование голоса певца направлено на преобразование голоса певца из исходного в целевой без изменения содержания пения. Данные параллельного обучения обычно требуются для обучения системы преобразования певческого голоса, что, однако, непрактично в реальных приложениях. Новейшие структуры кодер-декодер, такие как вариационная автоэнкодирующая генеративно-состязательная сеть Вассерштейна (VAW-GAN), обеспечивают эффективный способ изучения отображения с помощью непараллельных обучающих данных. В этой статье мы предлагаем фреймворк преобразования певческого голоса, основанный на VAW-GAN. Мы ...

Неконтролируемое междоменное преобразование певческого голоса

Мы представляем генерирующую модель wav-to-wav для задачи преобразования певческого голоса из любого идентификатора. Наш метод использует как акустическую модель, обученную для задачи автоматического распознавания речи, так и функции извлечения мелодии для управления генератором на основе формы сигнала. Предлагаемая генеративная архитектура инвариантна к личности говорящего и может быть обучена генерировать целевых исполнителей на основе немаркированных обучающих данных, используя либо речевые, либо певческие источники. Модель оптимизируется сквозным образом без какого-либо ручного контроля, т...

Непараллельное преобразование голоса на основе распознавания и синтеза с состязательным обучением

В данной статье представлен метод состязательного обучения для непараллельного преобразования голоса на основе распознавания и синтеза. Распознаватель используется для преобразования акустических признаков в лингвистические представления, в то время как синтезатор восстанавливает выходные признаки из выходных данных распознавателя вместе с идентификатором говорящего. Отделяя характеристики говорящего от лингвистических представлений, преобразование голоса может быть достигнуто путем замены идентификатора говорящего на целевой. В предлагаемом нами методе используется состязательная потеря говор...

Преобразование чьей-либо эмоции: на пути к независимому от диктора эмоциональному преобразованию голоса

Эмоциональное преобразование голоса направлена на преобразование эмоции речи из одного состояния в другое при сохранении языкового содержания и идентичности говорящего. Предыдущие исследования по эмоциональному преобразованию голоса в основном проводились в предположении, что эмоции зависят от говорящего. Мы считаем, что эмоции выражаются универсально у всех говорящих, поэтому возможно независимое от говорящего отображение эмоциональных состояний речи. В этой статье мы предлагаем построить независимую от диктора структуру эмоционального преобразования голоса, которая может конвертировать любые...

Scyclone: Высококачественное и непараллельное преобразование голоса с использованием спектрограмм и CycleGAN

В данной статье предлагается Scyclone, метод высококачественного преобразования голоса (VC) без параллельного обучения данных. Scyclone улучшает естественность речи и сходство дикторов преобразованной речи посредством внедрения основывающегося на CycleGAN преобразования спектрограмм с упрощенным вокодером на основе WaveRNN. В Scyclone в качестве параметров вокодера используется линейная спектрограмма, что позволяет избежать ухудшения качества из-за ошибок извлечения в основной частоте и звонких/глухих параметрах. Спектрограммы исходных и целевых дикторов моделируются модифицированными CycleGAN...

Преобразование эмоционального голоса с помощью циклически согласованной генерирующей состязательной сети

Эмоциональное преобразование голоса, или эмоциональный VC, - это техника преобразования речи из одного эмоционального состояния в другое с сохранением основной лингвистической информации и идентичности говорящего. Предыдущие подходы к преобразованию эмоционального голоса требовали параллельных данных и использовали метод динамического выравнивания времени (DTW) для временного выравнивания параметров речи источника и цели. Эти подходы часто определяют минимальные потери генерации в качестве целевой функции, такой как потери L1 или L2, для изучения параметров модели. Недавно для непараллельного ...

Преобразование голоса "Многие ко многим" с использованием состязательных сетей, согласованных по условному циклу

Преобразование голоса (VC) относится к преобразованию характеристик говорящего при произнесении без изменения его лингвистического содержания. Многие работы по преобразованию голоса требуют наличия данных для параллельного обучения, приобретение которых является очень дорогостоящим. Недавно для преобразования голоса была применена циклически согласованная состязательная сеть (CycleGAN), которая не требует параллельного обучения данных, что демонстрирует самую современную производительность. Однако преобразование голоса на основе CycleGAN может использоваться только для пары говорящих, т.е. пре...

Неконтролируемое представление с использованием междоменных функций и состязательного обучения при преобразовании голоса на основе вариационного автоэнкодера

Эффективный подход к преобразованию голоса (VC) заключается в отделении лингвистического контента от других компонентов речевого сигнала. Эффективность VC на основе вариационного автоэнкодера (VAE-VC), например, в значительной степени зависит от этого принципа. В нашей предыдущей работе мы предложили междоменную структуру VAE-VC (CDVAE-VC), которая использовала акустические характеристики с различными свойствами, чтобы улучшить производительность VAE-VC. Мы полагали, что успех был достигнут благодаря более четким скрытым представлениям. В этой статье мы расширяем рамки CDVAE-VC, включая концеп...