Передача исходного стиля при непараллельном преобразовании голоса

Методы преобразования голоса (VC) направлены на изменение идентичности говорящего высказывания при сохранении лежащей в его основе лингвистической информации. Большинство подходов преобразования голоса игнорируют моделирование стиля речи (например, эмоции и акцент), который может содержать факторы, намеренно добавленные говорящим, и должен быть сохранен во время преобразования. Это исследование предлагает основанный на последовательности непараллельный подход преобразования голоса, который имеет возможность передачи стиля речи от исходной речи к преобразованной речи путем явного моделирования....

Защита вашего голоса: состязательная атака на преобразование голоса

В последние годы были достигнуты существенные улучшения в преобразовании голоса, которое преобразует характеристики диктора в характеристики другого диктора без изменения лингвистического содержания высказывания. Тем не менее, усовершенствованные технологии преобразования также привели к проблемам конфиденциальности и аутентификации. Таким образом, становится очень желательным иметь возможность предотвратить неправильное использование своего голоса с помощью таких технологий преобразования голоса. Вот почему мы сообщаем в этой статье о первой известной попытке выполнить состязательную атаку на...

Преобразование чьей-либо эмоции: на пути к независимому от диктора эмоциональному преобразованию голоса

Эмоциональное преобразование голоса направлена на преобразование эмоции речи из одного состояния в другое при сохранении языкового содержания и идентичности говорящего. Предыдущие исследования по эмоциональному преобразованию голоса в основном проводились в предположении, что эмоции зависят от говорящего. Мы считаем, что эмоции выражаются универсально у всех говорящих, поэтому возможно независимое от говорящего отображение эмоциональных состояний речи. В этой статье мы предлагаем построить независимую от диктора структуру эмоционального преобразования голоса, которая может конвертировать любые...

Cotatron: Речевой кодировщик с управлением транскрипцией для преобразования любого голоса во многие без параллельных данных

Мы предлагаем Cotatron, кодировщик речи с управлением транскрипцией для лингвистического представления, независимого от говорящего. Cosatron основан на архитектуре TTS с несколькими динамиками и может быть обучен с использованием обычных наборов данных TTS. Мы обучаем систему преобразования голоса восстанавливать речь с помощью функций Cotatron, что аналогично предыдущим методам, основанным на фонетической апостериограмме (PPG). Обучив и оценив нашу систему на 108 дикторах из набора данных VCTK, мы превзошли предыдущий метод как по естественности, так и по сходству дикторов. Наша система также...

F0-последовательное непараллельное преобразование голоса "многие ко многим" с помощью условного автоэнкодера

Непараллельное преобразование голоса "многие ко многим" остается интересной, но сложной задачей обработки речи. Было предложено множество методов, вдохновленных переносом стилей, таких как генеративные состязательные сети (GAN) и вариационные автоэнкодеры (VAE). Недавно AutoVC, метод, основанный на условных автоэнкодерах (CAE), достиг самых современных результатов, распутав идентификацию говорящего и речевой контент, используя ограничивающие информацию узкие места, и он обеспечивает преобразование с нулевым кадром путем замены встроенного идентификатора другого говорящего для синтеза нового го...

Многоцелевое преобразование эмоционального голоса с помощью нейронных вокодеров

Преобразование эмоционального голоса (EVC) - это один из способов создания выразительной синтетической речи. Предыдущие подходы в основном были сосредоточены на моделировании взаимно однозначного отображения, т.е. перехода из одного эмоционального состояния в другое эмоциональное состояние, с помощью мелкополосных вокодеров. В этой статье мы исследуем построение многоцелевой архитектуры EVC (MTEVC), которая сочетает в себе модель преобразования на основе глубокой двунаправленной долговременной памяти (DBLSTM) и нейронный вокодер. Фонетические апостериограммы (PPG), содержащие богатую лингвисти...

Преобразование эмоционального голоса с помощью циклически согласованной генерирующей состязательной сети

Эмоциональное преобразование голоса, или эмоциональный VC, - это техника преобразования речи из одного эмоционального состояния в другое с сохранением основной лингвистической информации и идентичности говорящего. Предыдущие подходы к преобразованию эмоционального голоса требовали параллельных данных и использовали метод динамического выравнивания времени (DTW) для временного выравнивания параметров речи источника и цели. Эти подходы часто определяют минимальные потери генерации в качестве целевой функции, такой как потери L1 или L2, для изучения параметров модели. Недавно для непараллельного ...

Преобразование певческого голоса с использованием разрозненных представлений о певце и вокальной технике с использованием вариационных автоэнкодеров

Мы предлагаем гибкую структуру, которая работает как с преобразованием голоса певца, так и с преобразованием вокальной техники певцов. Предлагаемая модель разработана на непараллельных корпусах, поддерживает преобразование "многие ко многим" и использует последние достижения вариационных автоэнкодеров. В нем используются отдельные кодеры для изучения скрытых представлений об индивидуальности певца и вокальной технике по отдельности, а для реконструкции используется совместный декодер. Преобразование осуществляется с помощью простой векторной арифметики в изученных скрытых пространствах. Как ко...

Сквозное преобразование голоса без вокодера с помощью трансформаторной сети

Подходы, основанные на использовании банка частотных фильтров Mel (MFB), имеют преимущество в изучении речи по сравнению с необработанным спектром, поскольку MFB имеет меньший размер элемента. Однако для создания генератора речи с использованием методов MFB требуется дополнительный вокодер, что требует огромных вычислительных затрат для процесса обучения. Дополнительная предварительная/постобработка, такая как MFB и вокодер, не обязательна для преобразования реальной человеческой речи в другие звуки. Можно использовать только необработанный спектр вместе с фазой, чтобы генерировать голоса друг...

Последовательное акустическое моделирование для преобразования голоса

В этой статье представлена нейронная сеть под названием Sequence-to-sequence ConvErsion NeTwork (SCENT) для акустического моделирования в преобразовании голоса. На этапе обучения модель SCENT оценивается путем неявного сопоставления последовательностей признаков исходного и целевого говорящих, используя механизм внимания. На этапе преобразования акустические характеристики и длительность исходных звуков преобразуются одновременно с использованием единой акустической модели. В качестве акустических характеристик используются спектрограммы в масштабе Mel, которые содержат описания речевых сигнал...