Scyclone: Высококачественное и непараллельное преобразование голоса с использованием спектрограмм и CycleGAN

В данной статье предлагается Scyclone, метод высококачественного преобразования голоса (VC) без параллельного обучения данных. Scyclone улучшает естественность речи и сходство дикторов преобразованной речи посредством внедрения основывающегося на CycleGAN преобразования спектрограмм с упрощенным вокодером на основе WaveRNN. В Scyclone в качестве параметров вокодера используется линейная спектрограмма, что позволяет избежать ухудшения качества из-за ошибок извлечения в основной частоте и звонких/глухих параметрах. Спектрограммы исходных и целевых дикторов моделируются модифицированными CycleGAN...

F0-последовательное непараллельное преобразование голоса "многие ко многим" с помощью условного автоэнкодера

Непараллельное преобразование голоса "многие ко многим" остается интересной, но сложной задачей обработки речи. Было предложено множество методов, вдохновленных переносом стилей, таких как генеративные состязательные сети (GAN) и вариационные автоэнкодеры (VAE). Недавно AutoVC, метод, основанный на условных автоэнкодерах (CAE), достиг самых современных результатов, распутав идентификацию говорящего и речевой контент, используя ограничивающие информацию узкие места, и он обеспечивает преобразование с нулевым кадром путем замены встроенного идентификатора другого говорящего для синтеза нового го...

Многоцелевое преобразование эмоционального голоса с помощью нейронных вокодеров

Преобразование эмоционального голоса (EVC) - это один из способов создания выразительной синтетической речи. Предыдущие подходы в основном были сосредоточены на моделировании взаимно однозначного отображения, т.е. перехода из одного эмоционального состояния в другое эмоциональное состояние, с помощью мелкополосных вокодеров. В этой статье мы исследуем построение многоцелевой архитектуры EVC (MTEVC), которая сочетает в себе модель преобразования на основе глубокой двунаправленной долговременной памяти (DBLSTM) и нейронный вокодер. Фонетические апостериограммы (PPG), содержащие богатую лингвисти...

Вклад гласных и просодии в алгоритм преобразования голоса на основе нейронной сети с зашумленными обучающими данными

В этом исследовании представлена модель преобразования голоса на основе нейронных сетей. Хотя известно, что озвученные звуки и просодия являются наиболее важными компонентами системы преобразования голоса, неизвестен их объективный вклад, особенно в шумной и неконтролируемой среде. Эта модель использует двухслойную нейронную сеть прямого действия для сопоставления коэффициентов анализа линейного прогнозирования исходного динамика с акустическим векторным пространством целевого говорящего с целью объективного определения вклада озвученных, невокализованных и надсегментарных компонентов звуков в...

Преобразование певческого голоса с использованием разрозненных представлений о певце и вокальной технике с использованием вариационных автоэнкодеров

Мы предлагаем гибкую структуру, которая работает как с преобразованием голоса певца, так и с преобразованием вокальной техники певцов. Предлагаемая модель разработана на непараллельных корпусах, поддерживает преобразование "многие ко многим" и использует последние достижения вариационных автоэнкодеров. В нем используются отдельные кодеры для изучения скрытых представлений об индивидуальности певца и вокальной технике по отдельности, а для реконструкции используется совместный декодер. Преобразование осуществляется с помощью простой векторной арифметики в изученных скрытых пространствах. Как ко...

Обучение лифтеров и моделирование поддиапазонов для эффективного с точки зрения вычислений и высококачественного преобразования голоса с использованием спектральных различий

В этой статье мы предлагаем эффективные с точки зрения вычислений и высококачественные методы статистического преобразования голоса (VC) с прямой модификацией формы сигнала на основе спектральных различий. Традиционный метод с фильтром минимальной фазы обеспечивает высококачественное преобразование, но требует больших вычислений при фильтрации. Это связано с тем, что минимальная фаза с использованием фиксированного лифтера в преобразовании Гильберта часто приводит к фильтру с длинным нажатием. Один из наших методов - это метод обучения атлета, основанный на данных. Поскольку этот метод учитыва...

Преобразование голоса "Многие ко многим" с использованием состязательных сетей, согласованных по условному циклу

Преобразование голоса (VC) относится к преобразованию характеристик говорящего при произнесении без изменения его лингвистического содержания. Многие работы по преобразованию голоса требуют наличия данных для параллельного обучения, приобретение которых является очень дорогостоящим. Недавно для преобразования голоса была применена циклически согласованная состязательная сеть (CycleGAN), которая не требует параллельного обучения данных, что демонстрирует самую современную производительность. Однако преобразование голоса на основе CycleGAN может использоваться только для пары говорящих, т.е. пре...

Неконтролируемое представление с использованием междоменных функций и состязательного обучения при преобразовании голоса на основе вариационного автоэнкодера

Эффективный подход к преобразованию голоса (VC) заключается в отделении лингвистического контента от других компонентов речевого сигнала. Эффективность VC на основе вариационного автоэнкодера (VAE-VC), например, в значительной степени зависит от этого принципа. В нашей предыдущей работе мы предложили междоменную структуру VAE-VC (CDVAE-VC), которая использовала акустические характеристики с различными свойствами, чтобы улучшить производительность VAE-VC. Мы полагали, что успех был достигнут благодаря более четким скрытым представлениям. В этой статье мы расширяем рамки CDVAE-VC, включая концеп...

Преобразование спектра и просодии для эмоционального преобразования голоса с помощью непараллельных обучающих данных

Эмоциональное преобразование голоса заключается в преобразовании спектра и просодии для изменения эмоциональных паттернов речи, сохраняя при этом индивидуальность говорящего и лингвистическое содержание. Во многих исследованиях требуются параллельные речевые данные для различных эмоциональных паттернов, что в реальной жизни практически невозможно. Более того, они часто моделируют преобразование основной частоты (F0) с помощью простого линейного преобразования. Поскольку F0 является ключевым аспектом интонации, который является иерархическим по своей природе, мы считаем, что более адекватным яв...

Преобразование голоса для синтеза шепотной речи

Мы представляем подход к синтезу шепота, применяя разработанный вручную рецепт обработки сигналов и методы преобразования голоса для преобразования обычной фонетической речи в речь шепотом. Мы исследуем, используя модели гауссовой смеси (GMM) и глубокие нейронные сети (DNN), чтобы смоделировать соответствие между акустическими характеристиками обычной речи и речи шепотом. Мы оцениваем естественность и сходство с диктором преобразованного шепота во внутреннем корпусе и в общедоступном корпусе wTIMIT. Мы показываем, что применение методов преобразования голоса значительно эффективнее, чем исполь...