Преобразование голоса "Многие ко многим" с использованием состязательных сетей, согласованных по условному циклу

Преобразование голоса (VC) относится к преобразованию характеристик говорящего при произнесении без изменения его лингвистического содержания. Многие работы по преобразованию голоса требуют наличия данных для параллельного обучения, приобретение которых является очень дорогостоящим. Недавно для преобразования голоса была применена циклически согласованная состязательная сеть (CycleGAN), которая не требует параллельного обучения данных, что демонстрирует самую современную производительность. Однако преобразование голоса на основе CycleGAN может использоваться только для пары говорящих, т.е. пре...

Неконтролируемое представление с использованием междоменных функций и состязательного обучения при преобразовании голоса на основе вариационного автоэнкодера

Эффективный подход к преобразованию голоса (VC) заключается в отделении лингвистического контента от других компонентов речевого сигнала. Эффективность VC на основе вариационного автоэнкодера (VAE-VC), например, в значительной степени зависит от этого принципа. В нашей предыдущей работе мы предложили междоменную структуру VAE-VC (CDVAE-VC), которая использовала акустические характеристики с различными свойствами, чтобы улучшить производительность VAE-VC. Мы полагали, что успех был достигнут благодаря более четким скрытым представлениям. В этой статье мы расширяем рамки CDVAE-VC, включая концеп...

Преобразование спектра и просодии для эмоционального преобразования голоса с помощью непараллельных обучающих данных

Эмоциональное преобразование голоса заключается в преобразовании спектра и просодии для изменения эмоциональных паттернов речи, сохраняя при этом индивидуальность говорящего и лингвистическое содержание. Во многих исследованиях требуются параллельные речевые данные для различных эмоциональных паттернов, что в реальной жизни практически невозможно. Более того, они часто моделируют преобразование основной частоты (F0) с помощью простого линейного преобразования. Поскольку F0 является ключевым аспектом интонации, который является иерархическим по своей природе, мы считаем, что более адекватным яв...

Непараллельное преобразование голоса из последовательности в последовательность с распутанными языковыми представлениями и представлениями говорящего

В этой статье представлен метод преобразования голоса из последовательности в последовательность (seq2seq) с использованием непараллельных обучающих данных. В этом методе из акустических характеристик извлекаются неразборчивые лингвистические представления и представления говорящего, и преобразование голоса достигается путем сохранения лингвистических представлений исходных высказываний при замене представлений говорящего на целевые. Наша модель построена в рамках нейронных сетей кодирования-декодирования. Кодировщик распознавания предназначен для изучения неразборчивых лингвистических предста...

MelGAN-VC: Преобразование голоса и передача звукового стиля на произвольно длинных сэмплах с использованием спектрограмм

Традиционные методы преобразования голоса основаны на параллельной записи нескольких говорящих, произносящих одни и те же предложения. Однако для реальных приложений параллельные данные доступны редко. Мы предлагаем MelGAN-VC - метод преобразования голоса, который основан на непараллельных речевых данных и способен преобразовывать аудиосигналы произвольной длины из исходного голоса в целевой. Сначала мы вычисляем спектрограммы на основе данных формы сигнала, а затем выполняем преобразование предметной области с использованием архитектуры Generative Adversarial Network (GAN). Дополнительная сет...

SoftGAN: Эффективное изучение генеративных моделей с помощью CycleGAN преобразования голоса

Преобразование голоса с помощью глубоких нейронных сетей стало чрезвычайно популярным за последние несколько лет благодаря усовершенствованиям по сравнению с предыдущими архитектурами преобразования голоса. В частности, архитектуры GAN, такие как CycleGAN и VAEGAN, предоставляют возможность изучать преобразование голоса из непараллельных баз данных. Однако методы, основанные на GAN, крайне нестабильны, часто требуют тщательной настройки гиперпараметров и могут привести к плохому преобразованию голосовой идентификации и существенному ухудшению качества преобразованного речевого сигнала. В этой ...

AdaGAN: Адаптивный GAN для непараллельного преобразования голоса "многие ко многим"

Преобразование голоса - это задача преобразования воспринимаемой идентичности говорящего от исходного к определенному целевому. Более ранние подходы, описанные в литературе, в основном заключаются в сопоставлении между заданными парами исходного и целевого говорящих. Разработка методов сопоставления для преобразования голоса "многие ко многим" с использованием непараллельных данных, включая обучение с нуля, остается менее изученной областью в преобразовании голоса. Большинство архитектур преобразования голоса "многие ко многим" требуют обучающих данных от всех целевых носителей, для которых мы...

Преобразование голоса "многие ко многим" с использованием согласованного по циклу вариационного автоэнкодера с несколькими декодерами

Одним из препятствий при преобразовании голоса "многие ко многим" является необходимость параллельного обучения данным, которые содержат пары высказываний с одинаковым лингвистическим содержанием, произносимых разными носителями языка. Поскольку сбор таких параллельных данных является очень дорогостоящей задачей, во многих работах предпринимались попытки использовать непараллельные обучающие данные для преобразования голоса "многие ко многим". Одним из таких подходов является использование вариационного автоэнкодера (VAE). Несмотря на то, что он может выполнять преобразование голоса "многие ко...

StarGAN-VC2: Переосмысление условных методов преобразования голоса на основе Stargen

Непараллельное многодоменное преобразование голоса - это метод изучения сопоставлений между несколькими доменами без использования параллельных данных. Это важно, но сложно из-за необходимости изучения нескольких сопоставлений и отсутствия явного контроля. В последнее время StarGAN-VC привлек к себе внимание благодаря своей способности решать эту проблему только с помощью одного генератора. Однако по-прежнему существует разрыв между реальной и преобразованной речью. Чтобы устранить этот пробел, мы переосмысливаем условные методы StarGAN-VC, которые являются ключевыми компонентами для достижени...

Бесконтрольное сквозное изучение отдельных языковых единиц для преобразования голоса

Мы представляем неконтролируемую сквозную схему обучения, в которой мы извлекаем отдельные подсловные единицы из речи без использования каких-либо меток. Отдельные подсловные единицы запоминаются с помощью настройки восстановления автоэнкодера ASR-TTS, при которой ASR-кодер обучается обнаруживать набор общих языковых единиц для различных носителей языка, а TTS-декодер обучается проецировать обнаруженные единицы обратно в заданную речь. Мы предлагаем метод дискретного кодирования, многометровые двоичные векторы (MBV), чтобы сделать автоэнкодер ASR-TTS дифференцируемым. Мы обнаружили, что предло...