Неконтролируемое представление с использованием междоменных функций и состязательного обучения при преобразовании голоса на основе вариационного автоэнкодера

Эффективный подход к преобразованию голоса (VC) заключается в отделении лингвистического контента от других компонентов речевого сигнала. Эффективность VC на основе вариационного автоэнкодера (VAE-VC), например, в значительной степени зависит от этого принципа. В нашей предыдущей работе мы предложили междоменную структуру VAE-VC (CDVAE-VC), которая использовала акустические характеристики с различными свойствами, чтобы улучшить производительность VAE-VC. Мы полагали, что успех был достигнут благодаря более четким скрытым представлениям. В этой статье мы расширяем рамки CDVAE-VC, включая концеп...

Обобщение прямой модификации формы сигнала на основе дифференциала спектра для преобразования голоса

Мы представляем прямую модификацию формы сигнала для преобразования голоса на основе дифференциала спектра (DIFFVC), которая может быть непосредственно применена в качестве модуля генерации формы сигнала к моделям преобразования голоса. Недавно предложенный DIFFVC позволяет избежать использования вокодера, сохраняя при этом богатые спектральные характеристики, что позволяет генерировать преобразованный голос высокого качества. Для применения платформы DIFFVC необходимо предварительно обучить модель, которая может оценивать спектральную разницу по преобразованной входной речи F0. Это требование...

Усовершенствованный вокодер WaveNet для преобразования голоса на основе вариационного автоэнкодера

В этой статье представлена усовершенствованная система вокодеров WaveNet для преобразования голоса на основе вариационного автоэнкодера (VAE), которая уменьшает искажение качества, вызванное несоответствием между данными обучения и тестирования. Обычные вокодеры WaveNet обучаются с учетом естественных акустических характеристик, но зависят от преобразованных характеристик на этапе преобразования голоса, и такое несоответствие часто приводит к значительному ухудшению качества и сходства. В этой работе мы используем преимущества особой структуры VAE для усовершенствования вокодеров WaveNet с пом...

Преобразование голоса на основе междоменных функций с использованием вариационных автокодеров

Эффективным подходом к непараллельному преобразованию голоса является использование глубоких нейронных сетей (DNN), в частности вариационных автокодеров (VAE), для моделирования скрытой структуры речи неконтролируемым образом. Предыдущее исследование подтвердило эффективность VAE, использующего ПРЯМЫЕ спектры для преобразования голоса. Однако, VAE, использующие другие типы спектральных характеристик, такие как мелкоцепстральные коэффициенты (MCC), которые связаны с восприятием человека и широко используются при преобразовании голоса, не были должным образом исследованы. Ожидается, что вместо и...

Преобразование голоса из невыровненных корпусов с использованием вариационного автоэнкодирования, порождающего состязательные сети Вассерштейна

Создание системы преобразования голоса из непараллельных речевых массивов является сложной задачей, но очень ценной в реальных сценариях применения. В большинстве случаев говорящий на исходном и целевом языках не повторяет одни и те же тексты или даже может говорить на разных языках. В этом случае одним из возможных, хотя и косвенных, решений является построение порождающей модели для речи. Порождающие модели фокусируются на объяснении наблюдений с помощью скрытых переменных вместо изучения функции попарного преобразования, тем самым обходя требование выравнивания речевого фрейма. В этой стать...

Обновление словаря для преобразования голоса на основе NMF с использованием сети кодер-декодер

В этой статье мы предлагаем метод обновления словаря для неотрицательной матричной факторизации (NMF) с использованием многомерных данных в задаче спектрального преобразования (SC). Преобразование голоса широко изучалось из-за его потенциальных применений, таких как персонализированный синтез речи и улучшение качества речи. Основанный на примерах NMF (ENMF) представляется эффективным и, вероятно, самым простым выбором среди всех методов для SC, при условии, что предоставляется параллельный корпус исходной и целевой речи. SC-системы на основе ENMF обычно нуждаются в большом количестве баз (обра...

Преобразование голоса из непараллельных корпусов с использованием вариационного автокодера

Мы предлагаем гибкую платформу для спектрального преобразования (SC), которая облегчает обучение с использованием невыровненных корпусов. Многие платформы SC требуют параллельных корпусов, фонетических выравниваний или явного соответствия по фреймам для изучения функций преобразования голоса с помощью выравниваний. Однако эти требования серьезно ограничивают область практического применения SC из-за нехватки или даже отсутствия параллельных корпусов. Мы предлагаем платформу SC, основанную на вариационном автокодировщике, которая позволяет нам использовать непараллельные корпуса. Фреймворк вклю...