Неконтролируемое представление с использованием междоменных функций и состязательного обучения при преобразовании голоса на основе вариационного автоэнкодера

Эффективный подход к преобразованию голоса (VC) заключается в отделении лингвистического контента от других компонентов речевого сигнала. Эффективность VC на основе вариационного автоэнкодера (VAE-VC), например, в значительной степени зависит от этого принципа. В нашей предыдущей работе мы предложили междоменную структуру VAE-VC (CDVAE-VC), которая использовала акустические характеристики с различными свойствами, чтобы улучшить производительность VAE-VC. Мы полагали, что успех был достигнут благодаря более четким скрытым представлениям. В этой статье мы расширяем рамки CDVAE-VC, включая концеп...

Исследование формирования F0 и полностью сверточных сетей при преобразовании голоса на основе вариационного автоэнкодера

В этой работе мы исследуем эффективность двух методов улучшения преобразования голоса на основе вариационного автоэнкодера (VAE). Во-первых, мы пересматриваем взаимосвязь между характеристиками вокодера, получаемыми с помощью высококачественных вокодеров, используемых в обычных системах преобразования голоса, и выдвигаем гипотезу о том, что спектральные характеристики на самом деле зависят от F0. Такая гипотеза подразумевает, что на этапе преобразования скрытые коды и преобразованные функции при преобразовании голоса на основе VAE фактически зависят от источника F0. С этой целью мы предлагаем ...

MOSNet: Объективная оценка преобразования голоса на основе глубокого обучения

Существующие объективные показатели оценки преобразования голоса не всегда коррелируют с восприятием человекоа. Поэтому обучение моделям преобразования голоса с использованием таких критериев не может эффективно улучшить естественность и сходство преобразованного голоса. В этой статье мы предлагаем модели оценки, основанные на глубоком обучении, для прогнозирования оценки человеком преобразованного голоса. Мы используем сверточную и рекуррентную модели нейронных сетей для построения прогноза среднего балла мнений (MOS), называемого MOSNet. Предложенные модели протестированы на результатах круп...