Обучение лифтеров и моделирование поддиапазонов для эффективного с точки зрения вычислений и высококачественного преобразования голоса с использованием спектральных различий

В этой статье мы предлагаем эффективные с точки зрения вычислений и высококачественные методы статистического преобразования голоса (VC) с прямой модификацией формы сигнала на основе спектральных различий. Традиционный метод с фильтром минимальной фазы обеспечивает высококачественное преобразование, но требует больших вычислений при фильтрации. Это связано с тем, что минимальная фаза с использованием фиксированного лифтера в преобразовании Гильберта часто приводит к фильтру с длинным нажатием. Один из наших методов - это метод обучения атлета, основанный на данных. Поскольку этот метод учитыва...

V2S attack: построение преобразования голоса на основе DNN автоматической проверки говорящего

В этой статье представлена новая атака на имитацию голоса с использованием преобразования голоса. Регистрация личных голосов для автоматической проверки говорящего (ASV) предлагает естественные и гибкие системы биометрической аутентификации. В основном, системы ASV не включают голосовые данные пользователей. Однако, если система ASV неожиданно обнаруживается и взламывается злоумышленником, существует риск того, что злоумышленник будет использовать методы преобразования голоса для воспроизведения голосов зарегистрированных пользователей. Мы называем это атакой от проверки к синтезу (V2S)" и пре...

Преобразование голоса с использованием последовательного изучения апостериорных вероятностей контекста

Предлагается преобразование голоса с использованием последовательного изучения апостериорных вероятностей контекста. Традиционное преобразование голоса с использованием апостериорных вероятностей общего контекста предсказывает параметры целевой речи на основе апостериорных вероятностей контекста, оцененных на основе параметров исходной речи. Хотя обычное преобразование голоса может быть построено на основе непараллельных данных, трудно преобразовать индивидуальность говорящего, такую как фонетические свойства и скорость речи, содержащиеся в апостериорных вероятностях, поскольку исходные апосте...