V2S attack: построение преобразования голоса на основе DNN автоматической проверки говорящего

В этой статье представлена новая атака на имитацию голоса с использованием преобразования голоса. Регистрация личных голосов для автоматической проверки говорящего (ASV) предлагает естественные и гибкие системы биометрической аутентификации. В основном, системы ASV не включают голосовые данные пользователей. Однако, если система ASV неожиданно обнаруживается и взламывается злоумышленником, существует риск того, что злоумышленник будет использовать методы преобразования голоса для воспроизведения голосов зарегистрированных пользователей. Мы называем это атакой от проверки к синтезу (V2S)" и пре...

Обобщение прямой модификации формы сигнала на основе дифференциала спектра для преобразования голоса

Мы представляем прямую модификацию формы сигнала для преобразования голоса на основе дифференциала спектра (DIFFVC), которая может быть непосредственно применена в качестве модуля генерации формы сигнала к моделям преобразования голоса. Недавно предложенный DIFFVC позволяет избежать использования вокодера, сохраняя при этом богатые спектральные характеристики, что позволяет генерировать преобразованный голос высокого качества. Для применения платформы DIFFVC необходимо предварительно обучить модель, которая может оценивать спектральную разницу по преобразованной входной речи F0. Это требование...

Непараллельное преобразование голоса с помощью циклического вариационного автоэнкодера

В этой статье мы представляем новую технику непараллельного преобразования голоса с использованием спектрального моделирования на основе циклического вариационного автоэнкодера (CycleVAE). В рамках вариационного автоэнкодера (VAE) скрытое пространство, обычно с гауссовым априором, используется для кодирования набора входных признаков. При голосовом преобразовании на основе VAE закодированные скрытые характеристики передаются в декодер вместе с характеристиками, кодирующими диктора, для генерации оценочных спектров либо с исходной идентификацией диктора (восстановленной), либо с другой идентифи...

Статистическое преобразование голоса с помощью квазипериодического вокодера WaveNet

В этой статье мы исследуем эффективность квазипериодического вокодера WaveNet (QPNet) в сочетании с методом статистического спектрального преобразования для задачи преобразования голоса. Вокодер WaveNet (WN) применяется в качестве модуля генерации сигналов во многих различных системах преобразования голоса и обеспечивает значительное улучшение по сравнению с обычными вокодерами. Однако из-за фиксированной расширенной свертки и общей сетевой архитектуры вокодер WN не обладает достаточной устойчивостью к невидимым функциям ввода и часто требует большого размера сети для достижения приемлемого ка...

Иерархическое преобразование голоса из последовательности в последовательность с ограниченными данными

Мы представляем решение для преобразования голоса с использованием рекуррентного моделирования последовательности в последовательность для DNN. Наше решение использует последние достижения в области моделирования на основе внимания в области нейронного машинного перевода (NMT), преобразования текста в речь (TTS) и автоматического распознавания речи (ASR). Проблема заключается в параллельном преобразовании между голосами при наличии аудиопар. В нашей архитектуре seq2seq используется иерархический кодер для суммирования входных аудиокадров. Что касается декодера, мы используем архитектуру, основ...

Усовершенствованный вокодер WaveNet для преобразования голоса на основе вариационного автоэнкодера

В этой статье представлена усовершенствованная система вокодеров WaveNet для преобразования голоса на основе вариационного автоэнкодера (VAE), которая уменьшает искажение качества, вызванное несоответствием между данными обучения и тестирования. Обычные вокодеры WaveNet обучаются с учетом естественных акустических характеристик, но зависят от преобразованных характеристик на этапе преобразования голоса, и такое несоответствие часто приводит к значительному ухудшению качества и сходства. В этой работе мы используем преимущества особой структуры VAE для усовершенствования вокодеров WaveNet с пом...

Исследование формирования F0 и полностью сверточных сетей при преобразовании голоса на основе вариационного автоэнкодера

В этой работе мы исследуем эффективность двух методов улучшения преобразования голоса на основе вариационного автоэнкодера (VAE). Во-первых, мы пересматриваем взаимосвязь между характеристиками вокодера, получаемыми с помощью высококачественных вокодеров, используемых в обычных системах преобразования голоса, и выдвигаем гипотезу о том, что спектральные характеристики на самом деле зависят от F0. Такая гипотеза подразумевает, что на этапе преобразования скрытые коды и преобразованные функции при преобразовании голоса на основе VAE фактически зависят от источника F0. С этой целью мы предлагаем ...

Бесконтрольное сквозное изучение отдельных языковых единиц для преобразования голоса

Мы представляем неконтролируемую сквозную схему обучения, в которой мы извлекаем отдельные подсловные единицы из речи без использования каких-либо меток. Отдельные подсловные единицы запоминаются с помощью настройки восстановления автоэнкодера ASR-TTS, при которой ASR-кодер обучается обнаруживать набор общих языковых единиц для различных носителей языка, а TTS-декодер обучается проецировать обнаруженные единицы обратно в заданную речь. Мы предлагаем метод дискретного кодирования, многометровые двоичные векторы (MBV), чтобы сделать автоэнкодер ASR-TTS дифференцируемым. Мы обнаружили, что предло...

AUTOVC: передача стиля голоса Zero-Shot с потерей только автоэнкодера

Непараллельное преобразование голоса "многие ко многим", а также преобразование голоса с нулевым кадром остаются недостаточно изученными областями. Алгоритмы глубокой передачи стилей, такие как генеративные состязательные сети (GAN) и условно-вариационный автоэнкодер (CVAE), применяются в качестве новых решений в этой области. Однако обучение стрельбе из пистолета является сложным процессом, и нет убедительных доказательств того, что генерируемая им речь обладает хорошим качеством восприятия. С другой стороны, обучение CVAE является простым, но не обладает свойством сопоставления с распределен...

Измерение эффективности преобразования голоса в системах идентификации говорящего и автоматического распознавания речи

В данной статье оценивается эффективность преобразования голоса на основе Cycle-GAN для четырех систем идентификации говорящих (SID) и автоматизированной системы распознавания речи (ASR) для различных целей. Аудиосэмплы, преобразованные с помощью модели voice converter, классифицируются сторонними системами как целевые с точностью до 46% и входят в топ-1 среди более чем 250 говорящих. Этот обнадеживающий результат в имитации целевых стилей побудил нас исследовать, можно ли использовать преобразованные (синтетические) образцы для улучшения обучения ASR. К сожалению, добавление синтетических дан...