Расширение Mel-спектрограммы для преобразования голоса из последовательности в последовательность

При обучении модели преобразования голоса от последовательности к последовательности нам необходимо решить проблему нехватки данных о количестве речевых кортежей, состоящих из одного и того же высказывания. В этом исследовании было проведено экспериментальное исследование влияния расширения Mel-спектрограммы на модель преобразования голоса от последовательности к последовательности. Для расширения Mel-спектрограммы мы применили правила, предложенные в Spec Augment. Кроме того, мы предлагаем новые правила для большего количества вариаций данных. Чтобы найти оптимальные гиперпараметры политик ус...

Непараллельное преобразование голоса из последовательности в последовательность с распутанными языковыми представлениями и представлениями говорящего

В этой статье представлен метод преобразования голоса из последовательности в последовательность (seq2seq) с использованием непараллельных обучающих данных. В этом методе из акустических характеристик извлекаются неразборчивые лингвистические представления и представления говорящего, и преобразование голоса достигается путем сохранения лингвистических представлений исходных высказываний при замене представлений говорящего на целевые. Наша модель построена в рамках нейронных сетей кодирования-декодирования. Кодировщик распознавания предназначен для изучения неразборчивых лингвистических предста...

Эмоциональное преобразование голоса с помощью многозадачного обучения с преобразованием текста в речь

Преобразование голоса - это задача преобразовать голос человека в другой стиль, сохранив при этом лингвистическое содержание. Предыдущее современное решение по преобразованию голоса основано на модели "последовательность в последовательность" (seq2seq), которая могла привести к искажению лингвистической информации. Была предпринята попытка преодолеть это с помощью текстового контроля, который требует явного выравнивания, что лишает преимущества использования модели seq2seq. В этой статье представлен голосовой конвертер, использующий многозадачное обучение с преобразованием текста в речь. Прост...

Атаки "черного ящика" на автоматическую проверку говорящего с помощью преобразования голоса с обратной связью

Системы автоматической проверки диктора (ASV) на практике очень уязвимы к атакам подмены. Новейшие технологии преобразования голоса позволяют воспроизводить естественную для восприятия речь, имитирующую речь любого целевого носителя. Однако для того, чтобы обмануть систему ASV, может быть недостаточно точности восприятия личности говорящего. В этой работе мы предлагаем структуру, которая использует выходные данные системы ASV в качестве обратной связи с системой преобразования голоса. Платформа attacker framework - это черный ящик злоумышленника, который крадет голосовую идентификацию пользова...

Taco-VC: Преобразование голоса на базе Tacotron с одним говорящим и ограниченным объемом данных

В этой статье представлена Taco-VC, новая архитектура преобразования голоса, основанная на синтезаторе Tacotron, которая представляет собой модель последовательного преобразования голоса с учетом внимания. Обучение систем преобразования голоса с несколькими динамиками требует большого объема ресурсов, как в плане обучения, так и в плане размера корпуса. Taco-VC реализован с использованием синтезатора Tacotron с одним говорящим, основанного на фонетических апостериограммах (PPG), и вокодера Wavenet с одним говорящим, основанного на спектрограммах Mel. Для повышения качества преобразованной речи...

Модульная нейронная сеть с языковыми выходными слоями для межъязыкового преобразования голоса

В этой статье представлена система межъязыкового преобразования голоса, использующая модульную нейронную сеть. Модульная нейронная сеть имеет общую структуру ввода, которая используется совместно для обоих языков, и два отдельных выходных модуля, по одному для каждого языка. Идея продиктована тем фактом, что фонетические системы языков схожи, поскольку у людей общая система воспроизведения голоса, но акустические способы передачи, такие как просодия и фонотаксика, сильно различаются от языка к языку. Модульная нейронная сеть обучена сопоставлять фонетическую апостериограмму (PPG) с акустически...

Преобразование голоса "многие ко многим" с использованием согласованного по циклу вариационного автоэнкодера с несколькими декодерами

Одним из препятствий при преобразовании голоса "многие ко многим" является необходимость параллельного обучения данным, которые содержат пары высказываний с одинаковым лингвистическим содержанием, произносимых разными носителями языка. Поскольку сбор таких параллельных данных является очень дорогостоящей задачей, во многих работах предпринимались попытки использовать непараллельные обучающие данные для преобразования голоса "многие ко многим". Одним из таких подходов является использование вариационного автоэнкодера (VAE). Несмотря на то, что он может выполнять преобразование голоса "многие ко...

Межъязыковое преобразование голоса на основе DNN с использованием функций "узкого места"

Преобразование голоса на разных языках является довольно сложной задачей, поскольку говорящие на разных языках говорят на разных языках. В этой статье предлагается платформа для преобразования голоса на разных языках, основанная на функциях "узких мест" и глубокой нейронной сети (DNN).). В предлагаемом методе признаки узких мест, извлеченные из глубокого автоэнкодера (DAE), используются для представления не зависящих от говорящего особенностей речевых сигналов с разных языков. Модель DNN обучается для определения соответствия между признаками узких мест и соответствующими спектральными характе...

Однократное преобразование голоса путем разделения представлений диктора и контента с нормализацией экземпляра

Недавно преобразование голоса без параллельных данных было успешно адаптировано к многоцелевому сценарию, в котором одна модель обучается преобразованию вводимого голоса для множества различных говорящих. Однако такая модель страдает тем ограничением, что она может преобразовывать голос только дикторов в обучающих данных, что сужает применимый сценарий преобразования голоса. В этой статье мы предложили новый подход к однократному преобразованию голоса, который позволяет выполнять преобразование голоса только с помощью примера произнесения от исходного и целевого диктора соответственно, при это...

V2S attack: построение преобразования голоса на основе DNN автоматической проверки говорящего

В этой статье представлена новая атака на имитацию голоса с использованием преобразования голоса. Регистрация личных голосов для автоматической проверки говорящего (ASV) предлагает естественные и гибкие системы биометрической аутентификации. В основном, системы ASV не включают голосовые данные пользователей. Однако, если система ASV неожиданно обнаруживается и взламывается злоумышленником, существует риск того, что злоумышленник будет использовать методы преобразования голоса для воспроизведения голосов зарегистрированных пользователей. Мы называем это атакой от проверки к синтезу (V2S)" и пре...