Атаки "черного ящика" на автоматическую проверку говорящего с помощью преобразования голоса с обратной связью

Системы автоматической проверки диктора (ASV) на практике очень уязвимы к атакам подмены. Новейшие технологии преобразования голоса позволяют воспроизводить естественную для восприятия речь, имитирующую речь любого целевого носителя. Однако для того, чтобы обмануть систему ASV, может быть недостаточно точности восприятия личности говорящего. В этой работе мы предлагаем структуру, которая использует выходные данные системы ASV в качестве обратной связи с системой преобразования голоса. Платформа attacker framework - это черный ящик злоумышленника, который крадет голосовую идентификацию пользова...

Taco-VC: Преобразование голоса на базе Tacotron с одним говорящим и ограниченным объемом данных

В этой статье представлена Taco-VC, новая архитектура преобразования голоса, основанная на синтезаторе Tacotron, которая представляет собой модель последовательного преобразования голоса с учетом внимания. Обучение систем преобразования голоса с несколькими динамиками требует большого объема ресурсов, как в плане обучения, так и в плане размера корпуса. Taco-VC реализован с использованием синтезатора Tacotron с одним говорящим, основанного на фонетических апостериограммах (PPG), и вокодера Wavenet с одним говорящим, основанного на спектрограммах Mel. Для повышения качества преобразованной речи...

На пути к детальному управлению просодией для преобразования голоса

В типичной системе преобразования голоса в предыдущих работах использовались различные акустические характеристики (например, высота тона, озвученный/невокализованный флаг, непериодичность) исходной речи для управления просодией генерируемого сигнала. Однако просодия зависит от многих факторов, таких как интонация, ударение и ритм. Точное описание просодии с помощью акустических характеристик - непростая задача. Чтобы решить эту проблему, мы предлагаем встроенные функции просодии для моделирования просодии. Эти вставки извлекаются из исходной речи неконтролируемым образом. Мы проводим эксперим...

SoftGAN: Эффективное изучение генеративных моделей с помощью CycleGAN преобразования голоса

Преобразование голоса с помощью глубоких нейронных сетей стало чрезвычайно популярным за последние несколько лет благодаря усовершенствованиям по сравнению с предыдущими архитектурами преобразования голоса. В частности, архитектуры GAN, такие как CycleGAN и VAEGAN, предоставляют возможность изучать преобразование голоса из непараллельных баз данных. Однако методы, основанные на GAN, крайне нестабильны, часто требуют тщательной настройки гиперпараметров и могут привести к плохому преобразованию голосовой идентификации и существенному ухудшению качества преобразованного речевого сигнала. В этой ...

Модульная нейронная сеть с языковыми выходными слоями для межъязыкового преобразования голоса

В этой статье представлена система межъязыкового преобразования голоса, использующая модульную нейронную сеть. Модульная нейронная сеть имеет общую структуру ввода, которая используется совместно для обоих языков, и два отдельных выходных модуля, по одному для каждого языка. Идея продиктована тем фактом, что фонетические системы языков схожи, поскольку у людей общая система воспроизведения голоса, но акустические способы передачи, такие как просодия и фонотаксика, сильно различаются от языка к языку. Модульная нейронная сеть обучена сопоставлять фонетическую апостериограмму (PPG) с акустически...

Полууправляемое преобразование голоса с амортизированным вариационным выводом

В этой работе мы представляем полууправляемый подход к задаче преобразования голоса, при котором речь от исходного диктора преобразуется в речь от целевого диктора. Предлагаемый метод использует как параллельные, так и непараллельные высказывания от исходного и целевого одновременно во время обучения. Этот подход может быть использован для расширения существующих систем параллельного преобразования речевых данных таким образом, чтобы их можно было обучать с полуавтоматическим контролем. Мы показываем, что включение режима полунаблюдения повышает эффективность преобразования голоса по сравнению...

Неконтролируемое преобразование певческого голоса

Мы представляем метод глубокого обучения для преобразования голоса певца. Предлагаемая сеть не зависит от текста или нот и напрямую преобразует аудио одного певца в голос другого. Обучение проводится без какого-либо контроля: никаких текстов или каких-либо фонетических особенностей, никаких нот и совпадающих сэмплов между певцами. Предлагаемая сеть использует единый кодер CNN для всех исполнителей, единый декодер WaveNet и классификатор, который обеспечивает независимое от певца скрытое представление. Каждый исполнитель представлен одним вектором встраивания, к которому привязан декодер. Чтобы...

AdaGAN: Адаптивный GAN для непараллельного преобразования голоса "многие ко многим"

Преобразование голоса - это задача преобразования воспринимаемой идентичности говорящего от исходного к определенному целевому. Более ранние подходы, описанные в литературе, в основном заключаются в сопоставлении между заданными парами исходного и целевого говорящих. Разработка методов сопоставления для преобразования голоса "многие ко многим" с использованием непараллельных данных, включая обучение с нуля, остается менее изученной областью в преобразовании голоса. Большинство архитектур преобразования голоса "многие ко многим" требуют обучающих данных от всех целевых носителей, для которых мы...

Преобразование голоса WaveNet без вокодера с использованием непараллельных данных

В типичной системе преобразования голоса вокодер обычно используется для преобразования речи в признаки и синтеза признаков в речь. Однако вокодер может быть источником ухудшения качества речи. В этой статье представлен подход к преобразованию голоса без использования вокодера с использованием вейвлета для непараллельных обучающих данных. Вместо того, чтобы работать с промежуточными функциями, предлагаемый подход использует WaveNet для непосредственного сопоставления фонетических апостериорограмм (PPG) с образцами формы сигнала. Таким образом, мы избегаем ошибок оценки, вызванных вокодером и п...

Преобразование голоса "многие ко многим" с использованием согласованного по циклу вариационного автоэнкодера с несколькими декодерами

Одним из препятствий при преобразовании голоса "многие ко многим" является необходимость параллельного обучения данным, которые содержат пары высказываний с одинаковым лингвистическим содержанием, произносимых разными носителями языка. Поскольку сбор таких параллельных данных является очень дорогостоящей задачей, во многих работах предпринимались попытки использовать непараллельные обучающие данные для преобразования голоса "многие ко многим". Одним из таких подходов является использование вариационного автоэнкодера (VAE). Несмотря на то, что он может выполнять преобразование голоса "многие ко...