Защита вашего голоса: состязательная атака на преобразование голоса

В последние годы были достигнуты существенные улучшения в преобразовании голоса, которое преобразует характеристики диктора в характеристики другого диктора без изменения лингвистического содержания высказывания. Тем не менее, усовершенствованные технологии преобразования также привели к проблемам конфиденциальности и аутентификации. Таким образом, становится очень желательным иметь возможность предотвратить неправильное использование своего голоса с помощью таких технологий преобразования голоса. Вот почему мы сообщаем в этой статье о первой известной попытке выполнить состязательную атаку на...

Ритмично-гибкое преобразование голоса без параллельных данных с использованием циклических последовательностей фонемных апостериограмм

Скорость произнесения относится к среднему количеству фонем за единицу времени, в то время как ритмические паттерны относятся к распределению длительности для реализации разных фонем в разных фонетических структурах. И то, и другое является ключевыми компонентами просодии в речи, которая отличается у разных носителей языка. Такие модели, как cycle-consistent adversarial network (Cycle-GAN) и variational auto-encoder (VAE), успешно применяются для решения задач преобразования голоса без параллельных данных. Однако из-за архитектуры нейронных сетей и векторов характеристик, выбранных для этих по...

Многоцелевое преобразование голоса без параллельных данных за счет состязательного изучения разрозненных звуковых представлений

Недавно cycle-consistent adversarial network (Cycle-GAN) была успешно применена для преобразования голоса в другого диктора без параллельных данных, хотя при таких подходах для каждого целевого диктора требуется индивидуальная модель. В этой статье мы предлагаем систему состязательного обучения для преобразования голоса, с помощью которой можно обучить одну модель преобразовывать голос для множества разных дикторов без параллельных данных, отделяя характеристики диктора от лингвистического содержания речевых сигналов. Сначала автоэнкодер обучается извлекать скрытые представления, не зависящие ...