Атаки "черного ящика" на автоматическую проверку говорящего с помощью преобразования голоса с обратной связью

Системы автоматической проверки диктора (ASV) на практике очень уязвимы к атакам подмены. Новейшие технологии преобразования голоса позволяют воспроизводить естественную для восприятия речь, имитирующую речь любого целевого носителя. Однако для того, чтобы обмануть систему ASV, может быть недостаточно точности восприятия личности говорящего. В этой работе мы предлагаем структуру, которая использует выходные данные системы ASV в качестве обратной связи с системой преобразования голоса. Платформа attacker framework - это черный ящик злоумышленника, который крадет голосовую идентификацию пользователя, поскольку для этого не требуется никаких знаний о системе ASV, кроме выходных данных системы. Результаты экспериментов, проведенных на базе данных ASVspoof 2019, подтверждают, что предлагаемая система преобразования голоса с обратной связью, контролируемая обратной связью, создает состязательные образцы, которые являются более обманчивыми, чем простое преобразование голоса, тем самым повышая показатели ASV самозванцев. Кроме того, исследования по оценке восприятия показывают, что преобразованная речь не оказывает отрицательного влияния на качество передачи голоса по сравнению с базовой системой.

Выводы

В этой работе мы изучаем атаки с использованием "черного ящика" на системы ASV с системой преобразования голоса, управляемой обратной связью. Хотя уязвимость традиционных атак с использованием спуфинга для ASV была установлена, атаки с использованием "черного ящика" для машинного обучения представляют большую угрозу. Мы используем выходы системы ASV в качестве обратной связи, чтобы повысить обманчивость преобразованного голоса. Исследования, проведенные на ASVspoof corpus 2019, показывают, что предлагаемая система преобразования голоса, управляемая обратной связью, способна повысить баллы ASV преобразованного голоса, что делает ее более обманчивой для аутентификации целевых носителей. Более того, согласно субъективным результатам тестирования, мы обнаружили, что преобразование голоса, управляемое обратной связью, сохраняет производительность с точки зрения качества речи и сходства говорящих в сгенерированной речи.

Источник