Оценка защиты конфиденциальности на основе преобразования голоса от информированных злоумышленников

Речевые данные передают важные атрибуты говорящего, такие как личность или акцент. При небольшом количестве найденных данных такие атрибуты могут быть выведены и использованы в злонамеренных целях: клонировании голоса, подделке и т.д. Цель анонимизации - сделать данные несвязываемыми, то есть гарантировать, что ни одно высказывание не может быть связано с его первоначальным носителем. В этой статье мы исследуем методы анонимизации, основанные на преобразовании голоса. В отличие от предыдущих работ, мы утверждаем, что различные атаки на привязку могут быть разработаны в зависимости от знаний злоумышленников о схеме анонимизации. Мы сравниваем два метода преобразования, основанных на искажении частоты, и метод, основанный на глубоком обучении, в трех сценариях атаки. Полезность преобразованной речи измеряется с помощью частоты ошибок в словах, достигаемой с помощью автоматического распознавания речи, в то время как защита конфиденциальности оценивается по увеличению такой же частоты ошибок, достигаемому с помощью современной проверки диктора на основе i-vector или x-vector. Наши результаты показывают, что схемы преобразования голоса не способны эффективно защитить от злоумышленника, обладающего обширными знаниями о типе преобразования и способах его применения, но могут обеспечить некоторую защиту от менее осведомленных злоумышленников.

Заключение и дальнейшая работа

Мы исследовали использование методов преобразования голоса для защиты конфиденциальности говорящих путем сокрытия их личности. Мы формально определили стратегии выбора целевых говорящих и сценарии атак на основе связей, основываясь на знаниях злоумышленника. Наши экспериментальные результаты показывают, что оба аспекта играют важную роль в надежности защиты. Простые методы, такие как преобразование голоса на основе VTLN, с соответствующей стратегией выбора цели могут обеспечить разумную защиту от атак с использованием связей с частичной информацией.

Наша характеристика стратегий и сценариев атак открывает несколько направлений для будущих исследований. Чтобы повысить естественность преобразованной речи, мы можем изучить внутригендерное преобразование голоса, а также использовать контролируемый фонетический классификатор в VTLN. Мы также планируем провести эксперименты с более широким кругом злоумышленников и использовать стандартные локальные и глобальные показатели несвязанности для точной оценки защиты конфиденциальности в различных сценариях. В более общем плане, разработка преобразования с сохранением конфиденциальности, которое приводит к значительному совпадению подлинных и поддельных распределений даже в сценарии осознанной атаки, остается открытым вопросом. В случае неразборчивых представлений это требует предотвращения любой утечки личных атрибутов во вложения контента.

Источник