Речевые данные передают важные атрибуты говорящего, такие как личность или акцент. При небольшом количестве найденных данных такие атрибуты могут быть выведены и использованы в злонамеренных целях: клонировании голоса, подделке и т.д. Цель анонимизации - сделать данные несвязываемыми, то есть гарантировать, что ни одно высказывание не может быть связано с его первоначальным носителем. В этой статье мы исследуем методы анонимизации, основанные на преобразовании голоса. В отличие от предыдущих работ, мы утверждаем, что различные атаки на привязку могут быть разработаны в зависимости от знаний злоумышленников о схеме анонимизации. Мы сравниваем два метода преобразования, основанных на искажении частоты, и метод, основанный на глубоком обучении, в трех сценариях атаки. Полезность преобразованной речи измеряется с помощью частоты ошибок в словах, достигаемой с помощью автоматического распознавания речи, в то время как защита конфиденциальности оценивается по увеличению такой же частоты ошибок, достигаемому с помощью современной проверки диктора на основе i-vector или x-vector. Наши результаты показывают, что схемы преобразования голоса не способны эффективно защитить от злоумышленника, обладающего обширными знаниями о типе преобразования и способах его применения, но могут обеспечить некоторую защиту от менее осведомленных злоумышленников.
Заключение и дальнейшая работа
Мы исследовали использование методов преобразования голоса для защиты конфиденциальности говорящих путем сокрытия их личности. Мы формально определили стратегии выбора целевых говорящих и сценарии атак на основе связей, основываясь на знаниях злоумышленника. Наши экспериментальные результаты показывают, что оба аспекта играют важную роль в надежности защиты. Простые методы, такие как преобразование голоса на основе VTLN, с соответствующей стратегией выбора цели могут обеспечить разумную защиту от атак с использованием связей с частичной информацией.
Наша характеристика стратегий и сценариев атак открывает несколько направлений для будущих исследований. Чтобы повысить естественность преобразованной речи, мы можем изучить внутригендерное преобразование голоса, а также использовать контролируемый фонетический классификатор в VTLN. Мы также планируем провести эксперименты с более широким кругом злоумышленников и использовать стандартные локальные и глобальные показатели несвязанности для точной оценки защиты конфиденциальности в различных сценариях. В более общем плане, разработка преобразования с сохранением конфиденциальности, которое приводит к значительному совпадению подлинных и поддельных распределений даже в сценарии осознанной атаки, остается открытым вопросом. В случае неразборчивых представлений это требует предотвращения любой утечки личных атрибутов во вложения контента.