Измерение эффективности преобразования голоса в системах идентификации говорящего и автоматического распознавания речи
В данной статье оценивается эффективность преобразования голоса на основе Cycle-GAN для четырех систем идентификации говорящих (SID) и автоматизированной системы распознавания речи (ASR) для различных целей. Аудиосэмплы, преобразованные с помощью модели voice converter, классифицируются сторонними системами как целевые с точностью до 46% и входят в топ-1 среди более чем 250 говорящих. Этот обнадеживающий результат в имитации целевых стилей побудил нас исследовать, можно ли использовать преобразованные (синтетические) образцы для улучшения обучения ASR. К сожалению, добавление синтетических дан...