MOSNet: Объективная оценка преобразования голоса на основе глубокого обучения

Существующие объективные показатели оценки преобразования голоса не всегда коррелируют с восприятием человекоа. Поэтому обучение моделям преобразования голоса с использованием таких критериев не может эффективно улучшить естественность и сходство преобразованного голоса. В этой статье мы предлагаем модели оценки, основанные на глубоком обучении, для прогнозирования оценки человеком преобразованного голоса. Мы используем сверточную и рекуррентную модели нейронных сетей для построения прогноза среднего балла мнений (MOS), называемого MOSNet. Предложенные модели протестированы на результатах крупномасштабных тестов на прослушивание в рамках конкурса Voice Conversion Challenge (VCC) 2018. Экспериментальные результаты показывают, что прогнозируемые баллы предложенной MOSNet сильно коррелируют с оценками MOS человека на системном уровне, в то же время они достаточно хорошо коррелируют с оценками MOS человека на уровне высказывания. Тем временем мы модифицировали MOSNet для прогнозирования оценок сходства, и предварительные результаты показывают, что прогнозируемые оценки также в значительной степени коррелируют с оценками людей. Эти результаты подтверждают, что предложенные модели могут быть использованы в качестве вычислительного средства оценки для измерения MOS систем преобразования голоса, чтобы уменьшить необходимость в дорогостоящей оценке человека.

Выводы

В этом документе представлена основанная на глубоком обучении модель оценки качества для задачи преобразования голоса, называемая MOSNet. Основываясь на результатах широкомасштабной оценки MOS-восприятия человека, проведенной в рамках VCC 2018, наши экспериментальные результаты показывают, что MOSNet дает прогнозы с высокой корреляцией с оценками человека на системном уровне и справедливой корреляцией на уровне высказывания. Мы продемонстрировали неплохую способность MOSNet к обобщению, применив модель, разработанную на основе данных VCC за 2018 год, к данным VCC за 2016 год. Более того, с небольшими изменениями MOSNet может точно предсказать показатели сходства преобразованного голоса с целевым голосом. Насколько нам известно, предлагаемая MOSNet является первой комплексной моделью объективной оценки речи для преобразования голоса. В будущем мы рассмотрим теорию человеческого восприятия и улучшим архитектуру модели и целевую функцию MOSNet, чтобы добиться лучшей корреляции с человеческими оценками.

Источник