Эмоциональное преобразование голоса, или эмоциональный VC, - это техника преобразования речи из одного эмоционального состояния в другое с сохранением основной лингвистической информации и идентичности говорящего. Предыдущие подходы к преобразованию эмоционального голоса требовали параллельных данных и использовали метод динамического выравнивания времени (DTW) для временного выравнивания параметров речи источника и цели. Эти подходы часто определяют минимальные потери генерации в качестве целевой функции, такой как потери L1 или L2, для изучения параметров модели. Недавно для непараллельного преобразования голоса успешно использовались циклически согласованные генерирующие состязательные сети (CycleGAN). В данной статье исследуется эффективность использования CycleGAN для задач преобразования эмоционального голоса. Вместо того, чтобы пытаться изучить сопоставление между параллельными обучающими данными с использованием минимальной потери генерации от кадра к кадру, CycleGAN использует два дискриминатора и один классификатор для управления процессом обучения, где дискриминаторы нацелены на различение естественной и преобразованной речи, а классификатор нацелен на классификацию лежащих в основе эмоций от естественной и преобразованной речи. Процесс обучения моделей CycleGAN случайным образом сопоставляет речевые параметры источника и цели без какой-либо операции временного выравнивания. Результаты объективной и субъективной оценки подтверждают эффективность использования моделей CycleGAN для преобразования эмоционального голоса. Непараллельное обучение циклогану указывает на его потенциал для непараллельного преобразования эмоционального голоса.
Выводы
В данной статье исследуется эффективность использования CycleGAN для задач преобразования эмоционального голоса. Вместо того, чтобы пытаться изучить сопоставление между параллельными обучающими данными с использованием минимальной потери генерации от кадра к кадру, CycleGAN использует два дискриминатора и один классификатор для управления процессом обучения, где дискриминаторы нацелены на различение естественной и преобразованной речи, а классификатор нацелен на классификацию лежащих в основе эмоций от естественной и преобразованной речи. Процесс обучения моделей CycleGAN случайным образом сопоставляет речевые параметры источника и цели, таким образом, процесс DTW не требуется. Результаты объективной и субъективной оценки подтверждают эффективность использования моделей CycleGAN для преобразования эмоционального голоса. Подводя итог, можно сказать, что преимущества, предлагаемые моделью CycleGAN, включают (i) использование потерь GAN вместо минимальных потерь при генерации, (ii) избавление от ошибок согласования источника и цели и (iii) гибкое непараллельное обучение и т.д. Непараллельный процесс обучения также указывает на потенциал использования непараллельных эмоциональных речевых данных для разработки систем преобразования эмоционального голоса, что станет нашей будущей работой.