Преобразование спектра и просодии для эмоционального преобразования голоса с помощью непараллельных обучающих данных
Эмоциональное преобразование голоса заключается в преобразовании спектра и просодии для изменения эмоциональных паттернов речи, сохраняя при этом индивидуальность говорящего и лингвистическое содержание. Во многих исследованиях требуются параллельные речевые данные для различных эмоциональных паттернов, что в реальной жизни практически невозможно. Более того, они часто моделируют преобразование основной частоты (F0) с помощью простого линейного преобразования. Поскольку F0 является ключевым аспектом интонации, который является иерархическим по своей природе, мы считаем, что более адекватным яв...