AllVoxes | Преобразование спектра и просодии для эмоционального преобразования голоса с помощью непараллельных обучающих данных

Эмоциональное преобразование голоса заключается в преобразовании спектра и просодии для изменения эмоциональных паттернов речи, сохраняя при этом индивидуальность говорящего и лингвистическое содержание. Во многих исследованиях требуются параллельные речевые данные для различных эмоциональных паттернов, что в реальной жизни практически невозможно. Более того, они часто моделируют преобразование основной частоты (F0) с помощью простого линейного преобразования. Поскольку F0 является ключевым аспектом интонации, который является иерархическим по своей природе, мы считаем, что более адекватным является моделирование F0 в различных временных масштабах с использованием вейвлет-преобразования. Мы предлагаем сеть CycleGAN для поиска оптимальной псевдопары из непараллельных обучающих данных путем одновременного изучения прямого и обратного отображений с использованием состязательности и потери согласованности циклов. Мы также изучаем использование непрерывного вейвлет-преобразования (CWT) для разложения F0 на десять временных шкал, которые описывают речевую просодию с различным временным разрешением, для эффективного преобразования F0. Экспериментальные результаты показывают, что предложенная нами структура превосходит базовые показатели как в объективных, так и в субъективных оценках.

Вывод

В этой статье мы предлагаем высококачественную систему преобразования эмоционального голоса без использования параллельных данных. Мы выполняем преобразование спектра и просодии, основанное на CycleGAN. Мы предлагаем нелинейный метод, который использует CWT для разложения F0 на различные временные шкалы. Более того, мы также изучаем совместную и раздельную тренировку CycleGAN для преобразования спектра и просодии. Мы наблюдаем, что раздельная тренировка спектра и просодии может обеспечить лучшую производительность, чем совместная тренировка, с точки зрения сходства эмоций. Экспериментальные результаты показывают, что предложенная нами система преобразования эмоционального голоса может обеспечить более высокую производительность, чем базовая, без необходимости параллельного обучения данным.

Источник