Преобразование голоса WaveNet без вокодера с использованием непараллельных данных

В типичной системе преобразования голоса вокодер обычно используется для преобразования речи в признаки и синтеза признаков в речь. Однако вокодер может быть источником ухудшения качества речи. В этой статье представлен подход к преобразованию голоса без использования вокодера с использованием вейвлета для непараллельных обучающих данных. Вместо того, чтобы работать с промежуточными функциями, предлагаемый подход использует WaveNet для непосредственного сопоставления фонетических апостериорограмм (PPG) с образцами формы сигнала. Таким образом, мы избегаем ошибок оценки, вызванных вокодером и преобразованием объектов. Кроме того, поскольку предполагается, что PPG не зависит от говорящего, предлагаемый метод также уменьшает проблему несоответствия характеристик в подходах, основанных на вокодере WaveNet. Результаты экспериментов, проведенных на базе данных CMU-ARCTIC, показывают, что предлагаемый подход значительно превосходит базовые подходы с точки зрения качества речи.

Выводы

В этой статье представлен подход к преобразованию голоса без использования вокодера с использованием вейвлета для непараллельных данных. Предлагаемый подход не использует функции вокодера для преобразования, что уменьшает проблему несоответствия функций в подходах, основанных на вокодере WaveNet. Результаты экспериментов показывают, что WaveNet-VC значительно превосходит базовые методы по качеству, сохраняя при этом идентичность говорящего.

Источник