Преобразование спектра и просодии для межъязыкового преобразования голоса с помощью CycleGAN

Межъязыковое преобразование голоса направлено на изменение голоса говорящего источника, чтобы он звучал так же, как у целевого говорящего, когда исходные и целевые говорящие говорят на разных языках. Он основан на непараллельных данных обучения с двух разных языков, следовательно, является более сложным, чем преобразование голоса на одном языке. Предыдущие исследования по межъязыковому преобразованию голоса в основном фокусировались на спектральном преобразовании с линейным преобразованием для передачи F0. Однако, как важный просодический фактор, F0 по своей сути является иерархическим, поэтому недостаточно просто использовать линейный метод для преобразования. Мы предлагаем использовать декомпозицию непрерывного вейвлет-преобразования (CWT) для моделирования F0. CWT предоставляет способ разложения сигнала на различные временные шкалы, которые объясняют просодию в разных временных разрешениях. Мы также предлагаем обучить два конвейера CycleGAN для отображения спектра и просодии соответственно. Таким образом, мы устраняем необходимость в параллельных данных любых двух языков и любых методах выравнивания. Экспериментальные результаты показывают, что предложенная нами структура Спектра-просодии-CycleGAN превосходит базовую модель Спектра-CycleGAN в субъективной оценке. Насколько нам известно, это первое исследование просодии при межъязыковом преобразовании голоса.

Вывод

В этой статье мы предлагаем новую систему межъязыкового преобразования голоса без параллельных данных. Мы преобразуем спектр и просодию на основе CycleGAN с непараллельным и ограниченным объемом обучающих данных. Кроме того, мы также предлагаем нелинейный метод, который использует CWT для описания просодии в разных временных масштабах для преобразования голоса на разных языках. Экспериментальные результаты показывают эффективность предложенной нами структуры с точки зрения качества голоса и сходства между говорящими.

Источник