Многоцелевое преобразование эмоционального голоса с помощью нейронных вокодеров
Преобразование эмоционального голоса (EVC) - это один из способов создания выразительной синтетической речи. Предыдущие подходы в основном были сосредоточены на моделировании взаимно однозначного отображения, т.е. перехода из одного эмоционального состояния в другое эмоциональное состояние, с помощью мелкополосных вокодеров. В этой статье мы исследуем построение многоцелевой архитектуры EVC (MTEVC), которая сочетает в себе модель преобразования на основе глубокой двунаправленной долговременной памяти (DBLSTM) и нейронный вокодер. Фонетические апостериограммы (PPG), содержащие богатую лингвисти...