На пути к детальному управлению просодией для преобразования голоса

В типичной системе преобразования голоса в предыдущих работах использовались различные акустические характеристики (например, высота тона, озвученный/невокализованный флаг, непериодичность) исходной речи для управления просодией генерируемого сигнала. Однако просодия зависит от многих факторов, таких как интонация, ударение и ритм. Точное описание просодии с помощью акустических характеристик - непростая задача. Чтобы решить эту проблему, мы предлагаем встроенные функции просодии для моделирования просодии. Эти вставки извлекаются из исходной речи неконтролируемым образом. Мы проводим эксперим...