Методы преобразования голоса (VC) направлены на изменение идентичности говорящего высказывания при сохранении лежащей в его основе лингвистической информации. Большинство подходов преобразования голоса игнорируют моделирование стиля речи (например, эмоции и акцент), который может содержать факторы, намеренно добавленные говорящим, и должен быть сохранен во время преобразования. Это исследование предлагает основанный на последовательности непараллельный подход преобразования голоса, который имеет возможность передачи стиля речи от исходной речи к преобразованной речи путем явного моделирования. Объективная оценка и субъективные тесты на прослушивание показывают превосходство предложенного преобразования голоса подхода с точки зрения естественности речи и сходства говорящего с преобразованной речью. Кроме того, проводятся эксперименты, демонстрирующие переносимость исходного стиля у предложенного подхода.
Выводы
В этом исследовании мы представили подход для переносимости исходного стиля при непараллельном преобразовании голоса. Мы включили модуль ритма в модель преобразования голоса от последовательности к последовательности, что приводит к PER 5,6% в преобразованной речи. Субъективные тесты на прослушивание также показали свое превосходство в производительности преобразования голоса с точки зрения естественности речи и сходства говорящего с преобразованной речью. Мы применили GST кодирование для вывода исходной/ориентировочной речи. Экспериментальные результаты подтверждают переносимость исходного стиля у предложенного подхода. Это исследование является первоначальной попыткой смоделировать стиль речи для преобразования голоса. Наша будущая работа включает распутывание стиля речи, лингвистической информации и идентичности говорящего в подходе без учителя.