Статистическое преобразование голоса с помощью квазипериодического вокодера WaveNet

В этой статье мы исследуем эффективность квазипериодического вокодера WaveNet (QPNet) в сочетании с методом статистического спектрального преобразования для задачи преобразования голоса. Вокодер WaveNet (WN) применяется в качестве модуля генерации сигналов во многих различных системах преобразования голоса и обеспечивает значительное улучшение по сравнению с обычными вокодерами. Однако из-за фиксированной расширенной свертки и общей сетевой архитектуры вокодер WN не обладает достаточной устойчивостью к невидимым функциям ввода и часто требует большого размера сети для достижения приемлемого качества речи. Такие ограничения обычно приводят к снижению производительности в задаче преобразования голоса. Для решения этой проблемы используется вокодер QPNet, который включает в себя компонент расширенной свертки, зависящий от высоты тона, для улучшения управляемости высотой тона и создания более компактной сети, чем вокодер WN. В предлагаемом способе входные спектральные характеристики сначала преобразуются с использованием покадровой глубокой нейронной сети, а затем вокодер QPNet генерирует преобразованную речь, обусловленную линейно преобразованными просодическими и преобразованными спектральными характеристиками. Результаты экспериментов подтверждают, что вокодер QPNet обеспечивает значительно лучшую производительность, чем вокодер WN того же размера, при сохранении качества речи, сравнимого с вокодером WN двойного размера.

Выводы

В этой статье мы исследовали характеристики преобразования голоса вокодером QP Net по сравнению с полноразмерными и компактными вокодерами WN и традиционным вокодером WORLD. Входными данными каждого вокодера являются спектральные характеристики, преобразованные с помощью покадровой модели DNN-VC, и просодические характеристики с линейным преобразованием. Кроме того, мы также оценили эффективность двух методов адаптации дикторов для вокодеров на основе SDN. Как объективные, так и субъективные оценки подтвердили эффективность технологии адаптации дикторов и вокодера QPNet, который использует преимущества расширенной свертки, зависящей от высоты звука, для достижения лучшей управляемости высотой звука и качества, сравнимого с вокодером WN, при вдвое меньшем размере сети. В будущих работах мы рассмотрим различные комбинации зависящих от высоты тона и фиксированных расширенных извилин для достижения оптимальной производительности.

Источник