Усовершенствованный вокодер WaveNet для преобразования голоса на основе вариационного автоэнкодера

В этой статье представлена усовершенствованная система вокодеров WaveNet для преобразования голоса на основе вариационного автоэнкодера (VAE), которая уменьшает искажение качества, вызванное несоответствием между данными обучения и тестирования. Обычные вокодеры WaveNet обучаются с учетом естественных акустических характеристик, но зависят от преобразованных характеристик на этапе преобразования голоса, и такое несоответствие часто приводит к значительному ухудшению качества и сходства. В этой работе мы используем преимущества особой структуры VAE для усовершенствования вокодеров WaveNet с помощью самовосстанавливающихся объектов, генерируемых VAE, которые имеют характеристики, сходные с преобразованными объектами, и при этом имеют ту же временную структуру, что и целевые природные объекты. Мы анализируем эти характеристики и показываем, что самовосстанавливающиеся характеристики аналогичны преобразованным характеристикам. Объективные и субъективные результаты экспериментов демонстрируют эффективность предложенной нами структуры.

Вывод

В этой работе мы предложили усовершенствованный фреймворк VAE-VC с вокодером WaveNet. Мы используем процедуру самовосстановления в платформе VAE-VC для точной настройки вокодера WaveNet, чтобы устранить проблему снижения производительности, вызванную несоответствием между фазой обучения и фазой преобразования вокодера WaveNet. Результаты оценки показывают эффективность предложенного метода с точки зрения естественности и сходства говорящих. В будущем мы планируем изучить возможность использования функций, восстановленных с помощью VAE, на этапе обучения вокодера WaveNet для нескольких дикторов, чтобы еще больше повысить надежность. Образцы речи доступны по адресу https://unilight.github.io/VAE-WNV-VC-Demo/

Источник