В этой статье мы представляем новую технику непараллельного преобразования голоса с использованием спектрального моделирования на основе циклического вариационного автоэнкодера (CycleVAE). В рамках вариационного автоэнкодера (VAE) скрытое пространство, обычно с гауссовым априором, используется для кодирования набора входных признаков. При голосовом преобразовании на основе VAE закодированные скрытые характеристики передаются в декодер вместе с характеристиками, кодирующими диктора, для генерации оценочных спектров либо с исходной идентификацией диктора (восстановленной), либо с другой идентификацией диктора (преобразованной). Из-за непараллельного моделирования преобразованные спектры не могут быть оптимизированы напрямую, что значительно снижает производительность преобразования голоса на основе VAE. В этой работе, чтобы преодолеть эту проблему, мы предлагаем использовать спектральную модель на основе CycleVAE, которая косвенно оптимизирует процесс преобразования, возвращая преобразованные объекты обратно в систему для получения соответствующих циклически восстановленных спектров, которые могут быть оптимизированы напрямую. Циклический поток можно продолжить, используя циклически восстановленные объекты в качестве входных данных для следующего цикла. Экспериментальные результаты демонстрируют эффективность предложенного преобразования голоса на основе CycleVAE, которое обеспечивает более высокую точность преобразованных спектров, генерирует скрытые признаки с более высокой степенью корреляции и значительно улучшает качество и точность преобразования голоса.
Выводы
Мы представили новую структуру, позволяющую усовершенствовать обычные VAE для непараллельного преобразования голоса, используя последовательный по циклам поток, т.е. предлагаемый CycleVAE. В частности, преобразованные спектры, которые не оптимизированы напрямую, возвращаются обратно в систему для генерации циклически восстановленных спектров, которые могут быть оптимизированы напрямую. Циклический поток можно продолжить, вернув циклически восстановленные объекты обратно в систему. Экспериментальные результаты демонстрируют, что предложенное циклическое преобразование голоса обеспечивает более высокую степень корреляции скрытых признаков и более точные преобразованные спектры, при этом значительно улучшая качество и точность преобразования преобразованной речи. Будущая работа включает в себя разработку преобразования голоса "многие ко многим" и включает в себя использование дискретного скрытого пространства, улучшенного априора, i-вектора, дополнительной сети классификаторов и генератора нейронных сигналов для получения естественно звучащей преобразованной речи с помощью предлагаемого CycleVAE.