Полууправляемое преобразование голоса с амортизированным вариационным выводом

В этой работе мы представляем полууправляемый подход к задаче преобразования голоса, при котором речь от исходного диктора преобразуется в речь от целевого диктора. Предлагаемый метод использует как параллельные, так и непараллельные высказывания от исходного и целевого одновременно во время обучения. Этот подход может быть использован для расширения существующих систем параллельного преобразования речевых данных таким образом, чтобы их можно было обучать с полуавтоматическим контролем. Мы показываем, что включение режима полунаблюдения повышает эффективность преобразования голоса по сравнению с обучением под полным наблюдением, когда количество параллельных произнесений ограничено, как во многих практических приложениях. Кроме того, мы обнаружили, что увеличение количества непараллельных высказываний, используемых при обучении, продолжает повышать производительность при сохранении постоянного объема данных параллельного обучения.

Вывод

Мы предложили новый полууправляемый метод преобразования голоса с использованием как параллельных, так и непараллельных данных. Этот метод использует оба типа данных одновременно во время обучения, оптимизируя вариационную задачу, определенную для парных и непарных высказываний. Когда доступно лишь небольшое количество параллельных высказываний, мы показываем, что включение этого метода в существующую модель нейронной сети повышает точность и качество восприятия преобразованного голоса по сравнению с обучением под наблюдением. Мы также обнаружили, что увеличение объема непараллельных данных продолжает улучшать преобразование голоса. Это открывает возможность обучения систем преобразования голоса с помощью более гибких наборов данных, состоящих из смешанных параллельных и непараллельных данных.

Источник