Преобразование голоса "многие ко многим" с использованием согласованного по циклу вариационного автоэнкодера с несколькими декодерами

Одним из препятствий при преобразовании голоса "многие ко многим" является необходимость параллельного обучения данным, которые содержат пары высказываний с одинаковым лингвистическим содержанием, произносимых разными носителями языка. Поскольку сбор таких параллельных данных является очень дорогостоящей задачей, во многих работах предпринимались попытки использовать непараллельные обучающие данные для преобразования голоса "многие ко многим". Одним из таких подходов является использование вариационного автоэнкодера (VAE). Несмотря на то, что он может выполнять преобразование голоса "многие ко многим" без параллельного обучения, методы преобразования голоса, основанные на VAE, страдают низким качеством звучания преобразованной речи. Одна из основных причин заключается в том, что VAE запоминает только путь самовосстановления. Путь преобразования вообще не обучается. В этой статье мы предлагаем снизить согласованность циклов для VAE, чтобы явно изучить путь преобразования. Кроме того, мы предлагаем использовать несколько декодеров для дальнейшего улучшения качества звучания традиционных методов преобразования голоса на основе VAE. Эффективность предлагаемого метода подтверждена с помощью объективных и субъективных оценок.

Вывод

В этой статье мы предложили новые методы преобразования голоса "многие ко многим", основанные на VAE. Предлагаемые методы используют несколько декодеров и явно определяют путь преобразования для преобразования голоса "многие ко многим". Эффективность предложенных методов была подтверждена с помощью объективных и субъективных оценок.

Предлагаемые методы могут быть дополнительно расширены за счет использования нескольких кодеров, т.е. по одному кодеру на каждый диктор-источник. Кроме того, еще одним направлением будущих исследований может стать замена вокодера мощными нейронными вокодерами, такими как WaveNet или WaveRNN.

Источник