Преобразование голоса "Многие ко многим" с использованием состязательных сетей, согласованных по условному циклу

Преобразование голоса (VC) относится к преобразованию характеристик говорящего при произнесении без изменения его лингвистического содержания. Многие работы по преобразованию голоса требуют наличия данных для параллельного обучения, приобретение которых является очень дорогостоящим. Недавно для преобразования голоса была применена циклически согласованная состязательная сеть (CycleGAN), которая не требует параллельного обучения данных, что демонстрирует самую современную производительность. Однако преобразование голоса на основе CycleGAN может использоваться только для пары говорящих, т.е. пре...

Преобразование голоса "многие ко многим" с использованием согласованного по циклу вариационного автоэнкодера с несколькими декодерами

Одним из препятствий при преобразовании голоса "многие ко многим" является необходимость параллельного обучения данным, которые содержат пары высказываний с одинаковым лингвистическим содержанием, произносимых разными носителями языка. Поскольку сбор таких параллельных данных является очень дорогостоящей задачей, во многих работах предпринимались попытки использовать непараллельные обучающие данные для преобразования голоса "многие ко многим". Одним из таких подходов является использование вариационного автоэнкодера (VAE). Несмотря на то, что он может выполнять преобразование голоса "многие ко...