Мы предлагаем гибкую платформу для спектрального преобразования (SC), которая облегчает обучение с использованием невыровненных корпусов. Многие платформы SC требуют параллельных корпусов, фонетических выравниваний или явного соответствия по фреймам для изучения функций преобразования голоса с помощью выравниваний. Однако эти требования серьезно ограничивают область практического применения SC из-за нехватки или даже отсутствия параллельных корпусов. Мы предлагаем платформу SC, основанную на вариационном автокодировщике, которая позволяет нам использовать непараллельные корпуса. Фреймворк включает в себя кодер, который изучает фонетические представления, не зависящие от говорящего, и декодер, который учится восстанавливать заданный голос. Это устраняет необходимость в параллельных корпусах или фонетических выравниваниях для обучения системы спектрального преобразования. Мы сообщаем об объективных и субъективных оценках, чтобы подтвердить правильность нашего предложенного метода и сравнить его с методами SC, которые имеют доступ к согласованным корпусам.
Выводы
В этой статье мы представили систему SC, основанную на ценностях, которая способна использовать несогласованные данные. Это была попытка провести обучение без необходимости явного согласования. Объективные и субъективные оценки подтвердили его способность преобразовывать голос, а производительность предложенного метода сопоставима с базовыми системами, которые имеют доступ к согласованным данным. Мы продолжим улучшать его производительность, исследовать его способность адаптировать преобразование голоса "многие ко многим" и распространить его на большее количество задач.