Задача преобразования голоса 2020: внутриязыковое полупараллельное и межъязыковое преобразование голоса

Задача преобразования голоса - это двухлетнее научное мероприятие, проводимое для сравнения и понимания различных систем преобразования голоса, построенных на общем наборе данных. В 2020 году мы организовали третье издание задачи и создали и распространили новую базу данных для двух задач: внутриязыкового полупараллельного и межъязыкового преобразования голоса. После двухмесячного периода испытаний мы получили 33 заявки, в том числе 3 базовых уровня, построенных на базе данных. По результатам тестов на прослушивание из краудсорсинга мы заметили, что методы преобразования голоса быстро прогрессировали благодаря передовым методам глубокого обучения. В частности, оценки сходства дикторов нескольких систем оказались такими же высокими, как и у целевых дикторов в задаче внутриязыкового полупараллельного преобразования голоса. Однако мы подтвердили, что ни один из них еще не достиг естественности человеческого уровня для выполнения той же задачи. Задача межъязыковой конверсии, как и ожидалось, является более сложной задачей, и общие оценки естественности и сходства были ниже, чем для задачи внутриязыковой конверсии. Тем не менее, мы наблюдали обнадеживающие результаты, и оценки MOS лучших систем были выше 4.0. Мы также показываем несколько дополнительных результатов анализа, чтобы помочь лучше понять межъязыковое преобразование голоса .

Выводы

Задача преобразования голоса - это двухлетнее научное мероприятие, проводимое для сравнения и понимания различных систем преобразования голоса, построенных на общем наборе данных. В 2020 году мы организовали третье издание задачи и создали и распространили новую базу данных для двух задач: внутриязыкового полупараллельного и межъязыкового преобразования голоса. Участникам было дано два месяца и две недели на создание систем преобразования голоса, и мы получили в общей сложности 33 заявки, включая 3 базовых уровня, построенных на базе данных. Из результатов тестов на прослушивание из краудсорсинга мы увидели, что методы преобразования голоса быстро прогрессировали благодаря передовым методам глубокого обучения. В частности, оценки сходства дикторов нескольких систем оказались такими же высокими, как и у целевых дикторов в задаче внутриязыкового полупараллельного преобразования голоса. Однако мы подтвердили, что ни один из них еще не достиг естественности человеческого уровня для выполнения той же задачи. Задача межъязыковой конверсии, как и ожидалось, является более сложной задачей, и общие оценки естественности и сходства были ниже, чем задача внутриязыковой конверсии. Тем не менее, мы наблюдали обнадеживающие результаты, и оценки MOS лучших систем были выше 4.0.

Мы также предоставили несколько дополнительных результатов анализа, чтобы помочь лучше понять межъязыковое преобразование голоса. Мы попытались ответить на три вопроса и показали свои идеи: 1) Оценивают ли японские слушатели естественность и сходство дикторов так же, как и английские испытуемые? 2) Оценивают ли испытуемые сходство говорящих по-разному, когда они слушают эталонный звук на языке L2? и 3) Влияет ли на межъязыковую производительность преобразования голоса язык целевых дикторов? Эти идеи могут помочь нам улучшить и оценить межъязыковое преобразование голоса в будущем.

Источник