Мы представляем конкурс Voice Conversion Challenge 2018, разработанный в дополнение к выпуску 2016 года с целью обеспечения общей основы для оценки и сравнения различных современных систем преобразования голоса. Цель задания состояла в том, чтобы выполнить преобразование голоса (т.е. преобразовать голосовую идентификацию) исходного носителя в целевой, сохранив при этом лингвистическую информацию. В дополнение к предыдущему заданию мы рассматривали как параллельные, так и непараллельные данные для формирования задач Hub и Spoke соответственно. В общей сложности 23 команды со всего мира представили свои системы, 11 из них дополнительно участвовали в факультативном задании по разговорной речи. Затем была проведена масштабная краудсорсинговая оценка восприятия, чтобы оценить представленный преобразованный голос с точки зрения естественности и сходства с личностью говорящего. В этой статье мы представляем краткое изложение современных методов преобразования голоса, за которыми следует подробное объяснение сложных задач и полученных результатов.
Вывод
В этом документе представлено второе издание the Voice Conversion Challenge (VCC 2018), которое продолжает тенденцию создания общей основы для разработки и оценки систем преобразования голоса. В этом испытании мы увидели невероятный прогресс, достигнутый в этой области с появлением новых парадигм генерации речи, таких как Wavenet, демонстрирующих возможности, позволяющие воспроизводить преобразованный голос с качеством, близким к естественной речи. В ходе теста на прослушивание мы заметили, что одна из представленных систем преобразования голоса достигла замечательных результатов. Эта система получила в среднем 4,1 балла по пятибалльной шкале оценки качества, и около 80% преобразованных ею речевых образцов были оценены слушателями как такие же, как у целевых ораторов. Мы рассматриваем результаты VCC 2018 как потенциальный сдвиг парадигмы в этой области, который убедит команды по всему миру рассмотреть эти новые подходы. Все данные об обучении и оценке, предоставленные участникам, материалы, представленные самими участниками, а также результаты тестов на аудирование находятся в открытом и постоянном доступе в Эдинбургском информационном центре.