MoEVC: Система преобразования голоса, созданная экспертами, с механизмом разреженного стробирования для ускорения онлайн-вычислений

Благодаря последним достижениям в области технологий глубокого обучения производительность преобразования голоса с точки зрения качества и сходства была значительно улучшена. Однако для систем преобразования голоса на основе глубокого обучения, как правило, требуются большие объемы вычислений, что может привести к значительным задержкам и, таким образом, ограничить их применение в реальных приложениях. Поэтому повышение эффективности онлайн-вычислений стало важной задачей. В этом исследовании мы предлагаем новую систему преобразования голоса, основанную на сотрудничестве экспертов (MoE). Модель MoE использует механизм стробирования для задания оптимальных весовых коэффициентов для карт объектов, чтобы повысить эффективность преобразования голоса. Кроме того, назначение разреженных ограничений для механизма стробирования может ускорить оперативные вычисления, пропуская процесс свертки и обнуляя избыточные карты объектов. Результаты экспериментов показывают, что, задавая подходящие ограничения по разреженности, мы можем эффективно повысить эффективность онлайн-вычислений с заметным сокращением числа операций с плавающей запятой в секунду на 70%, одновременно улучшая производительность преобразования голоса как при объективной оценке, так и при тестировании на слух человека.

Вывод

Основной вклад этого исследования состоит в двух аспектах. Во-первых, мы подтвердили эффективность внедрения модели DeepMoEs для ускорения онлайн-вычислений в задаче преобразования голоса. Основываясь на наших экспериментальных результатах, предложенная система MoEVC может сократить количество сбоев более чем на 70% без ущерба для качества преобразованного голоса и даже повысить его с точки зрения естественности и сходства преобразованного голоса. Во-вторых, мы показываем, что MOSNet можно использовать в качестве эффективного средства объективной оценки на основе обучения для решения задачи преобразования голоса. Поскольку проведение обширных тестов на слух у человека было затруднительно, мы решили использовать MOSNet для прогнозирования показателей MOS. Кроме того, мы подтвердили, что прогнозируемые показатели соответствуют результатам тестов на слух у человека. Надеемся, что результаты этого исследования помогут в разработке методов сжатия моделей и ускорения онлайн-вычислений для преобразования голоса. В будущем мы протестируем совместимость MoEVC с передовыми системами вокодирования и алгоритмами обучения.

Источник