Обзор преобразования голоса и связанных с ним проблем: от статистического моделирования до глубокого обучения

Идентичность говорящего - одна из важных характеристик человеческой речи. При преобразовании голоса мы меняем личность говорящего с одного на другой, сохраняя при этом лингвистическое содержание неизменным. Преобразование голоса включает в себя множество методов обработки речи, таких как анализ речи, спектральное преобразование, преобразование просодии, определение характеристик говорящего и вокодирование. Благодаря последним достижениям в теории и практике, мы теперь можем воспроизводить голос, похожий на человеческий, с высокой степенью сходства с динамиками. В этой статье мы предоставляем всесторонний обзор современных методов преобразования голоса и методов оценки их эффективности на основе статистических подходов к глубокому обучению, а также обсуждаем их перспективы и ограничения. Мы также сообщим о недавних проблемах преобразования голоса (VCC), производительности текущего состояния технологий и предоставим краткое описание доступных ресурсов для исследований преобразования голоса.

Вывод

В этой статье представлен всесторонний обзор технологии преобразования голоса, охватывающий основы и практику до июля 2020 года. Мы раскрываем лежащие в основе технологии и их взаимосвязь со статистическими подходами к глубокому обучению, а также обсуждаем их перспективы и ограничения. Мы также изучаем методы оценки преобразования голоса. Кроме того, мы сообщаем о ряде проблем с преобразованием голоса и ресурсах, которые являются полезной информацией для исследователей и инженеров, чтобы начать исследования по преобразованию голоса.

Источник