Преобразование голоса с помощью каскадного автоматического распознавания речи и преобразования текста в речь с передачей просодии

С развитием технологий автоматического распознавания речи (ASR) и синтеза текста в речь (TTS) стало интуитивно понятно построить систему преобразования голоса путем каскадного подключения систем ASR и TTS. В этой статье мы представляем метод ASR-TTS для преобразования голоса, в котором используется механизм iFLYTEK ASR для преобразования исходной речи в текст и модель Transformer TTS с вокодером WaveNet для синтеза преобразованной речи из декодированного текста. Для модели TTS мы предложили использовать код просодии для описания просодической информации, отличной от текста и информации о дикто...

Последовательное акустическое моделирование для преобразования голоса

В этой статье представлена нейронная сеть под названием Sequence-to-sequence ConvErsion NeTwork (SCENT) для акустического моделирования в преобразовании голоса. На этапе обучения модель SCENT оценивается путем неявного сопоставления последовательностей признаков исходного и целевого говорящих, используя механизм внимания. На этапе преобразования акустические характеристики и длительность исходных звуков преобразуются одновременно с использованием единой акустической модели. В качестве акустических характеристик используются спектрограммы в масштабе Mel, которые содержат описания речевых сигнал...