Совместная обучающая платформа для преобразования текста в речь и преобразования голоса с использованием Tacotron и WaveNet с несколькими источниками

Мы исследовали процесс обучения общей модели как для задач преобразования текста в речь, так и для задач преобразования голоса. Мы предлагаем использовать архитектуру расширенной модели Tacotron, которая представляет собой модель последовательного преобразования из нескольких источников с механизмом двойного внимания, в качестве общей модели как для задач преобразования текста в речь, так и для задач преобразования голоса. Эта модель может выполнять эти две различные задачи соответственно в зависимости от типа входных данных. Задача сквозного синтеза речи выполняется, когда модели в качестве в...

Высококачественное непараллельное преобразование голоса на основе циклически согласованной состязательной сети

Несмотря на то, что алгоритмы преобразования голоса достигли значительных успехов с развитием машинного обучения, по-прежнему трудно достичь высокой производительности при использовании непараллельных данных. В этой статье мы предлагаем использовать циклически согласованную состязательную сеть (CycleGAN) для обучения непараллельному преобразованию голоса на основе данных. CycleGAN - это генеративная состязательная сеть (GAN), изначально разработанная для непарного преобразования изображений в изображения. Субъективная оценка межполовой конверсии показала, что предложенный метод значительно пре...