Межъязыковое преобразование голоса на основе DNN с использованием функций "узкого места"

Преобразование голоса на разных языках является довольно сложной задачей, поскольку говорящие на разных языках говорят на разных языках. В этой статье предлагается платформа для преобразования голоса на разных языках, основанная на функциях "узких мест" и глубокой нейронной сети (DNN).). В предлагаемом методе признаки узких мест, извлеченные из глубокого автоэнкодера (DAE), используются для представления не зависящих от говорящего особенностей речевых сигналов с разных языков. Модель DNN обучается для определения соответствия между признаками узких мест и соответствующими спектральными характеристиками целевого говорящего. Предлагаемый метод позволяет фиксировать специфические характеристики говорящего на целевом языке и, следовательно, не требует речевых данных от исходного носителя во время обучения. Эффективность предлагаемого метода оценивается с использованием данных трех индийских языков: телугу, тамильского и малаялама. Экспериментальные результаты показывают, что предложенный метод превосходит базовый подход к межъязыковому преобразованию голоса, основанный на модели гауссовой смеси (GMM).

Резюме и заключение

В этой статье мы представили основанный на DAE подход к межъязыковому преобразованию голоса, который позволяет улавливать специфические характеристики целевого носителя. DAE обучается на основе данных от нескольких носителей, чтобы изучать представления, не зависящие от носителя. Несмотря на то, что для обучения DAE используются данные только с одного языка, кодировщик надежно работает на акустически более близких языках. Чтобы построить модель преобразования голоса для данного целевого носителя, сначала MGCC передаются через кодировщик для определения характеристик узких мест. Затем DNN обучается предсказывать MGCC целевого говорящего по признакам узких мест. Предлагаемый подход не требует данных от исходного говорящего и позволяет сопоставлять спектральные характеристики любого произвольного исходного говорящего с акустическим пространством целевого говорящего. Следовательно, предлагаемый метод можно рассматривать как метод отображения “многие к одному”. Эффективность систем межъязыкового преобразования голоса оценивается с использованием трех акустически схожих индийских языков. Результаты субъективной оценки подтверждают, что как качество, так и сходство с целевым носителем преобразованной речи с помощью предлагаемой системы межъязыкового преобразования голоса намного лучше, чем у базовой системы межъязыкового преобразования голоса на базе GMM. В будущем мы планируем использовать предложенный метод межъязыкового преобразования голоса для разработки полиглотской системы SPSS для индийских языков.

Источник