Модульная нейронная сеть с языковыми выходными слоями для межъязыкового преобразования голоса

В этой статье представлена система межъязыкового преобразования голоса, использующая модульную нейронную сеть. Модульная нейронная сеть имеет общую структуру ввода, которая используется совместно для обоих языков, и два отдельных выходных модуля, по одному для каждого языка. Идея продиктована тем фактом, что фонетические системы языков схожи, поскольку у людей общая система воспроизведения голоса, но акустические способы передачи, такие как просодия и фонотаксика, сильно различаются от языка к языку. Модульная нейронная сеть обучена сопоставлять фонетическую апостериограмму (PPG) с акустическими характеристиками нескольких говорящих. Для генерации желаемого голоса используется i-вектор говорящего. Мы проверили соответствие английского и китайского языков в объективных и субъективных тестах. Кроме того, предлагается смешанный PPG, основанный на унифицированной англо-мандаринской акустической модели, для сбора лингвистической информации с обоих языков. Было обнаружено, что предложенная нами модульная нейронная сеть значительно превосходит базовые подходы с точки зрения качества речи и индивидуальности говорящего, а смешанное представление PPG еще больше повышает эффективность преобразования.

Вывод

В этой статье мы предложили систему межъязыкового преобразования голоса, основанную на модульной нейронной сети с использованием смешанного языка PPG. Благодаря использованию общего модуля ввода, который не зависит от языка, и декомпозиции выходных модулей в зависимости от языка, сеть является надежной для моделирования выходных акустических характеристик на разных языках. В то же время, смешанный PPG, извлеченный из унифицированной англо-мандаринской акустической модели, также обеспечивает точное лингвистическое представление для повышения качества преобразования. Результаты экспериментов успешно демонстрируют, что предложенные нами подходы превосходят базовые как по качеству речи, так и по сходству говорящих.

Источник