Преобразование голоса "многие ко многим" с поддержкой дикторов вне набора данных

Мы представляем основанный на Cycle-GAN метод преобразования голоса "многие ко многим", который позволяет осуществлять преобразование между говорящими, которых нет в обучающем наборе. Это свойство включается с помощью встроенных говорящих, генерируемых нейронной сетью, которая обучается совместно с Cycle-GAN. В отличие от предыдущих работ в этой области, наш метод позволяет осуществлять преобразование между носителем языка, не имеющим доступа к набору данных, и целевым носителем языка в любом направлении и не требует переобучения. Качество преобразования говорящих вне набора данных оценивается с помощью независимо обученной модели идентификации говорящих и показывает хорошие характеристики преобразования стиля для ранее не слышанных говорящих. Субъективные тесты на слушателях-людях показывают, что качество преобразования стиля для говорящих в наборе данных сопоставимо с современной базовой моделью.

Обсуждение

В этой статье мы описываем непараллельный, практически бесконтрольный метод преобразования голоса на основе циклического GAN, который позволяет выполнять преобразования между дикторами, на которых модель никогда не обучалась. Это возможно благодаря уникальному блоку извлечения функций, который позволяет встраивать дикторов в новых дикторов. Субъективные тесты показывают, что качество преобразования голоса сопоставимо с современным уровнем техники, который позволяет выполнять преобразования только в наборе данных. Качество преобразования предложенной модели вне набора данных сравнивается с качеством преобразования в наборе данных с использованием количественного метода, основанного на модели идентификации говорящего, прошедшей независимое обучение. Будущая работа включает в себя повышение естественности преобразованной речи за счет использования вокодера и улучшение качества преобразования вне набора данных путем обучения на большем наборе носителей, чтобы повысить обобщающие возможности средства извлечения признаков.

Источник