Преобразование голоса с использованием сверточных нейронных сетей

Слуховая система человека способна различать голос тысяч говорящих, однако не так много известно о том, какие функции слуховая система использует для этого. Преобразование Фурье способно улавливать высоту звука и гармоническую структуру говорящего, но одного этого недостаточно для однозначной идентификации говорящих. Оставшаяся структура, часто называемая тембром, имеет решающее значение для идентификации говорящих, но мы мало что поняли в ней. В этой статье мы используем последние достижения в области нейронных сетей для того, чтобы манипулировать голосом одного говорящего, преобразуя не только его высоту, но и тембр. Мы рассматриваем генеративные модели, построенные с помощью нейронных сетей, а также архитектуры для создания нейронных сетей, которые изучают аналогии. Наши предварительные результаты преобразования голоса от одного говорящего к другому обнадеживают.

Вывод

Мы начали с разработки алгоритмов для преобразования голоса. Наши алгоритмы смогли создать речь, которая иногда звучала бы так же, как и у целевого говорящего, но над этим еще предстоит поработать. Обучение генеративных состязательных сетей на практике оказалось очень сложным делом, и потребуется больше времени, чтобы понять, как наилучшим образом оптимизировать разработанную здесь модель условной генеративной состязательной сети.

Источник