Преобразование голоса с использованием сверточных нейронных сетей

Слуховая система человека способна различать голос тысяч говорящих, однако не так много известно о том, какие функции слуховая система использует для этого. Преобразование Фурье способно улавливать высоту звука и гармоническую структуру говорящего, но одного этого недостаточно для однозначной идентификации говорящих. Оставшаяся структура, часто называемая тембром, имеет решающее значение для идентификации говорящих, но мы мало что поняли в ней. В этой статье мы используем последние достижения в области нейронных сетей для того, чтобы манипулировать голосом одного говорящего, преобразуя не толь...