Неконтролируемое междоменное преобразование певческого голоса

Мы представляем генерирующую модель wav-to-wav для задачи преобразования певческого голоса из любого идентификатора. Наш метод использует как акустическую модель, обученную для задачи автоматического распознавания речи, так и функции извлечения мелодии для управления генератором на основе формы сигнала. Предлагаемая генеративная архитектура инвариантна к личности говорящего и может быть обучена генерировать целевых исполнителей на основе немаркированных обучающих данных, используя либо речевые, либо певческие источники. Модель оптимизируется сквозным образом без какого-либо ручного контроля, т...

Неконтролируемое преобразование певческого голоса

Мы представляем метод глубокого обучения для преобразования голоса певца. Предлагаемая сеть не зависит от текста или нот и напрямую преобразует аудио одного певца в голос другого. Обучение проводится без какого-либо контроля: никаких текстов или каких-либо фонетических особенностей, никаких нот и совпадающих сэмплов между певцами. Предлагаемая сеть использует единый кодер CNN для всех исполнителей, единый декодер WaveNet и классификатор, который обеспечивает независимое от певца скрытое представление. Каждый исполнитель представлен одним вектором встраивания, к которому привязан декодер. Чтобы...