Blow: одномасштабный гиперкондиционный поток для непараллельного преобразования голоса в формате raw-audio

Сквозные модели для генерации необработанного звука представляют собой сложную задачу, особенно если им приходится работать с непараллельными данными, что является желательной настройкой во многих ситуациях. Преобразование голоса, при котором модель должна выдавать себя за диктора в записи, является одной из таких ситуаций. В этой статье, приведенной ниже, мы предлагаем одномасштабный нормализующий поток с использованием гиперсетевого кондиционирования для выполнения преобразования голоса "многие ко многим" между необработанными аудио. Blow обучается от начала до конца, с использованием непара...

Однократное преобразование голоса путем разделения представлений диктора и контента с нормализацией экземпляра

Недавно преобразование голоса без параллельных данных было успешно адаптировано к многоцелевому сценарию, в котором одна модель обучается преобразованию вводимого голоса для множества различных говорящих. Однако такая модель страдает тем ограничением, что она может преобразовывать голос только дикторов в обучающих данных, что сужает применимый сценарий преобразования голоса. В этой статье мы предложили новый подход к однократному преобразованию голоса, который позволяет выполнять преобразование голоса только с помощью примера произнесения от исходного и целевого диктора соответственно, при это...

Кросс-модальное преобразование голоса

Люди способны представить себе голос человека по его внешности, а внешность человека - по его голосу. В этой статье мы предпринимаем первую попытку разработать метод, который может преобразовывать речь в голос, соответствующий входному изображению лица, и генерировать изображение лица, соответствующее голосу во входной речи, используя корреляцию между лицами и голосами. Мы предлагаем модель, состоящую из преобразователя речи, кодера/декодера лиц и кодера голоса. Мы используем скрытый код входного изображения лица, закодированного лицевым кодером, в качестве вспомогательного входного сигнала дл...