Blow: одномасштабный гиперкондиционный поток для непараллельного преобразования голоса в формате raw-audio

Сквозные модели для генерации необработанного звука представляют собой сложную задачу, особенно если им приходится работать с непараллельными данными, что является желательной настройкой во многих ситуациях. Преобразование голоса, при котором модель должна выдавать себя за диктора в записи, является одной из таких ситуаций. В этой статье, приведенной ниже, мы предлагаем одномасштабный нормализующий поток с использованием гиперсетевого кондиционирования для выполнения преобразования голоса "многие ко многим" между необработанными аудио. Blow обучается от начала до конца, с использованием непара...

Преобразование шепотного голоса в гортанный с помощью генеративных состязательных сетей

Большинство методов восстановления голоса у пациентов, страдающих афонией, позволяют говорить шепотом или монотонно. Помимо разборчивости, этому типу речи не хватает выразительности и естественности из-за отсутствия тембра (речь шепотом) или его искусственного создания (монотонная речь). Существующие методы восстановления просодической информации обычно сочетают вокодер, который параметризует речевой сигнал, с методами машинного обучения, которые предсказывают просодическую информацию. В отличие от этого, в этой статье описывается комплексный нейронный подход к оценке формы сигнала полностью о...