Blow: одномасштабный гиперкондиционный поток для непараллельного преобразования голоса в формате raw-audio

Метки: 2019 | Carlos Segura | Joan Serrà | Santiago Pascual

Сквозные модели для генерации необработанного звука представляют собой сложную задачу, особенно если им приходится работать с непараллельными данными, что является желательной настройкой во многих ситуациях. Преобразование голоса, при котором модель должна выдавать себя за диктора в записи, является одной из таких ситуаций. В этой статье, приведенной ниже, мы предлагаем одномасштабный нормализующий поток с использованием гиперсетевого кондиционирования для выполнения преобразования голоса "многие ко многим" между необработанными аудио. Blow обучается от начала до конца, с использованием непара...

Преобразование шепотного голоса в гортанный с помощью генеративных состязательных сетей

Преобразование голоса

Категории: Генеративно-состязательная сеть | Глубокое обучение | Состязательное обучение

Метки: 2018 | Antonio Bonafonte | Joan Serrà | Jose A. Gonzalez | Santiago Pascual

Большинство методов восстановления голоса у пациентов, страдающих афонией, позволяют говорить шепотом или монотонно. Помимо разборчивости, этому типу речи не хватает выразительности и естественности из-за отсутствия тембра (речь шепотом) или его искусственного создания (монотонная речь). Существующие методы восстановления просодической информации обычно сочетают вокодер, который параметризует речевой сигнал, с методами машинного обучения, которые предсказывают просодическую информацию. В отличие от этого, в этой статье описывается комплексный нейронный подход к оценке формы сигнала полностью о...

Метка: Joan Serrà