Blow: одномасштабный гиперкондиционный поток для непараллельного преобразования голоса в формате raw-audio

Сквозные модели для генерации необработанного звука представляют собой сложную задачу, особенно если им приходится работать с непараллельными данными, что является желательной настройкой во многих ситуациях. Преобразование голоса, при котором модель должна выдавать себя за диктора в записи, является одной из таких ситуаций. В этой статье, приведенной ниже, мы предлагаем одномасштабный нормализующий поток с использованием гиперсетевого кондиционирования для выполнения преобразования голоса "многие ко многим" между необработанными аудио. Blow обучается от начала до конца, с использованием непараллельных данных, покадрово, используя один идентификатор говорящего. Мы показываем, что Blow выгодно отличается от существующих потоковых архитектур и других конкурирующих базовых решений, обеспечивая равную или лучшую производительность как по объективным, так и по субъективным оценкам. Далее мы оцениваем влияние его основных компонентов с помощью исследования абляции и определяем количественно ряд свойств, таких как необходимый объем обучающих данных или предпочтения в отношении источника или целевой аудитории.

Вывод

В этой работе мы раскрываем потенциал потоковых генерирующих моделей для синтеза необработанного звука и, в частности, для решения сложной задачи непараллельного преобразования голоса. Ниже мы предлагаем одномасштабный гиперусловленный поток, который имеет многоблочную структуру с общими вложениями и выполняет преобразование в прямом и обратном порядке. Поскольку Blow в этих аспектах отличается от существующих моделей генерации, основанных на потоках, он способен превосходить их и конкурировать с существующими системами непараллельного преобразования голоса или даже улучшать их. Мы также количественно оцениваем влияние предлагаемых улучшений и оцениваем влияние, которое объем обучающих данных и выбор источника/целевого говорящего могут оказать на конечный результат. В рамках будущей работы мы хотим усовершенствовать модель, чтобы посмотреть, сможем ли мы справиться с другими задачами, такими как улучшение речи или преобразование инструментов, возможно, путем дальнейшего совершенствования механизма гиперкондиционирования или просто путем настройки его структуры или гиперпараметров.

Источник