DurIAN-SC: Система преобразования певческого голоса, основанная на информированной о продолжительности сети внимания

Преобразование певческого голоса - это преобразование тембра исходного пения в голос целевого диктора при сохранении содержания пения неизменным. Однако данные о пении для целевого носителя собрать гораздо сложнее по сравнению с обычными речевыми данными. В этой статье мы представляем алгоритм преобразования певческого голоса, который способен генерировать высококачественное пение целевого говорящего, используя только его / ее обычные речевые данные. Во-первых, нам удается интегрировать процесс обучения и преобразования речи и пения в единую структуру, объединив функции, используемые в стандартной системе синтеза речи и системе синтеза пения. Таким образом, обычные речевые данные также могут способствовать обучению преобразованию певческого голоса, делая систему преобразования певческого голоса более надежной, особенно когда база данных певческого голоса невелика. Более того, для достижения однократного преобразования певческого голоса разработан модуль встраивания дикторов, использующий как речевые, так и певческие данные, который предоставляет информацию об идентификации целевого диктора во время преобразования. Эксперименты показывают, что предлагаемая система преобразования пения может преобразовать исходное пение в высококачественное пение целевого диктора, используя всего 20 секунд речевых данных о регистрации целевого диктора.

Вывод

В этой статье мы предложили модель преобразования певческого голоса DurIAN-SC с унифицированной структурой речевых и певческих данных. Для тех носителей, у которых нет данных о пении, наш метод может преобразовать их подписи, обучив только их речевым данным. С помощью предварительно обученной сети встраивания дикторов мы могли бы преобразовать пение ’невидимых’ дикторов всего за 20 секунд. Эксперименты показывают, что предложенная модель может генерировать высококачественные певческие голоса для встроенных "видимых" целевых дикторов как с точки зрения естественности, так и сходства. В то же время, предлагаемая система также может мгновенно преобразовать в "невидимых" пользователей с небольшим количеством регистрационных данных. В будущей работе мы продолжим делать нашу модель более надежной и улучшим сходство преобразования ’невидимого’ певческого голоса.

Источник