F0-последовательное непараллельное преобразование голоса "многие ко многим" с помощью условного автоэнкодера

Непараллельное преобразование голоса "многие ко многим" остается интересной, но сложной задачей обработки речи. Было предложено множество методов, вдохновленных переносом стилей, таких как генеративные состязательные сети (GAN) и вариационные автоэнкодеры (VAE). Недавно AutoVC, метод, основанный на условных автоэнкодерах (CAE), достиг самых современных результатов, распутав идентификацию говорящего и речевой контент, используя ограничивающие информацию узкие места, и он обеспечивает преобразование с нулевым кадром путем замены встроенного идентификатора другого говорящего для синтеза нового голоса. Однако мы обнаружили, что, хотя личность говорящего отделена от речевого контента, значительное количество просодической информации, такой как источник F0, просачивается через узкое место, заставляя целевой F0 неестественно колебаться. Кроме того, AutoVC не контролирует преобразованное значение F0 и, следовательно, непригоден для многих применений. В статье мы модифицировали и улучшили преобразование голоса на основе автоэнкодера, чтобы одновременно распознавать содержимое, F0 и идентификацию говорящего. Таким образом, мы можем управлять контуром F0, генерировать речь с помощью F0, соответствующей целевому диктору, и значительно улучшить качество и схожесть. Мы поддерживаем наше совершенствование с помощью количественного и качественного анализа.

Вывод

В этой статье мы предложили систему преобразования голоса с учетом F0, которая обновляет предыдущую современную производительность AutoVC, устраняя любые артефакты, связанные с F0. Это экспериментально подтвердило гипотезу о том, что любые обусловленные просодические особенности могут быть выделены из входного речевого сигнала неконтролируемым образом путем правильной настройки ограничивающего информацию узкого места стандартного автоэнкодера. Это могло бы открыть новый путь к более детальному преобразованию голоса за счет управления различными просодическими функциями.

Источник