Эмоциональное преобразование голоса с помощью многозадачного обучения с преобразованием текста в речь

Преобразование голоса - это задача преобразовать голос человека в другой стиль, сохранив при этом лингвистическое содержание. Предыдущее современное решение по преобразованию голоса основано на модели "последовательность в последовательность" (seq2seq), которая могла привести к искажению лингвистической информации. Была предпринята попытка преодолеть это с помощью текстового контроля, который требует явного выравнивания, что лишает преимущества использования модели seq2seq. В этой статье представлен голосовой конвертер, использующий многозадачное обучение с преобразованием текста в речь. Прост...