Мы предлагаем Cotatron, кодировщик речи с управлением транскрипцией для лингвистического представления, независимого от говорящего. Cosatron основан на архитектуре TTS с несколькими динамиками и может быть обучен с использованием обычных наборов данных TTS. Мы обучаем систему преобразования голоса восстанавливать речь с помощью функций Cotatron, что аналогично предыдущим методам, основанным на фонетической апостериограмме (PPG). Обучив и оценив нашу систему на 108 дикторах из набора данных VCTK, мы превзошли предыдущий метод как по естественности, так и по сходству дикторов. Наша система также может преобразовывать речь дикторов, которые невидимы во время обучения, и использовать ASR для автоматизации транскрипции с минимальным снижением производительности. Аудиосэмплы доступны по адресу https://mindslab-ai.github.io/cotatron , и код с предварительно обученной моделью будет доступен в ближайшее время.
Обсуждение
В этой статье мы предложили Cotatron, кодировщик речи с управлением транскрипцией для лингвистического представления, независимого от говорящего, который основан на архитектуре мультиспикера Tacotron2. Наша система преобразования голоса на базе Cotatron достигает самых современных показателей как с точки зрения естественности, так и сходства дикторов при преобразовании через 108 дикторов из набора данных VCTK и показывает многообещающие результаты при преобразовании от произвольных дикторов. Даже при подаче автоматической транскрипции с ошибками производительность оставалась прежней.
Насколько нам известно, Cotton является первой моделью, которая кодирует лингвистическое представление, не зависящее от говорящего, путем явного согласования транскрипции с заданной речью. Это могло бы открыть новый путь к мультимодальным подходам к задачам обработки речи, где обычно использовалась только речевая модальность. Например, можно рассмотреть возможность обучения системе улучшения речи, управляемой транскрипцией, основанной на функциях Cotatron. Кроме того, традиционные речевые функции, которые использовались для синтеза движений губ, возможно, могут быть заменены функциями Cotatron, чтобы включить транскрипцию для улучшения качества.
Тем не менее, в системе преобразования голоса с помощью Cotton есть много возможностей для улучшения. Несмотря на наш тщательный выбор дизайна, остаточный кодер, по-видимому, предоставляет речевые функции, которые связаны с идентификацией говорящего, что может ухудшить качество преобразования или даже вызвать проблемы с неправильным произношением. Кроме того, методы формирования представления целевого диктора, возможно, могут быть изменены; например, использование предварительно обученной сети верификации дикторов в качестве кодировщика дикторов может обеспечить преобразование любого в любое с помощью нашей системы.