Cotatron: Речевой кодировщик с управлением транскрипцией для преобразования любого голоса во многие без параллельных данных
Мы предлагаем Cotatron, кодировщик речи с управлением транскрипцией для лингвистического представления, независимого от говорящего. Cosatron основан на архитектуре TTS с несколькими динамиками и может быть обучен с использованием обычных наборов данных TTS. Мы обучаем систему преобразования голоса восстанавливать речь с помощью функций Cotatron, что аналогично предыдущим методам, основанным на фонетической апостериограмме (PPG). Обучив и оценив нашу систему на 108 дикторах из набора данных VCTK, мы превзошли предыдущий метод как по естественности, так и по сходству дикторов. Наша система также...