Бесконтрольное сквозное изучение отдельных языковых единиц для преобразования голоса

Мы представляем неконтролируемую сквозную схему обучения, в которой мы извлекаем отдельные подсловные единицы из речи без использования каких-либо меток. Отдельные подсловные единицы запоминаются с помощью настройки восстановления автоэнкодера ASR-TTS, при которой ASR-кодер обучается обнаруживать набор общих языковых единиц для различных носителей языка, а TTS-декодер обучается проецировать обнаруженные единицы обратно в заданную речь. Мы предлагаем метод дискретного кодирования, многометровые двоичные векторы (MBV), чтобы сделать автоэнкодер ASR-TTS дифференцируемым. Мы обнаружили, что предло...