Автокодеры с противоборствующим обучением для преобразования голоса без использования параллельных данных

Мы представляем метод преобразования голоса между несколькими говорящими. Наш метод основан на обучении нескольких путей автоэнкодирования, где имеется один кодер, независимый от говорящего, и несколько декодеров, зависящих от говорящего. Автоэнкодеры обучаются с добавлением потерь при столкновении, которые обеспечиваются вспомогательным классификатором, чтобы выходные данные кодера были независимыми от диктора. Обучение модели проходит без контроля в том смысле, что для этого не требуется собирать одинаковые высказывания от говорящих и не требуется время на согласование фонем. Благодаря использованию одного кодировщика, наш метод может быть обобщен для преобразования голоса дикторов, не прошедших обучение, в голоса дикторов из набора обучающих данных. Мы представляем субъективные тесты, подтверждающие эффективность нашего метода.

Обсуждение

Мы представили метод преобразования голоса с использованием нейронных сетей, обученных на непараллельных данных. Метод основан на обучении нескольких путей автоэнкодирования, где имеется один кодер, независимый от диктора, и несколько декодеров, зависящих от диктора. Пути автоэнкодера обучены таким образом, чтобы свести к минимуму ошибку восстановления и издержки, связанные с тем, что выходные данные кодера не содержат никакой информации об идентификаторе говорящего. Обучение не контролируется в том смысле, что нам не требуется параллельный набор речевых данных от говорящих. Мы проверили наш метод на подгруппе дикторов из набора данных VCTK. С качественной точки зрения мы видим, что преобразованные спектрограммы содержат характеристики спектрограмм целевого диктора. Результаты субъективных тестов подтверждают эффективность преобразования голоса нашим алгоритмом. Хотя наш алгоритм может преобразовать голос диктора-источника в направлении цели, мы видим, что восстановленный звук содержит некоторые искажения. Работа по устранению этих искажений продолжается.

Источник