Полууправляемое преобразование голоса с амортизированным вариационным выводом

В этой работе мы представляем полууправляемый подход к задаче преобразования голоса, при котором речь от исходного диктора преобразуется в речь от целевого диктора. Предлагаемый метод использует как параллельные, так и непараллельные высказывания от исходного и целевого одновременно во время обучения. Этот подход может быть использован для расширения существующих систем параллельного преобразования речевых данных таким образом, чтобы их можно было обучать с полуавтоматическим контролем. Мы показываем, что включение режима полунаблюдения повышает эффективность преобразования голоса по сравнению...

Измерение эффективности преобразования голоса в системах идентификации говорящего и автоматического распознавания речи

В данной статье оценивается эффективность преобразования голоса на основе Cycle-GAN для четырех систем идентификации говорящих (SID) и автоматизированной системы распознавания речи (ASR) для различных целей. Аудиосэмплы, преобразованные с помощью модели voice converter, классифицируются сторонними системами как целевые с точностью до 46% и входят в топ-1 среди более чем 250 говорящих. Этот обнадеживающий результат в имитации целевых стилей побудил нас исследовать, можно ли использовать преобразованные (синтетические) образцы для улучшения обучения ASR. К сожалению, добавление синтетических дан...

Автокодеры с противоборствующим обучением для преобразования голоса без использования параллельных данных

Мы представляем метод преобразования голоса между несколькими говорящими. Наш метод основан на обучении нескольких путей автоэнкодирования, где имеется один кодер, независимый от говорящего, и несколько декодеров, зависящих от говорящего. Автоэнкодеры обучаются с добавлением потерь при столкновении, которые обеспечиваются вспомогательным классификатором, чтобы выходные данные кодера были независимыми от диктора. Обучение модели проходит без контроля в том смысле, что для этого не требуется собирать одинаковые высказывания от говорящих и не требуется время на согласование фонем. Благодаря испол...

Преобразование голоса "многие ко многим" с поддержкой дикторов вне набора данных

Мы представляем основанный на Cycle-GAN метод преобразования голоса "многие ко многим", который позволяет осуществлять преобразование между говорящими, которых нет в обучающем наборе. Это свойство включается с помощью встроенных говорящих, генерируемых нейронной сетью, которая обучается совместно с Cycle-GAN. В отличие от предыдущих работ в этой области, наш метод позволяет осуществлять преобразование между носителем языка, не имеющим доступа к набору данных, и целевым носителем языка в любом направлении и не требует переобучения. Качество преобразования говорящих вне набора данных оценивается...