SoftGAN: Эффективное изучение генеративных моделей с помощью CycleGAN преобразования голоса

Преобразование голоса с помощью глубоких нейронных сетей стало чрезвычайно популярным за последние несколько лет благодаря усовершенствованиям по сравнению с предыдущими архитектурами преобразования голоса. В частности, архитектуры GAN, такие как CycleGAN и VAEGAN, предоставляют возможность изучать преобразование голоса из непараллельных баз данных. Однако методы, основанные на GAN, крайне нестабильны, часто требуют тщательной настройки гиперпараметров и могут привести к плохому преобразованию голосовой идентификации и существенному ухудшению качества преобразованного речевого сигнала. В этой ...

Полууправляемое преобразование голоса с амортизированным вариационным выводом

В этой работе мы представляем полууправляемый подход к задаче преобразования голоса, при котором речь от исходного диктора преобразуется в речь от целевого диктора. Предлагаемый метод использует как параллельные, так и непараллельные высказывания от исходного и целевого одновременно во время обучения. Этот подход может быть использован для расширения существующих систем параллельного преобразования речевых данных таким образом, чтобы их можно было обучать с полуавтоматическим контролем. Мы показываем, что включение режима полунаблюдения повышает эффективность преобразования голоса по сравнению...

Преобразование голоса "многие ко многим" с использованием согласованного по циклу вариационного автоэнкодера с несколькими декодерами

Одним из препятствий при преобразовании голоса "многие ко многим" является необходимость параллельного обучения данным, которые содержат пары высказываний с одинаковым лингвистическим содержанием, произносимых разными носителями языка. Поскольку сбор таких параллельных данных является очень дорогостоящей задачей, во многих работах предпринимались попытки использовать непараллельные обучающие данные для преобразования голоса "многие ко многим". Одним из таких подходов является использование вариационного автоэнкодера (VAE). Несмотря на то, что он может выполнять преобразование голоса "многие ко...

Межъязыковое преобразование голоса на основе DNN с использованием функций "узкого места"

Преобразование голоса на разных языках является довольно сложной задачей, поскольку говорящие на разных языках говорят на разных языках. В этой статье предлагается платформа для преобразования голоса на разных языках, основанная на функциях "узких мест" и глубокой нейронной сети (DNN).). В предлагаемом методе признаки узких мест, извлеченные из глубокого автоэнкодера (DAE), используются для представления не зависящих от говорящего особенностей речевых сигналов с разных языков. Модель DNN обучается для определения соответствия между признаками узких мест и соответствующими спектральными характе...

Статистическое преобразование голоса с помощью квазипериодического вокодера WaveNet

В этой статье мы исследуем эффективность квазипериодического вокодера WaveNet (QPNet) в сочетании с методом статистического спектрального преобразования для задачи преобразования голоса. Вокодер WaveNet (WN) применяется в качестве модуля генерации сигналов во многих различных системах преобразования голоса и обеспечивает значительное улучшение по сравнению с обычными вокодерами. Однако из-за фиксированной расширенной свертки и общей сетевой архитектуры вокодер WN не обладает достаточной устойчивостью к невидимым функциям ввода и часто требует большого размера сети для достижения приемлемого ка...

Усовершенствованный вокодер WaveNet для преобразования голоса на основе вариационного автоэнкодера

В этой статье представлена усовершенствованная система вокодеров WaveNet для преобразования голоса на основе вариационного автоэнкодера (VAE), которая уменьшает искажение качества, вызванное несоответствием между данными обучения и тестирования. Обычные вокодеры WaveNet обучаются с учетом естественных акустических характеристик, но зависят от преобразованных характеристик на этапе преобразования голоса, и такое несоответствие часто приводит к значительному ухудшению качества и сходства. В этой работе мы используем преимущества особой структуры VAE для усовершенствования вокодеров WaveNet с пом...

AUTOVC: передача стиля голоса Zero-Shot с потерей только автоэнкодера

Непараллельное преобразование голоса "многие ко многим", а также преобразование голоса с нулевым кадром остаются недостаточно изученными областями. Алгоритмы глубокой передачи стилей, такие как генеративные состязательные сети (GAN) и условно-вариационный автоэнкодер (CVAE), применяются в качестве новых решений в этой области. Однако обучение стрельбе из пистолета является сложным процессом, и нет убедительных доказательств того, что генерируемая им речь обладает хорошим качеством восприятия. С другой стороны, обучение CVAE является простым, но не обладает свойством сопоставления с распределен...

Автокодеры с противоборствующим обучением для преобразования голоса без использования параллельных данных

Мы представляем метод преобразования голоса между несколькими говорящими. Наш метод основан на обучении нескольких путей автоэнкодирования, где имеется один кодер, независимый от говорящего, и несколько декодеров, зависящих от говорящего. Автоэнкодеры обучаются с добавлением потерь при столкновении, которые обеспечиваются вспомогательным классификатором, чтобы выходные данные кодера были независимыми от диктора. Обучение модели проходит без контроля в том смысле, что для этого не требуется собирать одинаковые высказывания от говорящих и не требуется время на согласование фонем. Благодаря испол...

Преобразование голоса "многие ко многим" с поддержкой дикторов вне набора данных

Мы представляем основанный на Cycle-GAN метод преобразования голоса "многие ко многим", который позволяет осуществлять преобразование между говорящими, которых нет в обучающем наборе. Это свойство включается с помощью встроенных говорящих, генерируемых нейронной сетью, которая обучается совместно с Cycle-GAN. В отличие от предыдущих работ в этой области, наш метод позволяет осуществлять преобразование между носителем языка, не имеющим доступа к набору данных, и целевым носителем языка в любом направлении и не требует переобучения. Качество преобразования говорящих вне набора данных оценивается...

MOSNet: Объективная оценка преобразования голоса на основе глубокого обучения

Существующие объективные показатели оценки преобразования голоса не всегда коррелируют с восприятием человекоа. Поэтому обучение моделям преобразования голоса с использованием таких критериев не может эффективно улучшить естественность и сходство преобразованного голоса. В этой статье мы предлагаем модели оценки, основанные на глубоком обучении, для прогнозирования оценки человеком преобразованного голоса. Мы используем сверточную и рекуррентную модели нейронных сетей для построения прогноза среднего балла мнений (MOS), называемого MOSNet. Предложенные модели протестированы на результатах круп...