Обучение представлению неконтролируемых акустических блоков для преобразования голоса с использованием автокодеров WaveNet

В последние годы изучение речи без присмотра представляет большой интерес, что, например, проявляется в широком интересе к задачам ZeroSpeech. В этой работе представлен новый метод обучения представлений уровня кадров на основе автокодеров WaveNet. Особый интерес в конкурсе "ZeroSpeech Challenge 2019" представляли модели с дискретной скрытой переменной, такие как векторно-квантованный вариационный автокодер (VQVAE). Однако эти модели генерируют речь с относительно низким качеством. В этой работе мы стремимся решить эту проблему с помощью двух подходов: во-первых, WaveNet используется в качеств...

Неконтролируемое междоменное преобразование певческого голоса

Мы представляем генерирующую модель wav-to-wav для задачи преобразования певческого голоса из любого идентификатора. Наш метод использует как акустическую модель, обученную для задачи автоматического распознавания речи, так и функции извлечения мелодии для управления генератором на основе формы сигнала. Предлагаемая генеративная архитектура инвариантна к личности говорящего и может быть обучена генерировать целевых исполнителей на основе немаркированных обучающих данных, используя либо речевые, либо певческие источники. Модель оптимизируется сквозным образом без какого-либо ручного контроля, т...

F0-последовательное непараллельное преобразование голоса "многие ко многим" с помощью условного автоэнкодера

Непараллельное преобразование голоса "многие ко многим" остается интересной, но сложной задачей обработки речи. Было предложено множество методов, вдохновленных переносом стилей, таких как генеративные состязательные сети (GAN) и вариационные автоэнкодеры (VAE). Недавно AutoVC, метод, основанный на условных автоэнкодерах (CAE), достиг самых современных результатов, распутав идентификацию говорящего и речевой контент, используя ограничивающие информацию узкие места, и он обеспечивает преобразование с нулевым кадром путем замены встроенного идентификатора другого говорящего для синтеза нового го...

Преобразование певческого голоса с использованием разрозненных представлений о певце и вокальной технике с использованием вариационных автоэнкодеров

Мы предлагаем гибкую структуру, которая работает как с преобразованием голоса певца, так и с преобразованием вокальной техники певцов. Предлагаемая модель разработана на непараллельных корпусах, поддерживает преобразование "многие ко многим" и использует последние достижения вариационных автоэнкодеров. В нем используются отдельные кодеры для изучения скрытых представлений об индивидуальности певца и вокальной технике по отдельности, а для реконструкции используется совместный декодер. Преобразование осуществляется с помощью простой векторной арифметики в изученных скрытых пространствах. Как ко...

Неконтролируемое представление с использованием междоменных функций и состязательного обучения при преобразовании голоса на основе вариационного автоэнкодера

Эффективный подход к преобразованию голоса (VC) заключается в отделении лингвистического контента от других компонентов речевого сигнала. Эффективность VC на основе вариационного автоэнкодера (VAE-VC), например, в значительной степени зависит от этого принципа. В нашей предыдущей работе мы предложили междоменную структуру VAE-VC (CDVAE-VC), которая использовала акустические характеристики с различными свойствами, чтобы улучшить производительность VAE-VC. Мы полагали, что успех был достигнут благодаря более четким скрытым представлениям. В этой статье мы расширяем рамки CDVAE-VC, включая концеп...

MoEVC: Система преобразования голоса, созданная экспертами, с механизмом разреженного стробирования для ускорения онлайн-вычислений

Благодаря последним достижениям в области технологий глубокого обучения производительность преобразования голоса с точки зрения качества и сходства была значительно улучшена. Однако для систем преобразования голоса на основе глубокого обучения, как правило, требуются большие объемы вычислений, что может привести к значительным задержкам и, таким образом, ограничить их применение в реальных приложениях. Поэтому повышение эффективности онлайн-вычислений стало важной задачей. В этом исследовании мы предлагаем новую систему преобразования голоса, основанную на сотрудничестве экспертов (MoE). Модел...

Преобразование голоса "многие ко многим" с использованием согласованного по циклу вариационного автоэнкодера с несколькими декодерами

Одним из препятствий при преобразовании голоса "многие ко многим" является необходимость параллельного обучения данным, которые содержат пары высказываний с одинаковым лингвистическим содержанием, произносимых разными носителями языка. Поскольку сбор таких параллельных данных является очень дорогостоящей задачей, во многих работах предпринимались попытки использовать непараллельные обучающие данные для преобразования голоса "многие ко многим". Одним из таких подходов является использование вариационного автоэнкодера (VAE). Несмотря на то, что он может выполнять преобразование голоса "многие ко...

Межъязыковое преобразование голоса на основе DNN с использованием функций "узкого места"

Преобразование голоса на разных языках является довольно сложной задачей, поскольку говорящие на разных языках говорят на разных языках. В этой статье предлагается платформа для преобразования голоса на разных языках, основанная на функциях "узких мест" и глубокой нейронной сети (DNN).). В предлагаемом методе признаки узких мест, извлеченные из глубокого автоэнкодера (DAE), используются для представления не зависящих от говорящего особенностей речевых сигналов с разных языков. Модель DNN обучается для определения соответствия между признаками узких мест и соответствующими спектральными характе...

Обобщение прямой модификации формы сигнала на основе дифференциала спектра для преобразования голоса

Мы представляем прямую модификацию формы сигнала для преобразования голоса на основе дифференциала спектра (DIFFVC), которая может быть непосредственно применена в качестве модуля генерации формы сигнала к моделям преобразования голоса. Недавно предложенный DIFFVC позволяет избежать использования вокодера, сохраняя при этом богатые спектральные характеристики, что позволяет генерировать преобразованный голос высокого качества. Для применения платформы DIFFVC необходимо предварительно обучить модель, которая может оценивать спектральную разницу по преобразованной входной речи F0. Это требование...

Непараллельное преобразование голоса с помощью циклического вариационного автоэнкодера

В этой статье мы представляем новую технику непараллельного преобразования голоса с использованием спектрального моделирования на основе циклического вариационного автоэнкодера (CycleVAE). В рамках вариационного автоэнкодера (VAE) скрытое пространство, обычно с гауссовым априором, используется для кодирования набора входных признаков. При голосовом преобразовании на основе VAE закодированные скрытые характеристики передаются в декодер вместе с характеристиками, кодирующими диктора, для генерации оценочных спектров либо с исходной идентификацией диктора (восстановленной), либо с другой идентифи...