Обучение лифтеров и моделирование поддиапазонов для эффективного с точки зрения вычислений и высококачественного преобразования голоса с использованием спектральных различий

В этой статье мы предлагаем эффективные с точки зрения вычислений и высококачественные методы статистического преобразования голоса (VC) с прямой модификацией формы сигнала на основе спектральных различий. Традиционный метод с фильтром минимальной фазы обеспечивает высококачественное преобразование, но требует больших вычислений при фильтрации. Это связано с тем, что минимальная фаза с использованием фиксированного лифтера в преобразовании Гильберта часто приводит к фильтру с длинным нажатием. Один из наших методов - это метод обучения атлета, основанный на данных. Поскольку этот метод учитыва...

Сквозное преобразование голоса без вокодера с помощью трансформаторной сети

Подходы, основанные на использовании банка частотных фильтров Mel (MFB), имеют преимущество в изучении речи по сравнению с необработанным спектром, поскольку MFB имеет меньший размер элемента. Однако для создания генератора речи с использованием методов MFB требуется дополнительный вокодер, что требует огромных вычислительных затрат для процесса обучения. Дополнительная предварительная/постобработка, такая как MFB и вокодер, не обязательна для преобразования реальной человеческой речи в другие звуки. Можно использовать только необработанный спектр вместе с фазой, чтобы генерировать голоса друг...

Последовательное акустическое моделирование для преобразования голоса

В этой статье представлена нейронная сеть под названием Sequence-to-sequence ConvErsion NeTwork (SCENT) для акустического моделирования в преобразовании голоса. На этапе обучения модель SCENT оценивается путем неявного сопоставления последовательностей признаков исходного и целевого говорящих, используя механизм внимания. На этапе преобразования акустические характеристики и длительность исходных звуков преобразуются одновременно с использованием единой акустической модели. В качестве акустических характеристик используются спектрограммы в масштабе Mel, которые содержат описания речевых сигнал...

Расширение Mel-спектрограммы для преобразования голоса из последовательности в последовательность

При обучении модели преобразования голоса от последовательности к последовательности нам необходимо решить проблему нехватки данных о количестве речевых кортежей, состоящих из одного и того же высказывания. В этом исследовании было проведено экспериментальное исследование влияния расширения Mel-спектрограммы на модель преобразования голоса от последовательности к последовательности. Для расширения Mel-спектрограммы мы применили правила, предложенные в Spec Augment. Кроме того, мы предлагаем новые правила для большего количества вариаций данных. Чтобы найти оптимальные гиперпараметры политик ус...

Непараллельное преобразование голоса из последовательности в последовательность с распутанными языковыми представлениями и представлениями говорящего

В этой статье представлен метод преобразования голоса из последовательности в последовательность (seq2seq) с использованием непараллельных обучающих данных. В этом методе из акустических характеристик извлекаются неразборчивые лингвистические представления и представления говорящего, и преобразование голоса достигается путем сохранения лингвистических представлений исходных высказываний при замене представлений говорящего на целевые. Наша модель построена в рамках нейронных сетей кодирования-декодирования. Кодировщик распознавания предназначен для изучения неразборчивых лингвистических предста...

Эмоциональное преобразование голоса с помощью многозадачного обучения с преобразованием текста в речь

Преобразование голоса - это задача преобразовать голос человека в другой стиль, сохранив при этом лингвистическое содержание. Предыдущее современное решение по преобразованию голоса основано на модели "последовательность в последовательность" (seq2seq), которая могла привести к искажению лингвистической информации. Была предпринята попытка преодолеть это с помощью текстового контроля, который требует явного выравнивания, что лишает преимущества использования модели seq2seq. В этой статье представлен голосовой конвертер, использующий многозадачное обучение с преобразованием текста в речь. Прост...

Атаки "черного ящика" на автоматическую проверку говорящего с помощью преобразования голоса с обратной связью

Системы автоматической проверки диктора (ASV) на практике очень уязвимы к атакам подмены. Новейшие технологии преобразования голоса позволяют воспроизводить естественную для восприятия речь, имитирующую речь любого целевого носителя. Однако для того, чтобы обмануть систему ASV, может быть недостаточно точности восприятия личности говорящего. В этой работе мы предлагаем структуру, которая использует выходные данные системы ASV в качестве обратной связи с системой преобразования голоса. Платформа attacker framework - это черный ящик злоумышленника, который крадет голосовую идентификацию пользова...

Taco-VC: Преобразование голоса на базе Tacotron с одним говорящим и ограниченным объемом данных

В этой статье представлена Taco-VC, новая архитектура преобразования голоса, основанная на синтезаторе Tacotron, которая представляет собой модель последовательного преобразования голоса с учетом внимания. Обучение систем преобразования голоса с несколькими динамиками требует большого объема ресурсов, как в плане обучения, так и в плане размера корпуса. Taco-VC реализован с использованием синтезатора Tacotron с одним говорящим, основанного на фонетических апостериограммах (PPG), и вокодера Wavenet с одним говорящим, основанного на спектрограммах Mel. Для повышения качества преобразованной речи...

Преобразование голоса "многие ко многим" с использованием согласованного по циклу вариационного автоэнкодера с несколькими декодерами

Одним из препятствий при преобразовании голоса "многие ко многим" является необходимость параллельного обучения данным, которые содержат пары высказываний с одинаковым лингвистическим содержанием, произносимых разными носителями языка. Поскольку сбор таких параллельных данных является очень дорогостоящей задачей, во многих работах предпринимались попытки использовать непараллельные обучающие данные для преобразования голоса "многие ко многим". Одним из таких подходов является использование вариационного автоэнкодера (VAE). Несмотря на то, что он может выполнять преобразование голоса "многие ко...

Межъязыковое преобразование голоса на основе DNN с использованием функций "узкого места"

Преобразование голоса на разных языках является довольно сложной задачей, поскольку говорящие на разных языках говорят на разных языках. В этой статье предлагается платформа для преобразования голоса на разных языках, основанная на функциях "узких мест" и глубокой нейронной сети (DNN).). В предлагаемом методе признаки узких мест, извлеченные из глубокого автоэнкодера (DAE), используются для представления не зависящих от говорящего особенностей речевых сигналов с разных языков. Модель DNN обучается для определения соответствия между признаками узких мест и соответствующими спектральными характе...