Обучение представлению неконтролируемых акустических блоков для преобразования голоса с использованием автокодеров WaveNet

В последние годы изучение речи без присмотра представляет большой интерес, что, например, проявляется в широком интересе к задачам ZeroSpeech. В этой работе представлен новый метод обучения представлений уровня кадров на основе автокодеров WaveNet. Особый интерес в конкурсе "ZeroSpeech Challenge 2019" представляли модели с дискретной скрытой переменной, такие как векторно-квантованный вариационный автокодер (VQVAE). Однако эти модели генерируют речь с относительно низким качеством. В этой работе мы стремимся решить эту проблему с помощью двух подходов: во-первых, WaveNet используется в качеств...

Неконтролируемое междоменное преобразование певческого голоса

Мы представляем генерирующую модель wav-to-wav для задачи преобразования певческого голоса из любого идентификатора. Наш метод использует как акустическую модель, обученную для задачи автоматического распознавания речи, так и функции извлечения мелодии для управления генератором на основе формы сигнала. Предлагаемая генеративная архитектура инвариантна к личности говорящего и может быть обучена генерировать целевых исполнителей на основе немаркированных обучающих данных, используя либо речевые, либо певческие источники. Модель оптимизируется сквозным образом без какого-либо ручного контроля, т...

F0-последовательное непараллельное преобразование голоса "многие ко многим" с помощью условного автоэнкодера

Непараллельное преобразование голоса "многие ко многим" остается интересной, но сложной задачей обработки речи. Было предложено множество методов, вдохновленных переносом стилей, таких как генеративные состязательные сети (GAN) и вариационные автоэнкодеры (VAE). Недавно AutoVC, метод, основанный на условных автоэнкодерах (CAE), достиг самых современных результатов, распутав идентификацию говорящего и речевой контент, используя ограничивающие информацию узкие места, и он обеспечивает преобразование с нулевым кадром путем замены встроенного идентификатора другого говорящего для синтеза нового го...

Многоцелевое преобразование эмоционального голоса с помощью нейронных вокодеров

Преобразование эмоционального голоса (EVC) - это один из способов создания выразительной синтетической речи. Предыдущие подходы в основном были сосредоточены на моделировании взаимно однозначного отображения, т.е. перехода из одного эмоционального состояния в другое эмоциональное состояние, с помощью мелкополосных вокодеров. В этой статье мы исследуем построение многоцелевой архитектуры EVC (MTEVC), которая сочетает в себе модель преобразования на основе глубокой двунаправленной долговременной памяти (DBLSTM) и нейронный вокодер. Фонетические апостериограммы (PPG), содержащие богатую лингвисти...

Непараллельная система преобразования голоса с вокодером WaveNet и подавлением свернутой речи

В этой статье мы интегрируем простую систему непараллельного преобразования голоса (VC) с вокодером WaveNet (WN) и предлагаемым методом подавления свернутой речи. Эффективность WN в качестве вокодера для генерации высокоточных речевых сигналов на основе акустических характеристик была подтверждена в недавних работах. Однако при объединении вокодера WN с системой преобразования голоса искаженные акустические характеристики, акустические и временные несоответствия и смещение экспозиции обычно приводят к значительному ухудшению качества речи, заставляя WN генерировать некоторые очень зашумленные ...

PitchNet: Неконтролируемое преобразование певческого голоса с помощью состязательной сети по высоте тона

Преобразование певческого голоса заключается в преобразовании голоса певца в голос другого человека без изменения содержания пения. Недавняя работа показывает, что преобразование певческого голоса без контроля может быть достигнуто с помощью подхода, основанного на автоэнкодировании [1]. Однако преобразованный певческий голос может легко сбиться с тональности, что свидетельствует о том, что существующий подход не позволяет точно моделировать информацию о высоте тона. В этой статье мы предлагаем усовершенствовать существующий метод преобразования певческого голоса без контроля, предложенный в [...

Обучение лифтеров и моделирование поддиапазонов для эффективного с точки зрения вычислений и высококачественного преобразования голоса с использованием спектральных различий

В этой статье мы предлагаем эффективные с точки зрения вычислений и высококачественные методы статистического преобразования голоса (VC) с прямой модификацией формы сигнала на основе спектральных различий. Традиционный метод с фильтром минимальной фазы обеспечивает высококачественное преобразование, но требует больших вычислений при фильтрации. Это связано с тем, что минимальная фаза с использованием фиксированного лифтера в преобразовании Гильберта часто приводит к фильтру с длинным нажатием. Один из наших методов - это метод обучения атлета, основанный на данных. Поскольку этот метод учитыва...

Последовательное акустическое моделирование для преобразования голоса

В этой статье представлена нейронная сеть под названием Sequence-to-sequence ConvErsion NeTwork (SCENT) для акустического моделирования в преобразовании голоса. На этапе обучения модель SCENT оценивается путем неявного сопоставления последовательностей признаков исходного и целевого говорящих, используя механизм внимания. На этапе преобразования акустические характеристики и длительность исходных звуков преобразуются одновременно с использованием единой акустической модели. В качестве акустических характеристик используются спектрограммы в масштабе Mel, которые содержат описания речевых сигнал...

Расширение Mel-спектрограммы для преобразования голоса из последовательности в последовательность

При обучении модели преобразования голоса от последовательности к последовательности нам необходимо решить проблему нехватки данных о количестве речевых кортежей, состоящих из одного и того же высказывания. В этом исследовании было проведено экспериментальное исследование влияния расширения Mel-спектрограммы на модель преобразования голоса от последовательности к последовательности. Для расширения Mel-спектрограммы мы применили правила, предложенные в Spec Augment. Кроме того, мы предлагаем новые правила для большего количества вариаций данных. Чтобы найти оптимальные гиперпараметры политик ус...

Непараллельное преобразование голоса из последовательности в последовательность с распутанными языковыми представлениями и представлениями говорящего

В этой статье представлен метод преобразования голоса из последовательности в последовательность (seq2seq) с использованием непараллельных обучающих данных. В этом методе из акустических характеристик извлекаются неразборчивые лингвистические представления и представления говорящего, и преобразование голоса достигается путем сохранения лингвистических представлений исходных высказываний при замене представлений говорящего на целевые. Наша модель построена в рамках нейронных сетей кодирования-декодирования. Кодировщик распознавания предназначен для изучения неразборчивых лингвистических предста...