Методы предварительной подготовки для преобразования голоса из последовательности в последовательность

Модели преобразования голоса (VC) из последовательности в последовательность (seq2seq) привлекательны благодаря своей способности преобразовывать просодию. Тем не менее, без достаточных данных модели seq2seq преобразования голоса могут страдать от нестабильного обучения и проблем с неправильным произношением в преобразованной речи, что далеко не практично. Чтобы устранить эти недостатки, мы предлагаем перенести знания из других задач обработки речи, где легко доступны крупномасштабные базы данных, как правило, преобразование текста в речь (TTS) и автоматическое распознавание речи (ASR). Мы утв...

Непараллельная система преобразования голоса с вокодером WaveNet и подавлением свернутой речи

В этой статье мы интегрируем простую систему непараллельного преобразования голоса (VC) с вокодером WaveNet (WN) и предлагаемым методом подавления свернутой речи. Эффективность WN в качестве вокодера для генерации высокоточных речевых сигналов на основе акустических характеристик была подтверждена в недавних работах. Однако при объединении вокодера WN с системой преобразования голоса искаженные акустические характеристики, акустические и временные несоответствия и смещение экспозиции обычно приводят к значительному ухудшению качества речи, заставляя WN генерировать некоторые очень зашумленные ...

Сеть речевых трансформаторов: Преобразование голоса из последовательности в последовательность с помощью трансформатора с предварительной подготовкой текста в речь

Мы представляем новую модель преобразования голоса из последовательности в последовательность (seq2seq), основанную на архитектуре Transformer с предварительной подготовкой текста в речь. Модели преобразования голоса Seq2seq привлекательны благодаря своей способности преобразовывать просодию. В то время как модели seq2seq, основанные на рекуррентных нейронных сетях (RNNS) и сверточных нейронных сетях (CNNS), успешно применяются для преобразования голоса, использование сети Transformer, которая показала многообещающие результаты в различных задачах обработки речи, еще не исследовалось. Тем не м...

Непараллельное преобразование голоса с помощью циклического вариационного автоэнкодера

В этой статье мы представляем новую технику непараллельного преобразования голоса с использованием спектрального моделирования на основе циклического вариационного автоэнкодера (CycleVAE). В рамках вариационного автоэнкодера (VAE) скрытое пространство, обычно с гауссовым априором, используется для кодирования набора входных признаков. При голосовом преобразовании на основе VAE закодированные скрытые характеристики передаются в декодер вместе с характеристиками, кодирующими диктора, для генерации оценочных спектров либо с исходной идентификацией диктора (восстановленной), либо с другой идентифи...

Статистическое преобразование голоса с помощью квазипериодического вокодера WaveNet

В этой статье мы исследуем эффективность квазипериодического вокодера WaveNet (QPNet) в сочетании с методом статистического спектрального преобразования для задачи преобразования голоса. Вокодер WaveNet (WN) применяется в качестве модуля генерации сигналов во многих различных системах преобразования голоса и обеспечивает значительное улучшение по сравнению с обычными вокодерами. Однако из-за фиксированной расширенной свертки и общей сетевой архитектуры вокодер WN не обладает достаточной устойчивостью к невидимым функциям ввода и часто требует большого размера сети для достижения приемлемого ка...

Усовершенствованный вокодер WaveNet для преобразования голоса на основе вариационного автоэнкодера

В этой статье представлена усовершенствованная система вокодеров WaveNet для преобразования голоса на основе вариационного автоэнкодера (VAE), которая уменьшает искажение качества, вызванное несоответствием между данными обучения и тестирования. Обычные вокодеры WaveNet обучаются с учетом естественных акустических характеристик, но зависят от преобразованных характеристик на этапе преобразования голоса, и такое несоответствие часто приводит к значительному ухудшению качества и сходства. В этой работе мы используем преимущества особой структуры VAE для усовершенствования вокодеров WaveNet с пом...

Исследование формирования F0 и полностью сверточных сетей при преобразовании голоса на основе вариационного автоэнкодера

В этой работе мы исследуем эффективность двух методов улучшения преобразования голоса на основе вариационного автоэнкодера (VAE). Во-первых, мы пересматриваем взаимосвязь между характеристиками вокодера, получаемыми с помощью высококачественных вокодеров, используемых в обычных системах преобразования голоса, и выдвигаем гипотезу о том, что спектральные характеристики на самом деле зависят от F0. Такая гипотеза подразумевает, что на этапе преобразования скрытые коды и преобразованные функции при преобразовании голоса на основе VAE фактически зависят от источника F0. С этой целью мы предлагаем ...