Методы предварительной подготовки для преобразования голоса из последовательности в последовательность

Модели преобразования голоса (VC) из последовательности в последовательность (seq2seq) привлекательны благодаря своей способности преобразовывать просодию. Тем не менее, без достаточных данных модели seq2seq преобразования голоса могут страдать от нестабильного обучения и проблем с неправильным произношением в преобразованной речи, что далеко не практично. Чтобы устранить эти недостатки, мы предлагаем перенести знания из других задач обработки речи, где легко доступны крупномасштабные базы данных, как правило, преобразование текста в речь (TTS) и автоматическое распознавание речи (ASR). Мы утв...

Непараллельная система преобразования голоса с вокодером WaveNet и подавлением свернутой речи

В этой статье мы интегрируем простую систему непараллельного преобразования голоса (VC) с вокодером WaveNet (WN) и предлагаемым методом подавления свернутой речи. Эффективность WN в качестве вокодера для генерации высокоточных речевых сигналов на основе акустических характеристик была подтверждена в недавних работах. Однако при объединении вокодера WN с системой преобразования голоса искаженные акустические характеристики, акустические и временные несоответствия и смещение экспозиции обычно приводят к значительному ухудшению качества речи, заставляя WN генерировать некоторые очень зашумленные ...

Сеть речевых трансформаторов: Преобразование голоса из последовательности в последовательность с помощью трансформатора с предварительной подготовкой текста в речь

Мы представляем новую модель преобразования голоса из последовательности в последовательность (seq2seq), основанную на архитектуре Transformer с предварительной подготовкой текста в речь. Модели преобразования голоса Seq2seq привлекательны благодаря своей способности преобразовывать просодию. В то время как модели seq2seq, основанные на рекуррентных нейронных сетях (RNNS) и сверточных нейронных сетях (CNNS), успешно применяются для преобразования голоса, использование сети Transformer, которая показала многообещающие результаты в различных задачах обработки речи, еще не исследовалось. Тем не м...

Обобщение прямой модификации формы сигнала на основе дифференциала спектра для преобразования голоса

Мы представляем прямую модификацию формы сигнала для преобразования голоса на основе дифференциала спектра (DIFFVC), которая может быть непосредственно применена в качестве модуля генерации формы сигнала к моделям преобразования голоса. Недавно предложенный DIFFVC позволяет избежать использования вокодера, сохраняя при этом богатые спектральные характеристики, что позволяет генерировать преобразованный голос высокого качества. Для применения платформы DIFFVC необходимо предварительно обучить модель, которая может оценивать спектральную разницу по преобразованной входной речи F0. Это требование...

Непараллельное преобразование голоса с помощью циклического вариационного автоэнкодера

В этой статье мы представляем новую технику непараллельного преобразования голоса с использованием спектрального моделирования на основе циклического вариационного автоэнкодера (CycleVAE). В рамках вариационного автоэнкодера (VAE) скрытое пространство, обычно с гауссовым априором, используется для кодирования набора входных признаков. При голосовом преобразовании на основе VAE закодированные скрытые характеристики передаются в декодер вместе с характеристиками, кодирующими диктора, для генерации оценочных спектров либо с исходной идентификацией диктора (восстановленной), либо с другой идентифи...

Статистическое преобразование голоса с помощью квазипериодического вокодера WaveNet

В этой статье мы исследуем эффективность квазипериодического вокодера WaveNet (QPNet) в сочетании с методом статистического спектрального преобразования для задачи преобразования голоса. Вокодер WaveNet (WN) применяется в качестве модуля генерации сигналов во многих различных системах преобразования голоса и обеспечивает значительное улучшение по сравнению с обычными вокодерами. Однако из-за фиксированной расширенной свертки и общей сетевой архитектуры вокодер WN не обладает достаточной устойчивостью к невидимым функциям ввода и часто требует большого размера сети для достижения приемлемого ка...

Усовершенствованный вокодер WaveNet для преобразования голоса на основе вариационного автоэнкодера

В этой статье представлена усовершенствованная система вокодеров WaveNet для преобразования голоса на основе вариационного автоэнкодера (VAE), которая уменьшает искажение качества, вызванное несоответствием между данными обучения и тестирования. Обычные вокодеры WaveNet обучаются с учетом естественных акустических характеристик, но зависят от преобразованных характеристик на этапе преобразования голоса, и такое несоответствие часто приводит к значительному ухудшению качества и сходства. В этой работе мы используем преимущества особой структуры VAE для усовершенствования вокодеров WaveNet с пом...

Исследование формирования F0 и полностью сверточных сетей при преобразовании голоса на основе вариационного автоэнкодера

В этой работе мы исследуем эффективность двух методов улучшения преобразования голоса на основе вариационного автоэнкодера (VAE). Во-первых, мы пересматриваем взаимосвязь между характеристиками вокодера, получаемыми с помощью высококачественных вокодеров, используемых в обычных системах преобразования голоса, и выдвигаем гипотезу о том, что спектральные характеристики на самом деле зависят от F0. Такая гипотеза подразумевает, что на этапе преобразования скрытые коды и преобразованные функции при преобразовании голоса на основе VAE фактически зависят от источника F0. С этой целью мы предлагаем ...

Преобразование голоса из невыровненных корпусов с использованием вариационного автоэнкодирования, порождающего состязательные сети Вассерштейна

Создание системы преобразования голоса из непараллельных речевых массивов является сложной задачей, но очень ценной в реальных сценариях применения. В большинстве случаев говорящий на исходном и целевом языках не повторяет одни и те же тексты или даже может говорить на разных языках. В этом случае одним из возможных, хотя и косвенных, решений является построение порождающей модели для речи. Порождающие модели фокусируются на объяснении наблюдений с помощью скрытых переменных вместо изучения функции попарного преобразования, тем самым обходя требование выравнивания речевого фрейма. В этой стать...

Обновление словаря для преобразования голоса на основе NMF с использованием сети кодер-декодер

В этой статье мы предлагаем метод обновления словаря для неотрицательной матричной факторизации (NMF) с использованием многомерных данных в задаче спектрального преобразования (SC). Преобразование голоса широко изучалось из-за его потенциальных применений, таких как персонализированный синтез речи и улучшение качества речи. Основанный на примерах NMF (ENMF) представляется эффективным и, вероятно, самым простым выбором среди всех методов для SC, при условии, что предоставляется параллельный корпус исходной и целевой речи. SC-системы на основе ENMF обычно нуждаются в большом количестве баз (обра...