Статистическое преобразование голоса с помощью квазипериодического вокодера WaveNet

В этой статье мы исследуем эффективность квазипериодического вокодера WaveNet (QPNet) в сочетании с методом статистического спектрального преобразования для задачи преобразования голоса. Вокодер WaveNet (WN) применяется в качестве модуля генерации сигналов во многих различных системах преобразования голоса и обеспечивает значительное улучшение по сравнению с обычными вокодерами. Однако из-за фиксированной расширенной свертки и общей сетевой архитектуры вокодер WN не обладает достаточной устойчивостью к невидимым функциям ввода и часто требует большого размера сети для достижения приемлемого ка...

Иерархическое преобразование голоса из последовательности в последовательность с ограниченными данными

Мы представляем решение для преобразования голоса с использованием рекуррентного моделирования последовательности в последовательность для DNN. Наше решение использует последние достижения в области моделирования на основе внимания в области нейронного машинного перевода (NMT), преобразования текста в речь (TTS) и автоматического распознавания речи (ASR). Проблема заключается в параллельном преобразовании между голосами при наличии аудиопар. В нашей архитектуре seq2seq используется иерархический кодер для суммирования входных аудиокадров. Что касается декодера, мы используем архитектуру, основ...

Исследование формирования F0 и полностью сверточных сетей при преобразовании голоса на основе вариационного автоэнкодера

В этой работе мы исследуем эффективность двух методов улучшения преобразования голоса на основе вариационного автоэнкодера (VAE). Во-первых, мы пересматриваем взаимосвязь между характеристиками вокодера, получаемыми с помощью высококачественных вокодеров, используемых в обычных системах преобразования голоса, и выдвигаем гипотезу о том, что спектральные характеристики на самом деле зависят от F0. Такая гипотеза подразумевает, что на этапе преобразования скрытые коды и преобразованные функции при преобразовании голоса на основе VAE фактически зависят от источника F0. С этой целью мы предлагаем ...

AUTOVC: передача стиля голоса Zero-Shot с потерей только автоэнкодера

Непараллельное преобразование голоса "многие ко многим", а также преобразование голоса с нулевым кадром остаются недостаточно изученными областями. Алгоритмы глубокой передачи стилей, такие как генеративные состязательные сети (GAN) и условно-вариационный автоэнкодер (CVAE), применяются в качестве новых решений в этой области. Однако обучение стрельбе из пистолета является сложным процессом, и нет убедительных доказательств того, что генерируемая им речь обладает хорошим качеством восприятия. С другой стороны, обучение CVAE является простым, но не обладает свойством сопоставления с распределен...

Автокодеры с противоборствующим обучением для преобразования голоса без использования параллельных данных

Мы представляем метод преобразования голоса между несколькими говорящими. Наш метод основан на обучении нескольких путей автоэнкодирования, где имеется один кодер, независимый от говорящего, и несколько декодеров, зависящих от говорящего. Автоэнкодеры обучаются с добавлением потерь при столкновении, которые обеспечиваются вспомогательным классификатором, чтобы выходные данные кодера были независимыми от диктора. Обучение модели проходит без контроля в том смысле, что для этого не требуется собирать одинаковые высказывания от говорящих и не требуется время на согласование фонем. Благодаря испол...

Преобразование голоса "многие ко многим" с поддержкой дикторов вне набора данных

Мы представляем основанный на Cycle-GAN метод преобразования голоса "многие ко многим", который позволяет осуществлять преобразование между говорящими, которых нет в обучающем наборе. Это свойство включается с помощью встроенных говорящих, генерируемых нейронной сетью, которая обучается совместно с Cycle-GAN. В отличие от предыдущих работ в этой области, наш метод позволяет осуществлять преобразование между носителем языка, не имеющим доступа к набору данных, и целевым носителем языка в любом направлении и не требует переобучения. Качество преобразования говорящих вне набора данных оценивается...

MOSNet: Объективная оценка преобразования голоса на основе глубокого обучения

Существующие объективные показатели оценки преобразования голоса не всегда коррелируют с восприятием человекоа. Поэтому обучение моделям преобразования голоса с использованием таких критериев не может эффективно улучшить естественность и сходство преобразованного голоса. В этой статье мы предлагаем модели оценки, основанные на глубоком обучении, для прогнозирования оценки человеком преобразованного голоса. Мы используем сверточную и рекуррентную модели нейронных сетей для построения прогноза среднего балла мнений (MOS), называемого MOSNet. Предложенные модели протестированы на результатах круп...

Кросс-модальное преобразование голоса

Люди способны представить себе голос человека по его внешности, а внешность человека - по его голосу. В этой статье мы предпринимаем первую попытку разработать метод, который может преобразовывать речь в голос, соответствующий входному изображению лица, и генерировать изображение лица, соответствующее голосу во входной речи, используя корреляцию между лицами и голосами. Мы предлагаем модель, состоящую из преобразователя речи, кодера/декодера лиц и кодера голоса. Мы используем скрытый код входного изображения лица, закодированного лицевым кодером, в качестве вспомогательного входного сигнала дл...

CycleGAN-VC2: Улучшенное непараллельное преобразование голоса на основе Cycle GAN

Непараллельное преобразование голоса - это метод преобразования исходной речи в целевую, не полагаясь на параллельные данные. Это важная задача, но она была сложной из-за недостатков условий обучения. Недавно CycleGAN-VC совершил прорыв и сравним с параллельным методом преобразования голоса, не прибегая к каким-либо дополнительным данным, модулям или процедурам выравнивания по времени. По-прежнему существует большой разрыв между реальным целевымй и преобразованным голосом, и преодоление этого разрыва остается сложной задачей. Чтобы сократить этот разрыв, мы предлагаем CycleGAN-VC2, который явл...

Преобразование певческого голоса с использованием непараллельных данных

Преобразование певческого голоса - это задача по преобразованию песни, исполняемой певцом-источником, в голос певца-получателя. В этой статье мы предлагаем использовать метод параллельного преобразования множества голосов в один без использования данных для поющих голосов. Фонетическая задняя характеристика сначала генерируется путем декодирования певческих голосов с помощью надежного механизма автоматического распознавания речи (ASR). Затем обученная рекуррентная нейронная сеть (RNN) со структурой глубокой двунаправленной долговременной кратковременной памяти (DBLSTM) используется для моделир...