Непараллельное преобразование голоса с дополненным классификатором звездных генеративных состязательных сетей

Ранее мы предложили метод, который позволяет осуществлять непараллельное преобразование голоса (VC) с использованием варианта генеративных состязательных сетей (GANS) под названием StarGAN. Основные особенности нашего метода, получившего название StarGAN-VC, заключаются в следующем. Во-первых, он не требует параллельных высказываний, транскрипций или процедур выравнивания времени для тренировки генератора речи. Во-вторых, он может одновременно изучать сопоставления между несколькими доменами, используя единую генераторную сеть, чтобы в полной мере использовать доступные обучающие данные, собра...

Методы предварительной подготовки для преобразования голоса из последовательности в последовательность

Модели преобразования голоса (VC) из последовательности в последовательность (seq2seq) привлекательны благодаря своей способности преобразовывать просодию. Тем не менее, без достаточных данных модели seq2seq преобразования голоса могут страдать от нестабильного обучения и проблем с неправильным произношением в преобразованной речи, что далеко не практично. Чтобы устранить эти недостатки, мы предлагаем перенести знания из других задач обработки речи, где легко доступны крупномасштабные базы данных, как правило, преобразование текста в речь (TTS) и автоматическое распознавание речи (ASR). Мы утв...

Непараллельное преобразование голоса на основе прямого сопоставления источника и цели

Недавние работы по использованию фонетических апостериограмм (PPGs) для непараллельного преобразования голоса значительно повысили удобство использования преобразования голоса, поскольку исходные и целевые базы данных больше не требуются для сопоставления содержимого. В этом подходе PPGs используются в качестве лингвистического моста между исходными и целевыми характеристиками говорящего. Однако это непараллельное преобразование голоса на основе PPG имеет некоторое ограничение, заключающееся в том, что оно требует двух каскадных сетей во время преобразования, что делает его менее подходящим дл...

Cotatron: Речевой кодировщик с управлением транскрипцией для преобразования любого голоса во многие без параллельных данных

Мы предлагаем Cotatron, кодировщик речи с управлением транскрипцией для лингвистического представления, независимого от говорящего. Cosatron основан на архитектуре TTS с несколькими динамиками и может быть обучен с использованием обычных наборов данных TTS. Мы обучаем систему преобразования голоса восстанавливать речь с помощью функций Cotatron, что аналогично предыдущим методам, основанным на фонетической апостериограмме (PPG). Обучив и оценив нашу систему на 108 дикторах из набора данных VCTK, мы превзошли предыдущий метод как по естественности, так и по сходству дикторов. Наша система также...

Многоцелевое преобразование эмоционального голоса с помощью нейронных вокодеров

Преобразование эмоционального голоса (EVC) - это один из способов создания выразительной синтетической речи. Предыдущие подходы в основном были сосредоточены на моделировании взаимно однозначного отображения, т.е. перехода из одного эмоционального состояния в другое эмоциональное состояние, с помощью мелкополосных вокодеров. В этой статье мы исследуем построение многоцелевой архитектуры EVC (MTEVC), которая сочетает в себе модель преобразования на основе глубокой двунаправленной долговременной памяти (DBLSTM) и нейронный вокодер. Фонетические апостериограммы (PPG), содержащие богатую лингвисти...

Преобразование эмоционального голоса с помощью циклически согласованной генерирующей состязательной сети

Эмоциональное преобразование голоса, или эмоциональный VC, - это техника преобразования речи из одного эмоционального состояния в другое с сохранением основной лингвистической информации и идентичности говорящего. Предыдущие подходы к преобразованию эмоционального голоса требовали параллельных данных и использовали метод динамического выравнивания времени (DTW) для временного выравнивания параметров речи источника и цели. Эти подходы часто определяют минимальные потери генерации в качестве целевой функции, такой как потери L1 или L2, для изучения параметров модели. Недавно для непараллельного ...

Последовательное акустическое моделирование для преобразования голоса

В этой статье представлена нейронная сеть под названием Sequence-to-sequence ConvErsion NeTwork (SCENT) для акустического моделирования в преобразовании голоса. На этапе обучения модель SCENT оценивается путем неявного сопоставления последовательностей признаков исходного и целевого говорящих, используя механизм внимания. На этапе преобразования акустические характеристики и длительность исходных звуков преобразуются одновременно с использованием единой акустической модели. В качестве акустических характеристик используются спектрограммы в масштабе Mel, которые содержат описания речевых сигнал...

Taco-VC: Преобразование голоса на базе Tacotron с одним говорящим и ограниченным объемом данных

В этой статье представлена Taco-VC, новая архитектура преобразования голоса, основанная на синтезаторе Tacotron, которая представляет собой модель последовательного преобразования голоса с учетом внимания. Обучение систем преобразования голоса с несколькими динамиками требует большого объема ресурсов, как в плане обучения, так и в плане размера корпуса. Taco-VC реализован с использованием синтезатора Tacotron с одним говорящим, основанного на фонетических апостериограммах (PPG), и вокодера Wavenet с одним говорящим, основанного на спектрограммах Mel. Для повышения качества преобразованной речи...

Полууправляемое преобразование голоса с амортизированным вариационным выводом

В этой работе мы представляем полууправляемый подход к задаче преобразования голоса, при котором речь от исходного диктора преобразуется в речь от целевого диктора. Предлагаемый метод использует как параллельные, так и непараллельные высказывания от исходного и целевого одновременно во время обучения. Этот подход может быть использован для расширения существующих систем параллельного преобразования речевых данных таким образом, чтобы их можно было обучать с полуавтоматическим контролем. Мы показываем, что включение режима полунаблюдения повышает эффективность преобразования голоса по сравнению...

Преобразование голоса WaveNet без вокодера с использованием непараллельных данных

В типичной системе преобразования голоса вокодер обычно используется для преобразования речи в признаки и синтеза признаков в речь. Однако вокодер может быть источником ухудшения качества речи. В этой статье представлен подход к преобразованию голоса без использования вокодера с использованием вейвлета для непараллельных обучающих данных. Вместо того, чтобы работать с промежуточными функциями, предлагаемый подход использует WaveNet для непосредственного сопоставления фонетических апостериорограмм (PPG) с образцами формы сигнала. Таким образом, мы избегаем ошибок оценки, вызванных вокодером и п...