Непараллельное преобразование голоса с дополненным классификатором звездных генеративных состязательных сетей

Ранее мы предложили метод, который позволяет осуществлять непараллельное преобразование голоса (VC) с использованием варианта генеративных состязательных сетей (GANS) под названием StarGAN. Основные особенности нашего метода, получившего название StarGAN-VC, заключаются в следующем. Во-первых, он не требует параллельных высказываний, транскрипций или процедур выравнивания времени для тренировки генератора речи. Во-вторых, он может одновременно изучать сопоставления между несколькими доменами, используя единую генераторную сеть, чтобы в полной мере использовать доступные обучающие данные, собра...

StarGAN-VC2: Переосмысление условных методов преобразования голоса на основе Stargen

Непараллельное многодоменное преобразование голоса - это метод изучения сопоставлений между несколькими доменами без использования параллельных данных. Это важно, но сложно из-за необходимости изучения нескольких сопоставлений и отсутствия явного контроля. В последнее время StarGAN-VC привлек к себе внимание благодаря своей способности решать эту проблему только с помощью одного генератора. Однако по-прежнему существует разрыв между реальной и преобразованной речью. Чтобы устранить этот пробел, мы переосмысливаем условные методы StarGAN-VC, которые являются ключевыми компонентами для достижени...

Кросс-модальное преобразование голоса

Люди способны представить себе голос человека по его внешности, а внешность человека - по его голосу. В этой статье мы предпринимаем первую попытку разработать метод, который может преобразовывать речь в голос, соответствующий входному изображению лица, и генерировать изображение лица, соответствующее голосу во входной речи, используя корреляцию между лицами и голосами. Мы предлагаем модель, состоящую из преобразователя речи, кодера/декодера лиц и кодера голоса. Мы используем скрытый код входного изображения лица, закодированного лицевым кодером, в качестве вспомогательного входного сигнала дл...

CycleGAN-VC2: Улучшенное непараллельное преобразование голоса на основе Cycle GAN

Непараллельное преобразование голоса - это метод преобразования исходной речи в целевую, не полагаясь на параллельные данные. Это важная задача, но она была сложной из-за недостатков условий обучения. Недавно CycleGAN-VC совершил прорыв и сравним с параллельным методом преобразования голоса, не прибегая к каким-либо дополнительным данным, модулям или процедурам выравнивания по времени. По-прежнему существует большой разрыв между реальным целевымй и преобразованным голосом, и преодоление этого разрыва остается сложной задачей. Чтобы сократить этот разрыв, мы предлагаем CycleGAN-VC2, который явл...

ConvS2S-VC: Полностью сверточное преобразование голоса из последовательности в последовательность

В этой статье предлагается метод преобразования голоса, основанный на полностью сверточном обучении от последовательности к последовательности (seq2seq). Настоящий метод, который мы называем "ConvS2S-VC", изучает соответствие между последовательностями речевых признаков источника и цели, используя полностью сверточную модель seq2seq с механизмом внимания. Из-за особенностей обучения seq2seq наш метод особенно примечателен тем, что он позволяет гибко преобразовывать не только характеристики голоса, но и контур высоты тона и продолжительность вводимой речи. Текущая модель состоит из шести сетей,...

AttS2S-VC: Преобразование голоса от последовательности к последовательности с механизмами сохранения внимания и контекста

В этой статье описывается метод, основанный на последовательном обучении (Seq2Seq) с механизмом сохранения внимания и контекста для задач преобразования голоса. Seq2Seq отлично справляется с многочисленными задачами, связанными с моделированием последовательности, такими как синтез и распознавание речи, машинный перевод и создание субтитров к изображениям. В отличие от современных методов преобразования голоса, наш метод 1) стабилизирует и ускоряет процедуру обучения за счет учета направленного внимания и предполагаемых потерь при сохранении контекста, 2) позволяет преобразовывать не только сп...

ACVAE-VC: Непараллельное преобразование голоса "многие ко многим" с помощью вспомогательного классификатора и вариационного автоэнкодера

В данной статье предлагается непараллельный метод преобразования голоса "многие ко многим" с использованием варианта условного вариационного автоэнкодера (VAE), называемого вспомогательным классификатором VAE (ACVAE). Предлагаемый метод имеет три ключевые особенности. Во-первых, он использует полностью сверточную архитектуру для построения сетей кодирования и декодирования, чтобы сети могли изучать правила преобразования, которые фиксируют временные зависимости в последовательностях акустических характеристик исходной и целевой речи. Во-вторых, он использует теоретико-информационную регуляриза...

StarGAN-VC: Непараллельное преобразование голоса "многие ко многим" с использованием звездообразных генеративных состязательных сетей

В этой статье предлагается метод, который позволяет осуществлять непараллельное преобразование голоса "многие ко многим" с использованием варианта генеративной состязательной сети (GAN) под названием StarGAN. Наш метод, который мы называем StarGAN-VC, примечателен тем, что он (1) не требует параллельного произнесения, транскрипции или процедур выравнивания по времени для обучения генератора речи, (2) одновременно изучает сопоставления "многие ко многим" в разных областях атрибутов, используя единую сеть генераторов, (3) способен генерировать преобразованные речевые сигналы достаточно быстро, ч...

Преобразование голоса без параллельных данных с использованием согласованных по циклу конкурирующих сетей

Мы предлагаем метод преобразования голоса без параллельных данных, который позволяет преобразовать исходную речь в целевую, не полагаясь на параллельные данные. Предлагаемый метод является универсальным, высококачественным, не требует параллельных данных и работает без каких-либо дополнительных данных, модулей или процедуры выравнивания. Это также позволяет избежать чрезмерного сглаживания, которое происходит во многих традиционных методах преобразования голоса, основанных на статистических моделях. Наш метод, называемый CycleGAN-VC, использует согласованную с циклом состязательную сеть (Cycle...