MOSNet: Объективная оценка преобразования голоса на основе глубокого обучения

Существующие объективные показатели оценки преобразования голоса не всегда коррелируют с восприятием человекоа. Поэтому обучение моделям преобразования голоса с использованием таких критериев не может эффективно улучшить естественность и сходство преобразованного голоса. В этой статье мы предлагаем модели оценки, основанные на глубоком обучении, для прогнозирования оценки человеком преобразованного голоса. Мы используем сверточную и рекуррентную модели нейронных сетей для построения прогноза среднего балла мнений (MOS), называемого MOSNet. Предложенные модели протестированы на результатах круп...

Кросс-модальное преобразование голоса

Люди способны представить себе голос человека по его внешности, а внешность человека - по его голосу. В этой статье мы предпринимаем первую попытку разработать метод, который может преобразовывать речь в голос, соответствующий входному изображению лица, и генерировать изображение лица, соответствующее голосу во входной речи, используя корреляцию между лицами и голосами. Мы предлагаем модель, состоящую из преобразователя речи, кодера/декодера лиц и кодера голоса. Мы используем скрытый код входного изображения лица, закодированного лицевым кодером, в качестве вспомогательного входного сигнала дл...

CycleGAN-VC2: Улучшенное непараллельное преобразование голоса на основе Cycle GAN

Непараллельное преобразование голоса - это метод преобразования исходной речи в целевую, не полагаясь на параллельные данные. Это важная задача, но она была сложной из-за недостатков условий обучения. Недавно CycleGAN-VC совершил прорыв и сравним с параллельным методом преобразования голоса, не прибегая к каким-либо дополнительным данным, модулям или процедурам выравнивания по времени. По-прежнему существует большой разрыв между реальным целевымй и преобразованным голосом, и преодоление этого разрыва остается сложной задачей. Чтобы сократить этот разрыв, мы предлагаем CycleGAN-VC2, который явл...

ConvS2S-VC: Полностью сверточное преобразование голоса из последовательности в последовательность

В этой статье предлагается метод преобразования голоса, основанный на полностью сверточном обучении от последовательности к последовательности (seq2seq). Настоящий метод, который мы называем "ConvS2S-VC", изучает соответствие между последовательностями речевых признаков источника и цели, используя полностью сверточную модель seq2seq с механизмом внимания. Из-за особенностей обучения seq2seq наш метод особенно примечателен тем, что он позволяет гибко преобразовывать не только характеристики голоса, но и контур высоты тона и продолжительность вводимой речи. Текущая модель состоит из шести сетей,...

ACVAE-VC: Непараллельное преобразование голоса "многие ко многим" с помощью вспомогательного классификатора и вариационного автоэнкодера

В данной статье предлагается непараллельный метод преобразования голоса "многие ко многим" с использованием варианта условного вариационного автоэнкодера (VAE), называемого вспомогательным классификатором VAE (ACVAE). Предлагаемый метод имеет три ключевые особенности. Во-первых, он использует полностью сверточную архитектуру для построения сетей кодирования и декодирования, чтобы сети могли изучать правила преобразования, которые фиксируют временные зависимости в последовательностях акустических характеристик исходной и целевой речи. Во-вторых, он использует теоретико-информационную регуляриза...

Об использовании обратного распространения для генерации текстуры речи и преобразования голоса

Вдохновленные недавними работами по генерации изображений нейронной сетью, которые основаны на обратном распространении к входным данным сети, мы представляем проверенную временем систему для синтеза текстур речи и преобразования голоса, основанную на двух механизмах: приблизительной инверсии представления, полученного нейронной сетью распознавания речи, и сопоставлении статистики активаций нейронов между входными данными. разные исходные и целевые высказывания. Подобно синтезу текстуры изображения и передаче нейронного стиля, система работает путем оптимизации функции затрат по отношению к вы...

Преобразование голоса без параллельных данных с использованием согласованных по циклу конкурирующих сетей

Мы предлагаем метод преобразования голоса без параллельных данных, который позволяет преобразовать исходную речь в целевую, не полагаясь на параллельные данные. Предлагаемый метод является универсальным, высококачественным, не требует параллельных данных и работает без каких-либо дополнительных данных, модулей или процедуры выравнивания. Это также позволяет избежать чрезмерного сглаживания, которое происходит во многих традиционных методах преобразования голоса, основанных на статистических моделях. Наш метод, называемый CycleGAN-VC, использует согласованную с циклом состязательную сеть (Cycle...

Преобразование голоса с использованием сверточных нейронных сетей

Слуховая система человека способна различать голос тысяч говорящих, однако не так много известно о том, какие функции слуховая система использует для этого. Преобразование Фурье способно улавливать высоту звука и гармоническую структуру говорящего, но одного этого недостаточно для однозначной идентификации говорящих. Оставшаяся структура, часто называемая тембром, имеет решающее значение для идентификации говорящих, но мы мало что поняли в ней. В этой статье мы используем последние достижения в области нейронных сетей для того, чтобы манипулировать голосом одного говорящего, преобразуя не толь...