ConvS2S-VC: Полностью сверточное преобразование голоса из последовательности в последовательность

В этой статье предлагается метод преобразования голоса, основанный на полностью сверточном обучении от последовательности к последовательности (seq2seq). Настоящий метод, который мы называем "ConvS2S-VC", изучает соответствие между последовательностями речевых признаков источника и цели, используя полностью сверточную модель seq2seq с механизмом внимания. Из-за особенностей обучения seq2seq наш метод особенно примечателен тем, что он позволяет гибко преобразовывать не только характеристики голоса, но и контур высоты тона и продолжительность вводимой речи. Текущая модель состоит из шести сетей,...

AttS2S-VC: Преобразование голоса от последовательности к последовательности с механизмами сохранения внимания и контекста

В этой статье описывается метод, основанный на последовательном обучении (Seq2Seq) с механизмом сохранения внимания и контекста для задач преобразования голоса. Seq2Seq отлично справляется с многочисленными задачами, связанными с моделированием последовательности, такими как синтез и распознавание речи, машинный перевод и создание субтитров к изображениям. В отличие от современных методов преобразования голоса, наш метод 1) стабилизирует и ускоряет процедуру обучения за счет учета направленного внимания и предполагаемых потерь при сохранении контекста, 2) позволяет преобразовывать не только сп...

Сеть уменьшения ошибок для преобразования голоса на основе DBLSTM

На данный момент многие подходы к глубокому обучению для преобразования голоса позволяют получать речь хорошего качества, используя большое количество обучающих данных. В этой статье представлена платформа преобразования голоса на основе глубокой двунаправленной долговременной памяти (DBLSTM), которая может работать с ограниченным количеством обучающих данных. Мы предлагаем реализовать усредненную модель на основе DBLSTM, которая обучается на данных от многих дикторов. Затем мы предлагаем выполнить адаптацию с ограниченным количеством целевых данных. И последнее, но не менее важное: мы предлаг...

Ритмично-гибкое преобразование голоса без параллельных данных с использованием циклических последовательностей фонемных апостериограмм

Скорость произнесения относится к среднему количеству фонем за единицу времени, в то время как ритмические паттерны относятся к распределению длительности для реализации разных фонем в разных фонетических структурах. И то, и другое является ключевыми компонентами просодии в речи, которая отличается у разных носителей языка. Такие модели, как cycle-consistent adversarial network (Cycle-GAN) и variational auto-encoder (VAE), успешно применяются для решения задач преобразования голоса без параллельных данных. Однако из-за архитектуры нейронных сетей и векторов характеристик, выбранных для этих по...

StarGAN-VC: Непараллельное преобразование голоса "многие ко многим" с использованием звездообразных генеративных состязательных сетей

В этой статье предлагается метод, который позволяет осуществлять непараллельное преобразование голоса "многие ко многим" с использованием варианта генеративной состязательной сети (GAN) под названием StarGAN. Наш метод, который мы называем StarGAN-VC, примечателен тем, что он (1) не требует параллельного произнесения, транскрипции или процедур выравнивания по времени для обучения генератора речи, (2) одновременно изучает сопоставления "многие ко многим" в разных областях атрибутов, используя единую сеть генераторов, (3) способен генерировать преобразованные речевые сигналы достаточно быстро, ч...

Высококачественное непараллельное преобразование голоса на основе циклически согласованной состязательной сети

Несмотря на то, что алгоритмы преобразования голоса достигли значительных успехов с развитием машинного обучения, по-прежнему трудно достичь высокой производительности при использовании непараллельных данных. В этой статье мы предлагаем использовать циклически согласованную состязательную сеть (CycleGAN) для обучения непараллельному преобразованию голоса на основе данных. CycleGAN - это генеративная состязательная сеть (GAN), изначально разработанная для непарного преобразования изображений в изображения. Субъективная оценка межполовой конверсии показала, что предложенный метод значительно пре...

Об использовании обратного распространения для генерации текстуры речи и преобразования голоса

Вдохновленные недавними работами по генерации изображений нейронной сетью, которые основаны на обратном распространении к входным данным сети, мы представляем проверенную временем систему для синтеза текстур речи и преобразования голоса, основанную на двух механизмах: приблизительной инверсии представления, полученного нейронной сетью распознавания речи, и сопоставлении статистики активаций нейронов между входными данными. разные исходные и целевые высказывания. Подобно синтезу текстуры изображения и передаче нейронного стиля, система работает путем оптимизации функции затрат по отношению к вы...

Преобразование голоса с использованием последовательного изучения апостериорных вероятностей контекста

Предлагается преобразование голоса с использованием последовательного изучения апостериорных вероятностей контекста. Традиционное преобразование голоса с использованием апостериорных вероятностей общего контекста предсказывает параметры целевой речи на основе апостериорных вероятностей контекста, оцененных на основе параметров исходной речи. Хотя обычное преобразование голоса может быть построено на основе непараллельных данных, трудно преобразовать индивидуальность говорящего, такую как фонетические свойства и скорость речи, содержащиеся в апостериорных вероятностях, поскольку исходные апосте...

Надежность методов преобразования голоса в различных условиях

Большинство существующих исследований по преобразованию голоса проводятся в акустически согласованных условиях между источником и целевым сигналом. Однако надежность методов преобразования голоса при наличии несоответствия остается неизвестной. В этой статье мы проводим сравнительный анализ различных методов преобразования голоса в условиях несоответствия. Обширные эксперименты с пятью различными методами преобразования голоса в CMU ARCTIC corpus показывают, что эффективность методов преобразования голоса существенно снижается в условиях шума. Мы обнаружили, что билинейное искажение частоты с ...

Обновление словаря для преобразования голоса на основе NMF с использованием сети кодер-декодер

В этой статье мы предлагаем метод обновления словаря для неотрицательной матричной факторизации (NMF) с использованием многомерных данных в задаче спектрального преобразования (SC). Преобразование голоса широко изучалось из-за его потенциальных применений, таких как персонализированный синтез речи и улучшение качества речи. Основанный на примерах NMF (ENMF) представляется эффективным и, вероятно, самым простым выбором среди всех методов для SC, при условии, что предоставляется параллельный корпус исходной и целевой речи. SC-системы на основе ENMF обычно нуждаются в большом количестве баз (обра...