Преобразование спектра и просодии для эмоционального преобразования голоса с помощью непараллельных обучающих данных

Эмоциональное преобразование голоса заключается в преобразовании спектра и просодии для изменения эмоциональных паттернов речи, сохраняя при этом индивидуальность говорящего и лингвистическое содержание. Во многих исследованиях требуются параллельные речевые данные для различных эмоциональных паттернов, что в реальной жизни практически невозможно. Более того, они часто моделируют преобразование основной частоты (F0) с помощью простого линейного преобразования. Поскольку F0 является ключевым аспектом интонации, который является иерархическим по своей природе, мы считаем, что более адекватным яв...

Непараллельное преобразование голоса из последовательности в последовательность с распутанными языковыми представлениями и представлениями говорящего

В этой статье представлен метод преобразования голоса из последовательности в последовательность (seq2seq) с использованием непараллельных обучающих данных. В этом методе из акустических характеристик извлекаются неразборчивые лингвистические представления и представления говорящего, и преобразование голоса достигается путем сохранения лингвистических представлений исходных высказываний при замене представлений говорящего на целевые. Наша модель построена в рамках нейронных сетей кодирования-декодирования. Кодировщик распознавания предназначен для изучения неразборчивых лингвистических предста...

MelGAN-VC: Преобразование голоса и передача звукового стиля на произвольно длинных сэмплах с использованием спектрограмм

Традиционные методы преобразования голоса основаны на параллельной записи нескольких говорящих, произносящих одни и те же предложения. Однако для реальных приложений параллельные данные доступны редко. Мы предлагаем MelGAN-VC - метод преобразования голоса, который основан на непараллельных речевых данных и способен преобразовывать аудиосигналы произвольной длины из исходного голоса в целевой. Сначала мы вычисляем спектрограммы на основе данных формы сигнала, а затем выполняем преобразование предметной области с использованием архитектуры Generative Adversarial Network (GAN). Дополнительная сет...

SoftGAN: Эффективное изучение генеративных моделей с помощью CycleGAN преобразования голоса

Преобразование голоса с помощью глубоких нейронных сетей стало чрезвычайно популярным за последние несколько лет благодаря усовершенствованиям по сравнению с предыдущими архитектурами преобразования голоса. В частности, архитектуры GAN, такие как CycleGAN и VAEGAN, предоставляют возможность изучать преобразование голоса из непараллельных баз данных. Однако методы, основанные на GAN, крайне нестабильны, часто требуют тщательной настройки гиперпараметров и могут привести к плохому преобразованию голосовой идентификации и существенному ухудшению качества преобразованного речевого сигнала. В этой ...

AdaGAN: Адаптивный GAN для непараллельного преобразования голоса "многие ко многим"

Преобразование голоса - это задача преобразования воспринимаемой идентичности говорящего от исходного к определенному целевому. Более ранние подходы, описанные в литературе, в основном заключаются в сопоставлении между заданными парами исходного и целевого говорящих. Разработка методов сопоставления для преобразования голоса "многие ко многим" с использованием непараллельных данных, включая обучение с нуля, остается менее изученной областью в преобразовании голоса. Большинство архитектур преобразования голоса "многие ко многим" требуют обучающих данных от всех целевых носителей, для которых мы...

Преобразование голоса "многие ко многим" с использованием согласованного по циклу вариационного автоэнкодера с несколькими декодерами

Одним из препятствий при преобразовании голоса "многие ко многим" является необходимость параллельного обучения данным, которые содержат пары высказываний с одинаковым лингвистическим содержанием, произносимых разными носителями языка. Поскольку сбор таких параллельных данных является очень дорогостоящей задачей, во многих работах предпринимались попытки использовать непараллельные обучающие данные для преобразования голоса "многие ко многим". Одним из таких подходов является использование вариационного автоэнкодера (VAE). Несмотря на то, что он может выполнять преобразование голоса "многие ко...

StarGAN-VC2: Переосмысление условных методов преобразования голоса на основе Stargen

Непараллельное многодоменное преобразование голоса - это метод изучения сопоставлений между несколькими доменами без использования параллельных данных. Это важно, но сложно из-за необходимости изучения нескольких сопоставлений и отсутствия явного контроля. В последнее время StarGAN-VC привлек к себе внимание благодаря своей способности решать эту проблему только с помощью одного генератора. Однако по-прежнему существует разрыв между реальной и преобразованной речью. Чтобы устранить этот пробел, мы переосмысливаем условные методы StarGAN-VC, которые являются ключевыми компонентами для достижени...

Измерение эффективности преобразования голоса в системах идентификации говорящего и автоматического распознавания речи

В данной статье оценивается эффективность преобразования голоса на основе Cycle-GAN для четырех систем идентификации говорящих (SID) и автоматизированной системы распознавания речи (ASR) для различных целей. Аудиосэмплы, преобразованные с помощью модели voice converter, классифицируются сторонними системами как целевые с точностью до 46% и входят в топ-1 среди более чем 250 говорящих. Этот обнадеживающий результат в имитации целевых стилей побудил нас исследовать, можно ли использовать преобразованные (синтетические) образцы для улучшения обучения ASR. К сожалению, добавление синтетических дан...

Преобразование голоса "многие ко многим" с поддержкой дикторов вне набора данных

Мы представляем основанный на Cycle-GAN метод преобразования голоса "многие ко многим", который позволяет осуществлять преобразование между говорящими, которых нет в обучающем наборе. Это свойство включается с помощью встроенных говорящих, генерируемых нейронной сетью, которая обучается совместно с Cycle-GAN. В отличие от предыдущих работ в этой области, наш метод позволяет осуществлять преобразование между носителем языка, не имеющим доступа к набору данных, и целевым носителем языка в любом направлении и не требует переобучения. Качество преобразования говорящих вне набора данных оценивается...

CycleGAN-VC2: Улучшенное непараллельное преобразование голоса на основе Cycle GAN

Непараллельное преобразование голоса - это метод преобразования исходной речи в целевую, не полагаясь на параллельные данные. Это важная задача, но она была сложной из-за недостатков условий обучения. Недавно CycleGAN-VC совершил прорыв и сравним с параллельным методом преобразования голоса, не прибегая к каким-либо дополнительным данным, модулям или процедурам выравнивания по времени. По-прежнему существует большой разрыв между реальным целевымй и преобразованным голосом, и преодоление этого разрыва остается сложной задачей. Чтобы сократить этот разрыв, мы предлагаем CycleGAN-VC2, который явл...