Передача исходного стиля при непараллельном преобразовании голоса

Методы преобразования голоса (VC) направлены на изменение идентичности говорящего высказывания при сохранении лежащей в его основе лингвистической информации. Большинство подходов преобразования голоса игнорируют моделирование стиля речи (например, эмоции и акцент), который может содержать факторы, намеренно добавленные говорящим, и должен быть сохранен во время преобразования. Это исследование предлагает основанный на последовательности непараллельный подход преобразования голоса, который имеет возможность передачи стиля речи от исходной речи к преобразованной речи путем явного моделирования....

Преобразование певческого голоса с использованием разрозненных представлений о певце и вокальной технике с использованием вариационных автоэнкодеров

Мы предлагаем гибкую структуру, которая работает как с преобразованием голоса певца, так и с преобразованием вокальной техники певцов. Предлагаемая модель разработана на непараллельных корпусах, поддерживает преобразование "многие ко многим" и использует последние достижения вариационных автоэнкодеров. В нем используются отдельные кодеры для изучения скрытых представлений об индивидуальности певца и вокальной технике по отдельности, а для реконструкции используется совместный декодер. Преобразование осуществляется с помощью простой векторной арифметики в изученных скрытых пространствах. Как ко...

Оценка защиты конфиденциальности на основе преобразования голоса от информированных злоумышленников

Речевые данные передают важные атрибуты говорящего, такие как личность или акцент. При небольшом количестве найденных данных такие атрибуты могут быть выведены и использованы в злонамеренных целях: клонировании голоса, подделке и т.д. Цель анонимизации - сделать данные несвязываемыми, то есть гарантировать, что ни одно высказывание не может быть связано с его первоначальным носителем. В этой статье мы исследуем методы анонимизации, основанные на преобразовании голоса. В отличие от предыдущих работ, мы утверждаем, что различные атаки на привязку могут быть разработаны в зависимости от знаний зл...

Преобразование голоса для синтеза шепотной речи

Мы представляем подход к синтезу шепота, применяя разработанный вручную рецепт обработки сигналов и методы преобразования голоса для преобразования обычной фонетической речи в речь шепотом. Мы исследуем, используя модели гауссовой смеси (GMM) и глубокие нейронные сети (DNN), чтобы смоделировать соответствие между акустическими характеристиками обычной речи и речи шепотом. Мы оцениваем естественность и сходство с диктором преобразованного шепота во внутреннем корпусе и в общедоступном корпусе wTIMIT. Мы показываем, что применение методов преобразования голоса значительно эффективнее, чем исполь...

Последовательное акустическое моделирование для преобразования голоса

В этой статье представлена нейронная сеть под названием Sequence-to-sequence ConvErsion NeTwork (SCENT) для акустического моделирования в преобразовании голоса. На этапе обучения модель SCENT оценивается путем неявного сопоставления последовательностей признаков исходного и целевого говорящих, используя механизм внимания. На этапе преобразования акустические характеристики и длительность исходных звуков преобразуются одновременно с использованием единой акустической модели. В качестве акустических характеристик используются спектрограммы в масштабе Mel, которые содержат описания речевых сигнал...

Преобразование голоса WaveNet без вокодера с использованием непараллельных данных

В типичной системе преобразования голоса вокодер обычно используется для преобразования речи в признаки и синтеза признаков в речь. Однако вокодер может быть источником ухудшения качества речи. В этой статье представлен подход к преобразованию голоса без использования вокодера с использованием вейвлета для непараллельных обучающих данных. Вместо того, чтобы работать с промежуточными функциями, предлагаемый подход использует WaveNet для непосредственного сопоставления фонетических апостериорограмм (PPG) с образцами формы сигнала. Таким образом, мы избегаем ошибок оценки, вызванных вокодером и п...

Межъязыковое преобразование голоса на основе DNN с использованием функций "узкого места"

Преобразование голоса на разных языках является довольно сложной задачей, поскольку говорящие на разных языках говорят на разных языках. В этой статье предлагается платформа для преобразования голоса на разных языках, основанная на функциях "узких мест" и глубокой нейронной сети (DNN).). В предлагаемом методе признаки узких мест, извлеченные из глубокого автоэнкодера (DAE), используются для представления не зависящих от говорящего особенностей речевых сигналов с разных языков. Модель DNN обучается для определения соответствия между признаками узких мест и соответствующими спектральными характе...

AttS2S-VC: Преобразование голоса от последовательности к последовательности с механизмами сохранения внимания и контекста

В этой статье описывается метод, основанный на последовательном обучении (Seq2Seq) с механизмом сохранения внимания и контекста для задач преобразования голоса. Seq2Seq отлично справляется с многочисленными задачами, связанными с моделированием последовательности, такими как синтез и распознавание речи, машинный перевод и создание субтитров к изображениям. В отличие от современных методов преобразования голоса, наш метод 1) стабилизирует и ускоряет процедуру обучения за счет учета направленного внимания и предполагаемых потерь при сохранении контекста, 2) позволяет преобразовывать не только сп...

Тест на подделку для конкурса по преобразованию голоса в 2018 году: Использование средств противодействия подделке для оценки речевых артефактов

Преобразование голоса направлено на преобразование характеристик говорящего без изменения содержания. Из-за ограниченности обучающих данных и несовершенства моделирования трудно добиться правдоподобной имитации говорящего без внесения артефактов обработки; поэтому оценка эффективности преобразования голоса обычно включает в себя как сходство говорящего, так и оценку качества с помощью человека. Поскольку это трудоемкий, дорогостоящий и невоспроизводимый процесс, он затрудняет быстрое создание прототипов новой технологии преобразования голоса. Мы рассматриваем оценку искажений, используя альтер...

Надежность методов преобразования голоса в различных условиях

Большинство существующих исследований по преобразованию голоса проводятся в акустически согласованных условиях между источником и целевым сигналом. Однако надежность методов преобразования голоса при наличии несоответствия остается неизвестной. В этой статье мы проводим сравнительный анализ различных методов преобразования голоса в условиях несоответствия. Обширные эксперименты с пятью различными методами преобразования голоса в CMU ARCTIC corpus показывают, что эффективность методов преобразования голоса существенно снижается в условиях шума. Мы обнаружили, что билинейное искажение частоты с ...