Преобразование голоса от любого ко многим с моделированием с относительным местоположением от последовательности к последовательности

В этой статье предлагается подход к непараллельному преобразованию голоса от любого ко многим относительно местоположения, от последовательности к последовательности (seq2seq), который использует контроль текста во время обучения. В этом подходе мы объединяем экстрактор функций бутылочного горлышка (BNE) с модулем синтеза seq2seq. На этапе обучения обучается гибридный распознаватель фонем коннекционист-временная классификация-внимание (CTC-attention) на основе кодера-декодера, кодер которого имеет слой горлышка бутылки. BNE получается из распознавателя фонем и используется для извлечения незав...

Преобразование голоса с помощью каскадного автоматического распознавания речи и преобразования текста в речь с передачей просодии

С развитием технологий автоматического распознавания речи (ASR) и синтеза текста в речь (TTS) стало интуитивно понятно построить систему преобразования голоса путем каскадного подключения систем ASR и TTS. В этой статье мы представляем метод ASR-TTS для преобразования голоса, в котором используется механизм iFLYTEK ASR для преобразования исходной речи в текст и модель Transformer TTS с вокодером WaveNet для синтеза преобразованной речи из декодированного текста. Для модели TTS мы предложили использовать код просодии для описания просодической информации, отличной от текста и информации о дикто...

Непараллельное преобразование голоса с дополненным классификатором звездных генеративных состязательных сетей

Ранее мы предложили метод, который позволяет осуществлять непараллельное преобразование голоса (VC) с использованием варианта генеративных состязательных сетей (GANS) под названием StarGAN. Основные особенности нашего метода, получившего название StarGAN-VC, заключаются в следующем. Во-первых, он не требует параллельных высказываний, транскрипций или процедур выравнивания времени для тренировки генератора речи. Во-вторых, он может одновременно изучать сопоставления между несколькими доменами, используя единую генераторную сеть, чтобы в полной мере использовать доступные обучающие данные, собра...

Задача преобразования голоса 2020: внутриязыковое полупараллельное и межъязыковое преобразование голоса

Задача преобразования голоса - это двухлетнее научное мероприятие, проводимое для сравнения и понимания различных систем преобразования голоса, построенных на общем наборе данных. В 2020 году мы организовали третье издание задачи и создали и распространили новую базу данных для двух задач: внутриязыкового полупараллельного и межъязыкового преобразования голоса. После двухмесячного периода испытаний мы получили 33 заявки, в том числе 3 базовых уровня, построенных на базе данных. По результатам тестов на прослушивание из краудсорсинга мы заметили, что методы преобразования голоса быстро прогресс...

Обучение представлению неконтролируемых акустических блоков для преобразования голоса с использованием автокодеров WaveNet

В последние годы изучение речи без присмотра представляет большой интерес, что, например, проявляется в широком интересе к задачам ZeroSpeech. В этой работе представлен новый метод обучения представлений уровня кадров на основе автокодеров WaveNet. Особый интерес в конкурсе "ZeroSpeech Challenge 2019" представляли модели с дискретной скрытой переменной, такие как векторно-квантованный вариационный автокодер (VQVAE). Однако эти модели генерируют речь с относительно низким качеством. В этой работе мы стремимся решить эту проблему с помощью двух подходов: во-первых, WaveNet используется в качеств...

Преобразование спектра и просодии для межъязыкового преобразования голоса с помощью CycleGAN

Межъязыковое преобразование голоса направлено на изменение голоса говорящего источника, чтобы он звучал так же, как у целевого говорящего, когда исходные и целевые говорящие говорят на разных языках. Он основан на непараллельных данных обучения с двух разных языков, следовательно, является более сложным, чем преобразование голоса на одном языке. Предыдущие исследования по межъязыковому преобразованию голоса в основном фокусировались на спектральном преобразовании с линейным преобразованием для передачи F0. Однако, как важный просодический фактор, F0 по своей сути является иерархическим, поэтом...

VAW-GAN для преобразования певческого голоса с использованием непараллельных обучающих данных

Преобразование голоса певца направлено на преобразование голоса певца из исходного в целевой без изменения содержания пения. Данные параллельного обучения обычно требуются для обучения системы преобразования певческого голоса, что, однако, непрактично в реальных приложениях. Новейшие структуры кодер-декодер, такие как вариационная автоэнкодирующая генеративно-состязательная сеть Вассерштейна (VAW-GAN), обеспечивают эффективный способ изучения отображения с помощью непараллельных обучающих данных. В этой статье мы предлагаем фреймворк преобразования певческого голоса, основанный на VAW-GAN. Мы ...

Обзор преобразования голоса и связанных с ним проблем: от статистического моделирования до глубокого обучения

Идентичность говорящего - одна из важных характеристик человеческой речи. При преобразовании голоса мы меняем личность говорящего с одного на другой, сохраняя при этом лингвистическое содержание неизменным. Преобразование голоса включает в себя множество методов обработки речи, таких как анализ речи, спектральное преобразование, преобразование просодии, определение характеристик говорящего и вокодирование. Благодаря последним достижениям в теории и практике, мы теперь можем воспроизводить голос, похожий на человеческий, с высокой степенью сходства с динамиками. В этой статье мы предоставляем в...

Методы предварительной подготовки для преобразования голоса из последовательности в последовательность

Модели преобразования голоса (VC) из последовательности в последовательность (seq2seq) привлекательны благодаря своей способности преобразовывать просодию. Тем не менее, без достаточных данных модели seq2seq преобразования голоса могут страдать от нестабильного обучения и проблем с неправильным произношением в преобразованной речи, что далеко не практично. Чтобы устранить эти недостатки, мы предлагаем перенести знания из других задач обработки речи, где легко доступны крупномасштабные базы данных, как правило, преобразование текста в речь (TTS) и автоматическое распознавание речи (ASR). Мы утв...

DurIAN-SC: Система преобразования певческого голоса, основанная на информированной о продолжительности сети внимания

Преобразование певческого голоса - это преобразование тембра исходного пения в голос целевого диктора при сохранении содержания пения неизменным. Однако данные о пении для целевого носителя собрать гораздо сложнее по сравнению с обычными речевыми данными. В этой статье мы представляем алгоритм преобразования певческого голоса, который способен генерировать высококачественное пение целевого говорящего, используя только его / ее обычные речевые данные. Во-первых, нам удается интегрировать процесс обучения и преобразования речи и пения в единую структуру, объединив функции, используемые в стандар...