Преобразование голоса от любого ко многим с моделированием с относительным местоположением от последовательности к последовательности

В этой статье предлагается подход к непараллельному преобразованию голоса от любого ко многим относительно местоположения, от последовательности к последовательности (seq2seq), который использует контроль текста во время обучения. В этом подходе мы объединяем экстрактор функций бутылочного горлышка (BNE) с модулем синтеза seq2seq. На этапе обучения обучается гибридный распознаватель фонем коннекционист-временная классификация-внимание (CTC-attention) на основе кодера-декодера, кодер которого имеет слой горлышка бутылки. BNE получается из распознавателя фонем и используется для извлечения незав...

Непараллельное преобразование голоса с дополненным классификатором звездных генеративных состязательных сетей

Ранее мы предложили метод, который позволяет осуществлять непараллельное преобразование голоса (VC) с использованием варианта генеративных состязательных сетей (GANS) под названием StarGAN. Основные особенности нашего метода, получившего название StarGAN-VC, заключаются в следующем. Во-первых, он не требует параллельных высказываний, транскрипций или процедур выравнивания времени для тренировки генератора речи. Во-вторых, он может одновременно изучать сопоставления между несколькими доменами, используя единую генераторную сеть, чтобы в полной мере использовать доступные обучающие данные, собра...

Обучение представлению неконтролируемых акустических блоков для преобразования голоса с использованием автокодеров WaveNet

В последние годы изучение речи без присмотра представляет большой интерес, что, например, проявляется в широком интересе к задачам ZeroSpeech. В этой работе представлен новый метод обучения представлений уровня кадров на основе автокодеров WaveNet. Особый интерес в конкурсе "ZeroSpeech Challenge 2019" представляли модели с дискретной скрытой переменной, такие как векторно-квантованный вариационный автокодер (VQVAE). Однако эти модели генерируют речь с относительно низким качеством. В этой работе мы стремимся решить эту проблему с помощью двух подходов: во-первых, WaveNet используется в качеств...

Преобразование спектра и просодии для межъязыкового преобразования голоса с помощью CycleGAN

Межъязыковое преобразование голоса направлено на изменение голоса говорящего источника, чтобы он звучал так же, как у целевого говорящего, когда исходные и целевые говорящие говорят на разных языках. Он основан на непараллельных данных обучения с двух разных языков, следовательно, является более сложным, чем преобразование голоса на одном языке. Предыдущие исследования по межъязыковому преобразованию голоса в основном фокусировались на спектральном преобразовании с линейным преобразованием для передачи F0. Однако, как важный просодический фактор, F0 по своей сути является иерархическим, поэтом...

VAW-GAN для преобразования певческого голоса с использованием непараллельных обучающих данных

Преобразование голоса певца направлено на преобразование голоса певца из исходного в целевой без изменения содержания пения. Данные параллельного обучения обычно требуются для обучения системы преобразования певческого голоса, что, однако, непрактично в реальных приложениях. Новейшие структуры кодер-декодер, такие как вариационная автоэнкодирующая генеративно-состязательная сеть Вассерштейна (VAW-GAN), обеспечивают эффективный способ изучения отображения с помощью непараллельных обучающих данных. В этой статье мы предлагаем фреймворк преобразования певческого голоса, основанный на VAW-GAN. Мы ...

Методы предварительной подготовки для преобразования голоса из последовательности в последовательность

Модели преобразования голоса (VC) из последовательности в последовательность (seq2seq) привлекательны благодаря своей способности преобразовывать просодию. Тем не менее, без достаточных данных модели seq2seq преобразования голоса могут страдать от нестабильного обучения и проблем с неправильным произношением в преобразованной речи, что далеко не практично. Чтобы устранить эти недостатки, мы предлагаем перенести знания из других задач обработки речи, где легко доступны крупномасштабные базы данных, как правило, преобразование текста в речь (TTS) и автоматическое распознавание речи (ASR). Мы утв...

DurIAN-SC: Система преобразования певческого голоса, основанная на информированной о продолжительности сети внимания

Преобразование певческого голоса - это преобразование тембра исходного пения в голос целевого диктора при сохранении содержания пения неизменным. Однако данные о пении для целевого носителя собрать гораздо сложнее по сравнению с обычными речевыми данными. В этой статье мы представляем алгоритм преобразования певческого голоса, который способен генерировать высококачественное пение целевого говорящего, используя только его / ее обычные речевые данные. Во-первых, нам удается интегрировать процесс обучения и преобразования речи и пения в единую структуру, объединив функции, используемые в стандар...

Неконтролируемое междоменное преобразование певческого голоса

Мы представляем генерирующую модель wav-to-wav для задачи преобразования певческого голоса из любого идентификатора. Наш метод использует как акустическую модель, обученную для задачи автоматического распознавания речи, так и функции извлечения мелодии для управления генератором на основе формы сигнала. Предлагаемая генеративная архитектура инвариантна к личности говорящего и может быть обучена генерировать целевых исполнителей на основе немаркированных обучающих данных, используя либо речевые, либо певческие источники. Модель оптимизируется сквозным образом без какого-либо ручного контроля, т...

Непараллельное преобразование голоса на основе распознавания и синтеза с состязательным обучением

В данной статье представлен метод состязательного обучения для непараллельного преобразования голоса на основе распознавания и синтеза. Распознаватель используется для преобразования акустических признаков в лингвистические представления, в то время как синтезатор восстанавливает выходные признаки из выходных данных распознавателя вместе с идентификатором говорящего. Отделяя характеристики говорящего от лингвистических представлений, преобразование голоса может быть достигнуто путем замены идентификатора говорящего на целевой. В предлагаемом нами методе используется состязательная потеря говор...

Непараллельное преобразование голоса на основе прямого сопоставления источника и цели

Недавние работы по использованию фонетических апостериограмм (PPGs) для непараллельного преобразования голоса значительно повысили удобство использования преобразования голоса, поскольку исходные и целевые базы данных больше не требуются для сопоставления содержимого. В этом подходе PPGs используются в качестве лингвистического моста между исходными и целевыми характеристиками говорящего. Однако это непараллельное преобразование голоса на основе PPG имеет некоторое ограничение, заключающееся в том, что оно требует двух каскадных сетей во время преобразования, что делает его менее подходящим дл...