Непараллельное преобразование голоса с дополненным классификатором звездных генеративных состязательных сетей

Ранее мы предложили метод, который позволяет осуществлять непараллельное преобразование голоса (VC) с использованием варианта генеративных состязательных сетей (GANS) под названием StarGAN. Основные особенности нашего метода, получившего название StarGAN-VC, заключаются в следующем. Во-первых, он не требует параллельных высказываний, транскрипций или процедур выравнивания времени для тренировки генератора речи. Во-вторых, он может одновременно изучать сопоставления между несколькими доменами, используя единую генераторную сеть, чтобы в полной мере использовать доступные обучающие данные, собра...

Обучение представлению неконтролируемых акустических блоков для преобразования голоса с использованием автокодеров WaveNet

В последние годы изучение речи без присмотра представляет большой интерес, что, например, проявляется в широком интересе к задачам ZeroSpeech. В этой работе представлен новый метод обучения представлений уровня кадров на основе автокодеров WaveNet. Особый интерес в конкурсе "ZeroSpeech Challenge 2019" представляли модели с дискретной скрытой переменной, такие как векторно-квантованный вариационный автокодер (VQVAE). Однако эти модели генерируют речь с относительно низким качеством. В этой работе мы стремимся решить эту проблему с помощью двух подходов: во-первых, WaveNet используется в качеств...

Преобразование спектра и просодии для межъязыкового преобразования голоса с помощью CycleGAN

Межъязыковое преобразование голоса направлено на изменение голоса говорящего источника, чтобы он звучал так же, как у целевого говорящего, когда исходные и целевые говорящие говорят на разных языках. Он основан на непараллельных данных обучения с двух разных языков, следовательно, является более сложным, чем преобразование голоса на одном языке. Предыдущие исследования по межъязыковому преобразованию голоса в основном фокусировались на спектральном преобразовании с линейным преобразованием для передачи F0. Однако, как важный просодический фактор, F0 по своей сути является иерархическим, поэтом...

VAW-GAN для преобразования певческого голоса с использованием непараллельных обучающих данных

Преобразование голоса певца направлено на преобразование голоса певца из исходного в целевой без изменения содержания пения. Данные параллельного обучения обычно требуются для обучения системы преобразования певческого голоса, что, однако, непрактично в реальных приложениях. Новейшие структуры кодер-декодер, такие как вариационная автоэнкодирующая генеративно-состязательная сеть Вассерштейна (VAW-GAN), обеспечивают эффективный способ изучения отображения с помощью непараллельных обучающих данных. В этой статье мы предлагаем фреймворк преобразования певческого голоса, основанный на VAW-GAN. Мы ...

DurIAN-SC: Система преобразования певческого голоса, основанная на информированной о продолжительности сети внимания

Преобразование певческого голоса - это преобразование тембра исходного пения в голос целевого диктора при сохранении содержания пения неизменным. Однако данные о пении для целевого носителя собрать гораздо сложнее по сравнению с обычными речевыми данными. В этой статье мы представляем алгоритм преобразования певческого голоса, который способен генерировать высококачественное пение целевого говорящего, используя только его / ее обычные речевые данные. Во-первых, нам удается интегрировать процесс обучения и преобразования речи и пения в единую структуру, объединив функции, используемые в стандар...

Непараллельное преобразование голоса на основе распознавания и синтеза с состязательным обучением

В данной статье представлен метод состязательного обучения для непараллельного преобразования голоса на основе распознавания и синтеза. Распознаватель используется для преобразования акустических признаков в лингвистические представления, в то время как синтезатор восстанавливает выходные признаки из выходных данных распознавателя вместе с идентификатором говорящего. Отделяя характеристики говорящего от лингвистических представлений, преобразование голоса может быть достигнуто путем замены идентификатора говорящего на целевой. В предлагаемом нами методе используется состязательная потеря говор...

VQVC+: Одноразовое преобразование голоса с помощью векторного квантования и архитектуры U-Net

Преобразование голоса (VC) - это задача, которая преобразует тембр, акцент и тона исходного говорящего в аудио в другой звук, сохраняя при этом лингвистическое содержание. Это все еще сложная работа, особенно в условиях одного прохода. Методы преобразования голоса , основанные на автокодировщике, распутывают говорящего и содержание входной речи без указания личности говорящего, поэтому эти методы могут далее обобщаться на невидимых говорящих. Возможность распутывания достигается векторным квантованием (VQ), состязательным обучением или нормализацией экземпляра (IN). Однако несовершенное распут...

Преобразование чьей-либо эмоции: на пути к независимому от диктора эмоциональному преобразованию голоса

Эмоциональное преобразование голоса направлена на преобразование эмоции речи из одного состояния в другое при сохранении языкового содержания и идентичности говорящего. Предыдущие исследования по эмоциональному преобразованию голоса в основном проводились в предположении, что эмоции зависят от говорящего. Мы считаем, что эмоции выражаются универсально у всех говорящих, поэтому возможно независимое от говорящего отображение эмоциональных состояний речи. В этой статье мы предлагаем построить независимую от диктора структуру эмоционального преобразования голоса, которая может конвертировать любые...

Scyclone: Высококачественное и непараллельное преобразование голоса с использованием спектрограмм и CycleGAN

В данной статье предлагается Scyclone, метод высококачественного преобразования голоса (VC) без параллельного обучения данных. Scyclone улучшает естественность речи и сходство дикторов преобразованной речи посредством внедрения основывающегося на CycleGAN преобразования спектрограмм с упрощенным вокодером на основе WaveRNN. В Scyclone в качестве параметров вокодера используется линейная спектрограмма, что позволяет избежать ухудшения качества из-за ошибок извлечения в основной частоте и звонких/глухих параметрах. Спектрограммы исходных и целевых дикторов моделируются модифицированными CycleGAN...

F0-последовательное непараллельное преобразование голоса "многие ко многим" с помощью условного автоэнкодера

Непараллельное преобразование голоса "многие ко многим" остается интересной, но сложной задачей обработки речи. Было предложено множество методов, вдохновленных переносом стилей, таких как генеративные состязательные сети (GAN) и вариационные автоэнкодеры (VAE). Недавно AutoVC, метод, основанный на условных автоэнкодерах (CAE), достиг самых современных результатов, распутав идентификацию говорящего и речевой контент, используя ограничивающие информацию узкие места, и он обеспечивает преобразование с нулевым кадром путем замены встроенного идентификатора другого говорящего для синтеза нового го...