Обучение представлению неконтролируемых акустических блоков для преобразования голоса с использованием автокодеров WaveNet

В последние годы изучение речи без присмотра представляет большой интерес, что, например, проявляется в широком интересе к задачам ZeroSpeech. В этой работе представлен новый метод обучения представлений уровня кадров на основе автокодеров WaveNet. Особый интерес в конкурсе "ZeroSpeech Challenge 2019" представляли модели с дискретной скрытой переменной, такие как векторно-квантованный вариационный автокодер (VQVAE). Однако эти модели генерируют речь с относительно низким качеством. В этой работе мы стремимся решить эту проблему с помощью двух подходов: во-первых, WaveNet используется в качеств...

Неконтролируемое междоменное преобразование певческого голоса

Мы представляем генерирующую модель wav-to-wav для задачи преобразования певческого голоса из любого идентификатора. Наш метод использует как акустическую модель, обученную для задачи автоматического распознавания речи, так и функции извлечения мелодии для управления генератором на основе формы сигнала. Предлагаемая генеративная архитектура инвариантна к личности говорящего и может быть обучена генерировать целевых исполнителей на основе немаркированных обучающих данных, используя либо речевые, либо певческие источники. Модель оптимизируется сквозным образом без какого-либо ручного контроля, т...

PitchNet: Неконтролируемое преобразование певческого голоса с помощью состязательной сети по высоте тона

Преобразование певческого голоса заключается в преобразовании голоса певца в голос другого человека без изменения содержания пения. Недавняя работа показывает, что преобразование певческого голоса без контроля может быть достигнуто с помощью подхода, основанного на автоэнкодировании [1]. Однако преобразованный певческий голос может легко сбиться с тональности, что свидетельствует о том, что существующий подход не позволяет точно моделировать информацию о высоте тона. В этой статье мы предлагаем усовершенствовать существующий метод преобразования певческого голоса без контроля, предложенный в [...

Неконтролируемое представление с использованием междоменных функций и состязательного обучения при преобразовании голоса на основе вариационного автоэнкодера

Эффективный подход к преобразованию голоса (VC) заключается в отделении лингвистического контента от других компонентов речевого сигнала. Эффективность VC на основе вариационного автоэнкодера (VAE-VC), например, в значительной степени зависит от этого принципа. В нашей предыдущей работе мы предложили междоменную структуру VAE-VC (CDVAE-VC), которая использовала акустические характеристики с различными свойствами, чтобы улучшить производительность VAE-VC. Мы полагали, что успех был достигнут благодаря более четким скрытым представлениям. В этой статье мы расширяем рамки CDVAE-VC, включая концеп...

На пути к детальному управлению просодией для преобразования голоса

В типичной системе преобразования голоса в предыдущих работах использовались различные акустические характеристики (например, высота тона, озвученный/невокализованный флаг, непериодичность) исходной речи для управления просодией генерируемого сигнала. Однако просодия зависит от многих факторов, таких как интонация, ударение и ритм. Точное описание просодии с помощью акустических характеристик - непростая задача. Чтобы решить эту проблему, мы предлагаем встроенные функции просодии для моделирования просодии. Эти вставки извлекаются из исходной речи неконтролируемым образом. Мы проводим эксперим...

Неконтролируемое преобразование певческого голоса

Мы представляем метод глубокого обучения для преобразования голоса певца. Предлагаемая сеть не зависит от текста или нот и напрямую преобразует аудио одного певца в голос другого. Обучение проводится без какого-либо контроля: никаких текстов или каких-либо фонетических особенностей, никаких нот и совпадающих сэмплов между певцами. Предлагаемая сеть использует единый кодер CNN для всех исполнителей, единый декодер WaveNet и классификатор, который обеспечивает независимое от певца скрытое представление. Каждый исполнитель представлен одним вектором встраивания, к которому привязан декодер. Чтобы...

Бесконтрольное сквозное изучение отдельных языковых единиц для преобразования голоса

Мы представляем неконтролируемую сквозную схему обучения, в которой мы извлекаем отдельные подсловные единицы из речи без использования каких-либо меток. Отдельные подсловные единицы запоминаются с помощью настройки восстановления автоэнкодера ASR-TTS, при которой ASR-кодер обучается обнаруживать набор общих языковых единиц для различных носителей языка, а TTS-декодер обучается проецировать обнаруженные единицы обратно в заданную речь. Мы предлагаем метод дискретного кодирования, многометровые двоичные векторы (MBV), чтобы сделать автоэнкодер ASR-TTS дифференцируемым. Мы обнаружили, что предло...

Ритмично-гибкое преобразование голоса без параллельных данных с использованием циклических последовательностей фонемных апостериограмм

Скорость произнесения относится к среднему количеству фонем за единицу времени, в то время как ритмические паттерны относятся к распределению длительности для реализации разных фонем в разных фонетических структурах. И то, и другое является ключевыми компонентами просодии в речи, которая отличается у разных носителей языка. Такие модели, как cycle-consistent adversarial network (Cycle-GAN) и variational auto-encoder (VAE), успешно применяются для решения задач преобразования голоса без параллельных данных. Однако из-за архитектуры нейронных сетей и векторов характеристик, выбранных для этих по...