Автокодеры с противоборствующим обучением для преобразования голоса без использования параллельных данных

Мы представляем метод преобразования голоса между несколькими говорящими. Наш метод основан на обучении нескольких путей автоэнкодирования, где имеется один кодер, независимый от говорящего, и несколько декодеров, зависящих от говорящего. Автоэнкодеры обучаются с добавлением потерь при столкновении, которые обеспечиваются вспомогательным классификатором, чтобы выходные данные кодера были независимыми от диктора. Обучение модели проходит без контроля в том смысле, что для этого не требуется собирать одинаковые высказывания от говорящих и не требуется время на согласование фонем. Благодаря испол...

Преобразование голоса "многие ко многим" с поддержкой дикторов вне набора данных

Мы представляем основанный на Cycle-GAN метод преобразования голоса "многие ко многим", который позволяет осуществлять преобразование между говорящими, которых нет в обучающем наборе. Это свойство включается с помощью встроенных говорящих, генерируемых нейронной сетью, которая обучается совместно с Cycle-GAN. В отличие от предыдущих работ в этой области, наш метод позволяет осуществлять преобразование между носителем языка, не имеющим доступа к набору данных, и целевым носителем языка в любом направлении и не требует переобучения. Качество преобразования говорящих вне набора данных оценивается...

CycleGAN-VC2: Улучшенное непараллельное преобразование голоса на основе Cycle GAN

Непараллельное преобразование голоса - это метод преобразования исходной речи в целевую, не полагаясь на параллельные данные. Это важная задача, но она была сложной из-за недостатков условий обучения. Недавно CycleGAN-VC совершил прорыв и сравним с параллельным методом преобразования голоса, не прибегая к каким-либо дополнительным данным, модулям или процедурам выравнивания по времени. По-прежнему существует большой разрыв между реальным целевымй и преобразованным голосом, и преодоление этого разрыва остается сложной задачей. Чтобы сократить этот разрыв, мы предлагаем CycleGAN-VC2, который явл...

Преобразование шепотного голоса в гортанный с помощью генеративных состязательных сетей

Большинство методов восстановления голоса у пациентов, страдающих афонией, позволяют говорить шепотом или монотонно. Помимо разборчивости, этому типу речи не хватает выразительности и естественности из-за отсутствия тембра (речь шепотом) или его искусственного создания (монотонная речь). Существующие методы восстановления просодической информации обычно сочетают вокодер, который параметризует речевой сигнал, с методами машинного обучения, которые предсказывают просодическую информацию. В отличие от этого, в этой статье описывается комплексный нейронный подход к оценке формы сигнала полностью о...

Ритмично-гибкое преобразование голоса без параллельных данных с использованием циклических последовательностей фонемных апостериограмм

Скорость произнесения относится к среднему количеству фонем за единицу времени, в то время как ритмические паттерны относятся к распределению длительности для реализации разных фонем в разных фонетических структурах. И то, и другое является ключевыми компонентами просодии в речи, которая отличается у разных носителей языка. Такие модели, как cycle-consistent adversarial network (Cycle-GAN) и variational auto-encoder (VAE), успешно применяются для решения задач преобразования голоса без параллельных данных. Однако из-за архитектуры нейронных сетей и векторов характеристик, выбранных для этих по...

StarGAN-VC: Непараллельное преобразование голоса "многие ко многим" с использованием звездообразных генеративных состязательных сетей

В этой статье предлагается метод, который позволяет осуществлять непараллельное преобразование голоса "многие ко многим" с использованием варианта генеративной состязательной сети (GAN) под названием StarGAN. Наш метод, который мы называем StarGAN-VC, примечателен тем, что он (1) не требует параллельного произнесения, транскрипции или процедур выравнивания по времени для обучения генератора речи, (2) одновременно изучает сопоставления "многие ко многим" в разных областях атрибутов, используя единую сеть генераторов, (3) способен генерировать преобразованные речевые сигналы достаточно быстро, ч...

Многоцелевое преобразование голоса без параллельных данных за счет состязательного изучения разрозненных звуковых представлений

Недавно cycle-consistent adversarial network (Cycle-GAN) была успешно применена для преобразования голоса в другого диктора без параллельных данных, хотя при таких подходах для каждого целевого диктора требуется индивидуальная модель. В этой статье мы предлагаем систему состязательного обучения для преобразования голоса, с помощью которой можно обучить одну модель преобразовывать голос для множества разных дикторов без параллельных данных, отделяя характеристики диктора от лингвистического содержания речевых сигналов. Сначала автоэнкодер обучается извлекать скрытые представления, не зависящие ...

Высококачественное непараллельное преобразование голоса на основе циклически согласованной состязательной сети

Несмотря на то, что алгоритмы преобразования голоса достигли значительных успехов с развитием машинного обучения, по-прежнему трудно достичь высокой производительности при использовании непараллельных данных. В этой статье мы предлагаем использовать циклически согласованную состязательную сеть (CycleGAN) для обучения непараллельному преобразованию голоса на основе данных. CycleGAN - это генеративная состязательная сеть (GAN), изначально разработанная для непарного преобразования изображений в изображения. Субъективная оценка межполовой конверсии показала, что предложенный метод значительно пре...

Преобразование голоса без параллельных данных с использованием согласованных по циклу конкурирующих сетей

Мы предлагаем метод преобразования голоса без параллельных данных, который позволяет преобразовать исходную речь в целевую, не полагаясь на параллельные данные. Предлагаемый метод является универсальным, высококачественным, не требует параллельных данных и работает без каких-либо дополнительных данных, модулей или процедуры выравнивания. Это также позволяет избежать чрезмерного сглаживания, которое происходит во многих традиционных методах преобразования голоса, основанных на статистических моделях. Наш метод, называемый CycleGAN-VC, использует согласованную с циклом состязательную сеть (Cycle...

Преобразование голоса из невыровненных корпусов с использованием вариационного автоэнкодирования, порождающего состязательные сети Вассерштейна

Создание системы преобразования голоса из непараллельных речевых массивов является сложной задачей, но очень ценной в реальных сценариях применения. В большинстве случаев говорящий на исходном и целевом языках не повторяет одни и те же тексты или даже может говорить на разных языках. В этом случае одним из возможных, хотя и косвенных, решений является построение порождающей модели для речи. Порождающие модели фокусируются на объяснении наблюдений с помощью скрытых переменных вместо изучения функции попарного преобразования, тем самым обходя требование выравнивания речевого фрейма. В этой стать...