Задача преобразования голоса 2020: внутриязыковое полупараллельное и межъязыковое преобразование голоса

Задача преобразования голоса - это двухлетнее научное мероприятие, проводимое для сравнения и понимания различных систем преобразования голоса, построенных на общем наборе данных. В 2020 году мы организовали третье издание задачи и создали и распространили новую базу данных для двух задач: внутриязыкового полупараллельного и межъязыкового преобразования голоса. После двухмесячного периода испытаний мы получили 33 заявки, в том числе 3 базовых уровня, построенных на базе данных. По результатам тестов на прослушивание из краудсорсинга мы заметили, что методы преобразования голоса быстро прогресс...

Обзор преобразования голоса и связанных с ним проблем: от статистического моделирования до глубокого обучения

Идентичность говорящего - одна из важных характеристик человеческой речи. При преобразовании голоса мы меняем личность говорящего с одного на другой, сохраняя при этом лингвистическое содержание неизменным. Преобразование голоса включает в себя множество методов обработки речи, таких как анализ речи, спектральное преобразование, преобразование просодии, определение характеристик говорящего и вокодирование. Благодаря последним достижениям в теории и практике, мы теперь можем воспроизводить голос, похожий на человеческий, с высокой степенью сходства с динамиками. В этой статье мы предоставляем в...

Самонастраивающееся непараллельное преобразование голоса из диктор-адаптивное преобразование текста в речь

Преобразование голоса и текста в речь - это две задачи, которые преследуют схожую цель: генерировать речь с помощью целевого голоса. Однако, как правило, они разрабатываются независимо друг от друга в рамках совершенно разных платформ. В этой статье мы предлагаем методологию начальной загрузки системы преобразования голоса из предварительно подготовленной модели преобразования текста в речь, адаптируемой к диктору, и объединяем методы, а также интерпретации этих двух задач. Более того, благодаря переносу большого объема данных на этап обучения модели преобразования текста в речь, наша система ...

MOSNet: Объективная оценка преобразования голоса на основе глубокого обучения

Существующие объективные показатели оценки преобразования голоса не всегда коррелируют с восприятием человекоа. Поэтому обучение моделям преобразования голоса с использованием таких критериев не может эффективно улучшить естественность и сходство преобразованного голоса. В этой статье мы предлагаем модели оценки, основанные на глубоком обучении, для прогнозирования оценки человеком преобразованного голоса. Мы используем сверточную и рекуррентную модели нейронных сетей для построения прогноза среднего балла мнений (MOS), называемого MOSNet. Предложенные модели протестированы на результатах круп...

Совместная обучающая платформа для преобразования текста в речь и преобразования голоса с использованием Tacotron и WaveNet с несколькими источниками

Мы исследовали процесс обучения общей модели как для задач преобразования текста в речь, так и для задач преобразования голоса. Мы предлагаем использовать архитектуру расширенной модели Tacotron, которая представляет собой модель последовательного преобразования из нескольких источников с механизмом двойного внимания, в качестве общей модели как для задач преобразования текста в речь, так и для задач преобразования голоса. Эта модель может выполнять эти две различные задачи соответственно в зависимости от типа входных данных. Задача сквозного синтеза речи выполняется, когда модели в качестве в...

Тест на подделку для конкурса по преобразованию голоса в 2018 году: Использование средств противодействия подделке для оценки речевых артефактов

Преобразование голоса направлено на преобразование характеристик говорящего без изменения содержания. Из-за ограниченности обучающих данных и несовершенства моделирования трудно добиться правдоподобной имитации говорящего без внесения артефактов обработки; поэтому оценка эффективности преобразования голоса обычно включает в себя как сходство говорящего, так и оценку качества с помощью человека. Поскольку это трудоемкий, дорогостоящий и невоспроизводимый процесс, он затрудняет быстрое создание прототипов новой технологии преобразования голоса. Мы рассматриваем оценку искажений, используя альтер...

Конкурс по преобразованию голоса в 2018 году: Содействие разработке параллельных и непараллельных методов

Мы представляем конкурс Voice Conversion Challenge 2018, разработанный в дополнение к выпуску 2016 года с целью обеспечения общей основы для оценки и сравнения различных современных систем преобразования голоса. Цель задания состояла в том, чтобы выполнить преобразование голоса (т.е. преобразовать голосовую идентификацию) исходного носителя в целевой, сохранив при этом лингвистическую информацию. В дополнение к предыдущему заданию мы рассматривали как параллельные, так и непараллельные данные для формирования задач Hub и Spoke соответственно. В общей сложности 23 команды со всего мира представ...

Высококачественное непараллельное преобразование голоса на основе циклически согласованной состязательной сети

Несмотря на то, что алгоритмы преобразования голоса достигли значительных успехов с развитием машинного обучения, по-прежнему трудно достичь высокой производительности при использовании непараллельных данных. В этой статье мы предлагаем использовать циклически согласованную состязательную сеть (CycleGAN) для обучения непараллельному преобразованию голоса на основе данных. CycleGAN - это генеративная состязательная сеть (GAN), изначально разработанная для непарного преобразования изображений в изображения. Субъективная оценка межполовой конверсии показала, что предложенный метод значительно пре...