Преобразование спектра и просодии для межъязыкового преобразования голоса с помощью CycleGAN

Метки: 2020 | Berrak Sisman | Haizhou Li | Kun Zhou | Zongyang Du

Межъязыковое преобразование голоса направлено на изменение голоса говорящего источника, чтобы он звучал так же, как у целевого говорящего, когда исходные и целевые говорящие говорят на разных языках. Он основан на непараллельных данных обучения с двух разных языков, следовательно, является более сложным, чем преобразование голоса на одном языке. Предыдущие исследования по межъязыковому преобразованию голоса в основном фокусировались на спектральном преобразовании с линейным преобразованием для передачи F0. Однако, как важный просодический фактор, F0 по своей сути является иерархическим, поэтом...

VAW-GAN для преобразования певческого голоса с использованием непараллельных обучающих данных

Преобразование голоса

Метки: 2020 | Berrak Sisman | Haizhou Li | Junchen Lu | Kun Zhou

Преобразование голоса певца направлено на преобразование голоса певца из исходного в целевой без изменения содержания пения. Данные параллельного обучения обычно требуются для обучения системы преобразования певческого голоса, что, однако, непрактично в реальных приложениях. Новейшие структуры кодер-декодер, такие как вариационная автоэнкодирующая генеративно-состязательная сеть Вассерштейна (VAW-GAN), обеспечивают эффективный способ изучения отображения с помощью непараллельных обучающих данных. В этой статье мы предлагаем фреймворк преобразования певческого голоса, основанный на VAW-GAN. Мы ...

Обзор преобразования голоса и связанных с ним проблем: от статистического моделирования до глубокого обучения

Преобразование голоса

Метки: 2020 | Berrak Sisman | Haizhou Li | Junichi Yamagishi | Simon King

Идентичность говорящего - одна из важных характеристик человеческой речи. При преобразовании голоса мы меняем личность говорящего с одного на другой, сохраняя при этом лингвистическое содержание неизменным. Преобразование голоса включает в себя множество методов обработки речи, таких как анализ речи, спектральное преобразование, преобразование просодии, определение характеристик говорящего и вокодирование. Благодаря последним достижениям в теории и практике, мы теперь можем воспроизводить голос, похожий на человеческий, с высокой степенью сходства с динамиками. В этой статье мы предоставляем в...

Преобразование чьей-либо эмоции: на пути к независимому от диктора эмоциональному преобразованию голоса

Преобразование голоса

Метки: 2020 | Berrak Sisman | Haizhou Li | Kun Zhou | Mingyang Zhang

Эмоциональное преобразование голоса направлена на преобразование эмоции речи из одного состояния в другое при сохранении языкового содержания и идентичности говорящего. Предыдущие исследования по эмоциональному преобразованию голоса в основном проводились в предположении, что эмоции зависят от говорящего. Мы считаем, что эмоции выражаются универсально у всех говорящих, поэтому возможно независимое от говорящего отображение эмоциональных состояний речи. В этой статье мы предлагаем построить независимую от диктора структуру эмоционального преобразования голоса, которая может конвертировать любые...

Преобразование спектра и просодии для эмоционального преобразования голоса с помощью непараллельных обучающих данных

Преобразование голоса

Категории: Генеративно-состязательная сеть | Глубокое обучение | Состязательное обучение

Метки: 2020 | Berrak Sisman | Haizhou Li | Kun Zhou

Эмоциональное преобразование голоса заключается в преобразовании спектра и просодии для изменения эмоциональных паттернов речи, сохраняя при этом индивидуальность говорящего и лингвистическое содержание. Во многих исследованиях требуются параллельные речевые данные для различных эмоциональных паттернов, что в реальной жизни практически невозможно. Более того, они часто моделируют преобразование основной частоты (F0) с помощью простого линейного преобразования. Поскольку F0 является ключевым аспектом интонации, который является иерархическим по своей природе, мы считаем, что более адекватным яв...

Сеть уменьшения ошибок для преобразования голоса на основе DBLSTM

Преобразование голоса

На данный момент многие подходы к глубокому обучению для преобразования голоса позволяют получать речь хорошего качества, используя большое количество обучающих данных. В этой статье представлена платформа преобразования голоса на основе глубокой двунаправленной долговременной памяти (DBLSTM), которая может работать с ограниченным количеством обучающих данных. Мы предлагаем реализовать усредненную модель на основе DBLSTM, которая обучается на данных от многих дикторов. Затем мы предлагаем выполнить адаптацию с ограниченным количеством целевых данных. И последнее, но не менее важное: мы предлаг...

Метка: Berrak Sisman