Надежность методов преобразования голоса в различных условиях

Большинство существующих исследований по преобразованию голоса проводятся в акустически согласованных условиях между источником и целевым сигналом. Однако надежность методов преобразования голоса при наличии несоответствия остается неизвестной. В этой статье мы проводим сравнительный анализ различных методов преобразования голоса в условиях несоответствия. Обширные эксперименты с пятью различными методами преобразования голоса в CMU ARCTIC corpus показывают, что эффективность методов преобразования голоса существенно снижается в условиях шума. Мы обнаружили, что билинейное искажение частоты с ...

Преобразование голоса с использованием сверточных нейронных сетей

Слуховая система человека способна различать голос тысяч говорящих, однако не так много известно о том, какие функции слуховая система использует для этого. Преобразование Фурье способно улавливать высоту звука и гармоническую структуру говорящего, но одного этого недостаточно для однозначной идентификации говорящих. Оставшаяся структура, часто называемая тембром, имеет решающее значение для идентификации говорящих, но мы мало что поняли в ней. В этой статье мы используем последние достижения в области нейронных сетей для того, чтобы манипулировать голосом одного говорящего, преобразуя не толь...

Обновление словаря для преобразования голоса на основе NMF с использованием сети кодер-декодер

В этой статье мы предлагаем метод обновления словаря для неотрицательной матричной факторизации (NMF) с использованием многомерных данных в задаче спектрального преобразования (SC). Преобразование голоса широко изучалось из-за его потенциальных применений, таких как персонализированный синтез речи и улучшение качества речи. Основанный на примерах NMF (ENMF) представляется эффективным и, вероятно, самым простым выбором среди всех методов для SC, при условии, что предоставляется параллельный корпус исходной и целевой речи. SC-системы на основе ENMF обычно нуждаются в большом количестве баз (обра...

Преобразование голоса из непараллельных корпусов с использованием вариационного автокодера

Мы предлагаем гибкую платформу для спектрального преобразования (SC), которая облегчает обучение с использованием невыровненных корпусов. Многие платформы SC требуют параллельных корпусов, фонетических выравниваний или явного соответствия по фреймам для изучения функций преобразования голоса с помощью выравниваний. Однако эти требования серьезно ограничивают область практического применения SC из-за нехватки или даже отсутствия параллельных корпусов. Мы предлагаем платформу SC, основанную на вариационном автокодировщике, которая позволяет нам использовать непараллельные корпуса. Фреймворк вклю...

Преобразование голоса с использованием отображения коэффициентов и нейронной сети

В исследовании представлена модель преобразования голоса с использованием отображения коэффициентов и нейронной сети. В большинстве предыдущих работ по параметрическому синтезу речи не учитывались потери в спектральных деталях, что приводило к чрезмерному сглаживанию и, как правило, к заметному отклонению преобразованной речи от целевой. В этой работе была разработана усовершенствованная модель, которая использует как коэффициенты линейного кодирования с предсказанием (LPC), так и коэффициенты линейной спектральной частоты (LSF) для параметризации исходного речевого сигнала, чтобы выявить эффе...