Надежность методов преобразования голоса в различных условиях

Большинство существующих исследований по преобразованию голоса проводятся в акустически согласованных условиях между источником и целевым сигналом. Однако надежность методов преобразования голоса при наличии несоответствия остается неизвестной. В этой статье мы проводим сравнительный анализ различных методов преобразования голоса в условиях несоответствия. Обширные эксперименты с пятью различными методами преобразования голоса в CMU ARCTIC corpus показывают, что эффективность методов преобразования голоса существенно снижается в условиях шума. Мы обнаружили, что билинейное искажение частоты с ...

Преобразование голоса с использованием сверточных нейронных сетей

Слуховая система человека способна различать голос тысяч говорящих, однако не так много известно о том, какие функции слуховая система использует для этого. Преобразование Фурье способно улавливать высоту звука и гармоническую структуру говорящего, но одного этого недостаточно для однозначной идентификации говорящих. Оставшаяся структура, часто называемая тембром, имеет решающее значение для идентификации говорящих, но мы мало что поняли в ней. В этой статье мы используем последние достижения в области нейронных сетей для того, чтобы манипулировать голосом одного говорящего, преобразуя не толь...

Обновление словаря для преобразования голоса на основе NMF с использованием сети кодер-декодер

В этой статье мы предлагаем метод обновления словаря для неотрицательной матричной факторизации (NMF) с использованием многомерных данных в задаче спектрального преобразования (SC). Преобразование голоса широко изучалось из-за его потенциальных применений, таких как персонализированный синтез речи и улучшение качества речи. Основанный на примерах NMF (ENMF) представляется эффективным и, вероятно, самым простым выбором среди всех методов для SC, при условии, что предоставляется параллельный корпус исходной и целевой речи. SC-системы на основе ENMF обычно нуждаются в большом количестве баз (обра...

Преобразование голоса из непараллельных корпусов с использованием вариационного автокодера

Мы предлагаем гибкую платформу для спектрального преобразования (SC), которая облегчает обучение с использованием невыровненных корпусов. Многие платформы SC требуют параллельных корпусов, фонетических выравниваний или явного соответствия по фреймам для изучения функций преобразования голоса с помощью выравниваний. Однако эти требования серьезно ограничивают область практического применения SC из-за нехватки или даже отсутствия параллельных корпусов. Мы предлагаем платформу SC, основанную на вариационном автокодировщике, которая позволяет нам использовать непараллельные корпуса. Фреймворк вклю...

Преобразование голоса с использованием отображения коэффициентов и нейронной сети

В исследовании представлена модель преобразования голоса с использованием отображения коэффициентов и нейронной сети. В большинстве предыдущих работ по параметрическому синтезу речи не учитывались потери в спектральных деталях, что приводило к чрезмерному сглаживанию и, как правило, к заметному отклонению преобразованной речи от целевой. В этой работе была разработана усовершенствованная модель, которая использует как коэффициенты линейного кодирования с предсказанием (LPC), так и коэффициенты линейной спектральной частоты (LSF) для параметризации исходного речевого сигнала, чтобы выявить эффе...

Высококачественное преобразование голоса с использованием просодических характеристик и спектральных характеристик с высоким разрешением

За последнее десятилетие методы преобразования голоса быстро развивались. Исследования показали, что характеристики диктора определяются спектральными характеристиками, а также различными просодическими особенностями. Большинство существующих методов преобразования фокусируются на спектральной характеристике, поскольку она непосредственно отражает тембровые характеристики, в то время как некоторые методы преобразования сосредоточены только на просодической характеристике, представленной основной частотой. В этой статье предлагается комплексная структура, использующая глубокие нейронные сети дл...

Решение проблемы преобразования голоса по принципу "один ко многим" за счет выравнивания расположения формантов с помощью динамического искажения частоты

В этом исследовании мы исследуем решение, позволяющее уменьшить влияние проблемы "один ко многим" при преобразовании голоса. Проблема "один ко многим" при преобразовании голоса возникает, когда два очень похожих речевых сегмента исходного диктора имеют соответствующие речевые сегменты целевого диктора, которые не похожи друг на друга. В результате функция отображения обычно сглаживает сгенерированные объекты, чтобы они были похожи на оба целевых речевых сегмента. В этом исследовании мы предлагаем выровнять расположение формантов пар исходных и целевых кадров, используя динамическое искажение ч...