Вклад гласных и просодии в алгоритм преобразования голоса на основе нейронной сети с зашумленными обучающими данными

В этом исследовании представлена модель преобразования голоса на основе нейронных сетей. Хотя известно, что озвученные звуки и просодия являются наиболее важными компонентами системы преобразования голоса, неизвестен их объективный вклад, особенно в шумной и неконтролируемой среде. Эта модель использует двухслойную нейронную сеть прямого действия для сопоставления коэффициентов анализа линейного прогнозирования исходного динамика с акустическим векторным пространством целевого говорящего с целью объективного определения вклада озвученных, невокализованных и надсегментарных компонентов звуков в...

Преобразование голоса с использованием отображения коэффициентов и нейронной сети

В исследовании представлена модель преобразования голоса с использованием отображения коэффициентов и нейронной сети. В большинстве предыдущих работ по параметрическому синтезу речи не учитывались потери в спектральных деталях, что приводило к чрезмерному сглаживанию и, как правило, к заметному отклонению преобразованной речи от целевой. В этой работе была разработана усовершенствованная модель, которая использует как коэффициенты линейного кодирования с предсказанием (LPC), так и коэффициенты линейной спектральной частоты (LSF) для параметризации исходного речевого сигнала, чтобы выявить эффе...