В этой статье мы предлагаем эффективные с точки зрения вычислений и высококачественные методы статистического преобразования голоса (VC) с прямой модификацией формы сигнала на основе спектральных различий. Традиционный метод с фильтром минимальной фазы обеспечивает высококачественное преобразование, но требует больших вычислений при фильтрации. Это связано с тем, что минимальная фаза с использованием фиксированного лифтера в преобразовании Гильберта часто приводит к фильтру с длинным нажатием. Один из наших методов - это метод обучения атлета, основанный на данных. Поскольку этот метод учитывает усечение фильтра при обучении, он может сократить длину отвода фильтра при сохранении точности преобразования. Другим нашим методом является поддиапазонная обработка для расширения традиционного метода с узкополосного (16 кГц) до полнополосного (48 кГц) VC, который позволяет преобразовывать полнополосный сигнал с более высоким качеством преобразованной речи. Экспериментальные результаты показывают, что 1) предложенный метод тренировки лифтеров для узкополосного VC может сократить длину нажатия до 1/16 без ухудшения качества преобразованной речи и 2) предложенный метод обработки поддиапазонов для полнополосного VC может улучшить качество преобразованной речи по сравнению с традиционным методом.
Вывод
Мы представили методы обучения и обработки поддиапазонов для эффективного в вычислительном отношении и высококачественного преобразования голоса на основе спектральных различий. Лифтер был обучен с учетом усечения фильтра. Метод обработки поддиапазонов эффективно преобразовал полосу нижних частот голоса в полном диапазоне. Экспериментальные результаты указывают на превосходство наших методов с точки зрения вычислительной эффективности и качества преобразованной речи по сравнению с традиционным методом. В будущей работе мы внедрим VC в реальном времени с использованием предложенных методов и оценим его эффективность с точки зрения качества преобразованной речи и задержки.