Высококачественное преобразование голоса с использованием просодических характеристик и спектральных характеристик с высоким разрешением

За последнее десятилетие методы преобразования голоса быстро развивались. Исследования показали, что характеристики диктора определяются спектральными характеристиками, а также различными просодическими особенностями. Большинство существующих методов преобразования фокусируются на спектральной характеристике, поскольку она непосредственно отражает тембровые характеристики, в то время как некоторые методы преобразования сосредоточены только на просодической характеристике, представленной основной частотой. В этой статье предлагается комплексная структура, использующая глубокие нейронные сети дл...

Решение проблемы преобразования голоса по принципу "один ко многим" за счет выравнивания расположения формантов с помощью динамического искажения частоты

В этом исследовании мы исследуем решение, позволяющее уменьшить влияние проблемы "один ко многим" при преобразовании голоса. Проблема "один ко многим" при преобразовании голоса возникает, когда два очень похожих речевых сегмента исходного диктора имеют соответствующие речевые сегменты целевого диктора, которые не похожи друг на друга. В результате функция отображения обычно сглаживает сгенерированные объекты, чтобы они были похожи на оба целевых речевых сегмента. В этом исследовании мы предлагаем выровнять расположение формантов пар исходных и целевых кадров, используя динамическое искажение ч...