Об использовании обратного распространения для генерации текстуры речи и преобразования голоса

Вдохновленные недавними работами по генерации изображений нейронной сетью, которые основаны на обратном распространении к входным данным сети, мы представляем проверенную временем систему для синтеза текстур речи и преобразования голоса, основанную на двух механизмах: приблизительной инверсии представления, полученного нейронной сетью распознавания речи, и сопоставлении статистики активаций нейронов между входными данными. разные исходные и целевые высказывания. Подобно синтезу текстуры изображения и передаче нейронного стиля, система работает путем оптимизации функции затрат по отношению к вы...

Преобразование голоса с использованием последовательного изучения апостериорных вероятностей контекста

Предлагается преобразование голоса с использованием последовательного изучения апостериорных вероятностей контекста. Традиционное преобразование голоса с использованием апостериорных вероятностей общего контекста предсказывает параметры целевой речи на основе апостериорных вероятностей контекста, оцененных на основе параметров исходной речи. Хотя обычное преобразование голоса может быть построено на основе непараллельных данных, трудно преобразовать индивидуальность говорящего, такую как фонетические свойства и скорость речи, содержащиеся в апостериорных вероятностях, поскольку исходные апосте...

Надежность методов преобразования голоса в различных условиях

Большинство существующих исследований по преобразованию голоса проводятся в акустически согласованных условиях между источником и целевым сигналом. Однако надежность методов преобразования голоса при наличии несоответствия остается неизвестной. В этой статье мы проводим сравнительный анализ различных методов преобразования голоса в условиях несоответствия. Обширные эксперименты с пятью различными методами преобразования голоса в CMU ARCTIC corpus показывают, что эффективность методов преобразования голоса существенно снижается в условиях шума. Мы обнаружили, что билинейное искажение частоты с ...

Обновление словаря для преобразования голоса на основе NMF с использованием сети кодер-декодер

В этой статье мы предлагаем метод обновления словаря для неотрицательной матричной факторизации (NMF) с использованием многомерных данных в задаче спектрального преобразования (SC). Преобразование голоса широко изучалось из-за его потенциальных применений, таких как персонализированный синтез речи и улучшение качества речи. Основанный на примерах NMF (ENMF) представляется эффективным и, вероятно, самым простым выбором среди всех методов для SC, при условии, что предоставляется параллельный корпус исходной и целевой речи. SC-системы на основе ENMF обычно нуждаются в большом количестве баз (обра...

Высококачественное преобразование голоса с использованием просодических характеристик и спектральных характеристик с высоким разрешением

За последнее десятилетие методы преобразования голоса быстро развивались. Исследования показали, что характеристики диктора определяются спектральными характеристиками, а также различными просодическими особенностями. Большинство существующих методов преобразования фокусируются на спектральной характеристике, поскольку она непосредственно отражает тембровые характеристики, в то время как некоторые методы преобразования сосредоточены только на просодической характеристике, представленной основной частотой. В этой статье предлагается комплексная структура, использующая глубокие нейронные сети дл...

Решение проблемы преобразования голоса по принципу "один ко многим" за счет выравнивания расположения формантов с помощью динамического искажения частоты

В этом исследовании мы исследуем решение, позволяющее уменьшить влияние проблемы "один ко многим" при преобразовании голоса. Проблема "один ко многим" при преобразовании голоса возникает, когда два очень похожих речевых сегмента исходного диктора имеют соответствующие речевые сегменты целевого диктора, которые не похожи друг на друга. В результате функция отображения обычно сглаживает сгенерированные объекты, чтобы они были похожи на оба целевых речевых сегмента. В этом исследовании мы предлагаем выровнять расположение формантов пар исходных и целевых кадров, используя динамическое искажение ч...