AllVoxes | Надежность методов преобразования голоса в различных условиях

Большинство существующих исследований по преобразованию голоса проводятся в акустически согласованных условиях между источником и целевым сигналом. Однако надежность методов преобразования голоса при наличии несоответствия остается неизвестной. В этой статье мы проводим сравнительный анализ различных методов преобразования голоса в условиях несоответствия. Обширные эксперименты с пятью различными методами преобразования голоса в CMU ARCTIC corpus показывают, что эффективность методов преобразования голоса существенно снижается в условиях шума. Мы обнаружили, что билинейное искажение частоты с масштабированием амплитуды (LAWS) превосходит другие методы в большинстве случаев в условиях шума. Мы продолжаем изучать пригодность различных методов улучшения речи для надежного преобразования. Результаты объективной оценки показывают, что методы улучшения речи, основанные на спектральном вычитании и логарифмировании минимальной среднеквадратичной ошибки (logMMSE), могут быть использованы для повышения производительности в специфических условиях шума.

Вывод

В этом исследовании представлен подробный анализ надежности существующих методов преобразования голоса в условиях несоответствия с зашумленными целевыми данными. В нем показано, что в большинстве случаев BLFWAS обеспечивает более высокую производительность, чем другие методы преобразования голоса. Однако в условиях белого шума MFA превосходит другие методы. Мы также исследовали эффективность методов улучшения речи на всех образцах речи как в чистых, так и в зашумленных случаях. Мы заметили, что спектральное вычитание улучшает производительность в случае белого шума, в то время как итеративная фильтрация по Винеру ухудшает производительность. Кроме того, log MMSE не обеспечивает прироста производительности в значении MCD. Однако он обеспечивает лучшую PESQ в условиях белого шума. В целом, спектральное вычитание хорошо работает для BLFWAS и MFA, в то время как итеративная фильтрация Винера и logMMSE - для JDGMM. В дальнейшем мы планируем распространить этот анализ на недавно разработанные методы преобразования голоса на основе DNN. Результаты этой работы могут быть полезны для разработки надежного алгоритма преобразования голоса для применения в реальных условиях.

Источник