В этой статье мы интегрируем простую систему непараллельного преобразования голоса (VC) с вокодером WaveNet (WN) и предлагаемым методом подавления свернутой речи. Эффективность WN в качестве вокодера для генерации высокоточных речевых сигналов на основе акустических характеристик была подтверждена в недавних работах. Однако при объединении вокодера WN с системой преобразования голоса искаженные акустические характеристики, акустические и временные несоответствия и смещение экспозиции обычно приводят к значительному ухудшению качества речи, заставляя WN генерировать некоторые очень зашумленные речевые сегменты, называемые свернутой речью. Чтобы решить эту проблему, мы берем речь, сгенерированную обычным вокодером, в качестве эталонной речи, чтобы получить ограничение распределения линейного прогнозирующего кодирования (LPCDC), чтобы избежать проблемы свернутой речи. Кроме того, чтобы смягчить негативные эффекты, связанные с LPCDC, мы предлагаем детектор свернутых речевых сегментов (CSSD), гарантирующий, что LPCDC применяется только к проблемным сегментам, чтобы ограничить потерю качества короткими периодами. Проведены объективные и субъективные оценки, и экспериментальные результаты подтверждают эффективность предложенного метода, который еще больше улучшает качество речи нашей предыдущей системы непараллельного преобразования голоса, представленной на Voice Conversion Challenge 2018.
Вывод
В этой статье мы исследовали явления, возможные причины и негативные последствия проблемы со свернутой речью вокодера WN. Мы также предложили метод LPCVD для защиты вокодера WN от проблемы со свернутой речью, но это привело к дополнительному ухудшению качества речи. Поэтому мы применили CSD для сегментарного обнаружения свернутой речи и применили метод LPCDC только к обнаруженным сегментам, что значительно облегчило проблему ухудшения качества речи. Подводя итог, мы предложили систему, превосходящую по производительности предыдущую систему, представленную на VCC2018.