Вдохновленные недавними работами по генерации изображений нейронной сетью, которые основаны на обратном распространении к входным данным сети, мы представляем проверенную временем систему для синтеза текстур речи и преобразования голоса, основанную на двух механизмах: приблизительной инверсии представления, полученного нейронной сетью распознавания речи, и сопоставлении статистики активаций нейронов между входными данными. разные исходные и целевые высказывания. Подобно синтезу текстуры изображения и передаче нейронного стиля, система работает путем оптимизации функции затрат по отношению к выборкам формы входного сигнала. С этой целью мы используем дифференцируемый конвейер извлечения признаков mel-filterbank и обучаем сверточную сеть распознавания речи CTC. Наша система способна извлекать характеристики диктора из очень ограниченного объема данных о целевом дикторе всего за несколько секунд и может быть использована для создания реалистичного речевого лепета или реконструкции высказывания другим голосом.
Ограничения и будущая работа
Мы демонстрируем проверенную временем систему синтеза речевых текстур и преобразования голоса, которая выводит статистическое описание целевого голоса на основе активации глубокой сверточной нейронной сети, обученной распознавать речь. Основным преимуществом предлагаемого подхода является возможность использовать очень ограниченные объемы данных, получаемых от целевого говорящего. Используя распределение естественной речи, записанной предварительно обученной сетью, достаточно нескольких секунд речи, чтобы синтезировать узнаваемые характеристики целевого голоса. Однако предлагаемый подход также является довольно медленным и требует нескольких тысяч шагов градиентного спуска. Кроме того, синтезированные высказывания имеют относительно низкое качество.
Предложенный подход может быть расширен многими способами. Во-первых, аналогично алгоритмам быстрой передачи изображений, потеря тензора Грамма может использоваться в качестве дополнительного контроля для нейронных сетей синтеза речи, таких как WaveNet или Tacotron. Например, возможно, было бы целесообразно использовать потерю стиля для распространения нейронной системы синтеза речи на широкий круг говорящих, учитывая, что запись речи каждого из них занимает всего несколько секунд. Во-вторых, этот метод зависит от предварительно обученной сети распознавания речи. В этой работе мы использовали довольно простую сеть, использующую параметры выделения признаков, настроенные для распознавания речи. Качество синтеза, вероятно, можно было бы улучшить, используя более высокие частоты дискретизации, увеличивая перекрытие окон и используя сеть с линейным, а не с мелким фильтром.