Речь · 2025

Синтез и обработка голоса

Исследование и разработка пайплайна синтеза речи и преобразования голоса: нейросетевые вокодеры, разделение источников, постобработка аудио.

VITSdemucsTorchAudioONNX

Задача

Нужен пайплайн синтеза и преобразования голоса с естественным звучанием и контролируемым качеством на целевых метриках.

Собрали цепочку на нейросетевых вокодерах VITS, разделении источников demucs и постобработке в TorchAudio; часть моделей экспортировали в ONNX.

Прототип с качеством, пригодным для пилота. Зафиксировали метрики и ограничения перед продакшеном.

Результат

Естественное звучание на целевых метриках качества