Синтез и обработка голоса
Исследование и разработка пайплайна синтеза речи и преобразования голоса: нейросетевые вокодеры, разделение источников, постобработка аудио.
Задача
Нужен пайплайн синтеза и преобразования голоса с естественным звучанием и контролируемым качеством на целевых метриках.
Подход
Собрали цепочку на нейросетевых вокодерах VITS, разделении источников demucs и постобработке в TorchAudio; часть моделей экспортировали в ONNX.
Результат
Прототип с качеством, пригодным для пилота. Зафиксировали метрики и ограничения перед продакшеном.
Результат
Естественное звучание на целевых метриках качества