Необходимо заменить автоэнкодер модуль VAE в Stable Diffusion модели (v2.1) на DeepSVG (
https://github.com/alexandre01/deepsvg). Ожидается, что модель будет принимать на вход векторные картинки (svg) и текст и тренировать всю остальную модель (Unet, etc). На инференсе надо будет подать на вход текст и получить сгенерированную векторную картинку. Обе библиотеки работают на pytorch, поэтому должно быть несложно обьединить две модели. Одна из сложностей это соответствие размерностей эмбединга тот который генерирует DeepSVG и тот который принимает на вход SD. Подробное описание задачи передам.