Гаврилов А.О., Газзаев А.В. (науч. рук. Муравьёв С.Б.) Двухстадийная латентная дискретная текстовая диффузия
Предлагается пайплайн генерации текста в дискретном латентном пространстве, сочетающий VQ‑VAE и маскированную диффузионную модель (MDLM). Текст кодируется в компактную последовательность латентных кодов (64→16), после чего MDLM генерирует коды в сжатом представлении и выполняется декодирование обратно в токены. Генерация в сжатом пространстве уменьшает длину последовательности, размер словаря и число необходимых шагов диффузии, что снижает вычислительные затраты. Предложенный подход ускоряет генерацию на GPU примерно в 2.8 раза по сравнению с авторегрессионной моделью и более чем в 8 раз по сравнению с токен‑уровневой диффузией.
Гаврилов А.О., Газзаев А.В. (науч. рук. Муравьёв С.Б.) Двухстадийная латентная дискретная текстовая диффузия // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/17611