Дьячков Д.А., Левин А.А., Кудашов А.С. (науч. рук. Ефимова В.А.) Сиамская vit модель с cross-attention для инверсного моделирования действий в визуальной среде
В работе предлагается метод планирования параметризованных действий агентных систем, функционирующих в визуальной среде, где эффект действия непосредственно проявляется в изменении растрового изображения. Метод основан на двухэтапном обучении сиамской архитектуры Vision Transformer с механизмом взаимного cross-attention между состояниями среды до и после действия. На первом этапе модель обучается восстанавливать тип действия и его параметры по паре изображений "до" и "после" с использованием комбинированной функции потерь, включающей компоненту обучения с подкреплением (policy gradient с псевдо-таргетом на основе награды среды) и симметричную регуляризацию между прямым и обратным предсказаниями.
Дьячков Д.А., Левин А.А., Кудашов А.С. (науч. рук. Ефимова В.А.) Сиамская vit модель с cross-attention для инверсного моделирования действий в визуальной среде // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/17664