Личный кабинет

Статья

Стулов К.В. (науч. рук. Вершинин В.К.) Разработка алгоритма реранкинга мультимодальных данных
УДК тезиса: 004.8

Разработан и экспериментально оценён мультимодальный реранкер для MRAG, ориентированный на PDF-страницы с текстом и визуальными элементами. Предложена архитектура на основе дообученного кросс-энкодера/VLM с pairwise-функцией потерь. Выполнена дистилляция в компактную модель (<8 ГБ). Генерация кандидатов реализована через bi-encoder (BM25/эмбеддинги/CLIP). Реранкер интегрирован в RAG-пайплайн как независимый модуль с открытым API. В ходе сравнительных экспериментов достигнуто улучшение Recall@k, nDCG@k и MRR относительно текстового кросс-энкодера; оценены точность атрибуции и латентность (p50/p95). Итог: открытые скрипты обучения/инференса, воспроизводимые эксперименты и отчёт с анализом эффективности.

Авторы:

Стулов Кирилл Вячеславович

Руководитель:

Вершинин Владислав Константинович

Стулов К.В. (науч. рук. Вершинин В.К.) Разработка алгоритма реранкинга мультимодальных данных // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/17101