Личный кабинет

Статья

Хуссейн А. (науч. рук. Кашевник А.М.) Повышение эффективности больших визуально-языковых моделей для обнаружения объектов на изображениях без обучения
УДК тезиса: 004.93

Современные большие визуально-языковые модели (VLM) демонстрируют высокие результаты в вопросно/ответных задачах работы с изображениями, а также генерации описаний изображений. Однако, они часто показывают ограниченную эффективность в задачах обнаружения объектов на изображениях при ограниченности ресурсов. Несмотря на развитые мультимодальные возможности VLM, большая часть из них не обладают механизмом прямого сопоставления текстовых понятий с областями изображения без дополнительной адаптации под конкретную задачу. Научная проблема данного исследования заключается в разработке универсального механизма декодирования, позволяющего выполнять обнаружение объектов с использованием предобученных VLM без необходимости обучения под конкретную модель.

Авторы:

Хуссейн Авин

Руководитель:

Кашевник Алексей Михайлович

Хуссейн А. (науч. рук. Кашевник А.М.) Повышение эффективности больших визуально-языковых моделей для обнаружения объектов на изображениях без обучения // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/17172