Личный кабинет

Статья

Герасимчук М.Ю., Сметанин А.А. (науч. рук. Духанов А.В.) Генерация и оценка аннотаций с использованием мультимодальных языковых моделей: сравнительный анализ моделей и оптимизация текстовых инструкций
УДК тезиса: 004.896

В условиях стремительного роста объёмов данных и разнообразия визуальной информации автоматизация аннотирования изображений становится критически важным этапом подготовки данных для компьютерного зрения. Настоящее исследование посвящено применению Vision-Language Large Models (VLLM) для автоматической генерации аннотаций, пригодных для обучения моделей YOLO, с оптимизацией текстовых инструкций. Сравнительный анализ, выполненный на датасетах с изображениями транспортных средств, животных, автомобильных номеров и растений, позволил оценить эффективность моделей по времени отклика, объёму памяти, точности детекции (IOU, Precision, Recall, F1-score) и адаптивности к требованиям формата инструкций. Полученные результаты демонстрируют потенциал сокращения временных и трудозатрат.

Авторы:

Герасимчук Михаил Юрьевич

Сметанин Артём Алексеевич

Руководитель:

Духанов Алексей Валентинович

Герасимчук М.Ю., Сметанин А.А. (науч. рук. Духанов А.В.) Генерация и оценка аннотаций с использованием мультимодальных языковых моделей: сравнительный анализ моделей и оптимизация текстовых инструкций // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2025]. URL: https://kmu.itmo.ru/digests/article/15247