Солодкая М.А. (науч. рук. Кугаевских А.В.) Мультимодальное распознавание и семантическая интерпретация структурных слайдов на основе компьютерного зрения
В работе решается проблема смыслового анализа образовательных слайдов, которую не могут закрыть классические системы, анализирующие текст и изображения по отдельности. Цель исследования — повышение качества семантической интерпретации учебных материалов с помощью визуально-языковых моделей (VLM). Предлагаемый подход позволяет выявить глобальные взаимосвязи за счёт использования контекста, в то время как классические нейронные сети позволяют выделить только локальный контекст. Результаты работы будут полезны профессорско-преподавательскому составу, специалистам в области педагогического дизайна и исследователям, работающим над задачами анализа документов и визуально-текстовых корреляций с применением больших мультимодальных моделей.
Солодкая М.А. (науч. рук. Кугаевских А.В.) Мультимодальное распознавание и семантическая интерпретация структурных слайдов на основе компьютерного зрения // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/16296