Тимофеев Н.А., Бабушкин К.А. (науч. рук. Филянин И.В.) Исследование методов оценки больших языковых моделей в задачах сбора обратной связи о сотрудниках
Исследование посвящено сравнительной оценке больших языковых моделей (LLM) для задач генерации обратной связи сотрудникам. Разработаны специфические критерии оценки, охватывающие лингвистическое качество, достоверность и практическую полезность текстов. Проведена слепая оценка четырёх моделей (Gemini 2.5 Pro, Flash, DeepSeek-R1, Qwen3) на трёх типах задач: суммаризация, интерпретация и преобразование идей в текст. Оценка выполнялась 15 экспертами и LLM-судьями. Результаты показали, что эффективность модели зависит не от бенчмарков, а от коммуникативного стиля. Люди предпочитают структурированную, конструктивную и лаконичную обратную связь, тогда как LLM-судьи склонны к многословным ответам. Выбор модели должен определяться типом задачи, а LLM-оценка — дополнять, но не заменять человеческую
Тимофеев Н.А., Бабушкин К.А. (науч. рук. Филянин И.В.) Исследование методов оценки больших языковых моделей в задачах сбора обратной связи о сотрудниках // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/16035