Дин Е. (науч. рук. Серов Н.С.) Метрика оценки композиционной сложности пептидов для анализа экстраполяционной способности классификационных моделей
Представлен алгоритм построения унифицированной скалярной метрики сложности эталонных наборов данных бинарной классификации, содержащих первичные структуры пептидов. Проанализированы более 50 датасетов бинарной классификации, основанных на первичной структуре. Для выявления связи между характеристиками данных и качеством моделей обучены алгоритмы разных классов с 5-кратной кросс-валидацией. Рассчитаны 20 статистических показателей, отражающих вариабельность, сходство последовательностей и распределение меток; выполнен корреляционный и интерпретируемый анализ. Метрика обеспечивает ранжирование датасетов и корректное сопоставление пептидных языковых моделей.
Дин Е. (науч. рук. Серов Н.С.) Метрика оценки композиционной сложности пептидов для анализа экстраполяционной способности классификационных моделей // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/16270