Личный кабинет

Статья

Дин Е. (науч. рук. Серов Н.С.) Метрика оценки композиционной сложности пептидов для анализа экстраполяционной способности классификационных моделей
УДК тезиса: 57.087

Представлен алгоритм построения унифицированной скалярной метрики сложности эталонных наборов данных бинарной классификации, содержащих первичные структуры пептидов. Проанализированы более 50 датасетов бинарной классификации, основанных на первичной структуре. Для выявления связи между характеристиками данных и качеством моделей обучены алгоритмы разных классов с 5-кратной кросс-валидацией. Рассчитаны 20 статистических показателей, отражающих вариабельность, сходство последовательностей и распределение меток; выполнен корреляционный и интерпретируемый анализ. Метрика обеспечивает ранжирование датасетов и корректное сопоставление пептидных языковых моделей.

Авторы:

Дин Евгения

Руководитель:

Серов Никита Сергеевич

Дин Е. (науч. рук. Серов Н.С.) Метрика оценки композиционной сложности пептидов для анализа экстраполяционной способности классификационных моделей // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/16270