Личный кабинет

Статья

Филатов Г.В. (науч. рук. Деева И.Ю.) Калибровка синтетических табличных данных для корректного выбора моделей
УДК тезиса: 004.852

В работе рассматривается задача выбора моделей машинного обучения в табличном домене при дефиците разметки. Предлагается подход, в котором все модели обучаются на полной реальной выборке, а функцию валидации выполняет синтетический датасет, сгенерированный табличными моделями CTGAN, TVAE, TabDDPM, TabPFN и Gaussian Copula. Ключевым элементом является калибровка синтетических данных по потерям отдельных образцов с помощью оптимизации весов, что согласует ранжирование моделей по ошибкам на синтетическом и реальном доменах. Эксперименты на пяти задачах классификации и пяти задачах регрессии показывают рост доли корректных рангов моделей до 50-70% и увеличение корреляции Спирмена между синтетическими и реальными ошибками свыше 0.9, что подтверждает возможность надёжной валидации.

Авторы:

Филатов Геннадий Вадимович

Руководитель:

Деева Ирина Юрьевна

Филатов Г.В. (науч. рук. Деева И.Ю.) Калибровка синтетических табличных данных для корректного выбора моделей // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/17266