Чуйко А.И., Ивасенко И.Д. (науч. рук. Деева И.Ю.) Исследование эффективности кодировок категориальных признаков для современных генеративных моделей табличных данных
Генеративные модели табличных данных (CTGAN, TabDDPM, TVAE, TabPFN, WGAN) чувствительны к способу представления категориальных признаков, однако систематические рекомендации по выбору кодировок для таких моделей отсутствуют. В работе проводится сравнительное исследование 12 методов кодирования категорий на 26 наборах данных с различной кардинальностью, дисбалансом и объёмом выборки. Качество синтетических данных оценивается по метрикам сходства распределений (Wasserstein distance, KL-дивергенция, MMD), сохранения корреляционной структуры (норма Фробениуса) и полезности в сценарии TSTR. Ожидаемым результатом является построение «карты режимов» — рекомендаций по выбору оптимальной кодировки в зависимости от характеристик данных и
Чуйко А.И., Ивасенко И.Д. (науч. рук. Деева И.Ю.) Исследование эффективности кодировок категориальных признаков для современных генеративных моделей табличных данных // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/17699