Тюрин Е.Е., Иванова П.А. (науч. рук. Авдошин С.М.) От объема к качеству: подготовка кодовых корпусов для генеративных моделей
Работа посвящена повышению качества датасетов для генерации программного кода. Рассматриваются типовые проблемы подготовки корпусов: дублирование, утечки между train и test, шум и неоднородность форматов, которые ведут к переобучению и завышению метрик. Предложен воспроизводимый пайплайн для Python-данных на основе пар «docstring - функция» из CodeSearchNet и CodeXGLUE; HumanEval и APPS применяются для независимой оценки. По результатам EDA показана высокая синтаксическая корректность и умеренная структурная сложность (по AST), что позволяет вводить мягкие фильтры аномалий. Отдельно анализируется токенизация (BPE и структурная) и метрики её качества (OOV, truncation, parsable rate).
Тюрин Е.Е., Иванова П.А. (науч. рук. Авдошин С.М.) От объема к качеству: подготовка кодовых корпусов для генеративных моделей // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/17881