Баркалов И.О. (науч. рук. Лабковская Р.Я.) Оптимизация производительности и потребления распределенных ресурсов сборочных линий для обучения больших моделей машинного обучения
В условиях роста сложности больших языковых моделей (LLM) традиционные подходы к автоматизации CI/CD и MLOps сборочных линий становятся неэффективными, что приводит к критическому удорожанию вычислительных ресурсов и увеличению времени обучения. В данной работе представлено комплексное решение по оптимизации производительности распределенных сборочных линий для обучения моделей машинного обучения с миллиардами параметров. Предложена многоуровневая архитектура пайплайна, включающая Jenkins как система сборочных линий и Kubernetes с поддержкой GPU-приложений в качестве оркестратора ресурсов, систему мониторинга на базе Prometheus и Grafana, а также распределенное хранилище MinIO. Особое внимание уделено реализации и сравнению стратегий параллельного обучения Distributed Data Parallel (DDP)
Баркалов И.О. (науч. рук. Лабковская Р.Я.) Оптимизация производительности и потребления распределенных ресурсов сборочных линий для обучения больших моделей машинного обучения // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/16918