Апыхин А.А. (науч. рук. Платонов А.В.) Оптимизация параметров apache spark с применением методов машинного обучения на основе данных бенчмарка о производительности
Рассматривается оптимизация параметров Apache Spark на основе данных бенчмарка о производительности. Для нагрузки WordCount (HiBench) сформирован датасет: для каждой конфигурации выполнено по 6 запусков, целевая переменная — медиана времени выполнения. Реализован препроцессинг параметров (кодирование категориальных, нормализация числовых, парсинг памяти) и обучены модели предсказания времени (DummyRegressor, MLP, Random Forest, DNN на PyTorch). На текущем объёме данных наилучшую устойчивость показал Random Forest; дополнительно исследованы методы поиска конфигураций (Simulated Annealing, RL, Bayesian Optimization). Намечены дальнейшие шаги: увеличение датасета, расширение нагрузок HiBench и сбор дополнительных метрик для повышения качества моделей.
Апыхин А.А. (науч. рук. Платонов А.В.) Оптимизация параметров apache spark с применением методов машинного обучения на основе данных бенчмарка о производительности // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/17010