Личный кабинет

Статья

Садовая А.Р. (науч. рук. Мигулаева Т.А.) Проектирование и реализация модуля для загрузки и обработки данных в распределенной системе с использованием конфигурационных файлов
УДК тезиса: 004.62

В работе рассматривается подход к стандартизации и упрощению процессов ETL в корпоративных хранилищах данных за счёт разработки конфигурационно-ориентированного фреймворка. Предлагаемое решение основано на декларативном описании ETL-пайплайнов в формате JSON, что позволяет отделить бизнес-логику загрузки данных от программной реализации и снизить трудозатраты на разработку и сопровождение. Реализация выполнена на языке Scala с использованием Apache Spark и интеграцией с системой оркестрации Apache Airflow. Архитектура обеспечивает единообразие пайплайнов, централизованное управление качеством данных и обработкой ошибок, а также масштабируемость и отказоустойчивость, что делает решение применимым в промышленных сценариях обработки больших объёмов данных.

Авторы:

Садовая Анастасия Романовна

Руководитель:

Мигулаева Татьяна Алексеевна

Садовая А.Р. (науч. рук. Мигулаева Т.А.) Проектирование и реализация модуля для загрузки и обработки данных в распределенной системе с использованием конфигурационных файлов // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/16156