В настоящее время задача маршрутизации может применяться почти во всех сферах повседневной жизни от доставки товаров до механизмов управления большими предприятиями. Отдельной темой данной проблемы можно выделить мультиагентную маршрутизацию, примером которой является например конвейерная система. Обычно такие задачи решаются с помощью классических методов, но последнее время все больше внимание уделяют использованию машинного обучения в этой области, а конкретно обучению с подкреплением. Для таких систем возможно применение различных алгоритмов обучения с подкреплением, в данном случае мы пытаемся превзойти результаты, полученные для более простых алгоритмов обучения с подкреплением, применяя PPO.
Жогов А.А. (науч. рук. Фильченков А.А.) Алгоритм обучения с подкреплением на основе PPO для мультиагентной маршрутизации // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2023]. URL: https://kmu.itmo.ru/digests/article/11623