Большинство алгоритмов обучения с подкреплением оптимизируют дисконтированную награду, то есть пытаются получить награду как можно быстрее, что способствует ускорению сходимости и снижению дисперсии оценок. Однако такой подход неравнозначно оценивает состояния, что может негативно отражаться на сходимости и достижимости в некоторых задачах. Более общим решением является максимизация средней награды. Предлагается посмотреть на эту задачу с новой стороны, разработать новый подход основываясь на изначальной постановке задачи среднего подкрепления с использованием методов линейного программирования.
Артеменко А.О. (науч. рук. Асадулаев А.А.) Решение задачи обучения с подкреплением в средней постановке методами линейного программирования // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2024]. URL: https://kmu.itmo.ru/digests/article/13301