В своей работе я предоставляю решения задачи обучения с подкреплением в постановке среднего вознаграждения. Большинство алгоритмов обучения основаны на дисконтированной формулировке задачи. Однако дисконтированный фактор уменьшает вклад наград в долгосрочной перспективе. В отличие от дисконтированной постановки, средняя постановка фокусируется на продолжительном среднем результате, максимизируя среднюю награду за шаг с равными весами.
Артеменко А.О. (науч. рук. Асадулаев А.А.) Оптимизация агентов обучения с подкреплением методами оптимального транспорта // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2023]. URL: https://kmu.itmo.ru/digests/article/11453