Козин Р.А. (науч. рук. Щербаков О.В.) Сравнительный анализ алгоритмов обучения с подкреплением
В данном исследовании проведён сравнительный анализ алгоритмов глубокого обучения с подкреплением. При анализе было уделено внимание алгоритмам на основе функции ценности и градиенте стратегии, включая REINFORCE и оптимизацию проксимальной стратегии. Исследование проводилось на платформе Gymnasium в среде CartPole-v0, где оценивалась скорость обучения агентов. Результаты показали, что метод на основе оптимизации проксимальной стратегии продемонстрировал наилучшие показатели по скорости обучения. Этот результат может служить основой для дальнейших разработок в области глубокого обучения с подкреплением.
Козин Р.А. (науч. рук. Щербаков О.В.) Сравнительный анализ алгоритмов обучения с подкреплением // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2025]. URL: https://kmu.itmo.ru/digests/article/15048