Установить эффективные границы в алгоритме Проксимальной Оптимизации Политики часто проблематично. Чтобы понять, как нам нужно ограничивать обновление политики на каждом этапе, нам нужны косвенные характеристики политики в дополнение к полученным вознаграждениям, поскольку вознаграждения не всегда доступны. В нашей статье мы изучаем способность обусловленности агента быть такой характеристикой.
Асадулаев А.А. (науч. рук. Фильченков А.А.) Алгоритм Регуляризации Проксимальной Оптимизации Политики // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2020]. URL: https://kmu.itmo.ru/digests/article/3482