Область задачи:Обучение с подкреплением, обобщаемость, робототехника.
Решаемая проблема и перспективы проекта:Классические агенты обучения с подкреплением демонстрируют высокие результаты в тех же средах, где обучались. Но стоит слегка изменить визуальные параметры (освещенность, текстуры, ракурс камеры) или перенести задачу в другой, хоть и эквивалентный по динамике, контекст — и качество резко падает. Это проявляется в out-of-distribution (OOD) валидации внутри сред, в sim-to-real сценариях, а также в случаях, когда робот, натренированный, например, при одной освещенности, теряется при работе с другой освещенностью.
В рамках проекта мы разрабатываем и исследуем архитектуры робастных агентов обучения с подкреплением, способных решать различные OOD задачи.
Полезные публикации по этой теме:- Cherepanov, Egor, et al. «KAGE-Bench: Fast Known-Axis Visual Generalization Evaluation for Reinforcement Learning.» arxiv.org/abs/2601.14 232 (2026)
- Li, Bonnie, et al. «Domain adversarial reinforcement learning.» arXiv preprint arXiv:2102.7 097 (2021)
- Kirk, Robert, et al. «A survey of zero-shot generalisation in deep reinforcement learning.» Journal of Artificial Intelligence Research 76 (2023): 201−264
- Cobbe, Karl, et al. «Leveraging procedural generation to benchmark reinforcement learning.» International conference on machine learning. PMLR, 2020
- Stone, Austin, et al. «The Distracting Control Suite--A Challenging Benchmark for Reinforcement Learning from Pixels.» arXiv preprint arXiv:2101.2 722 (2021)