Алексей Ковалёв

Ментор
Алексей Константинович Ковалёв — кандидат физико-математических наук, старший научный сотрудник, руководитель группы «Embodied agents» AIRI, заведующий Лабораторией воплощенного искусственного интеллекта Центра когнитивного моделирования МФТИ

Авторский телеграм-канал

Книжный клуб команды «Embodied agents»

Контакты
kovalev@airi.net
https://t.me/AlexeyKKovalev

Зачем вам это?
В нашей команде мы сосредоточены именно на научных исследованиях, результатом которых является публикация научной статьи. Поэтому, если вы хотели попробовать себя в науке под названием «искусственный интеллект», но не знали, с чего начать, — это отличная возможность. Мы пройдем все этапы: от формулирования гипотезы и ее проверки до написания текста статьи, ее публикации и представления результатов на конференциях, где вам предстоит играть основную роль. Это непростой путь, но он очень увлекательный.

Базовые требования:
1. Мотивация — вам действительно интересна выбранная тема и вы готовы тратить время и силы, чтобы в ней разобраться и придумать что-то новое.
2. Хорошие навыки программирования на Python (знание PyTorch будет плюсом).
3. Хорошее знание английского языка — надо будет читать и писать статьи на английском языке.

Проекты
  1. Механизмы памяти в обучении с подкреплением
  2. Обобщаемость в обучении с подкреплением

Подробности о проектах — на вкладках ниже.

Научные интересы
  • Искусственный интеллект
  • Обучение с подкреплением
  • Робототехника

Область знаний: Искусственный интеллект

Формат работы: Очно

Формат работы: Дистанционно

Статус ментора: Научный сотрудник

Организация: AIRI

Организация: МФТИ

Минимальный курс: 1

Профили ментора в научных сетях
Проект 1: Механизмы памяти в обучении с подкреплением
Проект 2: Обобщаемость в обучении с подкреплением

Профили ментора в научных сетях

Профиль дает возможность узнать больше о научных интересах ментора и его публикациях.

Google Scholar

Проект 1: Механизмы памяти в обучении с подкреплением

Область задачи:
Обучение с подкреплением, частичная наблюдаемость, робототехника.

Решаемая проблема и перспективы проекта:
Память — одна из ключевых когнитивных функций человека. Благодаря ей мы фиксируем новые знания, события, ощущения и навыки, превращаем их в личный опыт и при необходимости извлекаем для решения задач и планирования будущих действий.

Классическое обучение с подкреплением в основном ориентировано на полностью наблюдаемые среды (Markov Decision Processes), где воспоминания не требуются: текущее состояние содержит всю нужную информацию. В реальности же робот сталкивается с частичной наблюдаемостью — например, при восприятии сцены с камер от первого лица или при манипуляциях со скрываемыми объектами. Один из эффективных способов компенсировать нехватку информации — внедрение механизмов памяти.

В рамках проекта мы разрабатываем собственные архитектуры агентов с памятью для задач обучения с подкреплением и создаем бенчмарки с частичной наблюдаемостью для их валидации. Это позволяет системно оценивать, как различные типы памяти улучшают устойчивость и качество поведения агента в условиях неполной информации.

Некоторые публикации нашей команды по этой теме:
  • Shchendrigin, Oleg, et al. «Memory Retention Is Not Enough to Master Memory Tasks in Reinforcement Learning.» AAMAS 2026 https://arxiv.org/abs/2601.15 086
  • Cherepanov, Egor, Alexey K. Kovalev, and Aleksandr I. Panov. «ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL.» arXiv preprint arXiv:2510.7 151 (2025).
  • Cherepanov, Egor, et al. «Recurrent action transformer with memory.» ICML 2024 Next Generation of Sequence Modeling Architectures Workshop (2024)
  • Cherepanov, Egor, et al. «Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation.» arXiv preprint arXiv:2412.6 531 (2024)
  • Cherepanov, Egor, et al. «Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning.» ICLR 2025 7th Robot Learning Workshop: Towards Robots with Human-Level Abilities (2025)

Проект 2: Обобщаемость в обучении с подкреплением

Область задачи:
Обучение с подкреплением, обобщаемость, робототехника.

Решаемая проблема и перспективы проекта:
Классические агенты обучения с подкреплением демонстрируют высокие результаты в тех же средах, где обучались. Но стоит слегка изменить визуальные параметры (освещенность, текстуры, ракурс камеры) или перенести задачу в другой, хоть и эквивалентный по динамике, контекст — и качество резко падает. Это проявляется в out-of-distribution (OOD) валидации внутри сред, в sim-to-real сценариях, а также в случаях, когда робот, натренированный, например, при одной освещенности, теряется при работе с другой освещенностью.

В рамках проекта мы разрабатываем и исследуем архитектуры робастных агентов обучения с подкреплением, способных решать различные OOD задачи.

Полезные публикации по этой теме:
  • Cherepanov, Egor, et al. «KAGE-Bench: Fast Known-Axis Visual Generalization Evaluation for Reinforcement Learning.» arxiv.org/abs/2601.14 232 (2026)
  • Li, Bonnie, et al. «Domain adversarial reinforcement learning.» arXiv preprint arXiv:2102.7 097 (2021)
  • Kirk, Robert, et al. «A survey of zero-shot generalisation in deep reinforcement learning.» Journal of Artificial Intelligence Research 76 (2023): 201−264
  • Cobbe, Karl, et al. «Leveraging procedural generation to benchmark reinforcement learning.» International conference on machine learning. PMLR, 2020
  • Stone, Austin, et al. «The Distracting Control Suite--A Challenging Benchmark for Reinforcement Learning from Pixels.» arXiv preprint arXiv:2101.2 722 (2021)