К менторам

Алексей Ковалёв

Ментор
Алексей Константинович Ковалёв — кандидат физико-математических наук, старший научный сотрудник, руководитель группы «Embodied agents» AIRI, заведующий Лабораторией воплощенного искусственного интеллекта Центра когнитивного моделирования МФТИ

Авторский телеграм-канал

Книжный клуб команды «Embodied agents»

Контакты
kovalev@airi.net
https://t.me/AlexeyKKovalev

Зачем вам это?
В нашей команде мы сосредоточены именно на научных исследованиях, результатом которых является публикация научной статьи. Поэтому, если вы хотели попробовать себя в науке под названием «искусственный интеллект», но не знали, с чего начать, — это отличная возможность. Мы пройдем все этапы: от формулирования гипотезы и ее проверки до написания текста статьи, ее публикации и представления результатов на конференциях, где вам предстоит играть основную роль. Это непростой путь, но он очень увлекательный.

Базовые требования:
1. Мотивация — вам действительно интересна выбранная тема и вы готовы тратить время и силы, чтобы в ней разобраться и придумать что-то новое.
2. Хорошие навыки программирования на Python (знание PyTorch будет плюсом).
3. Хорошее знание английского языка — надо будет читать и писать статьи на английском языке.

Проекты

Механизмы памяти в обучении с подкреплением
Обобщаемость в обучении с подкреплением

Подробности о проектах — на вкладках ниже.

Научные интересы

Искусственный интеллект
Обучение с подкреплением
Робототехника

Область знаний: Искусственный интеллект

Формат работы: Очно

Формат работы: Дистанционно

Статус ментора: Научный сотрудник

Организация: AIRI

Организация: МФТИ

Минимальный курс: 1

Профили ментора в научных сетях

Проект 1: Механизмы памяти в обучении с подкреплением

Проект 2: Обобщаемость в обучении с подкреплением

Профили ментора в научных сетях

Профиль дает возможность узнать больше о научных интересах ментора и его публикациях.

Google Scholar

Проект 1: Механизмы памяти в обучении с подкреплением

Область задачи:
Обучение с подкреплением, частичная наблюдаемость, робототехника.

Решаемая проблема и перспективы проекта:
Память — одна из ключевых когнитивных функций человека. Благодаря ей мы фиксируем новые знания, события, ощущения и навыки, превращаем их в личный опыт и при необходимости извлекаем для решения задач и планирования будущих действий.

Классическое обучение с подкреплением в основном ориентировано на полностью наблюдаемые среды (Markov Decision Processes), где воспоминания не требуются: текущее состояние содержит всю нужную информацию. В реальности же робот сталкивается с частичной наблюдаемостью — например, при восприятии сцены с камер от первого лица или при манипуляциях со скрываемыми объектами. Один из эффективных способов компенсировать нехватку информации — внедрение механизмов памяти.

В рамках проекта мы разрабатываем собственные архитектуры агентов с памятью для задач обучения с подкреплением и создаем бенчмарки с частичной наблюдаемостью для их валидации. Это позволяет системно оценивать, как различные типы памяти улучшают устойчивость и качество поведения агента в условиях неполной информации.

Некоторые публикации нашей команды по этой теме:

Shchendrigin, Oleg, et al. «Memory Retention Is Not Enough to Master Memory Tasks in Reinforcement Learning.» AAMAS 2026 https://arxiv.org/abs/2601.15 086
Cherepanov, Egor, Alexey K. Kovalev, and Aleksandr I. Panov. «ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL.» arXiv preprint arXiv:2510.7 151 (2025).
Cherepanov, Egor, et al. «Recurrent action transformer with memory.» ICML 2024 Next Generation of Sequence Modeling Architectures Workshop (2024)
Cherepanov, Egor, et al. «Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation.» arXiv preprint arXiv:2412.6 531 (2024)
Cherepanov, Egor, et al. «Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning.» ICLR 2025 7th Robot Learning Workshop: Towards Robots with Human-Level Abilities (2025)

Проект 2: Обобщаемость в обучении с подкреплением

Область задачи:
Обучение с подкреплением, обобщаемость, робототехника.

Решаемая проблема и перспективы проекта:
Классические агенты обучения с подкреплением демонстрируют высокие результаты в тех же средах, где обучались. Но стоит слегка изменить визуальные параметры (освещенность, текстуры, ракурс камеры) или перенести задачу в другой, хоть и эквивалентный по динамике, контекст — и качество резко падает. Это проявляется в out-of-distribution (OOD) валидации внутри сред, в sim-to-real сценариях, а также в случаях, когда робот, натренированный, например, при одной освещенности, теряется при работе с другой освещенностью.

В рамках проекта мы разрабатываем и исследуем архитектуры робастных агентов обучения с подкреплением, способных решать различные OOD задачи.

Полезные публикации по этой теме:

Cherepanov, Egor, et al. «KAGE-Bench: Fast Known-Axis Visual Generalization Evaluation for Reinforcement Learning.» arxiv.org/abs/2601.14 232 (2026)
Li, Bonnie, et al. «Domain adversarial reinforcement learning.» arXiv preprint arXiv:2102.7 097 (2021)
Kirk, Robert, et al. «A survey of zero-shot generalisation in deep reinforcement learning.» Journal of Artificial Intelligence Research 76 (2023): 201−264
Cobbe, Karl, et al. «Leveraging procedural generation to benchmark reinforcement learning.» International conference on machine learning. PMLR, 2020
Stone, Austin, et al. «The Distracting Control Suite--A Challenging Benchmark for Reinforcement Learning from Pixels.» arXiv preprint arXiv:2101.2 722 (2021)