RLM для AI Agents: Глубокий Обзор

Исследование: 25 января 2026 Автор: Claude Code для Nikolai Ryzhikov

TL;DR

RLM — это термин с двумя значениями в современном AI:

Reasoning Language Models — модели с расширенными возможностями рассуждения (o1, DeepSeek-R1, QwQ)
Recursive Language Models — архитектура рекурсивного самовызова для обработки длинного контекста

Оба подхода используют Reinforcement Learning как ключевой компонент обучения.

1. Reasoning Language Models (RLMs)

1.1 Что это?

RLMs (также Large Reasoning Models, LRMs) — это эволюция LLM с явными механизмами рассуждения. Вместо мгновенной генерации ответа (System 1), они выполняют пошаговое рассуждение (System 2).

Ключевые представители:

OpenAI o1, o3
DeepSeek-R1
Alibaba QwQ
Marco-o1
LLaMA-Berry

1.2 Blueprint Architecture (arXiv:2501.11223)

Maciej Besta et al. предложили унифицированный blueprint для RLM:

┌─────────────────────────────────────────────────────────┐
│                    RLM BLUEPRINT                        │
├─────────────────────────────────────────────────────────┤
│  REASONING STRUCTURES                                   │
│  ├── Chains (линейное рассуждение)                      │
│  ├── Trees (ветвящийся поиск)                           │
│  └── Graphs (нелинейные связи)                          │
├─────────────────────────────────────────────────────────┤
│  SEARCH STRATEGIES                                      │
│  ├── MCTS (Monte Carlo Tree Search)                     │
│  ├── Beam Search                                        │
│  └── Best-of-N Sampling                                 │
├─────────────────────────────────────────────────────────┤
│  MODELS                                                 │
│  ├── Policy Model (генерирует шаги рассуждения)         │
│  └── Value Model (оценивает качество путей)             │
├─────────────────────────────────────────────────────────┤
│  SUPERVISION SCHEMES                                    │
│  ├── OBS (Output-Based) — только финальный ответ        │
│  ├── PBS (Process-Based) — аннотация промежуточных шагов│
│  └── TBS (Trace-Based) — последовательности операторов  │
├─────────────────────────────────────────────────────────┤
│  OPERATORS                                              │
│  ├── Generate, Refine, Aggregate, Prune                 │
│  ├── Select, Backtrack                                  │
│  └── Evaluate, Backpropagation                          │
└─────────────────────────────────────────────────────────┘

1.3 Классификация RLM

Тип	Описание	Примеры
Explicit RLMs	Видимый reasoning, отдельные компоненты	LLaMA-Berry, Marco-o1
Implicit RLMs	"Black box", reasoning внутри весов	QwQ, o1

1.4 Training Pipeline

Phase 1: Supervised Fine-Tuning (SFT)
    └── Обучение на curated reasoning examples (PRM800K и др.)

Phase 2: Reinforcement Learning
    ├── RLHF (Reinforcement Learning from Human Feedback)
    └── RLVR (Reinforcement Learning with Verifiable Rewards) ← НОВОЕ

2. RLVR: Ключевая Инновация 2025

2.1 Что такое RLVR?

Reinforcement Learning with Verifiable Rewards — обучение без человеческой разметки, используя автоматические верификаторы:

Unit тесты для кода
Математические проверки
Логические доказательства

2.2 DeepSeek-R1: Pure RL Without SFT

DeepSeek продемонстрировал прорыв (arXiv:2501.12948):

DeepSeek-R1-Zero (чистый RL без SFT):
├── Base model: DeepSeek-V3-Base (671B MoE, 37B active)
├── Algorithm: GRPO (Group Relative Policy Optimization)
├── Rewards: Rule-based (accuracy + format)
└── Results: 71.0% AIME 2024 (vs 15.6% baseline)

Эмерджентные способности:

Self-verification
Self-reflection ("aha moments")
Extended chain-of-thought (сотни-тысячи токенов)
Dynamic strategy adaptation

2.3 GRPO vs PPO

Traditional PPO:
    └── Requires critic model (expensive)

GRPO (Group Relative Policy Optimization):
    ├── No critic model needed
    ├── Estimates baseline from group scores
    └── Lower computational overhead

2.4 Почему RLVR Работает? (arXiv:2506.14245)

Theorem 1: При условиях логической когерентности GRPO гарантирует:

Positive advantage для корректных CoT
Negative advantage для некорректных CoT

Ключевой insight: RLVR не просто оптимизирует правильные ответы — он неявно продвигает логически правильные пути рассуждения.

3. Recursive Language Models

3.1 Что это?

Другой тип RLM — Recursive Language Models (arXiv:2512.24601, Zhang et al.):

Модель может рекурсивно вызывать саму себя для обработки фрагментов длинного контекста.

3.2 Архитектура

┌─────────────────────────────────────────────────────────┐
│               RECURSIVE LM ARCHITECTURE                 │
├─────────────────────────────────────────────────────────┤
│  PYTHON REPL ENVIRONMENT                                │
│  ├── prompt (as Python variable)                        │
│  ├── llm_batch() — recursive sub-LLM calls              │
│  ├── pip packages                                       │
│  └── answer["content"] / answer["ready"]                │
├─────────────────────────────────────────────────────────┤
│  EMERGENT BEHAVIORS                                     │
│  ├── Filtering via regex/keywords                       │
│  ├── Chunking + recursive sub-calls                     │
│  ├── Answer verification                                │
│  └── Variable stitching                                 │
└─────────────────────────────────────────────────────────┘

3.3 Как Работает Рекурсия

# Prompt не выполняется напрямую
# Он хранится как переменная в Python REPL
prompt = "... 10M tokens ..."

# Модель пишет код для инспекции
chunks = prompt.split('\n\n')
results = []

# Рекурсивные sub-LLM вызовы
for chunk in chunks:
    result = llm_batch(f"Analyze: {chunk}")
    results.append(result)

# Агрегация результатов
answer["content"] = aggregate(results)
answer["ready"] = True

3.4 Результаты

Benchmark	Base GPT-5	RLM(GPT-5)
OOLONG-Pairs	<0.1% F1	58%
BrowseComp+ (6-11M tokens)	0%	91.33%

Ключевое преимущество: Обрабатывает input до 100x больше context window модели.

4. RL для AI Agents

4.1 Agent-R1 (arXiv:2511.14460)

End-to-end RL training для multi-turn agents:

MDP Extension для Agents:
├── State: История multi-turn взаимодействий + env feedback
├── Action: Token generation + tool invocation commands
├── Transition: Deterministic (tokens) + Stochastic (tools)
└── Reward: Dense process rewards + final reward

Key Innovation: Advantage Alignment — credit assignment только для токенов агента, не для env responses.

4.2 AGENTRL (arXiv:2510.04206)

Scalable multi-task framework:

AGENTRL Features:
├── Asynchronous multi-task training
├── Cross-policy sampling (exploration)
├── Unified framework for heterogeneous tasks
└── State-of-the-art на ALFWorld, WebShop, OS, DB, KG

Результат: Превосходит GPT-5 и Claude-Sonnet-4 на agentic benchmarks.

4.3 Memory-R1 (arXiv:2508.19828)

RL для memory management в agents:

Memory-R1 Architecture:
├── Memory Manager (PPO/GRPO fine-tuned)
│   └── Learns structured memory operations
└── Answer Agent
    └── Memory Distillation policy (RAG filtering)

5. Taxonomy: RL + LLM

RL for LLMs (Survey: arXiv:2509.16679)
├── Pre-training
│   └── Mid-training transformations (OctoThinker)
├── Alignment
│   ├── RLHF (reward model + PPO)
│   ├── DPO (Direct Preference Optimization)
│   └── RLAIF (AI feedback)
├── Reasoning (RLVR)
│   ├── Verifiable rewards (math, code)
│   ├── Process rewards
│   └── Self-play
└── Agents
    ├── Tool-use optimization
    ├── Long-horizon planning
    └── Memory management

6. Practical Implications

6.1 Когда использовать Reasoning RLM?

✅ Математические задачи ✅ Программирование с верификацией ✅ Логические рассуждения ✅ Multi-step planning

6.2 Когда использовать Recursive RLM?

✅ Обработка документов > context window ✅ Анализ больших кодовых баз ✅ Агрегация информации из multiple sources ✅ Deep research tasks

6.3 Key Takeaways для Agent Development

GRPO > PPO для training efficiency
Dense process rewards > sparse final rewards
Credit assignment masks критичны для multi-turn
Verifiable rewards enable pure RL training
Recursive self-calls scale context handling

7. Open Source Resources

Resource	Link
x1 (RLM Blueprint impl)	https://github.com/spcl/x1
RLM (Recursive)	https://github.com/alexzhang13/rlm
DeepSeek-R1	https://huggingface.co/deepseek-ai/DeepSeek-R1
RLHF Awesome List	https://github.com/opendilab/awesome-RLHF

8. References

Core Papers

Reasoning Language Models: A Blueprint (Besta et al., 2025)
- arXiv:2501.11223
- https://arxiv.org/abs/2501.11223
Recursive Language Models (Zhang, Kraska, Khattab, 2025)
- arXiv:2512.24601
- https://arxiv.org/abs/2512.24601
DeepSeek-R1: Incentivizing Reasoning via RL (2025)
- arXiv:2501.12948
- https://arxiv.org/abs/2501.12948
RLVR Implicitly Incentivizes Correct Reasoning (2025)
- arXiv:2506.14245
- https://arxiv.org/abs/2506.14245

Agent Training

Agent-R1: End-to-End RL for LLM Agents (2025)
- arXiv:2511.14460
- https://arxiv.org/abs/2511.14460
AGENTRL: Scaling Agentic Reinforcement Learning (2025)
- arXiv:2510.04206
- https://arxiv.org/abs/2510.04206
Memory-R1: Memory-Augmented LLM Agents via RL (2025)
- arXiv:2508.19828
- https://arxiv.org/abs/2508.19828

Surveys

RL Meets LLMs: Survey (2025)
- arXiv:2509.16679
- https://arxiv.org/abs/2509.16679
RLHF Deciphered (ACM Computing Surveys, 2025)
- https://dl.acm.org/doi/full/10.1145/3743127

Blog Posts

Recursive Language Models: Paradigm of 2026 (Prime Intellect)
- https://www.primeintellect.ai/blog/rlm
State of Reinforcement Learning 2025 (Turing Post)
- https://www.turingpost.com/p/stateofrl2025

Generated by Claude Code • January 25, 2026

niquola/research-rlm-agents-2026-01-25.md

Select an option

No results found