Исследование: 25 января 2026 Автор: Claude Code для Nikolai Ryzhikov
RLM — это термин с двумя значениями в современном AI:
- Reasoning Language Models — модели с расширенными возможностями рассуждения (o1, DeepSeek-R1, QwQ)
- Recursive Language Models — архитектура рекурсивного самовызова для обработки длинного контекста
Оба подхода используют Reinforcement Learning как ключевой компонент обучения.
RLMs (также Large Reasoning Models, LRMs) — это эволюция LLM с явными механизмами рассуждения. Вместо мгновенной генерации ответа (System 1), они выполняют пошаговое рассуждение (System 2).
Ключевые представители:
- OpenAI o1, o3
- DeepSeek-R1
- Alibaba QwQ
- Marco-o1
- LLaMA-Berry
Maciej Besta et al. предложили унифицированный blueprint для RLM:
┌─────────────────────────────────────────────────────────┐
│ RLM BLUEPRINT │
├─────────────────────────────────────────────────────────┤
│ REASONING STRUCTURES │
│ ├── Chains (линейное рассуждение) │
│ ├── Trees (ветвящийся поиск) │
│ └── Graphs (нелинейные связи) │
├─────────────────────────────────────────────────────────┤
│ SEARCH STRATEGIES │
│ ├── MCTS (Monte Carlo Tree Search) │
│ ├── Beam Search │
│ └── Best-of-N Sampling │
├─────────────────────────────────────────────────────────┤
│ MODELS │
│ ├── Policy Model (генерирует шаги рассуждения) │
│ └── Value Model (оценивает качество путей) │
├─────────────────────────────────────────────────────────┤
│ SUPERVISION SCHEMES │
│ ├── OBS (Output-Based) — только финальный ответ │
│ ├── PBS (Process-Based) — аннотация промежуточных шагов│
│ └── TBS (Trace-Based) — последовательности операторов │
├─────────────────────────────────────────────────────────┤
│ OPERATORS │
│ ├── Generate, Refine, Aggregate, Prune │
│ ├── Select, Backtrack │
│ └── Evaluate, Backpropagation │
└─────────────────────────────────────────────────────────┘
| Тип | Описание | Примеры |
|---|---|---|
| Explicit RLMs | Видимый reasoning, отдельные компоненты | LLaMA-Berry, Marco-o1 |
| Implicit RLMs | "Black box", reasoning внутри весов | QwQ, o1 |
Phase 1: Supervised Fine-Tuning (SFT)
└── Обучение на curated reasoning examples (PRM800K и др.)
Phase 2: Reinforcement Learning
├── RLHF (Reinforcement Learning from Human Feedback)
└── RLVR (Reinforcement Learning with Verifiable Rewards) ← НОВОЕ
Reinforcement Learning with Verifiable Rewards — обучение без человеческой разметки, используя автоматические верификаторы:
- Unit тесты для кода
- Математические проверки
- Логические доказательства
DeepSeek продемонстрировал прорыв (arXiv:2501.12948):
DeepSeek-R1-Zero (чистый RL без SFT):
├── Base model: DeepSeek-V3-Base (671B MoE, 37B active)
├── Algorithm: GRPO (Group Relative Policy Optimization)
├── Rewards: Rule-based (accuracy + format)
└── Results: 71.0% AIME 2024 (vs 15.6% baseline)
Эмерджентные способности:
- Self-verification
- Self-reflection ("aha moments")
- Extended chain-of-thought (сотни-тысячи токенов)
- Dynamic strategy adaptation
Traditional PPO:
└── Requires critic model (expensive)
GRPO (Group Relative Policy Optimization):
├── No critic model needed
├── Estimates baseline from group scores
└── Lower computational overhead
Theorem 1: При условиях логической когерентности GRPO гарантирует:
- Positive advantage для корректных CoT
- Negative advantage для некорректных CoT
Ключевой insight: RLVR не просто оптимизирует правильные ответы — он неявно продвигает логически правильные пути рассуждения.
Другой тип RLM — Recursive Language Models (arXiv:2512.24601, Zhang et al.):
Модель может рекурсивно вызывать саму себя для обработки фрагментов длинного контекста.
┌─────────────────────────────────────────────────────────┐
│ RECURSIVE LM ARCHITECTURE │
├─────────────────────────────────────────────────────────┤
│ PYTHON REPL ENVIRONMENT │
│ ├── prompt (as Python variable) │
│ ├── llm_batch() — recursive sub-LLM calls │
│ ├── pip packages │
│ └── answer["content"] / answer["ready"] │
├─────────────────────────────────────────────────────────┤
│ EMERGENT BEHAVIORS │
│ ├── Filtering via regex/keywords │
│ ├── Chunking + recursive sub-calls │
│ ├── Answer verification │
│ └── Variable stitching │
└─────────────────────────────────────────────────────────┘
# Prompt не выполняется напрямую
# Он хранится как переменная в Python REPL
prompt = "... 10M tokens ..."
# Модель пишет код для инспекции
chunks = prompt.split('\n\n')
results = []
# Рекурсивные sub-LLM вызовы
for chunk in chunks:
result = llm_batch(f"Analyze: {chunk}")
results.append(result)
# Агрегация результатов
answer["content"] = aggregate(results)
answer["ready"] = True| Benchmark | Base GPT-5 | RLM(GPT-5) |
|---|---|---|
| OOLONG-Pairs | <0.1% F1 | 58% |
| BrowseComp+ (6-11M tokens) | 0% | 91.33% |
Ключевое преимущество: Обрабатывает input до 100x больше context window модели.
End-to-end RL training для multi-turn agents:
MDP Extension для Agents:
├── State: История multi-turn взаимодействий + env feedback
├── Action: Token generation + tool invocation commands
├── Transition: Deterministic (tokens) + Stochastic (tools)
└── Reward: Dense process rewards + final reward
Key Innovation: Advantage Alignment — credit assignment только для токенов агента, не для env responses.
Scalable multi-task framework:
AGENTRL Features:
├── Asynchronous multi-task training
├── Cross-policy sampling (exploration)
├── Unified framework for heterogeneous tasks
└── State-of-the-art на ALFWorld, WebShop, OS, DB, KG
Результат: Превосходит GPT-5 и Claude-Sonnet-4 на agentic benchmarks.
RL для memory management в agents:
Memory-R1 Architecture:
├── Memory Manager (PPO/GRPO fine-tuned)
│ └── Learns structured memory operations
└── Answer Agent
└── Memory Distillation policy (RAG filtering)
RL for LLMs (Survey: arXiv:2509.16679)
├── Pre-training
│ └── Mid-training transformations (OctoThinker)
├── Alignment
│ ├── RLHF (reward model + PPO)
│ ├── DPO (Direct Preference Optimization)
│ └── RLAIF (AI feedback)
├── Reasoning (RLVR)
│ ├── Verifiable rewards (math, code)
│ ├── Process rewards
│ └── Self-play
└── Agents
├── Tool-use optimization
├── Long-horizon planning
└── Memory management
✅ Математические задачи ✅ Программирование с верификацией ✅ Логические рассуждения ✅ Multi-step planning
✅ Обработка документов > context window ✅ Анализ больших кодовых баз ✅ Агрегация информации из multiple sources ✅ Deep research tasks
- GRPO > PPO для training efficiency
- Dense process rewards > sparse final rewards
- Credit assignment masks критичны для multi-turn
- Verifiable rewards enable pure RL training
- Recursive self-calls scale context handling
| Resource | Link |
|---|---|
| x1 (RLM Blueprint impl) | https://github.com/spcl/x1 |
| RLM (Recursive) | https://github.com/alexzhang13/rlm |
| DeepSeek-R1 | https://huggingface.co/deepseek-ai/DeepSeek-R1 |
| RLHF Awesome List | https://github.com/opendilab/awesome-RLHF |
-
Reasoning Language Models: A Blueprint (Besta et al., 2025)
- arXiv:2501.11223
- https://arxiv.org/abs/2501.11223
-
Recursive Language Models (Zhang, Kraska, Khattab, 2025)
- arXiv:2512.24601
- https://arxiv.org/abs/2512.24601
-
DeepSeek-R1: Incentivizing Reasoning via RL (2025)
- arXiv:2501.12948
- https://arxiv.org/abs/2501.12948
-
RLVR Implicitly Incentivizes Correct Reasoning (2025)
- arXiv:2506.14245
- https://arxiv.org/abs/2506.14245
-
Agent-R1: End-to-End RL for LLM Agents (2025)
- arXiv:2511.14460
- https://arxiv.org/abs/2511.14460
-
AGENTRL: Scaling Agentic Reinforcement Learning (2025)
- arXiv:2510.04206
- https://arxiv.org/abs/2510.04206
-
Memory-R1: Memory-Augmented LLM Agents via RL (2025)
- arXiv:2508.19828
- https://arxiv.org/abs/2508.19828
-
RL Meets LLMs: Survey (2025)
- arXiv:2509.16679
- https://arxiv.org/abs/2509.16679
-
RLHF Deciphered (ACM Computing Surveys, 2025)
-
Recursive Language Models: Paradigm of 2026 (Prime Intellect)
-
State of Reinforcement Learning 2025 (Turing Post)
Generated by Claude Code • January 25, 2026