Skip to content

Instantly share code, notes, and snippets.

@niquola
Created January 25, 2026 00:13
Show Gist options
  • Select an option

  • Save niquola/6cde62dfc96c48271484c563451338dc to your computer and use it in GitHub Desktop.

Select an option

Save niquola/6cde62dfc96c48271484c563451338dc to your computer and use it in GitHub Desktop.
RLM (Reasoning Language Models) Deep Research - January 2026

RLM для AI Agents: Глубокий Обзор

Исследование: 25 января 2026 Автор: Claude Code для Nikolai Ryzhikov

TL;DR

RLM — это термин с двумя значениями в современном AI:

  1. Reasoning Language Models — модели с расширенными возможностями рассуждения (o1, DeepSeek-R1, QwQ)
  2. Recursive Language Models — архитектура рекурсивного самовызова для обработки длинного контекста

Оба подхода используют Reinforcement Learning как ключевой компонент обучения.


1. Reasoning Language Models (RLMs)

1.1 Что это?

RLMs (также Large Reasoning Models, LRMs) — это эволюция LLM с явными механизмами рассуждения. Вместо мгновенной генерации ответа (System 1), они выполняют пошаговое рассуждение (System 2).

Ключевые представители:

  • OpenAI o1, o3
  • DeepSeek-R1
  • Alibaba QwQ
  • Marco-o1
  • LLaMA-Berry

1.2 Blueprint Architecture (arXiv:2501.11223)

Maciej Besta et al. предложили унифицированный blueprint для RLM:

┌─────────────────────────────────────────────────────────┐
│                    RLM BLUEPRINT                        │
├─────────────────────────────────────────────────────────┤
│  REASONING STRUCTURES                                   │
│  ├── Chains (линейное рассуждение)                      │
│  ├── Trees (ветвящийся поиск)                           │
│  └── Graphs (нелинейные связи)                          │
├─────────────────────────────────────────────────────────┤
│  SEARCH STRATEGIES                                      │
│  ├── MCTS (Monte Carlo Tree Search)                     │
│  ├── Beam Search                                        │
│  └── Best-of-N Sampling                                 │
├─────────────────────────────────────────────────────────┤
│  MODELS                                                 │
│  ├── Policy Model (генерирует шаги рассуждения)         │
│  └── Value Model (оценивает качество путей)             │
├─────────────────────────────────────────────────────────┤
│  SUPERVISION SCHEMES                                    │
│  ├── OBS (Output-Based) — только финальный ответ        │
│  ├── PBS (Process-Based) — аннотация промежуточных шагов│
│  └── TBS (Trace-Based) — последовательности операторов  │
├─────────────────────────────────────────────────────────┤
│  OPERATORS                                              │
│  ├── Generate, Refine, Aggregate, Prune                 │
│  ├── Select, Backtrack                                  │
│  └── Evaluate, Backpropagation                          │
└─────────────────────────────────────────────────────────┘

1.3 Классификация RLM

Тип Описание Примеры
Explicit RLMs Видимый reasoning, отдельные компоненты LLaMA-Berry, Marco-o1
Implicit RLMs "Black box", reasoning внутри весов QwQ, o1

1.4 Training Pipeline

Phase 1: Supervised Fine-Tuning (SFT)
    └── Обучение на curated reasoning examples (PRM800K и др.)

Phase 2: Reinforcement Learning
    ├── RLHF (Reinforcement Learning from Human Feedback)
    └── RLVR (Reinforcement Learning with Verifiable Rewards) ← НОВОЕ

2. RLVR: Ключевая Инновация 2025

2.1 Что такое RLVR?

Reinforcement Learning with Verifiable Rewards — обучение без человеческой разметки, используя автоматические верификаторы:

  • Unit тесты для кода
  • Математические проверки
  • Логические доказательства

2.2 DeepSeek-R1: Pure RL Without SFT

DeepSeek продемонстрировал прорыв (arXiv:2501.12948):

DeepSeek-R1-Zero (чистый RL без SFT):
├── Base model: DeepSeek-V3-Base (671B MoE, 37B active)
├── Algorithm: GRPO (Group Relative Policy Optimization)
├── Rewards: Rule-based (accuracy + format)
└── Results: 71.0% AIME 2024 (vs 15.6% baseline)

Эмерджентные способности:

  • Self-verification
  • Self-reflection ("aha moments")
  • Extended chain-of-thought (сотни-тысячи токенов)
  • Dynamic strategy adaptation

2.3 GRPO vs PPO

Traditional PPO:
    └── Requires critic model (expensive)

GRPO (Group Relative Policy Optimization):
    ├── No critic model needed
    ├── Estimates baseline from group scores
    └── Lower computational overhead

2.4 Почему RLVR Работает? (arXiv:2506.14245)

Theorem 1: При условиях логической когерентности GRPO гарантирует:

  • Positive advantage для корректных CoT
  • Negative advantage для некорректных CoT

Ключевой insight: RLVR не просто оптимизирует правильные ответы — он неявно продвигает логически правильные пути рассуждения.


3. Recursive Language Models

3.1 Что это?

Другой тип RLM — Recursive Language Models (arXiv:2512.24601, Zhang et al.):

Модель может рекурсивно вызывать саму себя для обработки фрагментов длинного контекста.

3.2 Архитектура

┌─────────────────────────────────────────────────────────┐
│               RECURSIVE LM ARCHITECTURE                 │
├─────────────────────────────────────────────────────────┤
│  PYTHON REPL ENVIRONMENT                                │
│  ├── prompt (as Python variable)                        │
│  ├── llm_batch() — recursive sub-LLM calls              │
│  ├── pip packages                                       │
│  └── answer["content"] / answer["ready"]                │
├─────────────────────────────────────────────────────────┤
│  EMERGENT BEHAVIORS                                     │
│  ├── Filtering via regex/keywords                       │
│  ├── Chunking + recursive sub-calls                     │
│  ├── Answer verification                                │
│  └── Variable stitching                                 │
└─────────────────────────────────────────────────────────┘

3.3 Как Работает Рекурсия

# Prompt не выполняется напрямую
# Он хранится как переменная в Python REPL
prompt = "... 10M tokens ..."

# Модель пишет код для инспекции
chunks = prompt.split('\n\n')
results = []

# Рекурсивные sub-LLM вызовы
for chunk in chunks:
    result = llm_batch(f"Analyze: {chunk}")
    results.append(result)

# Агрегация результатов
answer["content"] = aggregate(results)
answer["ready"] = True

3.4 Результаты

Benchmark Base GPT-5 RLM(GPT-5)
OOLONG-Pairs <0.1% F1 58%
BrowseComp+ (6-11M tokens) 0% 91.33%

Ключевое преимущество: Обрабатывает input до 100x больше context window модели.


4. RL для AI Agents

4.1 Agent-R1 (arXiv:2511.14460)

End-to-end RL training для multi-turn agents:

MDP Extension для Agents:
├── State: История multi-turn взаимодействий + env feedback
├── Action: Token generation + tool invocation commands
├── Transition: Deterministic (tokens) + Stochastic (tools)
└── Reward: Dense process rewards + final reward

Key Innovation: Advantage Alignment — credit assignment только для токенов агента, не для env responses.

4.2 AGENTRL (arXiv:2510.04206)

Scalable multi-task framework:

AGENTRL Features:
├── Asynchronous multi-task training
├── Cross-policy sampling (exploration)
├── Unified framework for heterogeneous tasks
└── State-of-the-art на ALFWorld, WebShop, OS, DB, KG

Результат: Превосходит GPT-5 и Claude-Sonnet-4 на agentic benchmarks.

4.3 Memory-R1 (arXiv:2508.19828)

RL для memory management в agents:

Memory-R1 Architecture:
├── Memory Manager (PPO/GRPO fine-tuned)
│   └── Learns structured memory operations
└── Answer Agent
    └── Memory Distillation policy (RAG filtering)

5. Taxonomy: RL + LLM

RL for LLMs (Survey: arXiv:2509.16679)
├── Pre-training
│   └── Mid-training transformations (OctoThinker)
├── Alignment
│   ├── RLHF (reward model + PPO)
│   ├── DPO (Direct Preference Optimization)
│   └── RLAIF (AI feedback)
├── Reasoning (RLVR)
│   ├── Verifiable rewards (math, code)
│   ├── Process rewards
│   └── Self-play
└── Agents
    ├── Tool-use optimization
    ├── Long-horizon planning
    └── Memory management

6. Practical Implications

6.1 Когда использовать Reasoning RLM?

✅ Математические задачи ✅ Программирование с верификацией ✅ Логические рассуждения ✅ Multi-step planning

6.2 Когда использовать Recursive RLM?

✅ Обработка документов > context window ✅ Анализ больших кодовых баз ✅ Агрегация информации из multiple sources ✅ Deep research tasks

6.3 Key Takeaways для Agent Development

  1. GRPO > PPO для training efficiency
  2. Dense process rewards > sparse final rewards
  3. Credit assignment masks критичны для multi-turn
  4. Verifiable rewards enable pure RL training
  5. Recursive self-calls scale context handling

7. Open Source Resources

Resource Link
x1 (RLM Blueprint impl) https://github.com/spcl/x1
RLM (Recursive) https://github.com/alexzhang13/rlm
DeepSeek-R1 https://huggingface.co/deepseek-ai/DeepSeek-R1
RLHF Awesome List https://github.com/opendilab/awesome-RLHF

8. References

Core Papers

  1. Reasoning Language Models: A Blueprint (Besta et al., 2025)

  2. Recursive Language Models (Zhang, Kraska, Khattab, 2025)

  3. DeepSeek-R1: Incentivizing Reasoning via RL (2025)

  4. RLVR Implicitly Incentivizes Correct Reasoning (2025)

Agent Training

  1. Agent-R1: End-to-End RL for LLM Agents (2025)

  2. AGENTRL: Scaling Agentic Reinforcement Learning (2025)

  3. Memory-R1: Memory-Augmented LLM Agents via RL (2025)

Surveys

  1. RL Meets LLMs: Survey (2025)

  2. RLHF Deciphered (ACM Computing Surveys, 2025)

Blog Posts

  1. Recursive Language Models: Paradigm of 2026 (Prime Intellect)

  2. State of Reinforcement Learning 2025 (Turing Post)


Generated by Claude Code • January 25, 2026

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment