MDAP: Как решить Ханойскую башню в 1 048 575 шагов без ошибок (и с экономией токенов)
Владислав
2 дек. 2025 г.
В современных больших языковых моделях (LLM) наблюдается постоянная ошибка при выполнении длинных цепочек действий: даже если вероятность ошибки на шаге составляет всего 1 %, после нескольких сотен-тысяч шагов задача почти наверняка проваливается. Можно ли с этим что-то сделать?

О чём эта статья?
Статья демонстрирует, как можно обойти эту проблему и успешно решить задачу, требующую более одного миллиона шагов без ошибок - в примере это классическая головоломка «Башни Ханой» с 20 дисками (2²⁰ - 1 ≈ 1 048 575 перемещений).
Ключевая идея: MDAP (Massively Decomposed Agentic Processes)
MDAP состоит из трёх компонентов:
Компонент | Что делает |
|---|---|
Максимальная декомпозиция (MAD) | Задача разбивается на минимальные подзадачи - каждый шаг решается отдельным «микро‑агентом». Это устраняет накопление ошибок контекста и позволяет использовать небольшие модели. |
Вотинг “first‑to‑ahead‑by‑k” | Для каждого шага несколько агентов генерируют ответы; тот, который набирает |
Red‑flagging (проверка на «опасные» ответы) | Ответы с чрезмерно длинными токенами или неверным форматом считаются подозрительными и отклоняются. Это снижает вероятность «коррелированных» ошибок, когда один агент выдаёт несколько неправильных ответов подряд. |
Теоретический анализ
Вероятность успеха для одного шага: p.
При MAD (один шаг - одна подзадача) и k голосов вероятность правильного выбора =
Для всей задачи из s шагов:
Минимальное k, чтобы достичь целевой точности t:
Ожидаемая стоимость (количество токенов, и следовательно денег) растёт как
где c - стоимость одного токена модели.
Таким образом, при MAD система масштабируется логарифмически по количеству шагов.
Практическая реализация: MAKER
Модель | Ошибка на шаге (p) | Стоимость токена ($/M tok) | Минимальный | Оценочная стоимость решения |
|---|---|---|---|---|
gpt‑4.1‑nano | 0.3583 | 0.4842 | 29 | $41 900 |
gpt‑4.1‑mini (τ=0.1) | 0.00223 | 1.6 | 538 | $3 500 |
o3‑mini | 0.0018 | 4.45 | 3 | $9 400 |
gpt‑oss‑20B | 0.035 | 0.2 | 6 | $1 700 |
Выбор модели определяется минимизацией c/p - то есть стоимость за единицу надёжности.
Эксперимент с башней Ханой
Параметры:
20 дисков → 1 048 575 перемещений.
k = 3 (три голоса).
Температура: первый голос - 0, остальные - 0.1.
Ограничение на токены ответа: 750 (чтобы избежать «путаницы»).
Результат:
Полностью корректно выполнено все перемещение без ошибок.
В процессе наблюдалось экспоненциальное уменьшение количества «неопределённых» шагов после первых k голосов - подтверждение теоретической модели.
Роль Red‑flagging
Проблема: длинные ответы (> 700 токенов) часто содержат ошибки, но они встречаются редко, поэтому не влияют сильно на общую точность p.
Однако: такие ответы приводят к «коррелированным» ошибкам - один агент выдаёт несколько неправильных ответов подряд.
Решение: отклонять любые ответы с неверным форматом или слишком длинными токенами, тем самым уменьшая частоту коллизий (двойные ошибки) и повышая надёжность.
Выводы и перспективы
MDAP + MAKER доказали, что можно достичь нулевой ошибки даже при миллионах шагов, используя небольшие модели и простую статистическую коррекцию.
Система масштабируется логарифмически по количеству шагов - это делает её применимой к реальным задачам (строительство, управление цепочками поставок, медицинские процессы).
Перспективы:
Автоматическое определение оптимальной декомпозиции для более сложных задач.
Разнообразие моделей и «декорреляция» ошибок через разные типы агентов (разные модели, разные промпты).
Расширение на задачи с открытым планированием (генерация стратегии), а не только на выполнение уже заданного плана.
Таким образом, статья демонстрирует новый путь к надёжному масштабированию LLM‑систем без необходимости постоянно улучшать сами модели - достаточно разбить задачу на микроскопические шаги и применить простую многократную проверку.