MDAP: Как решить Ханойскую башню в 1 048 575 шагов без ошибок (и с экономией токенов)

Владислав2 дек. 2025 г., 18:04

В современных больших языковых моделях (LLM) наблюдается постоянная ошибка при выполнении длинных цепочек действий: даже если вероятность ошибки на шаге составляет всего 1 %, после нескольких сотен-тысяч шагов задача почти наверняка проваливается. Можно ли с этим что-то сделать?

MDAP: Как решить Ханойскую башню в 1 048 575 шагов без ошибок (и с экономией токенов)

О чём эта статья?

Статья демонстрирует, как можно обойти эту проблему и успешно решить задачу, требующую более одного миллиона шагов без ошибок - в примере это классическая головоломка «Башни Ханой» с 20 дисками (2²⁰ - 1 ≈ 1 048 575 перемещений).

Ключевая идея: MDAP (Massively Decomposed Agentic Processes)

MDAP состоит из трёх компонентов:

Компонент	Что делает
Максимальная декомпозиция (MAD)	Задача разбивается на минимальные подзадачи - каждый шаг решается отдельным «микро‑агентом». Это устраняет накопление ошибок контекста и позволяет использовать небольшие модели.
Вотинг “first‑to‑ahead‑by‑k”	Для каждого шага несколько агентов генерируют ответы; тот, который набирает `k` голосов больше любого другого, считается правильным. Это обеспечивает статистическую коррекцию ошибок и позволяет достичь практически нулевой ошибки при достаточном `k`.
Red‑flagging (проверка на «опасные» ответы)	Ответы с чрезмерно длинными токенами или неверным форматом считаются подозрительными и отклоняются. Это снижает вероятность «коррелированных» ошибок, когда один агент выдаёт несколько неправильных ответов подряд.

Теоретический анализ

Вероятность успеха для одного шага: p.

При MAD (один шаг - одна подзадача) и k голосов вероятность правильного выбора =

Для всей задачи из s шагов:

Минимальное k, чтобы достичь целевой точности t:

Ожидаемая стоимость (количество токенов, и следовательно денег) растёт как

где c - стоимость одного токена модели.

Таким образом, при MAD система масштабируется логарифмически по количеству шагов.

Практическая реализация: MAKER

Модель	Ошибка на шаге (p)	Стоимость токена ($/M tok)	Минимальный `k` для t=0.95	Оценочная стоимость решения
gpt‑4.1‑nano	0.3583	0.4842	29	$41 900
gpt‑4.1‑mini (τ=0.1)	0.00223	1.6	538	$3 500
o3‑mini	0.0018	4.45	3	$9 400
gpt‑oss‑20B	0.035	0.2	6	$1 700

Выбор модели определяется минимизацией c/p - то есть стоимость за единицу надёжности.

Эксперимент с башней Ханой

Параметры:

20 дисков → 1 048 575 перемещений.

k = 3 (три голоса).

Температура: первый голос - 0, остальные - 0.1.

Ограничение на токены ответа: 750 (чтобы избежать «путаницы»).

Результат:

Полностью корректно выполнено все перемещение без ошибок.

В процессе наблюдалось экспоненциальное уменьшение количества «неопределённых» шагов после первых k голосов - подтверждение теоретической модели.

Роль Red‑flagging

Проблема: длинные ответы (> 700 токенов) часто содержат ошибки, но они встречаются редко, поэтому не влияют сильно на общую точность p.

Однако: такие ответы приводят к «коррелированным» ошибкам - один агент выдаёт несколько неправильных ответов подряд.

Решение: отклонять любые ответы с неверным форматом или слишком длинными токенами, тем самым уменьшая частоту коллизий (двойные ошибки) и повышая надёжность.

Выводы и перспективы

MDAP + MAKER доказали, что можно достичь нулевой ошибки даже при миллионах шагов, используя небольшие модели и простую статистическую коррекцию.

Система масштабируется логарифмически по количеству шагов - это делает её применимой к реальным задачам (строительство, управление цепочками поставок, медицинские процессы).

Перспективы:

Автоматическое определение оптимальной декомпозиции для более сложных задач.

Разнообразие моделей и «декорреляция» ошибок через разные типы агентов (разные модели, разные промпты).

Расширение на задачи с открытым планированием (генерация стратегии), а не только на выполнение уже заданного плана.

Таким образом, статья демонстрирует новый путь к надёжному масштабированию LLM‑систем без необходимости постоянно улучшать сами модели - достаточно разбить задачу на микроскопические шаги и применить простую многократную проверку.

Войдите, чтобы оставить комментарий

Магистры

MDAP: Как решить Ханойскую башню в 1 048 575 шагов без ошибок (и с экономией токенов)

О чём эта статья?

Ключевая идея: MDAP (Massively Decomposed Agentic Processes)

Теоретический анализ

Практическая реализация: MAKER

Эксперимент с башней Ханой

Роль Red‑flagging

Выводы и перспективы

Перспективы:

Магистры

Магистры

MDAP: Как решить Ханойскую башню в 1 048 575 шагов без ошибок (и с экономией токенов)

О чём эта статья?

Ключевая идея: MDAP (Massively Decomposed Agentic Processes)

Теоретический анализ

Практическая реализация: MAKER

Эксперимент с башней Ханой

Роль Red‑flagging

Выводы и перспективы

Перспективы:

Магистры

MDAP: Как решить Ханойскую башню в 1 048 575 шагов без ошибок (и с экономией токенов)