КурсыСтатьиПодписка

MDAP: Как решить Ханойскую башню в 1 048 575 шагов без ошибок (и с экономией токенов)

Владислав

2 дек. 2025 г.

Искуственный интеллектИИ

В современных больших языковых моделях (LLM) наблюдается постоянная ошибка при выполнении длинных цепочек действий: даже если вероятность ошибки на шаге составляет всего 1 %, после нескольких сотен-тысяч шагов задача почти наверняка проваливается. Можно ли с этим что-то сделать?

MDAP: Как решить Ханойскую башню в 1 048 575 шагов без ошибок (и с экономией токенов)

О чём эта статья?

Статья демонстрирует, как можно обойти эту проблему и успешно решить задачу, требующую более одного миллиона шагов без ошибок - в примере это классическая головоломка «Башни Ханой» с 20 дисками (2²⁰ - 1 ≈ 1 048 575 перемещений).

Ключевая идея: MDAP (Massively Decomposed Agentic Processes)

MDAP состоит из трёх компонентов:

Компонент

Что делает

Максимальная декомпозиция (MAD)

Задача разбивается на минимальные подзадачи - каждый шаг решается отдельным «микро‑агентом». Это устраняет накопление ошибок контекста и позволяет использовать небольшие модели.

Вотинг “first‑to‑ahead‑by‑k”

Для каждого шага несколько агентов генерируют ответы; тот, который набирает k голосов больше любого другого, считается правильным. Это обеспечивает статистическую коррекцию ошибок и позволяет достичь практически нулевой ошибки при достаточном k.

Red‑flagging (проверка на «опасные» ответы)

Ответы с чрезмерно длинными токенами или неверным форматом считаются подозрительными и отклоняются. Это снижает вероятность «коррелированных» ошибок, когда один агент выдаёт несколько неправильных ответов подряд.

Теоретический анализ

Вероятность успеха для одного шага: p.

При MAD (один шаг - одна подзадача) и k голосов вероятность правильного выбора =

Для всей задачи из s шагов:

Минимальное k, чтобы достичь целевой точности t:

Ожидаемая стоимость (количество токенов, и следовательно денег) растёт как

где c - стоимость одного токена модели.

Таким образом, при MAD система масштабируется логарифмически по количеству шагов.

Практическая реализация: MAKER

Модель

Ошибка на шаге (p)

Стоимость токена ($/M tok)

Минимальный k для t=0.95

Оценочная стоимость решения

gpt‑4.1‑nano

0.3583

0.4842

29

$41 900

gpt‑4.1‑mini (τ=0.1)

0.00223

1.6

538

$3 500

o3‑mini

0.0018

4.45

3

$9 400

gpt‑oss‑20B

0.035

0.2

6

$1 700

Выбор модели определяется минимизацией c/p - то есть стоимость за единицу надёжности.

Эксперимент с башней Ханой

Параметры:

20 дисков → 1 048 575 перемещений.

k = 3 (три голоса).

Температура: первый голос - 0, остальные - 0.1.

Ограничение на токены ответа: 750 (чтобы избежать «путаницы»).

Результат:

Полностью корректно выполнено все перемещение без ошибок.

В процессе наблюдалось экспоненциальное уменьшение количества «неопределённых» шагов после первых k голосов - подтверждение теоретической модели.

Роль Red‑flagging

Проблема: длинные ответы (> 700 токенов) часто содержат ошибки, но они встречаются редко, поэтому не влияют сильно на общую точность p.

Однако: такие ответы приводят к «коррелированным» ошибкам - один агент выдаёт несколько неправильных ответов подряд.

Решение: отклонять любые ответы с неверным форматом или слишком длинными токенами, тем самым уменьшая частоту коллизий (двойные ошибки) и повышая надёжность.

Выводы и перспективы

MDAP + MAKER доказали, что можно достичь нулевой ошибки даже при миллионах шагов, используя небольшие модели и простую статистическую коррекцию.

Система масштабируется логарифмически по количеству шагов - это делает её применимой к реальным задачам (строительство, управление цепочками поставок, медицинские процессы).

Перспективы:

Автоматическое определение оптимальной декомпозиции для более сложных задач.

Разнообразие моделей и «декорреляция» ошибок через разные типы агентов (разные модели, разные промпты).

Расширение на задачи с открытым планированием (генерация стратегии), а не только на выполнение уже заданного плана.

Таким образом, статья демонстрирует новый путь к надёжному масштабированию LLM‑систем без необходимости постоянно улучшать сами модели - достаточно разбить задачу на микроскопические шаги и применить простую многократную проверку.

Магистры

Все права защищены © 2024

VKVKYouTube

Курсы

Статьи

Подписка