Каково это — работать с Fable 5 (Mythos) / forpes.ru

Главная
Каково это — работать с Fable 5 (Mythos)

Каково это — работать с Fable 5 (Mythos) +11

10.06.2026 08:17

python_leader 13 14000 Источник

У меня был ранний доступ к первой публично доступной модели класса Mythos — Claude 5 Fable. Большинство обсуждений вокруг Mythos сосредоточено на кибербезопасности, но я тестировал модель на всём остальном (ограничения Fable фактически блокируют её использование в этой области). Мой вывод: это реальный скачок относительно всех моделей, с которыми я работал раньше. И, что важнее, он говорит о фундаментальных изменениях в том, как мы взаимодействуем с AI.

Насколько хороша Fable? В каждом эксперименте она значительно превосходила все другие публичные модели. Справлялась со сложными задачами, давала неожиданные результаты, могла работать до двенадцати часов, выполняя многостраничные спецификации. Я расскажу о нескольких сложных кейсах подробнее, но общее улучшение было заметно на любых задачах. Проблема в том, что многие из самых впечатляющих результатов интересны лишь небольшой части читателей. Например, она создала самую сложную академическую статью по социальным наукам, которую я когда-либо видел от AI, — из одного промпта и одного уточнения. Ещё написала эпическую рифмованную поэму на десять страниц о стрижке, где каждое слово начинается на букву s.

Для более доступного примера: я попросил её создать несколько игр. Все — из одного начального промпта в Claude Code с парой дополнительных итераций и минимальным фидбэком. Особенно впечатляет то, что Claude не умеет генерировать изображения: вся графика и 3D-объекты созданы математически, без каких-либо внешних ресурсов. Можно попробовать: игра про подбрасывание монет в духе Balatro; Snake, где змея осознаёт себя и происходит что-то странное; или спуск в глубины, чтобы посмотреть, что там есть.

Результаты производят впечатление. Но когда я переходил к более серьёзным проектам, ощущение было где-то между восторгом и тревогой. Восторг — потому что я просто просил о чём-то, и это происходило. Тревога — по той же причине.

Карты и методы

Чтобы понять почему, полезно разобраться в том, как Fable выполняет работу. Возьму задачу, которую я тестировал на многих предыдущих моделях: создание изохронной карты. Это карта, показывающая расстояние, которое можно преодолеть за заданное время. Первая такая карта была создана в 1881 году и показывала время в пути из Лондона.

Ни одна из предыдущих моделей даже близко не справлялась с этой задачей: она требует исследования тысяч маршрутов и множества мелких суждений. Я попробовал Fable через Claude Code с примерно таким промптом:

хочу создать полностью проработанную и красивую изохронную карту, где можно выбирать города и видеть реальные изохронные линии на основе реальных данных. Дизайн должен быть уникальным. Учти аэропорты (включая время на дорогу до/от), поезда, ходьбу, автомобиль. Данные не обязательно должны быть в реальном времени, но должны быть реальными. Начни с нескольких городов, но чем больше охват — тем лучше; это должен быть совершенно новый проект.

Модель предложила выполнить карту в стиле оригинала 1881 года. Я согласился, и она приступила.

Стоит изучить транскрипт многочасовой сессии, которую AI провёл самостоятельно: в нём видны необычные вещи. Во-первых, модель запустила несколько других AI (преимущественно более дешёвый Claude Sonnet) для исследования времени в пути и в итоге собрала данные о более чем 2200 конкретных рейсах, расписаниях поездов — от TGV до Синкансэна — и скоростях на дорогах по каждой стране из нескольких академических работ. Пока агенты работали, она параллельно писала код, затем запустила ещё агентов для верификации и вела заметки о прогрессе.

Результат — полностью рабочая карта впечатляющей сложности, визуально напоминающая оригинал 1881 года. Но не идеальная. Я заметил, что для ряда отдалённых мест (например, Гренландии) время в пути было оценочным, а не точным. Попросил исправить, указав получить реальные данные для удалённых аэропортов. На этот раз модель выстроила воркфлоу из состязательных групп агентов: одни исследовали, другие проверяли результаты. Она выяснила, как часто суда ходят до острова Питкэрн в Тихом океане, и как добраться от Оттавы до Гриз-Фьорда. И потратила при этом огромное количество токенов за очень короткое время.

Я несколько раз давал уточнения в направлениях, которые меня интересовали, — в том числе просил альтернативные способы визуализации. Рекомендую потратить пару минут, чтобы покликать по результату; методологию и источники можно прочитать внизу страницы.

Этот проект, вероятно, бесполезен для большинства людей — если только вы не любите путешествия и карты. Но он показателен как пример AI, решающего сложную задачу с элементами исследования, математики, визуализации, эстетических суждений и нетривиального кодинга. Тревожная часть — в том, как мало я сделал сам. Я дал амбициозную инструкцию — модель её выполнила. Я дал несколько незначительных замечаний — модель разобралась. Моя роль была крайне ограниченной.

Важно, что ограниченной была не только нагрузка, но и контроль. Я не мог влиять на то, как модель выстраивает процесс, почему выбирает те или иные подходы и насколько глубоко прорабатывает детали. Ход рассуждений модели от меня скрыт, а процесс слишком длинный, чтобы за ним следить. Карта потребовала сотен небольших решений — и модель их принимала сама, без моего участия.

Если статья понравится — приглашаю в канал AI for Devs. Каждый день публикую похожие материалы: модели, агенты, практические кейсы и новости из мира AI.

Работа с моделью класса Mythos

Самый амбициозный проект требует небольшого пояснения. В исследованиях мне часто нужно классифицировать неструктурированные ответы людей: насколько идея инновационна? почему людям нравится эта книга? Традиционно для этого привлекались исследователи, которые делали экспертные оценки, а затем сравнивались статистически для проверки надёжности. Последние работы показывают, что AI потенциально способен делать это, но калибровка AI- и человеческих оценок оставалась сложной и дорогой задачей. Я попросил Fable решить её: сначала сгенерировать подробный 19-страничный проектный документ, а затем реализовать его.

Модель работала девять с половиной часов.

В итоге получился сложный программный инструмент, который модель назвала Concord: он принимает несколько датасетов, калибрует ответы людей и AI и проводит сложный анализ данных. Снова — не идеально. Как эксперт, я смог найти несколько ошибок и упущений, которые попросил исправить. Но масштаб результата превзошёл всё, что я видел раньше: это программа, которая нужна исследователям уже много лет, но никогда не была достаточно прибыльной, чтобы кто-то её написал. Код доступен для использования и модификации. Уверен, что он не идеален (я провёл с результатами только час), но программист может быстро устранить оставшиеся баги — и это одна из причин, почему нам может потребоваться больше, а не меньше разработчиков: для работы со взрывным ростом возможных применений программного обеспечения.

Эта мощь идёт рука об руку со странностью и ограничениями. Fable вдвое дороже Opus и сжигает токены с такой скоростью, что ответ на вопрос «сколько это стоит в продакшене» — «много», хотя умная делегация более дешёвым моделям может существенно снизить реальную цену. Ограничения Fable срабатывают при малейшем намёке на проблему безопасности и переключаются на менее мощный Claude 4.8 Opus — и происходит это слишком часто. Зубчатая граница возможностей никуда не делась. Модель по-прежнему пишет в своём характерном стиле: программный код, который генерирует Fable, несёт следы «клодизмов»; то же самое в отчётах о прогрессе. Но главная странность — в том, как мало мне нужно было делать и как мало я видел, пока шла работа.

В прошлом году я описывал это как работу с волшебником: произносишь заклинание — что-то происходит. С Fable заклинание стало достаточно мощным, чтобы я уже не был уверен, что именно я маг. Скорее — заказчик. Я описываю, что хочу, плачу за это и оцениваю результат. Само колдовство происходит где-то, куда мне не заглянуть, в сотнях небольших решений, на которые у меня нет права голоса. Работа сместилась от процесса к результату. Я больше не рулю — я ставлю задачу.

Возможно, это отстранение временное — артефакт интерфейсов, которые ещё не успели развиться, и в будущем появятся лучшие инструменты для наблюдения за тем, что делают модели. Возможно, всё наоборот: чем мощнее модель, тем меньше у человека значимой работы, и чёрный ящик — это цена возможностей. Мне кажется, второй вариант вероятнее. В очевидном смысле это не потеря контроля: я по-прежнему могу направлять Fable, и она следует инструкциям поразительно хорошо. Чем амбициознее инструкция, тем лучше результат. Но направлять — это уже не то же самое, что делать. Я ставлю задачу, модель запускает собственных агентов для исследования, написания и взаимной проверки, а то, что возвращается — уже готово. Заказчик нанимает одного художника. Fable — скорее целая студия, где я клиент, который подписывает финальную работу, ни разу не зайдя в цех.

Русскоязычное сообщество про AI в разработке

Друзья! Перевод этой статьи подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI‑агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Комментарии (13)

Timmek
10.06.2026 10:19
#30092788
Anthropic выпустила модель, преимущество которой раскрывается только в информационной безопасности, но в итоге эта модель отказывается работать даже близко к похожей теме.

Да и публичная версия лоботомированная относительно той, чтобы была доступна узкому кругу лиц. Прям максимальное разочарование

Okloks
10.06.2026 10:19
#30092796
Лично мне кажется, что улучшение способностей модели - это не результат мощности модели как таковой. Есть ощущение, что Антропики нащупали удачный харнесс, который позволяет дробить суждения на более мелкие суждения, которые проверяются ворохом каких-нибудь опровергателей. Может ещё и математика замешана, когда язык суждений переводится в строгую математическую формулу.

А может и вовсе не существует Sonnet, Opus, Fable как таковых. И они лишь построены на платформе небольших LLM, с вылизанными до блеска способностями в логику. Отличие только в масштабе архитектуры. У Sonnet - небольшая, а Opus - это пачка Соннетов в определенной конфигурации. Ну и так далее.

И главное - все эти варианты масштабируемы. Можно построить систему ещё мощнее, закупив 100500 миллионов серверов. И наоборот, если надо сделать модель потупее, то это делается очень просто.

Я просто сам для себя делаю такую систему на основе моделей Клода, с верификациями, опровергателями, судьями и состязательной панелью. Оттого и такое предположение
1. HellQwer
  10.06.2026 10:19
  #30094705
  А почему только Клода? Я в ручном режиме пробовал разные модели, чтобы увеличить разброс и было меньше склонности соглашаться. Типа бесплатные ощутимо хуже, а за зоопарк платных платить не хочется?
1. verticalacid
  10.06.2026 10:19
  #30097805
  Про миф/сказку ты попал в точку, но опус все же не пачка соннетов, а куда большая модель.
1. proxy3d
  10.06.2026 10:19
  #30102862
  У Mythos есть отличие. Тут описывал:
  
  https://habr.com/ru/companies/gazprombank/articles/1026124/comments/#comment_29866508
  
  Смысл в том, что рассуждения работают иначе. Там есть внутренние циклы, которые прибавляются к начальному контексту, это усиливает начальный контекст и не даёт модели терять его. Но это так же увеличивает затраты на инференс, так как требуется дополнительно до 4-8 проходов на блок (если я правильно помню из разбора архитектуры OpenMythos). Поэтому в худшем сценарии модель может потреблять в 8 раз больше расчетов на инференс.
  
  Архитектурная разница есть. В этом случае контекст более устойчивый при рассуждении и рассуждения сразу точнее. Но при этом данная модель сильно более затратная. Я не знаю сколько циклов заложено для обычно потребителя. В описании архитектуры было до 8 циклов. Но для потребителя они могли снизить их например до 2 или 4, установить более большие пороги прекращения цикла.
  
  Так что в любом случае данная архитектура более прожорливая. И главное преимущество, это удержание контекста. Но с учётом современного подхода, когда модели постоянно переключаются - я не уверен, что это сильно эффективно.
  
  Три модели пишут письмо дядя Фёдора.
  Это как сжимать данные одним архиватором, потом в середине процесса другим архиватором и потом продолжить снова сжимать первым.
  
  Думаю в скором времени китайцы перенесут этот подход в открытые модели.

papanoffk
10.06.2026 10:19
#30092927
LLM сегодня be like:

MrFr3di
10.06.2026 10:19
#30093413
Mythos который без цензуры выпустят позже, а fable 5 доступен по-моему дней 12 в подписке pro+ а потом только api. Но цены словно для миллионеров делали, а нахрена она зацензуренная? Учитывая что ее уже успели прогнать по задачам, в конкретике она сыпется по сравнению с гпт5.5, а на длинных задачах скорее ты станешь банкротом.

Глянул ещё бенчмарк данной модели в сравнении, то сомневаться я стал в этих всех бенчмарках, учитываю что это прогон в медиа anthropic в связи с IPO
1. Ai_Paradox
  10.06.2026 10:19
  #30096715
  Неверю никаким бенчмаркам. Только своему опыту. И модель действительно сильная.

ct_ostin
10.06.2026 10:19
#30095401
- Как продать то же самое, но в два раза дороже?

- Давайте припишем моделе мифические свойства!

- Но люди же все поймут при релизе.

- А мы скажем что она настолько ох*енная, что нам пришлось как раз таки и ограничить эти функции из-за соображений безпосаности!

- А точно проканает?

- Не парьтесь, они до сих пор верят в идею, что нейросеть заменит им программиста, они готовы платить нам 3 его оклада за сомнительный результат, лишь бы оптимизировать!!! Главное побольше слов про оптимизацию и умение писать код!

Ai_Paradox
10.06.2026 10:19
#30096103
Вчера дал ему запрос пройтись по проекту на логические ошибки. Он думал 50 мин, сожрал полтора миллиона токенов, и все ответа я не дождался, лимит закончился. К тати запрос поставил после сброса. Подписка максимальная.
1. Ai_Paradox
  10.06.2026 10:19
  #30096705
  Прогрес не потерялся, за тот заход он сделал 50 процентов ревью, потом вторая часть столько же сдавала, итог найдено 110 багов на 13000 строчек.
  1. HellQwer
    10.06.2026 10:19
    #30100650
    Со всем согласен что баги? Очень хороший результат. За 2ч не факт что один человек найдёт хоть один баг на таком объёме. А сколько это в рублях получается? В какой-нибудь предрелизный пайплайн встроить.

tema_rebel
10.06.2026 10:19
#30097191
Ого! Fable написала статью о себе и выложила на Хабр! Ничоси!