Continuous Thought Machine: как Sakana AI научила модель думать тиками
Continuous Thought Machine: как Sakana AI научила модель думать тиками

Аналитический центр red_mad_robot продолжает следить за архитектурными прорывами в мире AI. В этот раз — экспериментальная модель от команды Sakana AI, которая предлагает мыслить не в терминах слоёв, а в терминах времени. Их Continuous Thought Machine (CTM) — попытка встроить в нейросеть внутреннюю динамику, вдохновлённую человеческим мозгом.

Разбираем, как устроена архитектура, что такое «внутренние тики» и зачем нейросети синхронизировать собственные мысли — на примерах из CV, сортировки, Q&A и RL.

Время как недостающий элемент интеллекта

Современные нейросети вдохновлены мозгом — но только поверхностно. На практике они сильно упрощают нейронную активность, исключая временную динамику. Это упрощение позволило нам значительно продвинуться в ML, но создало разрыв между AI и гибкостью человеческого мышления. 

Большинство архитектур отходят от фундаментальных биомеханизмов. Например, STDP (Spike-Timing Dependent Plasticity) — принципа, при котором сила связи между нейронами зависит от порядка и времени их активации, — и нейронных осцилляций — ритмической активности, которая помогает нейронам работать согласованно.

В Sakana считают, что время должно стать центральным компонентом AI — без него невозможно приблизиться к уровню человеческого интеллекта, не говоря уже о его превосходстве.

В ответ на вызов команда разработала Continuous Thought Machine (CTM) — архитектуру, в которой внутренняя динамика и нейронная синхронизация становятся основой вычислений. Модель решает задачи не за счёт объёма данных, а через последовательные состояния, разворачивающиеся во времени.

CTM пока остаётся экспериментальной: архитектура ресурсоёмкая, нестабильна без тонкой настройки и плохо совместима с привычным ML-стеком. Также она не пытается заменить трансформеры, а предлагает а предлагает альтернативный путь — интерпретируемую модель с последовательным мышлением, ближе к тому, как рассуждает человек.

Архитектура CTM

Continuous Thought Machine предлагает принципиально иную схему обработки: не линейный проход от входа к выходу, а итеративный цикл размышлений. На каждом шаге модель опирается на память, внутренние состояния и синхронизацию между нейронами. Эта механика закладывается в саму архитектуру — и именно она делает CTM похожей на мыслительный процесс.

Архитектура CTM работает следующим образом (компонент 1) синапс формирует предварительные активации из взаимодействие между нейронами. Каждый нейрон хранят их историю (компоненты 2-3). На их основе вычисляются пост-активации (компонент 4). Их история хранится какое-то время (компонент 5) и используется для создания матрицы синхронизации (компонент 6). Из неё выбираются пары нейронов (компонент 7) для построения латентных представлений (компонент 8). Эти представления используются для генерации выходных данных через механизм внимания (компонент 9). Выбранные выходные данные объединяются с пост-активациями и возвращаются, чтобы запустить следующий цикл размышления (компонент 10). Источник
Архитектура CTM работает следующим образом (компонент 1) синапс формирует предварительные активации из взаимодействие между нейронами. Каждый нейрон хранят их историю (компоненты 2-3). На их основе вычисляются пост-активации (компонент 4). Их история хранится какое-то время (компонент 5) и используется для создания матрицы синхронизации (компонент 6). Из неё выбираются пары нейронов (компонент 7) для построения латентных представлений (компонент 8). Эти представления используются для генерации выходных данных через механизм внимания (компонент 9). Выбранные выходные данные объединяются с пост-активациями и возвращаются, чтобы запустить следующий цикл размышления (компонент 10). Источник

Ядро архитектуры CTM составляют три компонента:

  • Разделённое внутреннее измерение: CTM вводит собственную временную шкалу — последовательность «внутренних тиков», независимую от внешних входных данных. Каждый тик — это шаг обработки. В отличие от трансформеров, которые обрабатывают всё за один проход, CTM сама решает, сколько шагов ей нужно — один или десять. Это делает её адаптивной к разной сложности задач.

В Continuous Thought Machine нейроны связаны через синапс — модуль, который позволяет им «общаться» и передавать информацию на каждом тике. На каждом шаге синапс формирует предварительные активации — черновой набросок того, о чём «думает» модель в данный момент.. Эти активации зависят как от текущего состояния, так и от информации из входных данных. Несколько последних активаций сохраняются в памяти и формируют историю активаций. Она помогает учитывать, что происходило ранее, чтобы лучше понимать, что делать дальше.

  • Модели на уровне нейронов (neuron-level model, NLM): каждый нейрон в CTM — отдельная вычислительная единица с собственными весами и многослойным перцептроном (MLP).   Он обрабатывает историю прошлых активаций и вычисляет новое состояние — пост-активацию. Такой подход увеличивает «стоимость» модели: для каждого нейрона требуется отдельный набор параметров. Зато это даёт системе больше свободы и гибкости в работе.

Пост-активации всех нейронов собираются вместе и дополняются внешней информацией — например, результатом работы механизма внимания. Объединённые данные возвращаются во вход модели, чтобы запустить следующий внутренний тик — новый шаг размышления.

  • Нейронная синхронизация: CTM умеет измерять согласованность между нейронами. Она анализирует историю их состояний (пост-активаций), строит матрицу синхронизации и выявляет значимые пары нейронов на текущем тике. Именно по этим связям формируются латентные представления, которые модель использует для следующих шагов размышлений.

Экспериментальная оценка CTM на разных задачах

Архитектуру CTM тестируют на широкой группе задач, охватывающих ключевые аспекты интеллекта. Исследование начинается с визуальных бенчмарков (ImageNet-1K, CIFAR-10/100) и продолжается задачами, в которых важны внутренняя динамика, калибровка и адаптивность. Отдельный фокус — навигация в 2D-лабиринтах для оценки пространственного мышления и планирования. 

Также модель проверяют на алгоритмических задачах (сортировка, вычисление чётности), символьной обработке (Q&A MNIST) и работе с памятью. Завершает серию тестов оценка способности к принятию решений и взаимодействию с миром через RL-задачи.

Восприятие и внимание: ImageNet-1K

Цель эксперимента — не установить рекорд по точности, а показать, что CTM решает задачу иначе.

На ImageNet-1K модель анализирует различные области каждого изображения в несколько этапов и достигает 72,47% точности в топ-1 и 89,89% точности в топ-5. Хотя показатели уступают флагманским трансформерам вроде ViT, CTM остаётся конкурентоспособной — особенно с учётом того, что это первая попытка использовать временную активность нейронов как основу представления.

Особенно интересна динамика внимания: CTM не обрабатывает изображение целиком, а плавно переходит по разным частям, фокусируясь сначала на наиболее значимых участках. Это напоминает человеческое зрительное внимание.

Адаптивная глубина вычислений

CTM показывает адаптивные вычисления, экономя ресурсы. Источник
CTM показывает адаптивные вычисления, экономя ресурсы. Источник

Одна из ключевых особенностей CTM — способность варьировать глубину обработки. 

Continuous Thought Machine адаптирует количество вычислительных шагов в зависимости от сложности входа. Если для получения уверенности в ответе достаточно, например, 0.5, модель может завершить обработку раньше, не проходя все тики. При более высоком пороге, например 0.8, CTM продолжает «думать», задействуя больше шагов. Она ведёт себя как система с внутренним контролем внимания и ресурсоёмкости, приближаясь к человеческому способу рассуждения.

CTM может настраивать себя на достижение заданного порога уверенности, чтобы дольше обрабатывать сложные задачи и быстрее — простые. Это означает, что модель не вычисляет всё одинаково: она адаптирует глубину обработки под характер входных данных.

Внутренняя нейронная динамика

CTM создаёт сложные паттерны нейронной активности — и именно они используются как внутреннее представление при решении задач. Эти процессы не зашиты заранее, а формируются во время работы и могут быть повторно использованы в других сценариях.

Активность нейронов пост-активации во время классификации изображений. Источник
Активность нейронов пост-активации во время классификации изображений. Источник

В Sakana подчёркивают, что внутренняя динамика — важный шаг к приближению архитектур к принципам работы живого интеллекта. 

Спонтанные паттерны активации

В качестве финального сравнения с биологическим мозгом исследователи рассматривают низкочастотные бегущие волны — тип нейронной активности, связанный с активностью коры и участвующий в различных нейронных вычислениях.

Нейронная активность, визуализированная в 2D-пространстве. Источник
Нейронная активность, визуализированная в 2D-пространстве. Источник

На изображении выше нейроны CTM отображены в 2D-пространстве — их расположение определяется паттернами активации. При наблюдении за этим пространством в динамике (по внутренним тикам) можно увидеть структуры, напоминающие бегущие волны, которые перемещаются по этому пространству. 

В CTM волны возникают спонтанно (emergent fashion). Пока их точная функция неясна, но в Sakana предполагают, что они участвуют в процессе «мышления» модели.

Пространственное мышление: навигация в лабиринтах

Следующий набор экспериментов касается планирования и пространственного мышления. CTM нужно найти кратчайший путь между двумя точками в лабиринте — задача, которая требует не просто восприятия, а построения внутренней модели мира.

Обычно такую задачу можно решить напрямую: модель «видит» весь лабиринт и запоминает путь. Но это не похоже на поведение человека — мы не знаем маршрут заранее, а прокладываем его шаг за шагом, мысленно представляя пространство. Чтобы сместить акцент именно на рассуждение, Sakana ввела ограничения: CTM должна сформировать маршрут от старта до финиша из пяти элементарных команд — «вверх», «вниз», «влево», «вправо» или «ждать». Использование позиционных эмбеддингов при этом запрещается. 

Это заставит CTM не опираться на заранее закодированную структуру, а формировать внутреннее представление лабиринта — и мысленно «представлять» своё положение.

Для сравнения в эксперименте используют две архитектуры: простую feed-forward сеть (FF), обрабатывающая информацию за один раз, и LSTM (Long Short-Term Memory, долгая краткосрочная память) — модель с внутренней памятью, способную обрабатывать последовательности. 

Показатели CTM против FF-модели и LSTM. Источник
Показатели CTM против FF-модели и LSTM. Источник

Результаты показывают, что CTM достигает высокой точности в задачах с лабиринтами, где FF и LSTM переобучаются или начинают терять устойчивость. Даже лучший LSTM с 50 внутренними тиками не вышел на уровень CTM. При этом CTM стабильно решает более длинные и сложные маршруты, тогда как LSTM начинает «сдаваться» уже после 20 тиков. 

Всё это говорит о том, что CTM лучше приспособлена к решению задач, требующих планирования и обобщения — не за счёт числа параметров, а благодаря самой архитектуре.

CTM решает разные лабиринты 39x39. Цветные пути показывают, на что модель обращает внимание на каждом шаге: a) поиск оптимального пути b) эмерджентное поведение, когда CTM выходит за рамки своего обучения. Источник
CTM решает разные лабиринты 39x39. Цветные пути показывают, на что модель обращает внимание на каждом шаге: a) поиск оптимального пути b) эмерджентное поведение, когда CTM выходит за рамки своего обучения. Источник

Демонстрация траекторий на изображении выше показывает, что CTM методично исследует возможный путь, пока не находит выход. Поведение модели напоминает человеческий способ решения: пошаговое движение, как если бы человек прокладывал маршрут, глядя на лабиринт сверху. При этом CTM не просто запоминает шаблоны, а учится общей стратегии — она способна «достраивать» маршрут даже за пределами числа шагов, на которое была обучена. Это поведение не заложено в модель — оно возникает в процессе обучения как эмерджентное.

CTM успешно решала лабиринты, которые были значительно больше и длиннее тех, на которых она обучалась. Это подтверждает, что модель формирует внутреннюю «карту мира», опираясь не на запоминание, а на обобщённую стратегию действия.

Классификация и калибровка: CIFAR-10

В задаче классификации изображений CIFAR-10 Sakana сравнивает CTM с человеком, FF-моделью и LSTM. 

  • Continuous Thought Machine стабильно обучается и показывает лучшую производительность по сравнению с классическими моделями.

  • FF-сеть быстро обучается, но плохо обобщает: справляется с уже знакомыми изображениями, но теряет точность на новых.

  • LSTM даёт чуть лучшие результаты, но демонстрирует нестабильность в обучении. 

Особенно интересно, что в задаче калибровки уверенности ни одна из моделей не показала идеальных результатов — однако CTM оказалась ближе всего к человеку.

a) Кривые обучения, показывающие производительность CTM по сравнению с FF и LSTM. b) График калибровки, сравнивающий производительность CTM с человеком, FF и LSTM. Источник
a) Кривые обучения, показывающие производительность CTM по сравнению с FF и LSTM. b) График калибровки, сравнивающий производительность CTM с человеком, FF и LSTM. Источник

Также CTM и человек демонстрировали схожие поведенческие реакции на рост сложности. На более запутанных примерах модель теряла уверенность — так же, как и человек, чью неопределённость измеряли по времени реакции. LSTM повторяла эту динамику лишь частично.

Сравнение производительности человека и моделей по сложности и неопределённости. Источник
Сравнение производительности человека и моделей по сложности и неопределённости. Источник

Масштаб и динамика: CIFAR-100

В этом эксперименте Sakana исследует, как на производительность CTM влияют два параметра: ширина модели (количество нейронов) и число внутренних тиков.

Ширина модели (количество нейронов)

Исследователи изучали, как меняется точность CTM при различной ширине сети. Выяснилось, что увеличение числа нейронов сначала улучшает результаты, но после определённого порога точность начинает снижаться. При этом поведение нейронов становится менее однотипным — они кодируют больше уникальной информации об изображении. 

Точность CIFAR-10 в зависимости от разной ширины модели. Источник
Точность CIFAR-10 в зависимости от разной ширины модели. Источник

Количество внутренних тактов

В этом тесте оценивали, как число тиков влияет на производительность CTM. Все варианты показали сопоставимую точность, но лучшими были результаты у модели с 50 тиками. При этом наблюдались два пика уверенности: один — в начале размышления, второй — ближе к финалу. Это может говорить о том, что модель не просто сразу выдаёт ответ, а проходит через сложный внутренний процесс, возможно, используя разные стратегии мышления в зависимости от задачи или данных.

Точность CIFAR-100 в зависимости от внутренних тиков модели. Источник
Точность CIFAR-100 в зависимости от внутренних тиков модели. Источник

Алгоритмическое поведение: сортировка чисел

В этой серии CTM тестировали на задаче сортировки 30 случайных чисел  без использования механизма внимания. Модель получила все числа как один вектор и постепенно шаг за шагом (на каждом внутреннем тике) выдавала отсортированные индексы. Если элемент находился ближе к концу отсортированной последовательности или сильно отличался от других, модель дольше «ждала» перед выводом.

Это указывает на то, что CTM не просто запоминает, как сортировать,  а использует внутренний алгоритм, адаптирующийся к структуре данных и их сложности.

Последовательные рассуждения: вычисление чётности (parity)

В задаче вычисления чётности последовательности требовалось определить, является ли количество отрицательных чисел в последовательности чётным или нечётным. Например, если количество минусов чётное — результат  «+1», если нечётное — «−1». 

Обычно, если числа поступают по одному, модель может просто отслеживать текущую чётность и менять внутреннее состояние при каждом минусе. Но когда вся последовательность подаётся сразу, задача усложняется — возможных комбинаций становится слишком много. 

CTM получила на вход последовательность из 64 случайных чисел (1 и -1) и должна была определить не только общую чётность в конце, но и промежуточную — на каждой позиции. Значения преобразовывались в векторы с указанием позиции, а вся последовательность обрабатывалась через механизм внимания.

Для сравнения также использовали LSTM: CTM показала более устойчивое обучение и лучшую точность. При увеличении числа внутренних тиков её результаты росли: модели с 75 и 100 тиками в отдельных запусках достигали 100%. LSTM же справлялась хуже: достигала максимум 67% при 10 тиках, а при увеличении глубины обучения становилась нестабильной. Хотя финальные результаты CTM немного зависели от случайной инициализации, в целом она обучалась стабильнее и эффективнее.

a) Кривые обучения и b) точность в сравнение с внутренними тиками CTM и LSTM. Источник
a) Кривые обучения и b) точность в сравнение с внутренними тиками CTM и LSTM. Источник

CTM осваивает задачу подсчёта чётности последовательно: сначала модель уверенно определяет чётность для первых элементов последовательности, а по мере обучения — и для более поздних. Интересно, что она может использовать разные стратегии. При 100 тиках внимание движется от начала к концу, и уверенность растёт с каждым шагом. При 75 тиках, наоборот, внимание направлено назад — модель словно «планирует» ответ, анализируя всё в конце.

Вопрос-ответ (Q&A MNIST)

Рисунок 12. Пример задачи Q&A MNIST. Источник
Рисунок 12. Пример задачи Q&A MNIST. Источник

Для проверки памяти и вычислительных способностей CTM исследователи разработали задачу «вопрос–ответ» на основе изображений цифр из набора MNIST. 

Модель получала всю последовательность цифр, а затем — инструкции, какие из них выбрать и какие операции (сложение или вычитание) выполнить. После этого подавался сигнал о том, что пора дать ответ. CTM должна была распознать цифры, запомнить нужные и выполнить вычисления, не зная заранее, что на изображениях. 

CTM и LSTM сравнивали при разном времени обработки — 1 и 10 тиков. К моменту ответа изображения уже выходили за пределы памяти, поэтому модель опиралась на внутреннюю синхронизацию нейронной активности. Задача проверяла, насколько CTM способна хранить и использовать информацию без внешней памяти.

Результаты показали, что при одном тике LSTM сначала работает лучше. Но с увеличением числа тиков обучение становится нестабильным, и точность падает. У CTM — наоборот: производительность растёт, и при 10 тиках модель достигает более 96% точности даже в самых сложных случаях. Это указывает на способность CTM использовать время обработки для синхронизации внутренней активности и удержания информации, даже если она уже вышла за пределы краткосрочной памяти.

Кривые обучения и точности CTM и LSTM на задаче Q&A MNIST. Источник
Кривые обучения и точности CTM и LSTM на задаче Q&A MNIST. Источник

Обучение через взаимодействие с миром (RL-задачи)

Исследователи также расширили применение CTM, показав, что модель способна решать не только статические, но и динамические задачи, требующие взаимодействия с окружающей средой. 

Команда Sakana использовала подход обучения с подкреплением (Reinforcement Learning, RL), при котором агент (в данном случае CTM) обучается на опыте, получая награды за правильные действия. Перед каждым решением CTM обрабатывала несколько «внутренних тиков», сохраняя информацию от предыдущих наблюдений. Это особенно важно в условиях неполной информации.

CTM протестировали на трёх задачах:

  • CartPole — удержание баланса палки на тележке;

  • Acrobot — управление подвешенным маятником; 

  • MiniGrid (Four Rooms) — навигация комнатам.

Сравнение проводилось с LSTM, настроенной на аналогичном количестве параметров.

Задача заключалась не в том, чтобы доказать превосходство CTM над LSTM, а в том, чтобы показать: новая архитектура способна достигать сопоставимой производительности.

Результаты подтвердили, что CTM не уступает LSTM: в задачах управления обе модели демонстрируют осцилляторное поведение,  связанное с движениями в среде. А в навигации CTM показывает более сложную и разнообразную активность. Это свидетельствует о способности адаптироваться и эффективно взаимодействовать с окружающей средой во времени.

Показатели CTM и LSTM в RL-задачах с разными итерациями. Источник
Показатели CTM и LSTM в RL-задачах с разными итерациями. Источник

Что дальше?

Continuous Thought Machine — это ещё не индустриальный стандарт, а исследовательская ставка на другую траекторию развития AI. Возможно, она окажется тупиковой. А может, именно она станет основой моделей следующего поколения — не просто предсказывающих, а действительно «думающих».

Как считаете, за какой архитектурой будущее — за всё более мощными трансформерами или за новыми схемами с внутренней динамикой и агентной логикой? Обсудим в комментариях.


Над материалом работали:

текст — Валера Горланов

редактура — Саша Лазарева 

иллюстрации — Петя Галицкий


Это блог red_mad_robot. Мы запускаем цифровые бизнесы и помогаем компаниям внедрять AI. Здесь наша команда разработки на собственных кейсах рассказывает о том, что происходит с AI сегодня, а стратегические аналитики подсказывают, что будет завтра. Мы бы подписались.

Наш Telegram-канал (там всё другое, а ещё есть анонсы мероприятий): t.me/redmadnews

Комментарии (0)