В 2024 году компания xAI, основанная Илоном Маском, запустила суперкомпьютерный кластер Colossus в Мемфисе. Его построили всего за 122 дня, что не много для такой мощной системы. С тех пор Colossus несколько раз наращивали, и теперь его ждет следующий, еще более масштабный апгрейд. Сегодня поговорим о том, как устроен Colossus, что за технологии в нем используются и какие задачи он должен решать. Поехали!

Создание и масштабирование Colossus

Компания xAI запустила проект Colossus в 2024 году, создав кластер из 100 000 графических процессоров Nvidia H100 всего за 122 дня. Площадку в Мемфисе, штат Теннесси (США), выбрали из-за готового здания бывшего завода Electrolux площадью 73 000 м², доступной энергосети и развитой логистической инфраструктуры. Дженсен Хуанг, глава Nvidia, отметил, что на планирование подобных систем обычно уходит около трех лет, а на запуск — еще год. xAI сократила этот процесс до четырех месяцев благодаря использованию существующего здания и сотрудничеству с Dell Technologies, Supermicro и Nvidia.

Кластер рос поэтапно: в октябре 2024 года к нему добавили 50 000 чипов H200, доведя общее число GPU до 200 000, а к лету 2025-го он вырос до 230 000 — за счет включения еще 30 000 новых GB200. Следующая фаза, названная «Colossus 2», предусматривает увеличение до 550 000 GPU, включая GB200 и планируемые к использованию чипы GB300, которые пока не представлены официально. Эту фазу планируют запустить уже в ближайшие недели — она сделает Colossus первым в мире ИИ-дата-центром с потреблением в один гигаватт, что позволит значительно увеличить вычислительную мощность и ускорить обучение крупных моделей.

Масштабирование потребовало солидных инвестиций: xAI планирует привлечь до 12 миллиардов долларов для закупки чипов и развития дата-центра. Проект стал частью конкуренции в области ИИ с OpenAI, Google и быстрорастущими компаниями, такими как DeepSeek. Логистика включала поставку сотен тысяч GPU и серверных стоек, что требовало координации с вендорами. Для упрощения xAI использовала модульные стойки, позволившие установить 1 500 юнитов за три недели и быстро добавить новые GPU без перестройки кластера.

Что получить достаточный для Colossus xAI объем энергии, компания подключилась к местной электросети и установила 168 Tesla Megapack — массивных аккумуляторных блоков суммарной мощностью около 150 МВт, которые стабилизируют подачу энергии, сглаживают пики и обеспечивают резерв при отключениях или перегрузках.

Фотография Илона Маска, где показана прокладка кабелей для Colossus. Источник
Фотография Илона Маска, где показана прокладка кабелей для Colossus. Источник

xAI внедрила систему мониторинга, которая в реальном времени отслеживает состояние всех узлов в кластере — от температуры и энергопотребления до загрузки GPU. Это помогает оперативно выявлять и устранять сбои, а также равномерно распределять нагрузку, чтобы избежать «узких мест» в производительности. В июле 2025 года Илон Маск выложил в соцсети X фотографии серверных стоек Colossus, на которых видны километры кабелей и плотная разводка для подключения ускорителей GB200. Эти кадры быстро разошлись по техносообществу — не только из-за масштаба, но и потому, что они впервые дали возможность заглянуть внутрь одного из самых мощных ИИ-кластеров в мире.

Техническая архитектура и особенности

Colossus построен на базе графических процессоров Nvidia H100, H200 и GB200 — именно эти ускорители оптимизированы для задач глубокого обучения, включая работу с крупными языковыми моделями.

Эти чипы поддерживают нейронные сети с миллиардами параметров, обеспечивая высокую производительность для матричных вычислений. Сеть кластера основана на Nvidia Spectrum-X Ethernet с пропускной способностью до 800 Гбит/с, что дает быструю передачу данных между узлами. Каждый сервер оснащен контроллерами на 400 Гбит/с, а суммарная пропускная способность составляет 3,6 Тбит/с на сервер. Nvidia утверждает, что система выдает до 95% от максимальной скорости — без потерь и с минимальными задержками.

Охлаждение — жидкостное решение от Supermicro, включая 4U-стойки с прямым охлаждением чипов (Direct-to-Chip, DLC). Такая схема снижает энергопотребление и поддерживает стабильную температуру при высоких нагрузках. Дополнительные вентиляционные системы помогают отводить избыточное тепло — это особенно важно с учетом масштабов Colossus 2, который должен выйти на гигаваттный уровень энергопотребления.

Программное обеспечение включает стек xAI для управления ресурсами, интегрированный с облачными сервисами. Что это дает? Распределение нагрузки между узлами и оптимизацию обучения моделей. Система поддерживает параллельное выполнение задач, ускоряя тренировку ИИ. Инструменты мониторинга и автоматизации обеспечивают стабильность при масштабировании, позволяя кластеру справляться с возрастающими объемами данных.

Назначение и влияние на ИИ и науку

Colossus создан для ускорения разработки искусственного интеллекта, прежде всего для обучения языковой модели Grok. Она позиционируется как LLM для предоставления точных ответов. Илон Маск заявил: «Наша цель — максимально приблизиться к абсолютной правде». Сейчас Grok работает с текстовой информацией, но xAI планирует обучение на мультимодальных данных, включая потенциально научные массивы. Для этого и нужен огромный объем вычислительных ресурсов, предоставляемых Colossus.

Илон Маск рассказывает о Colossus и Grok. Источник
Илон Маск рассказывает о Colossus и Grok. Источник

Кластер поддерживает проекты других компаний Маска. SpaceX использует его для анализа данных космических миссий, включая моделирование траекторий и обработку телеметрии. Tesla применяет вычисления для систем автономного вождения и робота Optimus, обрабатывая данные с датчиков и камер. Эти задачи требуют алгоритмов компьютерного зрения и глубокого обучения, выполняемых на GPU.

А еще Colossus ориентирован на научные исследования. Суперкомпьютер моделирует физические процессы, такие как взаимодействие молекул или астрофизические явления, и может поддерживать анализ данных для биологии, медицины или климатологии. Это соответствует миссии xAI — ускорить научный прогресс через ИИ.

Что дальше?

Цель xAI — увеличить число GPU в Colossus до 1 миллиона в ближайшие годы. По словам Илона Маска, это сделает кластер крупнейшим в мире по вычислительной мощности и укрепит позиции xAI в конкуренции с OpenAI, Google и другими ИИ-компаниями. Партнерство с Nvidia дает доступ к передовым чипам, которые помогут достичь этой цели.

Программное обеспечение Colossus продолжает развиваться: xAI работает над улучшением распределения задач и более тесной интеграцией с Grok, чтобы обрабатывать запросы в реальном времени. Это позволит запускать более сложные модели ИИ и одновременно обслуживать тысячи пользователей. В будущем Colossus может стать основой для глобальных научных проектов, в которых участвуют исследователи со всего мира.

Чтобы это стало возможным, xAI планирует открыть доступ к кластеру через API — так его ресурсы смогут использовать сторонние компании и исследовательские группы. Такой шаг поставит Colossus в один ряд с крупнейшими облачными платформами вроде AWS, Google Cloud и Azure и поможет стартапам запускать свои модели, даже если у них нет собственной инфраструктуры.

Комментарии (3)


  1. octoMax
    06.08.2025 16:01

     дурак Маск, нет чтобы пару супер яхт купить, или домик в центре Лондона с блэк-джеком и моделями из СНГ в бане или футбольный клуб


  1. almaz1c
    06.08.2025 16:01

    миссии xAI — ускорить научный прогресс через ИИ

    Представил, как Илон Маск строит собственный ИТЭР, овладевает термоядом за 3-4 пятилетки и вместо Марса устремляется в более интересные пункты назначения.


  1. theult
    06.08.2025 16:01

    Классно, когда могут такое построить. Правда, пока не слышно было про достижения этого монстра.