В 2024 году компания xAI, основанная Илоном Маском, запустила суперкомпьютерный кластер Colossus в Мемфисе. Его построили всего за 122 дня, что не много для такой мощной системы. С тех пор Colossus несколько раз наращивали, и теперь его ждет следующий, еще более масштабный апгрейд. Сегодня поговорим о том, как устроен Colossus, что за технологии в нем используются и какие задачи он должен решать. Поехали!

Создание и масштабирование Colossus
Компания xAI запустила проект Colossus в 2024 году, создав кластер из 100 000 графических процессоров Nvidia H100 всего за 122 дня. Площадку в Мемфисе, штат Теннесси (США), выбрали из-за готового здания бывшего завода Electrolux площадью 73 000 м², доступной энергосети и развитой логистической инфраструктуры. Дженсен Хуанг, глава Nvidia, отметил, что на планирование подобных систем обычно уходит около трех лет, а на запуск — еще год. xAI сократила этот процесс до четырех месяцев благодаря использованию существующего здания и сотрудничеству с Dell Technologies, Supermicro и Nvidia.
Кластер рос поэтапно: в октябре 2024 года к нему добавили 50 000 чипов H200, доведя общее число GPU до 200 000, а к лету 2025-го он вырос до 230 000 — за счет включения еще 30 000 новых GB200. Следующая фаза, названная «Colossus 2», предусматривает увеличение до 550 000 GPU, включая GB200 и планируемые к использованию чипы GB300, которые пока не представлены официально. Эту фазу планируют запустить уже в ближайшие недели — она сделает Colossus первым в мире ИИ-дата-центром с потреблением в один гигаватт, что позволит значительно увеличить вычислительную мощность и ускорить обучение крупных моделей.
Масштабирование потребовало солидных инвестиций: xAI планирует привлечь до 12 миллиардов долларов для закупки чипов и развития дата-центра. Проект стал частью конкуренции в области ИИ с OpenAI, Google и быстрорастущими компаниями, такими как DeepSeek. Логистика включала поставку сотен тысяч GPU и серверных стоек, что требовало координации с вендорами. Для упрощения xAI использовала модульные стойки, позволившие установить 1 500 юнитов за три недели и быстро добавить новые GPU без перестройки кластера.
Что получить достаточный для Colossus xAI объем энергии, компания подключилась к местной электросети и установила 168 Tesla Megapack — массивных аккумуляторных блоков суммарной мощностью около 150 МВт, которые стабилизируют подачу энергии, сглаживают пики и обеспечивают резерв при отключениях или перегрузках.

xAI внедрила систему мониторинга, которая в реальном времени отслеживает состояние всех узлов в кластере — от температуры и энергопотребления до загрузки GPU. Это помогает оперативно выявлять и устранять сбои, а также равномерно распределять нагрузку, чтобы избежать «узких мест» в производительности. В июле 2025 года Илон Маск выложил в соцсети X фотографии серверных стоек Colossus, на которых видны километры кабелей и плотная разводка для подключения ускорителей GB200. Эти кадры быстро разошлись по техносообществу — не только из-за масштаба, но и потому, что они впервые дали возможность заглянуть внутрь одного из самых мощных ИИ-кластеров в мире.
Техническая архитектура и особенности
Colossus построен на базе графических процессоров Nvidia H100, H200 и GB200 — именно эти ускорители оптимизированы для задач глубокого обучения, включая работу с крупными языковыми моделями.
Эти чипы поддерживают нейронные сети с миллиардами параметров, обеспечивая высокую производительность для матричных вычислений. Сеть кластера основана на Nvidia Spectrum-X Ethernet с пропускной способностью до 800 Гбит/с, что дает быструю передачу данных между узлами. Каждый сервер оснащен контроллерами на 400 Гбит/с, а суммарная пропускная способность составляет 3,6 Тбит/с на сервер. Nvidia утверждает, что система выдает до 95% от максимальной скорости — без потерь и с минимальными задержками.
Охлаждение — жидкостное решение от Supermicro, включая 4U-стойки с прямым охлаждением чипов (Direct-to-Chip, DLC). Такая схема снижает энергопотребление и поддерживает стабильную температуру при высоких нагрузках. Дополнительные вентиляционные системы помогают отводить избыточное тепло — это особенно важно с учетом масштабов Colossus 2, который должен выйти на гигаваттный уровень энергопотребления.
Программное обеспечение включает стек xAI для управления ресурсами, интегрированный с облачными сервисами. Что это дает? Распределение нагрузки между узлами и оптимизацию обучения моделей. Система поддерживает параллельное выполнение задач, ускоряя тренировку ИИ. Инструменты мониторинга и автоматизации обеспечивают стабильность при масштабировании, позволяя кластеру справляться с возрастающими объемами данных.
Назначение и влияние на ИИ и науку
Colossus создан для ускорения разработки искусственного интеллекта, прежде всего для обучения языковой модели Grok. Она позиционируется как LLM для предоставления точных ответов. Илон Маск заявил: «Наша цель — максимально приблизиться к абсолютной правде». Сейчас Grok работает с текстовой информацией, но xAI планирует обучение на мультимодальных данных, включая потенциально научные массивы. Для этого и нужен огромный объем вычислительных ресурсов, предоставляемых Colossus.

Кластер поддерживает проекты других компаний Маска. SpaceX использует его для анализа данных космических миссий, включая моделирование траекторий и обработку телеметрии. Tesla применяет вычисления для систем автономного вождения и робота Optimus, обрабатывая данные с датчиков и камер. Эти задачи требуют алгоритмов компьютерного зрения и глубокого обучения, выполняемых на GPU.
А еще Colossus ориентирован на научные исследования. Суперкомпьютер моделирует физические процессы, такие как взаимодействие молекул или астрофизические явления, и может поддерживать анализ данных для биологии, медицины или климатологии. Это соответствует миссии xAI — ускорить научный прогресс через ИИ.
Что дальше?
Цель xAI — увеличить число GPU в Colossus до 1 миллиона в ближайшие годы. По словам Илона Маска, это сделает кластер крупнейшим в мире по вычислительной мощности и укрепит позиции xAI в конкуренции с OpenAI, Google и другими ИИ-компаниями. Партнерство с Nvidia дает доступ к передовым чипам, которые помогут достичь этой цели.
Программное обеспечение Colossus продолжает развиваться: xAI работает над улучшением распределения задач и более тесной интеграцией с Grok, чтобы обрабатывать запросы в реальном времени. Это позволит запускать более сложные модели ИИ и одновременно обслуживать тысячи пользователей. В будущем Colossus может стать основой для глобальных научных проектов, в которых участвуют исследователи со всего мира.
Чтобы это стало возможным, xAI планирует открыть доступ к кластеру через API — так его ресурсы смогут использовать сторонние компании и исследовательские группы. Такой шаг поставит Colossus в один ряд с крупнейшими облачными платформами вроде AWS, Google Cloud и Azure и поможет стартапам запускать свои модели, даже если у них нет собственной инфраструктуры.
Комментарии (3)
almaz1c
06.08.2025 16:01миссии xAI — ускорить научный прогресс через ИИ
Представил, как Илон Маск строит собственный ИТЭР, овладевает термоядом за 3-4 пятилетки и вместо Марса устремляется в более интересные пункты назначения.
theult
06.08.2025 16:01Классно, когда могут такое построить. Правда, пока не слышно было про достижения этого монстра.
octoMax
дурак Маск, нет чтобы пару супер яхт купить, или домик в центре Лондона с блэк-джеком и моделями из СНГ в бане или футбольный клуб