Серверы с графическими процессорами работают на платформе Nvidia HGX H100. Каждый сервер оснащён восемью ускорителями Nvidia H100 и универсальной системой жидкостного охлаждения Supermicro 4U с возможностью горячей замены компонентов для каждого графического процессора. Серверы установлены в стойках по восемь штук, что даёт 64 ускорителя на стойку. Внизу каждой стойки расположен дополнительный блок Supermicro 4U с резервной насосной системой и системой мониторинга стойки.
Стойки сгруппированы по восемь штук, что обеспечивает наличие 512 графических процессоров на массив. Каждый сервер имеет четыре дублирующих блока питания, коммутаторы Ethernet и коллекторы, обеспечивающие работу жидкостного охлаждения. Кластер Colossus состоит из более чем 1500 стоек или около 200 массивов. Ускорители на эти массивы были установлены всего за три недели, как рассказал ранее глава Nvidia Дженсен Хуанг.
Из-за высоких требований к пропускной способности суперкластера ИИ, который постоянно обучает модели, инженерам xAI пришлось уделить особое внимание сетевому взаимодействию. Каждая графическая карта оснащена выделенным сетевым контроллером на 400 GbE с дополнительным 400-гигабитным сетевым адаптером на сервер. Таким образом, каждый сервер Nvidia HGX H100 имеет Ethernet со скоростью 3,6 терабит в секунду — весь кластер работает на Ethernet, а не на экзотических интерфейсах, таких как InfiniBand, которые обычно используются в суперкомпьютерах.
Суперкомпьютеру для обучения моделей ИИ, включая Grok 3, необходимы не только графические процессоры, но и накопители, а также центральные процессоры. Однако информация об этих компонентах предоставляется компанией xAI лишь частично. Из цензурированных видео становится ясно, что за это отвечают серверы на чипах x86 в корпусах Supermicro, которые также оснащены жидкостным охлаждением и предназначены для работы в качестве хранилищ данных или для рабочих нагрузок, ориентированных на центральные процессоры.
На объекте также установлены аккумуляторы Tesla Megapack. При работе кластера возможны резкие колебания в потреблении энергии, поэтому эти батареи ёмкостью до 3,9 мегаватт-часов каждая установлены между электросетью и суперкомпьютером в качестве энергетического буфера.