Поиск по сайту

Поиск по сайту
Поиск по сайту
Рейтинг яндекса
Лупа

Обзор Supermicro SYS-821GE-TNHR 8x NVIDIA H200 GPU

Дата публикации:
Дата изменения: 11 февраля 2025

Supermicro SYS-821GE-TNHR

Сегодня мы продолжим наш обзор массивных серверов ИИ, взглянув на Supermicro SYS-821GE-TNHR. Когда люди обсуждают возможности сервера ИИ от Supermicro, это одна из систем, которая отличается на рынке как сервер NVIDIA с воздушным охлаждением. Платформа NVIDIA HGX H200 8-GPU больше, чем многие другие системы, и на то есть веская причина. Она разработана для стоек с меньшей плотностью мощности, которые чаще встречаются в большинстве современных центров обработки данных.

Обзор внешнего оборудования Supermicro SYS-821GE-TNHR

Первая большая особенность этого сервера заключается в том, что это платформа 8U. Мы видим много систем 6U и несколько систем 7U в отрасли, но платформа 8U на самом деле существует по веской причине. Благодаря более высокому шасси Supermicro может использовать большие вентиляторы и распределять ввод-вывод в большем форм-факторе.

Supermicro SYS-821GE-TNHR

Мы рассмотрим каждый из этих разделов более подробно, но наверху находится сборка NVIDIA HGX H200 8-GPU, которая поставляется на собственном доступном лотке спереди. В отличие от некоторых других вариантов на рынке, для доступа к восьми GPU не требуется извлекать шасси из стойки.

Supermicro SYS-821GE-TNHR

В центре спереди расположены пять вентиляторов.

Supermicro SYS-821GE-TNHR

Все эти вентиляторы поддерживают горячую замену.

Supermicro SYS-821GE-TNHR

Вот еще один взгляд на модуль.

Supermicro SYS-821GE-TNHR

В нижней части корпуса в стандартной комплектации имеется шестнадцать отсеков 2,5" U.2 NVMe и три отсека SATA. Если вы удалите передний ввод-вывод с помощью дополнительного комплекта, то сможете добавить еще пять отсеков SATA.

Supermicro SYS-821GE-TNHR

Передний вход/выход состоит из порта управления, двух портов USB и порта VGA. Наличие переднего входа/выхода означает, что можно подключить тележку KVM к передней части корпуса в холодном проходе, а не на стороне громкого и горячего прохода.

Двигаясь к задней части, мы видим еще больше вентиляторов, а также блоки питания и сетевые компоненты.

Supermicro SYS-821GE-TNHR

Пять верхних модулей вентиляторов могут выглядеть так же, как и передние, но они должны дуть в противоположном направлении.

Supermicro SYS-821GE-TNHR

Чтобы гарантировать, что модули будут установлены в первую очередь, Supermicro имеет простую систему ключей, которая гарантирует, что эти модули используются на правильной стороне сервера. Это небольшая функция, которую мы никогда раньше не показывали, но это одна из тех небольших деталей уточнения, которая приходит с созданием серверов GPU в течение длительного времени. Мы рассмотрели Supermicro 4028GR-TR 4U 8-way GPU SuperServer еще в 2015 году для некоторого контекста, так что это своего рода небольшие функции, присутствующие в системах, которые были популярны и развивались в течение десятилетия.

Supermicro SYS-821GE-TNHR

Средний ряд вентиляторов немного отличается, и на то есть веская причина. Вы увидите, что эта средняя секция вентиляторов на самом деле имеет два блока питания с каждой стороны и два модуля вентиляторов в середине.

Supermicro SYS-821GE-TNHR

Модули вентиляторов уникальны, поскольку они предназначены для установки в отсеки, которые также могут использоваться для блоков питания.

Supermicro SYS-821GE-TNHR

Стандартно система поставляется с шестью блоками питания для резервирования 4+2. Вы можете по желанию заменить два вентиляторных модуля размером с PSU еще двумя блоками питания для полного резервирования 4+4.

Supermicro SYS-821GE-TNHR

Блоки питания имеют мощность 3 кВт и обеспечивают питание как 12 В, так и 54 В. Некоторые другие серверы HGX используют другие блоки питания для подачи разных напряжений. У Supermicro есть один блок питания, предназначенный для обслуживания обоих.

Supermicro SYS-821GE-TNHR

Между этими блоками питания находится лоток сетевой карты.

Supermicro SYS-821GE-TNHR

Вам не нужно вынимать шасси из стойки для обслуживания лотка NIC.

Supermicro SYS-821GE-TNHR

В центре мы получаем восемь низкопрофильных слотов. Здесь у нас установлен NVIDIA BlueField-3 SuperNIC, потому что именно он был в системе до того, как Supermicro вытащила его из лаборатории и привезла. Для больших кластеров ИИ Ethernet становится предпочтительным решением для его масштабирования. InfiniBand — еще один вариант, поэтому многие из этих серверов подключены через карты NVIDIA ConnectX-7 в этих слотах. В случае с эфиром общее соотношение сегодня составляет один NIC на GPU.

Supermicro SYS-821GE-TNHR

Слева от лотка NIC мы видим NVIDIA BlueField-3 DPU, а также порты 10Gbase-T. Порты 10Gbase-T предназначены для таких функций, как загрузка PXE и ​​управление.

Supermicro SYS-821GE-TNHR

Вот как выглядит DPU NVIDIA BlueField-3, установленный в верхнем слоте.

Supermicro SYS-821GE-TNHR

С правой стороны лотка мы получаем опциональные дополнительные сетевые карты. Здесь снова у нас есть еще один BlueField-3 DPU. Конечно, вы можете настроить все сетевые карты по своему усмотрению, поскольку для этого достаточно места.

Supermicro SYS-821GE-TNHR

В целом, у нас есть около 4,22 Тбит/с сетевой пропускной способности, исходящей от этого сервера, или больше, чем может обработать 32-портовый коммутатор 100GbE. Это одна из движущих сил спроса на сеть в отрасли прямо сейчас.

Теперь перейдем к отсеку процессора и PCIe.

Обзор процессора Supermicro SYS-821GE-TNHR и лотка PCIe

На передней панели системы сверху расположен графический процессор NVIDIA HGX H200 8, но мы хотели начать снизу, с поддона для процессора.

Supermicro SYS-821GE-TNHR

Весь лоток ЦП можно снять с сервера, опять же, не снимая шасси. Эти системы настолько большие и тяжелые и имеют так много сетевых подключений, что сохранение шасси в стойке экономит много времени на обслуживание. Более того, если возникнет проблема с DIMM или чем-то подобным, вы можете просто заменить новый лоток ЦП и снова включить систему, одновременно снимая проблемный лоток ЦП, чтобы заменить компонент.

Supermicro SYS-821GE-TNHR

В этой системе используются процессоры Intel Xeon, а именно процессоры Intel Xeon Scalable 4-го и 5-го поколений. Если вы хотите поискать в архивах STH, то по кодовым именам это Sapphire Rapids и Emerald Rapids. В то время как референсная платформа NVIDIA DGX использует процессоры Intel Xeon, некоторые предпочитают AMD EPYC, и у Supermicro есть такой же сервер на EPYC.

Supermicro SYS-821GE-TNHR

Процессоры здесь немного отличаются, поскольку у них есть вентиляторные радиаторы. Они все равно получат поток воздуха, если активный вентилятор выйдет из строя, но эти модули вентиляторов довольно легко заменить, поскольку они удерживаются на месте одним винтом.

< Supermicro SYS-821GE-TNHR

Одна из причин, по которой, даже при наличии на рынке 12-канальных ЦП от AMD и Intel, людям нравятся 8-канальные ЦП памяти, заключается в том, что с меньшими сокетами можно получить 2 DIMM на канал. Это означает 16 DIMM на ЦП или 32 DIMM в общей сложности.

Supermicro SYS-821GE-TNHR

Учитывая, что графические процессоры имеют 1,1T8 ГБ памяти HBM3e, наличие 32 слотов DIMM упрощает и удешевляет получение более 1 ТБ DDR5 на процессорах. Мы часто слышим людей, которые хотят соотношение более 1:1 для емкости CPU DDR5 к емкости GPU HBM.

Supermicro SYS-821GE-TNHR

Перевернув лоток, мы видим, что за процессорами находится архитектура коммутатора PCIe, а ниже — расширение материнской платы.

Supermicro SYS-821GE-TNHR

Помимо PCH, возможно, наиболее примечательной особенностью ниже являются два слота M.2 SSD. Они не самые простые в доступе, но, по крайней мере, их установка не требует инструментов.

Supermicro SYS-821GE-TNHR

Над материнской платой и за процессорами находится лоток коммутатора PCIe. В центральной секции находятся четыре коммутатора Broadcom PCIe.

Supermicro SYS-821GE-TNHR

Это сервер, который обычно находится в лаборатории Supermicro, в результате чего мы смогли показать здесь что-то изящное. Старые закругленные кабели MCIO были обычным явлением в течение нескольких лет. Supermicro переходит на новые плоские кабели для улучшения воздушного потока. В этой системе установлены оба, чтобы показать разницу.

Supermicro SYS-821GE-TNHR

С обеих сторон этой системы у нас есть еще одна плата коммутатора PCIe. Эта плата соединяет CPU с четырьмя NVMe SSD спереди, а также DPU и еще одним NIC на заднем лотке NIC.

Supermicro SYS-821GE-TNHR

В таких системах довольно часто используется один или два DPU для комплекса ЦП, а также твердотельные накопители для ЦП.

Supermicro SYS-821GE-TNHR

Благодаря шести коммутаторам PCIe на плате имеется огромный массив разъемов высокой плотности.

Supermicro SYS-821GE-TNHR

Центральные разъемы предназначены для четырех основных коммутаторов PCIe для графических процессоров и их сетевых карт.

Supermicro SYS-821GE-TNHR

Боковые разъемы для коммутаторов PCIe больше ориентированы на путь от ЦП к DPU или NIC.

Supermicro SYS-821GE-TNHR

Подробнее об этом мы поговорим в разделе топологии, а теперь давайте рассмотрим плату NVIDIA HGX H200 с 8 графическими процессорами.

Обзор Supermicro SYS-821GE-TNHR NVIDIA HGX H200 8-GPU Tray

В передней части системы в верхней части находится лоток графического процессора, который можно снять с помощью двух защелок с обеих сторон.

Supermicro SYS-821GE-TNHR

Например, если возникнет проблема с пакетом HBM на графическом процессоре, всю эту сборку можно извлечь из холодного коридора и заменить примерно за минуту, не нарушая при этом никаких кабелей.

Supermicro SYS-821GE-TNHR

Ранее мы видели версию этой системы и лотка в нашей статье Взгляд на жидкостно охлаждаемый Supermicro SYS-821GE-TNHR 8x NVIDIA H100 AI Server. В этой версии у нас довольно ранняя базовая плата NVIDIA H200 8-GPU.

Supermicro SYS-821GE-TNHR

Спереди у нас есть радиаторы переключателя NVIDIA NVLink, которые росли с каждым поколением. В будущем поколении Blackwell мы перейдем от четырех переключателей NVLink к двум, и они будут размещены в центре графических процессоров. Это будет большое изменение.

Supermicro SYS-821GE-TNHR

За этими радиаторами расположены восемь графических процессоров NVIDIA H200.

Supermicro SYS-821GE-TNHR

Мы много раз рассматривали NVIDIA H200, но эти графические процессоры используют архитектуру Hopper и обновляют память до HBM3e с емкостью 141 ГБ. В общей системе это дает нам 1,128 ТБ памяти HBM3e.

Supermicro SYS-821GE-TNHR

Сзади мы видим ретаймеры Astera Labs PCIe вместе с радиаторами.

Supermicro SYS-821GE-TNHR

Мы также получаем набор разъемов для обеспечения огромных потребностей в питании, а также возможность подключения PCIe к плате графического процессора.

Supermicro SYS-821GE-TNHR

Теперь давайте быстро заглянем внутрь системы и рассмотрим среднюю панель.

Топология Supermicro SYS-821GE-TNHR

Большой компонент, который не находится на лотке внутри корпуса, похоже, является средней платой. Вот вид на систему спереди. Верхняя часть — для лотка GPU, а нижняя — для лотка CPU.

Supermicro SYS-821GE-TNHR

Вот краткий обзор средней панели, куда вставляется лоток NVIDIA HGX H200 с 8 графическими процессорами.

Supermicro SYS-821GE-TNHR

Если вам интересно, в верхней части средней панели есть ручки, так что если вам придется снять среднюю панель, она, по крайней мере, будет на направляющих и у нее будут ручки, которые помогут вам.

Supermicro SYS-821GE-TNHR

Вот сторона центрального процессора. С другой стороны вы можете видеть сетевые карты.

Supermicro SYS-821GE-TNHR

Эта промежуточная плата позволяет избежать прокладки кабелей, но также является ключом к простоте обслуживания системы.

Supermicro изготавливает индивидуальные материнские платы для своих серверов ИИ, что делают только некоторые поставщики. Например, Supermicro X13DEG-OAD, который находится в этой системе, на самом деле предназначен для установки на этот сервер, даже не Supermicro 4U Universal GPU System для жидкостно охлаждаемой платформы NVIDIA HGX H100 и HGX H200 . В результате здесь основное внимание уделяется обеспечению подключения MCIO PCIe к архитектуре коммутатора PCIe.

Supermicro SYS-821GE-TNHR

Когда мы говорим о современных платформах NVIDIA HGX 8-GPU, мы часто ссылаемся на сетевые карты, которые находятся ниже стороны ЦП или стороны ГП. Эта блок-схема объясняет это довольно подробно. Мы видим PCH с двумя твердотельными накопителями M.2 и ASPEED BMC на стороне ЦП, но все линии PCIe от ЦП идут к коммутаторам PCIe.

Supermicro SYS-821GE-TNHR

Мы показали все эти компоненты в нашем обзоре оборудования и видео, но довольно часто в этих системах устанавливается один GPU с одним NIC и SSD, а также CPU с собственными NIC и SSD. Если вы читаете STH в течение многих лет, вы, вероятно, заметите, что коммутаторы GPU PCIe имеют два соединения x16 с CPU. Это большое изменение по сравнению со старыми платформами GPU, где коммутаторы имели одно соединение PCIe x16 с CPU, и это то, что NVIDIA активно продвигает.

Несколько слов об управлении и производительности

Обычно, когда мы проходим по серверам, мы делаем большие разделы по управлению и производительности. Мы рассмотрели массу серверов Supermicro и показали их управление IPMI, возможно, более сотни раз на данный момент. Аналогично, это третья платформа NVIDIA HGX H200 8-GPU, которую мы рассмотрели за 30-дневный период до закрытия 2024 года. Стало действительно избыточным показывать, что у NVIDIA есть спецификации CFM для своих сборок HGX H200 и что производители соответствуют этим спецификациям и превосходят их, чтобы поддерживать охлаждение графических процессоров и их максимальную производительность. Мы также рассмотрели версию этой платформы с жидкостным охлаждением и рассказали, как производительность была такой же, как у платформы с воздушным охлаждением. На данном этапе это становится слишком избыточным.

Supermicro SYS-821GE-TNHR

Вместо этого позвольте мне объяснить, почему эта система отличается в 8U. Если мы посмотрим на систему сзади, верхние вентиляторы и ряды блоков питания/вентиляторов, охватывающие верхние 4U, предназначены для охлаждения платформы NVIDIA HGX H200 8-GPU. Вот и все. Многие другие системы также пытаются охлаждать сетевые карты или другие компоненты в том же потоке воздуха, что и лоток NVIDIA HGX H200 8-GPU мощностью ~6 кВт (или более). Верхняя половина нижней 4U подается воздухом от передних вентиляторов, которые могут всасывать воздух над частью радиаторов ЦП, но также охлаждать коммутаторы PCIe и сетевые карты.

Supermicro SYS-821GE-TNHR

Наконец, нижние вентиляторы блока питания охлаждают в основном передние твердотельные накопители, твердотельные накопители M.2, оперативную память и часть выходного тепла радиатора ЦП.

Безусловно, это самая значимая часть этой системы. Хотя это не обязательно увеличивает производительность ЦП или ГП, это делает схему охлаждения очень чистой. Обычно это приводит к небольшому однозначному процентному улучшению энергопотребления по сравнению с более плотными системами. Многие центры обработки данных не могут справиться со стойками мощностью 80-100 кВт+, поэтому пять таких систем вмещают около 60 кВт мощности, и нет особой необходимости в дополнительной плотности. Вместо этого, немного более эффективное охлаждение плюс пространство, чтобы сделать эту, возможно, самую простую в обслуживании платформу HGX H200, — вот что вы получаете для этого шасси 8U.

Учитывая, что производительность зачастую одинакова, энергосбережение и удобство обслуживания являются двумя ключевыми показателями производительности, по которым эта платформа выделяется.

Теперь давайте обсудим питание.

Подача питания Supermicro SYS-821GE-TNHR

Стандартная система поставляется с шестью блоками питания мощностью 3 кВт, которые мы уже показывали на STH, когда рассматривали версию сервера с жидкостным охлаждением. Они обеспечивают резервирование 4+2.

Supermicro SYS-821GE-TNHR

Для тех, кому требуется большая избыточность 4+4, два центральных вентилятора можно заменить двумя дополнительными блоками питания (опция).

Supermicro SYS-821GE-TNHR

Обычно с этой системой мы видим где-то чуть более 2 кВт в режиме ожидания и около 10 кВт на пике. Немного сложно напрямую сравнивать энергопотребление сервера GPU, так как этот сервер, например, имеет около 1 кВт установленных сетевых карт, полный набор памяти и т. д. Забавно, что у нас есть система, в которой только сеть использует мощность, более похожую на энергопотребление стандартного сервера 2U.

Supermicro SYS-821GE-TNHR

Как мы уже говорили ранее, Supermicro построила эту платформу 8U, поскольку она достаточно плотная для большинства стоек, которые обеспечивают мощность менее 60 кВт даже с дополнительной высотой. Увеличив размер, она получила ведущую в своем классе удобство обслуживания вместе с несколькими процентами более низкого энергопотребления по сравнению с более коротким шасси 6U.

STH Server Spider: Supermicro SYS-821GE-TNHR

Во второй половине 2018 года мы представили STH Server Spider как краткий справочник по возможностям серверной системы. Наша цель — начать давать быстрое визуальное описание типов параметров, на которые нацелен сервер.

Supermicro SYS-821GE-TNHR

Этот сервер не самый плотный, но, возможно, в этом и суть. Он достигает метрики плотности, соответствующей максимальной выходной мощности для стоек ~50-60 кВт в центрах обработки данных. Тем не менее, поскольку это более высокое шасси, мы должны сказать, что оно немного менее плотное. Это всегда забавная часть наличия метрики плотности.

Пример сервера

Артикул: SYS-821GE-TNHR
GPU сервер Supermicro SYS-821GE-TNHR. Система DP Intel 8U с 8 графическими процессорами NVIDIA HGX H100 и задним вводом-выводом

Заключение

Впервые мы показали версию этой платформы 8U с жидкостным охлаждением в 2023 году, так что в 2025 году, а теперь и с обновлением NVIDIA H200, кажется, что мы хорошо знаем эту систему. Явный выбор Supermicro в пользу снижения плотности был тем, которому, возможно, должны последовать и другие в отрасли.

Supermicro SYS-821GE-TNHR

Каждый основной компонент этого сервера можно снять и заменить, не снимая шасси, за исключением промежуточной платы, которая снимается с помощью ручек сверху. Это действительно важно в кластерах ИИ. Если и когда система выходит из строя, ее необходимо ремонтировать. Конструкция Supermicro позволяет системе оставаться установленной в стойку и подключенной к кабелям во время обслуживания. За последние три месяца я разобрал около 20 серверов ИИ от разных поставщиков, и есть веская причина, по которой это является отраслевым стандартом и чрезвычайно успешной моделью для Supermicro.

Supermicro SYS-821GE-TNHR

В целом, если вы ищете серверы NVIDIA HGX H200, то Supermicro SYS-821GE-TNHR — это отличная платформа, которая продается большими объемами и демонстрирует значительные усовершенствования по сравнению с серверами на базе 8 GPU, которые мы рассматривали за последнее десятилетие.

Источник: servethehome

Возврат к списку

Комментарии(0)