Обзор сервера GIGABYTE G383-R80-AAP1 AMD Instinct MI300A

Дата публикации: 2 июня 2025

Иногда появляется возможность разобрать действительно интересные серверы. Несколько месяцев назад мне разрешили снять на видео один из самых засекреченных суперкомпьютеров США — El Capitan. В его основе — гибридные процессоры AMD Instinct MI300A, которые объединяют CPU и GPU-ядра из серий AMD EPYC и Instinct, а также память HBM3. Это, вероятно, самый быстрый APU на сегодняшний день.

Сервер GIGABYTE G383-R80-AAP1 использует четыре таких MI300A в одной системе. При этом его можно приобрести и запускать как отдельный сервер, без необходимости в кластере на десятки тысяч узлов. Это делает его особенно интересным: мощная платформа, доступная в автономном исполнении — отличный повод для обзора и тестирования.

Внешний обзор GIGABYTE G383-R80-AAP1

Сервер выполнен в корпусе формата 3U, его глубина — 950 мм (37,4 дюйма). Для переноски предусмотрены удобные ручки на передней панели.

На передней панели в нижней части находятся модули охлаждения, а в верхней 1U-зоне — отсеки под накопители и интерфейсы ввода-вывода (I/O).

Система охлаждения занимает нижние 2U корпуса. Вентиляторы направляют холодный воздух к радиаторам APU, обеспечивая эффективный отвод тепла.

Для хранения данных предусмотрены восемь отсеков под 2,5-дюймовые NVMe-накопители.

Каждый диск подключён по отдельному каналу PCIe x4 к бекплейну.

Важной особенностью передней части является интерфейс ввода-вывода. Здесь установлены два порта 10GbE, работающие через контроллер Broadcom BCM57416.

Плата I/O также включает слот M.2, USB-порты, VGA-выход и порт управления (management LAN). Компоновка выполнена аккуратно и удобно.

Сзади — четыре блока питания по 3 кВт. Для системы такого класса это сравнительно энергоэффективное решение, особенно с учётом вычислительных возможностей.

Основная часть задней панели — это слоты расширения PCIe Gen5 x16:

4 слота двойной ширины
4 слота одинарной ширины

Они подключены через разводочные платы PCIe, которые обеспечивают компактное размещение и надёжное соединение с основными компонентами.

Интересный сценарий для энтузиастов и разработчиков — установить четыре сетевых адаптера по 400 Гбит/с (по одному на каждый APU), а также четыре ускорителя двойной ширины или CXL-карты на базе PCIe.

Изначально серия MI300 предполагала поддержку CXL, и предсерийные версии действительно её имели. Однако в финальных релизах эта функция была отключена. Если AMD активирует CXL в будущем, это откроет дополнительные возможности для масштабирования.

Далее — обзор внутреннего устройства сервера.

Внутренний обзор GIGABYTE G383-R80-AAP1

Начнём с передней части корпуса и постепенно перейдём к внутреннему устройству.

Под отсеками для NVMe-накопителей расположен контроллер управления платой (BMC) — ASPEED AST2600.

Все интерфейсы ввода-вывода подключаются к основной плате с четырьмя модулями AMD Instinct MI300A через PCIe-кабели. Такая архитектура упрощает компоновку и даёт гибкость в маршрутизации сигнала.

AMD Instinct MI300A — это многочиповые модули, в которых объединены:

CPU-ядра,
GPU-ядра,
память HBM3.

Они созданы для высокой плотности вычислений и энергоэффективности в HPC-системах.

Модули MI300A устанавливаются в сокеты, визуально напоминающие разъёмы под процессоры EPYC. Однако здесь используется сокет AMD SH5, а не привычный SP5.

В сервере установлено четыре MI300A. Это полноценная четырёхсокетная система, где каждый модуль содержит:

один CPU с 24 ядрами,
один GPU,
128 ГБ HBM3-памяти.

Каждый модуль — это самостоятельный вычислительный узел, объединяющий CPU, GPU и память.

Потребление одного APU составляет от 550 до 750 Вт, поэтому система использует массивные радиаторы, которые охлаждают как MI300A, так и компоненты питания.

Эти радиаторы — одни из крупнейших, применяемых в серверах. Они обеспечивают необходимый уровень теплоотвода для стабильной работы при высоком энергопотреблении.

Модули установлены последовательно по глубине шасси, поэтому воздух должен проходить через все радиаторы. Это требует мощной и продуманной системы охлаждения.

В корпусе предусмотрен дополнительный блок вентиляторов в отдельном отсеке. Он обеспечивает усиленный поток воздуха через APU-модули.

Обычно серверы используют один блок вентиляторов, реже — два, разделённых по зонам. Здесь же две группы вентиляторов прокачивают воздух через одни и те же компоненты — необычное, но эффективное решение.

Этот второй блок также охлаждает PCIe-карты в задней части корпуса, где обычно размещаются высокоскоростные сетевые адаптеры (NIC). Кроме того, в этой зоне возможна установка дополнительных плат, не ограничиваясь только сетевыми задачами.

Далее рассмотрим топологию сервера и его блочную диаграмму — это поможет понять, как связаны между собой компоненты и как распределяются ресурсы.

Топология GIGABYTE G383-R80-AAP1

Чтобы наглядно показать, как связаны между собой все компоненты сервера, ниже представлена блочная схема системы. Она отражает подключение APU, памяти HBM3, слотов PCIe, накопителей и интерфейсов ввода-вывода.

Сервер построен по классической четырёхсокетной архитектуре — аналогично платформам с четырьмя CPU. Поскольку AMD официально не предлагает 4-сокетные серверы на базе EPYC, это решение — по сути, первая полноценная 4-сокетная серверная платформа AMD, основанная на APU MI300A.

Каждый модуль MI300A имеет:

два подключения PCIe Gen5 x16 к слотам расширения,
два NVMe-подключения PCIe Gen5.

Кроме того, APU0 связан с коммутатором Broadcom PEX89024, через который работают низкоскоростные интерфейсы, включая порты 10GbE.

На следующей схеме показано распределение ресурсов:

4 APU MI300A,
по 24 CPU-ядра и 1 GPU на архитектуре CDNA 3 на каждый,
суммарно 512 ГБ HBM3,
отсутствие DDR5 — вся память размещена внутри APU.

Изначально предполагалась возможность расширения памяти через CXL-устройства, но в текущей конфигурации HBM3 — единственный пул памяти.

Для сравнения:

Intel Xeon MAX 9480: 64 ГБ HBM2e на процессор, без GPU, двухсокетная архитектура.
AMD MI300A: 4 APU с объединёнными CPU+GPU, 512 ГБ HBM3 на весь сервер.

Таким образом, система на AMD MI300A принципиально отличается от решений Intel по подходу к интеграции и объёму доступной памяти.

У NVIDIA Grace Hopper (GH200) — другая архитектура:

HBM подключена к GPU Hopper,
LPDDR5X — к CPU Grace.

У CPU и GPU — раздельные подсистемы памяти, между которыми нужно синхронизировать данные. Такая модель эффективна в ряде сценариев, но требует дополнительных усилий по управлению трафиком.

Преимущество AMD MI300A — в едином пуле HBM3, равноправно доступном и CPU, и GPU.
Нет необходимости кэшировать данные, передавать их между подсистемами или использовать дополнительную шину. Это упрощает архитектуру и повышает эффективность.

Такой подход начинает восприниматься по-настоящему только после работы с системой. Сам факт общего пула памяти меняет представление о том, как строятся вычислительные нагрузки.

Управление GIGABYTE G383-R80-AAP1

В сервере используется стандартный контроллер управления ASPEED AST2600 BMC. Он обеспечивает типичный набор функций, включая HTML5 iKVM, и не требует изучения нестандартных решений. Это упрощает администрирование: вы можете использовать знакомые инструменты без дополнительной настройки или обучения. А сейчас перейдём к более интересной части.

AMD Instinct MI300A

Если вы пропустили раздел с топологией, вывод команды lscpu на этой системе наглядно показывает ресурсы четырёх APU MI300A.

Каждый APU содержит 228 вычислительных блоков (compute units) архитектуры CDNA3. Для сравнения: у AMD MI300X — 304 блока, но в MI300A дополнительно есть CPU и общий пул памяти HBM3, чего нет у MI300X.

AMD приводит пиковые значения производительности одного MI300A:

FP8 — 1,96 PFLOPS
FP8 с разреженностью — 3,92 PFLOPS
FP16 — 980,6 TFLOPS
FP16 с разреженностью — 1,96 PFLOPS
TF32 (матричные операции) — 490,3 TFLOPS
TF32 с разреженностью — 980,6 TFLOPS
FP32 (матрицы) — 122,6 TFLOPS
FP64 (матрицы) — 122,6 TFLOPS
FP32 (скалярные операции) — 122,6 TFLOPS
FP64 (скалярные операции) — 61,3 TFLOPS
INT8 — 1,96 POPS
INT8 с разреженностью — 3,92 POPS
bfloat16 — 980,6 TFLOPS
bfloat16 с разреженностью — 1,96 PFLOPS

Фактическая производительность может отличаться от заявленных пиковых значений. Подробное тестирование будет представлено в отдельном материале.

Если установить 15–16 таких серверов в стойку 48U или 52U и обеспечить их питанием и охлаждением, можно выйти на нижние позиции в рейтинге Top500 суперкомпьютеров. Это впечатляющий результат для системы такой плотности.

Также стоит отметить: каждый APU включает три аппаратных блока декодирования видео. Поддерживаются кодеки HEVC (H.265), AVC (H.264), V1 и AV1. Это важно для задач видеоаналитики, поскольку многие ускорители ИИ не имеют встроенных декодеров и перекладывают эту нагрузку на CPU. В MI300A видеопоток обрабатывается на аппаратном уровне.

Потребляемая мощность GIGABYTE G383-R80-AAP1

Сервер использует четыре блока питания по 3000 Вт в конфигурации 3+1: три работают под нагрузкой, четвёртый — резервный (hot spare). Такая схема позволяет продолжать работу даже при отказе одного из БП, что критично для дата-центров.

Каждый APU с воздушным охлаждением потребляет около 550 Вт. Несмотря на удалённый доступ и отсутствие возможности подключить внешнюю систему мониторинга, по встроенным датчикам суммарное энергопотребление сервера составило около 3,4 кВт. Это не предел: с учётом слотов PCIe Gen5 x16 и SSD система может потреблять значительно больше.

По сравнению с серверами на 8 GPU, G383-R80-AAP1 обеспечивает аналогичную производительность при меньшем объёме — и более высокой плотности HBM3-памяти: 1,5–2 ТБ в пределах тех же габаритов и энергобюджета. Именно это делает архитектуру MI300A привлекательной для энергоэффективных суперкомпьютеров, включая El Capitan.

Важно: APU MI300A поддерживают TDP до 760 Вт. Повышение лимита мощности увеличивает потребление примерно на 1 кВт, но даёт больший запас по производительности — за счёт более высоких частот и стабильной работы при нагрузке.

STH Server Spider: GIGABYTE G383-R80-AAP1

Во второй половине 2018 года мы создали STH Server Spider — инструмент для быстрой оценки задач, на которые ориентирован сервер. Он помогает визуально сравнить системы по ключевым параметрам: вычисления, память, хранилище, плотность и др.

Этот сервер не стремится к максимуму по GPU, CPU, объёму памяти или числу накопителей. Его особенность — сбалансированное сочетание CPU, GPU и HBM-памяти в едином модуле. Такая архитектура делает платформу уникальной.

Примеры товаров

Сервер Gigabyte G383-R80-AAP1

Артикул: G383-R80-AAP1

HPC/AI Server - AMD Instinct™ MI300A APU - 3U 8-Bay Gen5 NVMe. 4 x AMD Instinct™ MI300A APUs; 128GB HBM3 per APU; Dual ROM Architecture; 2 x 10Gb/s LAN ports via Broadcom® BCM57416; 1 x M.2 slot with PCIe Gen5 x4 interface; 8 x 2.5" Gen5 NVMe bays; 4 x FHFL Dual slot PCIe Gen5 x16 slots; 4 x FHFL Single slot PCIe Gen5 x16 slots; 3+1 3000W 80 PLUS Titanium redundant power supplies

Наличие по запросу

Уточнить ценуЗапрос цены

Создание Server Spider для этой системы оказалось особенно интересным: он наглядно показывает нестандартный, но хорошо продуманный баланс характеристик.

Заключение

Этот сервер — нестандартное решение. Несмотря на знакомство с платформой Instinct, только после разбора и практического тестирования стало ясно, насколько глубоко GIGABYTE и AMD переосмыслили интеграцию CPU, GPU и HBM-памяти в одном модуле.

По сути, это не просто сервер с ускорителями Instinct. Это платформа с новой архитектурой, которая объединяет три ключевых компонента в одном APU и открывает путь к более компактным и энергоэффективным вычислительным системам.

Сервер не предназначен для повседневных задач. Однако наличие APU MI300A, используемых в ведущем суперкомпьютере мира, позволяет организациям — от университетов до исследовательских лабораторий — приобрести готовое решение для задач HPC, не создавая кластер уровня Top500. Это снижает барьер входа на рынок высокопроизводительных вычислений.

Платформа одновременно демонстрирует возможности и ограничения подхода AMD. С одной стороны, объединённая архитектура с 512 ГБ HBM3, ядрами Zen 4 и GPU CDNA3 в четырёх APU — это конкурентоспособное решение для задач HPC. С другой стороны, для некоторых ИИ-нагрузок может потребоваться больший объём памяти, чем доступен в конфигурации на HBM3.

Если задача эффективно масштабируется в рамках архитектуры MI300A, такая система обеспечивает высокую плотность вычислений и энергоэффективность. Для других сценариев она может быть просто примером интересной инженерной реализации.

Источник