Полный гид по серверным PCIe GPU 2025 года: архитектуры, платформы и сценарии применения

Дата публикации: 2 июля 2025

Мы часто обсуждаем AI-GPU в контексте крупных интегрированных решений — например, NVIDIA GB200 NVL72 или платформ HGX с 8 GPU, которые применяются в так называемых AI-фабриках. Однако значительная часть задач ИИ решается вне таких масштабных систем. Сегодня мы рассмотрим именно этот уровень — от корпоративных решений в формате «Enterprise AI Factory» до edge-серверов и рабочих станций. Supermicro собрала все необходимые компоненты в одном месте, и это позволило нам ответить на ключевые вопросы: какой PCIe GPU выбрать, где и когда его применять.

8x PCIe GPU-системы

Системы с 8 GPU на шине PCIe во многом похожи на платформы с GPU SXM, но имеют ряд отличий. PCIe-ускорители обычно потребляют от 300 до 600 Вт на GPU — меньше, чем SXM-решения. В таких системах часто используют схему подключения: две сетевые карты 400GbE East-West на один GPU, тогда как в SXM-платформах чаще применяется конфигурация 1:1.

Отказ от NVLink-переключателей снижает стоимость и энергопотребление, хотя и влияет на производительность. При этом PCIe-серверы обеспечивают большую гибкость: можно выбирать разные модели GPU и настраивать систему под конкретные задачи, добавляя нужные графические возможности.

Наиболее распространённые PCIe GPU, которые используются в таких системах:

NVIDIA H100 NVL / H200 NVL с ПО NVIDIA AI Enterprise
NVIDIA RTX PRO 6000 Blackwell Server Edition
NVIDIA L40S

Модели NVIDIA H100 NVL и H200 NVL с программным пакетом NVIDIA AI Enterprise поддерживают NVLink-соединение между четырьмя GPU. Это особенно полезно для постобучения и задач ИИ-инференса, позволяя снизить энергопотребление на один GPU по сравнению с SXM-платформами. Ключевое отличие H200 NVL от H100 NVL — более современная подсистема памяти HBM. Она значительно лучше справляется с задачами, ограниченными пропускной способностью памяти.

NVIDIA RTX PRO 6000 Blackwell предназначена для широкого спектра задач. В отличие от специализированных ИИ-ускорителей, она не оснащена памятью HBM с высокой пропускной способностью, но компенсирует это наличием RT-ядер, видеокодеков и видеовыходов.

Карта подходит для графически ориентированных задач: инженерное моделирование, виртуальные рабочие столы (VDI), рендеринг и другие. Также она применима для AI-инференса — каждая карта оснащена 96 ГБ памяти GDDR7, а в конфигурации с 8 GPU объём общей памяти достигает 768 ГБ, что даёт широкие возможности для параллельной обработки.

С помощью технологии Multi-Instance GPU (MIG) каждый GPU можно разделить на 4 логических экземпляра — до 32 в одной системе. Это позволяет использовать систему гибко: например, днём — для VDI, вечером — для ИИ-задач.

Главное преимущество RTX PRO 6000 — универсальность. Карта сочетает большую память и графические возможности RTX, недоступные типичным ИИ-ускорителям. Это делает её эффективным решением для смешанных нагрузок, где требуются как вычисления, так и графика.

NVIDIA L40S — более доступный GPU на архитектуре Ada Lovelace для подобных платформ. Он оснащён 48 ГБ памяти и поддерживает графические функции, но не включает некоторые современные возможности, например Multi-Instance GPU (MIG).

Сервер Supermicro SYS-522GA-NRT из линейки RTX PRO поддерживает до 8 GPU RTX PRO 6000 Blackwell Server Edition. Внутри платформа включает:

два PCIe-коммутатора для распределения линий между GPU,
два процессора,
до 32 модулей памяти DDR5,
места для установки нескольких сетевых адаптеров (NIC),
а также SSD-накопителей.

Такое решение оптимально для задач, где важно сочетание графических, ИИ- и визуальных нагрузок. При этом оно укладывается в формат 2U/4U и обеспечивает высокую плотность размещения оборудования.

Энергопотребление в таких системах зависит от конфигурации, но одно из ключевых преимуществ платформ с PCIe-GPU — более низкое энергопотребление по сравнению с SXM-системами. Это снижает эксплуатационные расходы. Также такие платформы обычно стоят дешевле, что делает их доступнее для более широкого круга задач и заказчиков.

Новинка 2025 года — плата-коммутатор NVIDIA MGX PCIe Switch Board, разработанная для серверов с 8 GPU на PCIe. Она работает в паре с новыми сетевыми адаптерами NVIDIA ConnectX-8 SuperNIC. Это значительное архитектурное обновление, которое Supermicro реализует в своей новой платформе Supermicro SYS-422GL-NR.

Эта комбинация обеспечивает централизованное управление трафиком между GPU и сетевыми интерфейсами с минимальной задержкой и высокой пропускной способностью. Она также упрощает создание масштабируемых AI-платформ нового поколения.

В новой платформе вместо двух или четырёх отдельных коммутаторов используются сетевые адаптеры NVIDIA ConnectX-8 SuperNIC со встроенными коммутаторами. Они обеспечивают высокоскоростную связь между GPU. Это крупнейшее архитектурное изменение за последние годы. Такой подход упрощает сетевую инфраструктуру, снижает задержки и повышает общую эффективность системы — особенно в задачах ИИ и высокопроизводительных вычислений.

Стандартные серверы с GPU PCIe

Хотя 8-GPU платформы создаются в первую очередь для интенсивных GPU-вычислений, перспективы применения ИИ выходят за пределы таких специализированных решений. Всё больше организаций внедряют GPU в стандартные серверы — и на то есть причина.

Если ИИ станет частью большинства рабочих процессов, важно заранее подготовить инфраструктуру. Развернув сервер без GPU, организация будет зависеть от внешних AI-серверов. Альтернатива — добавить GPU в обычные вычислительные серверы. Это позволяет выполнять ИИ-задачи локально, снижает задержки и уменьшает нагрузку на внешние ресурсы. Такой гибридный подход повышает эффективность и даёт больше контроля над инфраструктурой.

Как и в системах с 8 GPU, в таких серверах часто применяются ускорители NVIDIA H100 NVL, H200 NVL, RTX PRO 6000 Blackwell и L40S. Однако в типичном 2U-сервере обычно можно установить не более двух GPU рядом — из-за ограничений по пространству, охлаждению и компоновке. Тем не менее даже такая конфигурация даёт заметное ускорение для ИИ- и HPC-задач. Особенно эффективно это на этапах, где требуется высокая параллельность или графическая производительность.

Связь NVLink между четырьмя GPU редко встречается в традиционных серверах — чаще используются конфигурации с одним или двумя ускорителями на сервер. Вместо этого всё больше применяются энергоэффективные решения, такие как NVIDIA L4. Эти GPU обеспечивают умеренную производительность и объём памяти, при этом отличаются низким энергопотреблением и более доступной ценой. Такой подход особенно актуален для массового масштабирования ИИ-возможностей — без избыточных затрат на электроэнергию и охлаждение.

В качестве примера мы рассмотрели сервер Supermicro SYS-212GB-NR из серии Hyper — высокопроизводительное решение с поддержкой различных типов GPU. Логика проста: если ИИ становится частью рабочих процессов, а всё больше программ внедряют ИИ-функции, добавление GPU в сервер — разумный шаг. Это позволяет выполнять AI-инференс локально, без отправки данных во внешние ИИ-системы. Такой подход снижает задержки, повышает безопасность и даёт больше гибкости в управлении вычислительными ресурсами внутри существующей инфраструктуры.

У Supermicro есть 2U GPU-серверы, созданные на основе архитектуры NVIDIA MGX. Ранее мы уже рассматривали несколько таких решений, а во время демонстрации увидели новую модель на базе процессоров Intel Xeon, рассчитанную на установку нескольких графических ускорителей. Платформа сочетает компактность 2U-формата с масштабируемостью GPU, характерной для MGX. Это делает её привлекательной для заказчиков, которые хотят внедрить ИИ в существующую инфраструктуру без перехода на более громоздкие 4U-системы.

Серверы высокой плотности с PCIe GPUs

В качестве примера показали Supermicro SuperBlade с графическими процессорами NVIDIA L4. GPU L4 универсален: он низкопрофильный, требует минимум охлаждения и подходит для широкого круга задач.

Многие годы платформа SuperBlade и другие высокоплотные серверы Supermicro поддерживают широкий спектр графических ускорителей — от однослотовых низкопрофильных GPU до двухслотовых. Цели те же, что и у стандартных серверов: ускорение ИИ- и графических задач, но реализовано это в более компактном и плотном форм-факторе.

Edge серверы с PCIe GPUs

Пограничные (edge) серверы открывают новые сценарии применения. Например, компьютерное зрение всё чаще работает на уровне edge-инфраструктуры. Один из ярких примеров — кассы самообслуживания в торговых точках, где используются edge-серверы с GPU. Другие распространённые задачи в ритейле — аналитика запасов, отслеживание поведения покупателей и обработка данных с камер в реальном времени. Всё это требует локальной обработки с минимальными задержками, что делает edge-серверы с GPU эффективным решением.

Мы показали пример с двумя графическими ускорителями NVIDIA L4 — сервер Supermicro SYS-E403-14B-FRN2T.

В таких условиях — ограниченное питание и компактное размещение — оптимальным выбором становятся однослотовые низкопрофильные GPU с TDP 75 Вт или ниже.

Помимо GPU L4, на уровне edge встречаются и другие сценарии применения — от сетевой инфраструктуры до систем умного города. В таких случаях используются более мощные графические ускорители, часто в сочетании с высокопроизводительными сетевыми адаптерами для обработки больших потоков данных в реальном времени.

Рабочие станции с PCIe GPUs

Рабочие станции стали особенно актуальны в эпоху ИИ. Всё больше пользователей стремятся разрабатывать и тестировать ИИ-инструменты локально. Ещё важнее то, что с ростом интеграции ИИ в повседневные задачи наличие мощного GPU напрямую влияет на производительность.

При выпуске RTX 6000 PRO Blackwell NVIDIA представила три версии:

однослеотовая карта с TDP 600 Вт — для максимальной производительности в одном PCIe-слоте;
двухслотовая с активным охлаждением и TDP 300 Вт — для рабочих станций;
двухслотовая с пассивным охлаждением — используется в серверных платформах с 8 GPU.

Это позволяет подобрать нужную конфигурацию под разные сценарии — от локальной разработки до масштабируемых серверных решений.

Недавно мы протестировали сервер Supermicro AS-2115HV-TNRT — 2U-систему, поддерживающую до четырёх двухслотовых графических ускорителей. Большинство других рабочих станций, даже в формате 4U или 5U, поддерживают максимум три GPU. Эта система позволяет установить четыре GPU, при этом обеспечивает управление через IPMI и интеграцию в стойки дата-центра.

У Supermicro есть и другие модели — AS-531AW-TC и SYS-532AW-C. Они рассчитаны на работу с одним GPU NVIDIA RTX PRO 6000 мощностью 600 Вт или с несколькими версиями по 300 Вт, например в конфигурации Max-Q.

Заключение

Если вы верите в ИИ и используете новые инструменты ежедневно, то идея о том, что ИИ станет частью большинства рабочих процессов, очевидна. Мы показали множество GPU, их сценарии и способы развертывания. ИИ не ограничится крупными AI-фабриками. Требования к задержкам, особенности процессов, безопасность данных и предпочтения в развёртывании сделают GPU стандартом для большинства серверов в будущем.

Мы часто говорим о крупных AI-кластерах, но уже видно: с развитием ИИ GPU устанавливают во всё больше серверов разных форм-факторов. С появлением новых GPU, сетевых технологий и архитектур сценарии использования и развертывания будут меняться. Этот обзор поможет понять типичные варианты и актуальные решения на сегодняшний день.

Источник