В непрекращающемся потоке инноваций современного мира ИИ критически важно измерять и понимать возможности различных аппаратных платформ. Не все ИИ требуют огромных обучающих ферм GPU, есть важный сегмент вывода ИИ, который часто требует меньшей мощности GPU, особенно на периферии. В этом обзоре мы рассмотрим несколько графических процессоров NVIDIA L4 на трех разных серверах Dell и различные рабочие нагрузки, включая MLperf, чтобы увидеть, как L4 справляется.
Графический процессор NVIDIA L4
В своей основе L4 обеспечивает впечатляющие 30,3 терафлопс производительности FP32, что идеально подходит для высокоточных вычислительных задач. Его мастерство распространяется на вычисления смешанной точности с тензорными ядрами TF32, FP16 и BFLOAT16, что имеет решающее значение для эффективности глубокого обучения; в спецификации L4 указана производительность от 60 до 121 терафлопс.
В задачах с низкой точностью L4 блистает с 242,5 терафлопс в ядрах FP8 и INT8 Tensor, улучшая вывод нейронных сетей. Его 24 ГБ памяти GDDR6, дополненные пропускной способностью 300 ГБ/с, позволяют ему обрабатывать большие наборы данных и сложные модели. Энергоэффективность L4 — вот что здесь наиболее заметно, с 72 Вт TDP, что делает его пригодным для различных вычислительных сред. Такое сочетание высокой производительности, эффективности памяти и низкого энергопотребления делает NVIDIA L4 убедительным выбором для задач периферийных вычислений.
Технические характеристики NVIDIA L4 | |
---|---|
FP 32 | 30,3 терафлопс |
TF32 Тензорное ядро | 60 терафлопс |
FP16 Тензорное ядро | 121 терафлопс |
BFLOAT16 Тензорное ядро | 121 терафлопс |
FP8 Тензорное ядро | 242,5 терафлопс |
INT8 Тензорное ядро | 242.5 ТОП |
Память графического процессора | 24 ГБ GDDR6 |
Пропускная способность памяти графического процессора | 300ГБ/с |
Максимальная тепловая мощность (TDP) | 72 Вт |
Фактор формы | 1-слотовый низкопрофильный PCIe |
Интерконнект | PCIe Gen4 x16 |
Spec Chart | L4 |
Конечно, учитывая, что цена L4 составляет около 2500 долларов, графический адаптер NVIDIA A2 стоит примерно в два раза меньше, а устаревший (но все еще довольно производительный) графический адаптер NVIDIA T4 можно приобрести менее чем за 1000 долларов, возникает очевидный вопрос: в чем разница между этими тремя графическими процессорами для вывода?
Технические характеристики NVIDIA L4, A2 и T4 | NVIDIA L4 | NVIDIA А2 | NVIDIA T4 |
---|---|---|---|
FP 32 | 30,3 терафлопс | 4,5 терафлопс | 8,1 терафлопс |
TF32 Тензорное ядро | 60 терафлопс | 9 терафлопс | Н/Д |
FP16 Тензорное ядро | 121 терафлопс | 18 терафлопс | Н/Д |
BFLOAT16 Тензорное ядро | 121 терафлопс | 18 терафлопс | Н/Д |
FP8 Тензорное ядро | 242,5 терафлопс | Н/Д | Н/Д |
INT8 Тензорное ядро | 242.5 ТОП | 36 ТОП | 130 ТОП |
Память графического процессора | 24 ГБ GDDR6 | 16 ГБ GDDR6 | 16 ГБ GDDR6 |
Пропускная способность памяти графического процессора | 300ГБ/с | 200ГБ/с | 320+ ГБ/с |
Максимальная тепловая мощность (TDP) | 72 Вт | 40-60 Вт | 70 Вт |
Фактор формы | 1-слотовый низкопрофильный PCIe | 1-слотовый низкопрофильный PCIe | 1-слотовый низкопрофильный PCIe |
Интерконнект | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
Spec Chart | L4 | A2 | T4 |
При рассмотрении этих трех карт следует понимать, что они не являются точной заменой поколений один к одному, что объясняет, почему T4 по-прежнему остается популярным выбором для некоторых вариантов использования много лет спустя. A2 вышла в качестве замены T4 как маломощная и более совместимая (x8 против x16 механически) опция. Технически, L4 является заменой T4, а A2 занимает промежуточное положение, которое может быть обновлено или нет в какой-то момент в будущем.
MLPerf Inference 3.1 Производительность
MLPerf — это консорциум лидеров ИИ из академических, исследовательских и промышленных кругов, созданный для предоставления справедливых и релевантных бенчмарков оборудования и программного обеспечения ИИ. Эти бенчмарки предназначены для измерения производительности оборудования, программного обеспечения и сервисов машинного обучения в различных задачах и сценариях.
Наши тесты сосредоточены на двух конкретных тестах MLPerf: Resnet50 и BERT.
- Resnet50: Это сверточная нейронная сеть, используемая в основном для классификации изображений. Это хороший показатель того, насколько хорошо система может справляться с задачами глубокого обучения, связанными с обработкой изображений.
- BERT (представления двунаправленного кодера от преобразователей): этот тест фокусируется на задачах обработки естественного языка, предлагая информацию о том, как система понимает и обрабатывает человеческий язык.
Оба эти теста имеют решающее значение для оценки возможностей аппаратного обеспечения ИИ в реальных сценариях, связанных с обработкой изображений и языка.
Оценка NVIDIA L4 с помощью этих тестов имеет решающее значение для понимания возможностей графического процессора L4 в конкретных задачах ИИ. Это также дает представление о том, как различные конфигурации (одиночные, двойные и счетверенные установки) влияют на производительность. Эта информация жизненно важна для профессионалов и организаций, стремящихся оптимизировать свою инфраструктуру ИИ.
Модели работают в двух основных режимах: сервер и автономный режим.
- Офлайн-режим: этот режим измеряет производительность системы, когда все данные доступны для обработки одновременно. Это похоже на пакетную обработку, когда система обрабатывает большой набор данных в одном пакете. Офлайн-режим имеет решающее значение для сценариев, где задержка не является основной проблемой, но пропускная способность и эффективность важны.
- Режим сервера: Напротив, режим сервера оценивает производительность системы в сценарии, имитирующем реальную серверную среду, где запросы поступают по одному. Этот режим чувствителен к задержке, измеряя, насколько быстро система может ответить на каждый запрос. Он необходим для приложений реального времени, таких как веб-серверы или интерактивные приложения, где требуется немедленный ответ.
1 x NVIDIA L4 – Dell PowerEdge XR7620
В рамках нашего недавнего обзора Dell PowerEdge XR7620, оснащенного одной видеокартой NVIDIA L4, мы запустили на нем несколько задач, включая MLPerf.
Конфигурация нашей тестовой системы включала следующие компоненты:
- 2 x Xeon Gold 6426Y – 16 ядер 2,5 ГГц
- 1 х NVIDIA L4
- 8 x 16 ГБ DDR5
- 480 ГБ BOSS RAID1
- Ubuntu-сервер 22.04
- Драйвер NVIDIA 535
Dell PowerEdge XR7620 1x NVIDIA L4 | Счет |
---|---|
Resnet50 – Сервер | 12,204.40 |
Resnet50 – Оффлайн | 13,010.20 |
BERT K99 – Сервер | 898.945 |
BERT К99 – Оффлайн | 973.435 |
Производительность Resnet50 и BERT K99 в серверных и автономных сценариях практически одинакова, что свидетельствует о том, что L4 поддерживает стабильную производительность на разных моделях серверов.
1, 2 и 4 NVIDIA L4 – Dell PowerEdge T560
Конфигурация нашего обзорного блока включала следующие компоненты:
- 2 x Intel Xeon Gold 6448Y (32 ядра/64 потока каждый, TDP 225 Вт, 2,1–4,1 ГГц)
- 8 x 1,6 ТБ SSD-накопителей Solidigm P5520 с картой RAID PERC 12
- 1-4x графических процессора NVIDIA L4
- 8 x 64 ГБ RDIMM
- Ubuntu-сервер 22.04
- Драйвер NVIDIA 535
Возвращаясь к центру обработки данных с периферии и используя универсальный сервер Dell T560 Tower, мы отметили, что L4 работает так же хорошо в тесте с одним GPU. Это показывает, что обе платформы могут обеспечить надежную основу для L4 без узких мест.
Dell PowerEdge T560 1x NVIDIA L4 | Счет |
---|---|
Resnet50 – Сервер | 12,204.40 |
Resnet50 – Оффлайн | 12,872.10 |
BERT K99 – Сервер | 898.945 |
BERT К99 – Оффлайн | 945.146 |
В наших тестах с двумя L4 в Dell T560 мы наблюдали это почти линейное масштабирование производительности для обоих тестов Resnet50 и BERT K99. Это масштабирование является свидетельством эффективности графических процессоров L4 и их способности работать в тандеме без существенных потерь из-за накладных расходов или неэффективности.
Dell PowerEdge T560 2x NVIDIA L4 | Счет |
---|---|
Resnet50 – Сервер | 24,407.50 |
Resnet50 – Оффлайн | 25,463.20 |
BERT K99 – Сервер | 1,801.28 |
BERT К99 – Оффлайн | 1,904.10 |
Последовательное линейное масштабирование, которое мы наблюдали с двумя графическими процессорами NVIDIA L4, впечатляюще распространяется на конфигурации с четырьмя блоками L4. Это масштабирование особенно примечательно, поскольку поддержание линейного прироста производительности становится все более сложной задачей с каждым добавленным графическим процессором из-за сложностей параллельной обработки и управления ресурсами.
Dell PowerEdge T560 4x NVIDIA L4 | Счет |
---|---|
Resnet50 – Сервер | 48,818.30 |
Resnet50 – Оффлайн | 51,381.70 |
BERT K99 – Сервер | 3,604.96 |
BERT К99 – Оффлайн | 3,821.46 |
Эти результаты приведены только для иллюстративных целей, а не для конкурентных или официальных результатов MLPerf. Для полного списка официальных результатов посетите страницу результатов MLPerf.
Помимо проверки линейной масштабируемости графических процессоров NVIDIA L4, наши тесты в лаборатории проливают свет на практические последствия развертывания этих блоков в различных рабочих сценариях. Например, согласованность производительности между серверными и автономными режимами во всех конфигурациях с графическими процессорами L4 показывает их надежность и универсальность.
Этот аспект особенно актуален для предприятий и исследовательских институтов, где операционные контексты значительно различаются. Кроме того, наши наблюдения за минимальным влиянием узких мест в межсоединении и эффективностью синхронизации GPU в многопроцессорных конфигурациях предоставляют ценную информацию для тех, кто хочет масштабировать свою инфраструктуру ИИ. Эта информация выходит за рамки простых контрольных цифр, предлагая более глубокое понимание того, как такое оборудование может быть оптимально использовано в реальных сценариях, направляя лучшие архитектурные решения и инвестиционные стратегии в инфраструктуру ИИ и HPC.
NVIDIA L4 – производительность приложений
Мы сравнили производительность новой NVIDIA L4 с NVIDIA A2 и NVIDIA T4, которые были до нее. Чтобы продемонстрировать это повышение производительности по сравнению с предыдущими моделями, мы развернули все три модели на сервере в нашей лаборатории с Windows Server 2022 и последними драйверами NVIDIA, используя весь наш тестовый набор GPU.
Эти карты были протестированы на Dell Poweredge R760 со следующей конфигурацией:
- 2 x Intel Xeon Gold 6430 (32 ядра, 2,1 ГГц)
- Windows Server 2022
- Драйвер NVIDIA 538.15
- ECC отключен на всех картах для 1x выборки
Начиная тестирование производительности между этой группой из трех корпоративных графических процессоров, важно отметить уникальные различия в производительности между более ранними моделями A2 и T4. Когда A2 был выпущен, он предлагал некоторые заметные улучшения, такие как более низкое энергопотребление и работу на меньшем слоте PCIe Gen4 x8, вместо большего слота PCIe Gen3 x16, который требовался старому T4. С самого начала это позволило вставить его в большее количество систем, особенно с учетом требуемого меньшего размера.
Blender OptiX 4.0
Blender OptiX — это приложение для 3D-моделирования с открытым исходным кодом. Этот тест можно запустить как для CPU, так и для GPU, но мы провели только GPU, как и большинство других тестов здесь. Этот бенчмарк был запущен с помощью утилиты Blender Benchmark CLI. Результат — это количество выборок в минуту, чем выше, тем лучше.
Blender 4.0 (чем выше, тем лучше) | NVIDIA L4 | NVIDIA А2 | NVIDIA T4 |
---|---|---|---|
GPU Blender CLI – Monster | 2,207.765 | 458.692 | 850.076 |
GPU Blender CLI – Junkshop | 1,127.829 | 292.553 | 517.243 |
GPU Blender CLI – Classroom | 1,111.753 | 262.387 | 478.786 |
Тест скорости Blackmagic RAW
Мы тестируем ЦП и ГП с помощью Blackmagic's RAW Speed Test, который проверяет скорость воспроизведения видео. Это скорее гибридный тест, который включает производительность ЦП и ГП для реального декодирования RAW. Они отображаются как отдельные результаты, но мы здесь фокусируемся только на ГП, поэтому результаты ЦП опущены.
Тест скорости Blackmagic RAW (чем выше, тем лучше) | NVIDIA L4 | NVIDIA А2 | NVIDIA T4 |
---|---|---|---|
8К CUDA | 95 кадров в секунду | 38 кадров в секунду | 53 кадра в секунду |
Cinebench 2024
Maxon's Cinebench 2024 — это тест рендеринга CPU и GPU, который использует все ядра и потоки CPU. Опять же, поскольку мы сосредоточены на результатах GPU, мы не запускали части теста CPU. Более высокие баллы — лучше.
Cinebench 2024 (чем выше, тем лучше) | NVIDIA L4 | NVIDIA А2 | NVIDIA T4 |
---|---|---|---|
GPU | 15,263 | 4,006 | 5,644 |
GPUPI
GPUPI 3.3.3 — это версия облегченной утилиты для бенчмаркинга, разработанной для вычисления числа π (пи) до миллиардов десятичных знаков с использованием аппаратного ускорения через графические процессоры и центральные процессоры. Она использует вычислительную мощность OpenCL и CUDA, которая включает как центральные, так и графические процессоры. Мы запустили только CUDA на всех 3 графических процессорах, и приведенные здесь числа — это время расчета без учета времени редукции. Чем меньше, тем лучше.
Время расчета PI графического процессора в секундах (чем меньше, тем лучше) | NVIDIA L4 | NVIDIA А2 | NVIDIA T4 |
---|---|---|---|
GPUPI v3.3 – 1B | 3.732с | 19.799с | 7.504с |
GPUPI v3.3 – 32B | 244.380с | 1,210.801с | 486.231с |
В то время как предыдущие результаты касались только одной итерации каждой карты, у нас также была возможность рассмотреть развертывание 5x NVIDIA L4 внутри Dell PowerEdge T560.
Время расчета PI графического процессора в секундах (чем меньше, тем лучше) | Dell PowerEdge T560 (2x Xeon Gold 6448Y) с 5x NVIDIA L4 |
---|---|
GPUPI v3.3 – 1B | 0сек 850мс |
GPUPI v3.3 – 32B | 50сек 361мс |
Octanebench
OctaneBench — это утилита для тестирования производительности OctaneRender, еще одного 3D-рендерера с поддержкой RTX, аналогичного V-Ray.
Октановое число (чем выше, тем лучше) | ||||
---|---|---|---|---|
Сцена | Ядро | NVIDIA L4 | NVIDIA А2 | NVIDIA T4 |
Interior | Информационные каналы | 15.59 | 4.49 | 6.39 |
Прямое освещение | 50.85 | 14.32 | 21.76 | |
Трассировка пути | 64.02 | 18.46 | 25.76 | |
Idea | Информационные каналы | 9.30 | 2.77 | 3.93 |
Прямое освещение | 39.34 | 11.53 | 16.79 | |
Трассировка пути | 48.24 | 14.21 | 20.32 | |
ATV | Информационные каналы | 24.38 | 6.83 | 9.50 |
Прямое освещение | 54.86 | 16.05 | 21.98 | |
Трассировка пути | 68.98 | 20.06 | 27.50 | |
Box | Информационные каналы | 12.89 | 3.88 | 5.42 |
Прямое освещение | 48.80 | 14.59 | 21.36 | |
Трассировка пути | 54.56 | 16.51 | 23.85 | |
Общий счет | 491.83 | 143.71 | 204.56 |
Geekbench 6 GPU
Geekbench 6 — это кроссплатформенный бенчмарк, измеряющий общую производительность системы. Есть варианты тестирования как для CPU, так и для GPU. Чем выше баллы, тем лучше. Опять же, мы смотрели только на результаты GPU.
Сравнение с любой системой можно найти в браузере Geekbench.
Geekbench 6.1.0 (чем выше, тем лучше) | NVIDIA L4 | NVIDIA А2 | NVIDIA T4 |
---|---|---|---|
Geekbench GPU OpenCL | 156,224 | 35,835 | 35,835 |
LuxMark
LuxMark — это кроссплатформенный инструмент для бенчмаркинга OpenCL от тех, кто поддерживает движок 3D-рендеринга с открытым исходным кодом LuxRender. Этот инструмент проверяет производительность графического процессора в 3D-моделировании, освещении и работе с видео. Для этого обзора мы использовали новейшую версию v4alpha0. В LuxMark чем выше, тем лучше, когда дело касается оценки.
Графические процессоры Luxmark v4.0alpha0 OpenCL (чем выше, тем лучше) | NVIDIA L4 | NVIDIA А2 | NVIDIA T4 |
---|---|---|---|
Hall Bench | 14,328 | 3,759 | 5,893 |
Food Bench | 5,330 | 1,258 | 2,033 |
GROMACS CUDA
Мы также скомпилировали GROMACS, программное обеспечение молекулярной динамики, специально для CUDA. Эта индивидуальная компиляция должна была использовать возможности параллельной обработки 5 графических процессоров NVIDIA L4, необходимые для ускорения вычислительных симуляций.
Процесс включал использование nvcc, компилятора CUDA от NVIDIA, а также множество итераций соответствующих флагов оптимизации для обеспечения правильной настройки двоичных файлов под архитектуру сервера. Включение поддержки CUDA в компиляцию GROMACS позволяет программному обеспечению напрямую взаимодействовать с оборудованием GPU, что может радикально улучшить время вычислений для сложных симуляций.
Тест: индивидуальное взаимодействие в Gromacs
Используя предоставленный сообществом входной файл из нашего разнообразного Discord, который содержал параметры и структуры, адаптированные для конкретного исследования взаимодействия белков, мы инициировали моделирование молекулярной динамики. Результаты были замечательными — система достигла скорости моделирования 170,268 наносекунд в день.
GPU | Система | ns/день | основное время (с) |
---|---|---|---|
NVIDIA A4000 | Whitebox AMD Ryzen 5950x | 84.415 | 163,763 |
RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131.85 | 209,692.3 |
5x NVIDIA L4 | Dell T560 w/ 2x Intel Xeon Gold 6448Y | 170.268 | 608,912.7 |
Больше, чем ИИ
С шумихой вокруг искусственного интеллекта легко увязнуть в производительности моделей на NVIDIA L4, но у него также есть несколько других трюков в рукаве, открывающих целый мир возможностей для видеоприложений. Он может принимать до 1040 одновременных видеопотоков AV1 в 720p30. Это может трансформировать способ потоковой передачи контента в прямом эфире для пользователей Edge, улучшить креативное повествование и представить интересные применения для захватывающих впечатлений от дополненной и виртуальной реальности.
NVIDIA L4 также выделяется в оптимизации графической производительности, что очевидно по его возможностям в рендеринге в реальном времени и трассировке лучей. В периферийном офисе L4 способен обеспечить надежное и мощное ускорение графических вычислений в VDI для конечных пользователей, которым это больше всего нужно, где необходим высококачественный рендеринг графики в реальном времени.
Заключительные мысли
Графический процессор NVIDIA L4 обеспечивает надежную платформу для ИИ на периферии и высокопроизводительных вычислений, предлагая непревзойденную эффективность и универсальность в нескольких приложениях. Его способность обрабатывать интенсивные ИИ, ускорение или видеоконвейеры и оптимизировать производительность графики делает его идеальным выбором для периферийного вывода или ускорения виртуального рабочего стола. Сочетание высокой вычислительной мощности, расширенных возможностей памяти и энергоэффективности L4 позиционирует его как ключевого игрока в ускорении рабочих нагрузок на периферии, особенно в отраслях с интенсивным использованием ИИ и графики.
Нет сомнений, что ИИ — это глаз ИТ-урагана в наши дни, и спрос на монструозные графические процессоры H100/H200 продолжает зашкаливать. Но также есть и серьезный толчок, чтобы получить более надежный набор ИТ-комплекта для периферии, где данные создаются и анализируются. В этих случаях требуется более подходящий графический процессор. Здесь NVIDIA L4 превосходит все и должен быть опцией по умолчанию для периферийного вывода, либо как единое устройство, либо масштабируемым вместе, как мы тестировали в T560.
Источник: StorageReview
Комментарии (0)
Новый комментарий
Новый комментарий отправлен на модерацию