Обзор графического процессора NVIDIA L4 – вывод с низким энергопотреблением

Дата публикации: 19 июля 2024

В непрекращающемся потоке инноваций современного мира ИИ критически важно измерять и понимать возможности различных аппаратных платформ. Не все ИИ требуют огромных обучающих ферм GPU, есть важный сегмент вывода ИИ, который часто требует меньшей мощности GPU, особенно на периферии. В этом обзоре мы рассмотрим несколько графических процессоров NVIDIA L4 на трех разных серверах Dell и различные рабочие нагрузки, включая MLperf, чтобы увидеть, как L4 справляется.

Графический процессор NVIDIA L4

В своей основе L4 обеспечивает впечатляющие 30,3 терафлопс производительности FP32, что идеально подходит для высокоточных вычислительных задач. Его мастерство распространяется на вычисления смешанной точности с тензорными ядрами TF32, FP16 и BFLOAT16, что имеет решающее значение для эффективности глубокого обучения; в спецификации L4 указана производительность от 60 до 121 терафлопс.

В задачах с низкой точностью L4 блистает с 242,5 терафлопс в ядрах FP8 и INT8 Tensor, улучшая вывод нейронных сетей. Его 24 ГБ памяти GDDR6, дополненные пропускной способностью 300 ГБ/с, позволяют ему обрабатывать большие наборы данных и сложные модели. Энергоэффективность L4 — вот что здесь наиболее заметно, с 72 Вт TDP, что делает его пригодным для различных вычислительных сред. Такое сочетание высокой производительности, эффективности памяти и низкого энергопотребления делает NVIDIA L4 убедительным выбором для задач периферийных вычислений.

Технические характеристики NVIDIA L4
FP 32	30,3 терафлопс
TF32 Тензорное ядро	60 терафлопс
FP16 Тензорное ядро	121 терафлопс
BFLOAT16 Тензорное ядро	121 терафлопс
FP8 Тензорное ядро	242,5 терафлопс
INT8 Тензорное ядро	242.5 ТОП
Память графического процессора	24 ГБ GDDR6
Пропускная способность памяти графического процессора	300ГБ/с
Максимальная тепловая мощность (TDP)	72 Вт
Фактор формы	1-слотовый низкопрофильный PCIe
Интерконнект	PCIe Gen4 x16
Spec Chart	L4

Конечно, учитывая, что цена L4 составляет около 2500 долларов, графический адаптер NVIDIA A2 стоит примерно в два раза меньше, а устаревший (но все еще довольно производительный) графический адаптер NVIDIA T4 можно приобрести менее чем за 1000 долларов, возникает очевидный вопрос: в чем разница между этими тремя графическими процессорами для вывода?

Технические характеристики NVIDIA L4, A2 и T4	NVIDIA L4	NVIDIA А2	NVIDIA T4
FP 32	30,3 терафлопс	4,5 терафлопс	8,1 терафлопс
TF32 Тензорное ядро	60 терафлопс	9 терафлопс	Н/Д
FP16 Тензорное ядро	121 терафлопс	18 терафлопс	Н/Д
BFLOAT16 Тензорное ядро	121 терафлопс	18 терафлопс	Н/Д
FP8 Тензорное ядро	242,5 терафлопс	Н/Д	Н/Д
INT8 Тензорное ядро	242.5 ТОП	36 ТОП	130 ТОП
Память графического процессора	24 ГБ GDDR6	16 ГБ GDDR6	16 ГБ GDDR6
Пропускная способность памяти графического процессора	300ГБ/с	200ГБ/с	320+ ГБ/с
Максимальная тепловая мощность (TDP)	72 Вт	40-60 Вт	70 Вт
Фактор формы	1-слотовый низкопрофильный PCIe	1-слотовый низкопрофильный PCIe	1-слотовый низкопрофильный PCIe
Интерконнект	PCIe Gen4 x16	PCIe Gen4 x8	PCIe Gen3 x16
Spec Chart	L4	A2	T4

При рассмотрении этих трех карт следует понимать, что они не являются точной заменой поколений один к одному, что объясняет, почему T4 по-прежнему остается популярным выбором для некоторых вариантов использования много лет спустя. A2 вышла в качестве замены T4 как маломощная и более совместимая (x8 против x16 механически) опция. Технически, L4 является заменой T4, а A2 занимает промежуточное положение, которое может быть обновлено или нет в какой-то момент в будущем.

Производительность MLPerf Inference 3.1

MLPerf — это консорциум лидеров ИИ из академических, исследовательских и промышленных кругов, созданный для предоставления справедливых и релевантных бенчмарков оборудования и программного обеспечения ИИ. Эти бенчмарки предназначены для измерения производительности оборудования, программного обеспечения и сервисов машинного обучения в различных задачах и сценариях.

Наши тесты сосредоточены на двух конкретных тестах MLPerf: Resnet50 и BERT.

Resnet50: Это сверточная нейронная сеть, используемая в основном для классификации изображений. Это хороший показатель того, насколько хорошо система может справляться с задачами глубокого обучения, связанными с обработкой изображений.
BERT (представления двунаправленного кодера от преобразователей): этот тест фокусируется на задачах обработки естественного языка, предлагая информацию о том, как система понимает и обрабатывает человеческий язык.

Оба эти теста имеют решающее значение для оценки возможностей аппаратного обеспечения ИИ в реальных сценариях, связанных с обработкой изображений и языка.

Оценка NVIDIA L4 с помощью этих тестов имеет решающее значение для понимания возможностей графического процессора L4 в конкретных задачах ИИ. Это также дает представление о том, как различные конфигурации (одиночные, двойные и счетверенные установки) влияют на производительность. Эта информация жизненно важна для профессионалов и организаций, стремящихся оптимизировать свою инфраструктуру ИИ.

Модели работают в двух основных режимах: сервер и автономный режим.

Офлайн-режим: этот режим измеряет производительность системы, когда все данные доступны для обработки одновременно. Это похоже на пакетную обработку, когда система обрабатывает большой набор данных в одном пакете. Офлайн-режим имеет решающее значение для сценариев, где задержка не является основной проблемой, но пропускная способность и эффективность важны.
Режим сервера: Напротив, режим сервера оценивает производительность системы в сценарии, имитирующем реальную серверную среду, где запросы поступают по одному. Этот режим чувствителен к задержке, измеряя, насколько быстро система может ответить на каждый запрос. Он необходим для приложений реального времени, таких как веб-серверы или интерактивные приложения, где требуется немедленный ответ.

1 x NVIDIA L4 – Dell PowerEdge XR7620

В рамках нашего недавнего обзора Dell PowerEdge XR7620, оснащенного одной видеокартой NVIDIA L4, мы запустили на нем несколько задач, включая MLPerf.

Конфигурация нашей тестовой системы включала следующие компоненты:

2 x Xeon Gold 6426Y – 16 ядер 2,5 ГГц
1 х NVIDIA L4
8 x 16 ГБ DDR5
480 ГБ BOSS RAID1
Ubuntu-сервер 22.04
Драйвер NVIDIA 535

Dell PowerEdge XR7620 1x NVIDIA L4	Счет
Resnet50 – Сервер	12,204.40
Resnet50 – Оффлайн	13,010.20
BERT K99 – Сервер	898.945
BERT К99 – Оффлайн	973.435

Производительность Resnet50 и BERT K99 в серверных и автономных сценариях практически одинакова, что свидетельствует о том, что L4 поддерживает стабильную производительность на разных моделях серверов.

1, 2 и 4 NVIDIA L4 – Dell PowerEdge T560

Конфигурация нашего обзорного блока включала следующие компоненты:

2 x Intel Xeon Gold 6448Y (32 ядра/64 потока каждый, TDP 225 Вт, 2,1–4,1 ГГц)
8 x 1,6 ТБ SSD-накопителей Solidigm P5520 с картой RAID PERC 12
1-4x графических процессора NVIDIA L4
8 x 64 ГБ RDIMM
Ubuntu-сервер 22.04
Драйвер NVIDIA 535

Возвращаясь к центру обработки данных с периферии и используя универсальный сервер Dell T560 Tower, мы отметили, что L4 работает так же хорошо в тесте с одним GPU. Это показывает, что обе платформы могут обеспечить надежную основу для L4 без узких мест.

Dell PowerEdge T560 1x NVIDIA L4	Счет
Resnet50 – Сервер	12,204.40
Resnet50 – Оффлайн	12,872.10
BERT K99 – Сервер	898.945
BERT К99 – Оффлайн	945.146

В наших тестах с двумя L4 в Dell T560 мы наблюдали это почти линейное масштабирование производительности для обоих тестов Resnet50 и BERT K99. Это масштабирование является свидетельством эффективности графических процессоров L4 и их способности работать в тандеме без существенных потерь из-за накладных расходов или неэффективности.

Dell PowerEdge T560 2x NVIDIA L4	Счет
Resnet50 – Сервер	24,407.50
Resnet50 – Оффлайн	25,463.20
BERT K99 – Сервер	1,801.28
BERT К99 – Оффлайн	1,904.10

Последовательное линейное масштабирование, которое мы наблюдали с двумя графическими процессорами NVIDIA L4, впечатляюще распространяется на конфигурации с четырьмя блоками L4. Это масштабирование особенно примечательно, поскольку поддержание линейного прироста производительности становится все более сложной задачей с каждым добавленным графическим процессором из-за сложностей параллельной обработки и управления ресурсами.

Dell PowerEdge T560 4x NVIDIA L4	Счет
Resnet50 – Сервер	48,818.30
Resnet50 – Оффлайн	51,381.70
BERT K99 – Сервер	3,604.96
BERT К99 – Оффлайн	3,821.46

Эти результаты приведены только для иллюстративных целей, а не для конкурентных или официальных результатов MLPerf. Для полного списка официальных результатов посетите страницу результатов MLPerf.

Помимо проверки линейной масштабируемости графических процессоров NVIDIA L4, наши тесты в лаборатории проливают свет на практические последствия развертывания этих блоков в различных рабочих сценариях. Например, согласованность производительности между серверными и автономными режимами во всех конфигурациях с графическими процессорами L4 показывает их надежность и универсальность.

Этот аспект особенно актуален для предприятий и исследовательских институтов, где операционные контексты значительно различаются. Кроме того, наши наблюдения за минимальным влиянием узких мест в межсоединении и эффективностью синхронизации GPU в многопроцессорных конфигурациях предоставляют ценную информацию для тех, кто хочет масштабировать свою инфраструктуру ИИ. Эта информация выходит за рамки простых контрольных цифр, предлагая более глубокое понимание того, как такое оборудование может быть оптимально использовано в реальных сценариях, направляя лучшие архитектурные решения и инвестиционные стратегии в инфраструктуру ИИ и HPC.

NVIDIA L4 – производительность приложений

Мы сравнили производительность новой NVIDIA L4 с NVIDIA A2 и NVIDIA T4, которые были до нее. Чтобы продемонстрировать это повышение производительности по сравнению с предыдущими моделями, мы развернули все три модели на сервере в нашей лаборатории с Windows Server 2022 и последними драйверами NVIDIA, используя весь наш тестовый набор GPU.

Эти карты были протестированы на Dell Poweredge R760 со следующей конфигурацией:

2 x Intel Xeon Gold 6430 (32 ядра, 2,1 ГГц)
Windows Server 2022
Драйвер NVIDIA 538.15
ECC отключен на всех картах для 1x выборки

Начиная тестирование производительности между этой группой из трех корпоративных графических процессоров, важно отметить уникальные различия в производительности между более ранними моделями A2 и T4. Когда A2 был выпущен, он предлагал некоторые заметные улучшения, такие как более низкое энергопотребление и работу на меньшем слоте PCIe Gen4 x8, вместо большего слота PCIe Gen3 x16, который требовался старому T4. С самого начала это позволило вставить его в большее количество систем, особенно с учетом требуемого меньшего размера.

Blender OptiX 4.0

Blender OptiX — это приложение для 3D-моделирования с открытым исходным кодом. Этот тест можно запустить как для CPU, так и для GPU, но мы провели только GPU, как и большинство других тестов здесь. Этот бенчмарк был запущен с помощью утилиты Blender Benchmark CLI. Результат — это количество выборок в минуту, чем выше, тем лучше.

Blender 4.0 (чем выше, тем лучше)	NVIDIA L4	NVIDIA А2	NVIDIA T4
GPU Blender CLI – Monster	2,207.765	458.692	850.076
GPU Blender CLI – Junkshop	1,127.829	292.553	517.243
GPU Blender CLI – Classroom	1,111.753	262.387	478.786

Тест скорости Blackmagic RAW

Мы тестируем ЦП и ГП с помощью Blackmagic's RAW Speed Test, который проверяет скорость воспроизведения видео. Это скорее гибридный тест, который включает производительность ЦП и ГП для реального декодирования RAW. Они отображаются как отдельные результаты, но мы здесь фокусируемся только на ГП, поэтому результаты ЦП опущены.

Тест скорости Blackmagic RAW (чем выше, тем лучше)	NVIDIA L4	NVIDIA А2	NVIDIA T4
8К CUDA	95 кадров в секунду	38 кадров в секунду	53 кадра в секунду

Cinebench 2024

Maxon's Cinebench 2024 — это тест рендеринга CPU и GPU, который использует все ядра и потоки CPU. Опять же, поскольку мы сосредоточены на результатах GPU, мы не запускали части теста CPU. Более высокие баллы — лучше.

Cinebench 2024 (чем выше, тем лучше)	NVIDIA L4	NVIDIA А2	NVIDIA T4
GPU	15,263	4,006	5,644

GPUPI

GPUPI 3.3.3 — это версия облегченной утилиты для бенчмаркинга, разработанной для вычисления числа π (пи) до миллиардов десятичных знаков с использованием аппаратного ускорения через графические процессоры и центральные процессоры. Она использует вычислительную мощность OpenCL и CUDA, которая включает как центральные, так и графические процессоры. Мы запустили только CUDA на всех 3 графических процессорах, и приведенные здесь числа — это время расчета без учета времени редукции. Чем меньше, тем лучше.

Время расчета PI графического процессора в секундах (чем меньше, тем лучше)	NVIDIA L4	NVIDIA А2	NVIDIA T4
GPUPI v3.3 – 1B	3.732с	19.799с	7.504с
GPUPI v3.3 – 32B	244.380с	1,210.801с	486.231с

В то время как предыдущие результаты касались только одной итерации каждой карты, у нас также была возможность рассмотреть развертывание 5x NVIDIA L4 внутри Dell PowerEdge T560.

Время расчета PI графического процессора в секундах (чем меньше, тем лучше)	Dell PowerEdge T560 (2x Xeon Gold 6448Y) с 5x NVIDIA L4
GPUPI v3.3 – 1B	0сек 850мс
GPUPI v3.3 – 32B	50сек 361мс

Octanebench

OctaneBench — это утилита для тестирования производительности OctaneRender, еще одного 3D-рендерера с поддержкой RTX, аналогичного V-Ray.

Октановое число (чем выше, тем лучше)
Сцена	Ядро	NVIDIA L4	NVIDIA А2	NVIDIA T4
Interior	Информационные каналы	15.59	4.49	6.39
	Прямое освещение	50.85	14.32	21.76
	Трассировка пути	64.02	18.46	25.76
Idea	Информационные каналы	9.30	2.77	3.93
	Прямое освещение	39.34	11.53	16.79
	Трассировка пути	48.24	14.21	20.32
ATV	Информационные каналы	24.38	6.83	9.50
	Прямое освещение	54.86	16.05	21.98
	Трассировка пути	68.98	20.06	27.50
Box	Информационные каналы	12.89	3.88	5.42
	Прямое освещение	48.80	14.59	21.36
	Трассировка пути	54.56	16.51	23.85
Общий счет		491.83	143.71	204.56

Geekbench 6 GPU

Geekbench 6 — это кроссплатформенный бенчмарк, измеряющий общую производительность системы. Есть варианты тестирования как для CPU, так и для GPU. Чем выше баллы, тем лучше. Опять же, мы смотрели только на результаты GPU.

Сравнение с любой системой можно найти в браузере Geekbench.

Geekbench 6.1.0 (чем выше, тем лучше)	NVIDIA L4	NVIDIA А2	NVIDIA T4
Geekbench GPU OpenCL	156,224	35,835	35,835

LuxMark

LuxMark — это кроссплатформенный инструмент для бенчмаркинга OpenCL от тех, кто поддерживает движок 3D-рендеринга с открытым исходным кодом LuxRender. Этот инструмент проверяет производительность графического процессора в 3D-моделировании, освещении и работе с видео. Для этого обзора мы использовали новейшую версию v4alpha0. В LuxMark чем выше, тем лучше, когда дело касается оценки.

Графические процессоры Luxmark v4.0alpha0 OpenCL (чем выше, тем лучше)	NVIDIA L4	NVIDIA А2	NVIDIA T4
Hall Bench	14,328	3,759	5,893
Food Bench	5,330	1,258	2,033

GROMACS CUDA

Мы также скомпилировали GROMACS, программное обеспечение молекулярной динамики, специально для CUDA. Эта индивидуальная компиляция должна была использовать возможности параллельной обработки 5 графических процессоров NVIDIA L4, необходимые для ускорения вычислительных симуляций.

Процесс включал использование nvcc, компилятора CUDA от NVIDIA, а также множество итераций соответствующих флагов оптимизации для обеспечения правильной настройки двоичных файлов под архитектуру сервера. Включение поддержки CUDA в компиляцию GROMACS позволяет программному обеспечению напрямую взаимодействовать с оборудованием GPU, что может радикально улучшить время вычислений для сложных симуляций.

Тест: индивидуальное взаимодействие в Gromacs

Используя предоставленный сообществом входной файл из нашего разнообразного Discord, который содержал параметры и структуры, адаптированные для конкретного исследования взаимодействия белков, мы инициировали моделирование молекулярной динамики. Результаты были замечательными — система достигла скорости моделирования 170,268 наносекунд в день.

GPU	Система	ns/день	основное время (с)
NVIDIA A4000	Whitebox AMD Ryzen 5950x	84.415	163,763
RTX NVIDIA 4070	Whitebox AMD Ryzen 7950x3d	131.85	209,692.3
5x NVIDIA L4	Dell T560 w/ 2x Intel Xeon Gold 6448Y	170.268	608,912.7

Больше, чем ИИ

С шумихой вокруг искусственного интеллекта легко увязнуть в производительности моделей на NVIDIA L4, но у него также есть несколько других трюков в рукаве, открывающих целый мир возможностей для видеоприложений. Он может принимать до 1040 одновременных видеопотоков AV1 в 720p30. Это может трансформировать способ потоковой передачи контента в прямом эфире для пользователей Edge, улучшить креативное повествование и представить интересные применения для захватывающих впечатлений от дополненной и виртуальной реальности.

NVIDIA L4 также выделяется в оптимизации графической производительности, что очевидно по его возможностям в рендеринге в реальном времени и трассировке лучей. В периферийном офисе L4 способен обеспечить надежное и мощное ускорение графических вычислений в VDI для конечных пользователей, которым это больше всего нужно, где необходим высококачественный рендеринг графики в реальном времени.

Заключение

Графический процессор NVIDIA L4 обеспечивает надежную платформу для ИИ на периферии и высокопроизводительных вычислений, предлагая непревзойденную эффективность и универсальность в нескольких приложениях. Его способность обрабатывать интенсивные ИИ, ускорение или видеоконвейеры и оптимизировать производительность графики делает его идеальным выбором для периферийного вывода или ускорения виртуального рабочего стола. Сочетание высокой вычислительной мощности, расширенных возможностей памяти и энергоэффективности L4 позиционирует его как ключевого игрока в ускорении рабочих нагрузок на периферии, особенно в отраслях с интенсивным использованием ИИ и графики.

Нет сомнений, что ИИ — это глаз ИТ-урагана в наши дни, и спрос на монструозные графические процессоры H100/H200 продолжает зашкаливать. Но также есть и серьезный толчок, чтобы получить более надежный набор ИТ-комплекта для периферии, где данные создаются и анализируются. В этих случаях требуется более подходящий графический процессор. Здесь NVIDIA L4 превосходит все и должен быть опцией по умолчанию для периферийного вывода, либо как единое устройство, либо масштабируемым вместе, как мы тестировали в T560.

Источник: StorageReview

Внимание!

Внимание

Поиск по сайту

Обзор графического процессора NVIDIA L4 – вывод с низким энергопотреблением

Графический процессор NVIDIA L4