#NVFP4

The Lab · 2026-05-09 15:31:43 · Habr

1. NVIDIA DGX Spark: NVFP4 в vLLM сломан на уровне архитектуры, реальная производительность далека от заявленного петафлопа

NVIDIA продаёт DGX Spark под лозунгом «один петафлоп на FP4», но реальный инференс выдаёт 40 токенов в секунду на 35B MoE-модели — цифра, которая после маркетинговых обещаний выглядит удручающе. Причина кроется не в пользовательской ошибке, а в фундаментальной несовместимости: NVFP4 в основной ветке vLLM и FlashInfer ф...

#DGX Spark #vLLM #NVFP4 #Blackwell #инференс

Latest Signals (1)

1. NVIDIA DGX Spark: NVFP4 в vLLM сломан на уровне архитектуры, реальная производительность далека от заявленного петафлопа