1. NVIDIA DGX Spark: NVFP4 в vLLM сломан на уровне архитектуры, реальная производительность далека от заявленного петафлопа
NVIDIA продаёт DGX Spark под лозунгом «один петафлоп на FP4», но реальный инференс выдаёт 40 токенов в секунду на 35B MoE-модели — цифра, которая после маркетинговых обещаний выглядит удручающе. Причина кроется не в пользовательской ошибке, а в фундаментальной несовместимости: NVFP4 в основной ветке vLLM и FlashInfer ф...