Как я запустил 30-миллиардную модель Nemotron-Cascade-2 на домашней RTX 3090: тест для кодинга и науки
Запуск 30-миллиардной языковой модели на одной видеокарте для потребителя — это вызов. Пользователь Habr проверил, может ли мощная модель Nemotron-Cascade-2 стать полноценным локальным ассистентом для программирования и научных задач на домашнем железе. Ключевой вопрос: способна ли такая архитектура работать эффективно в условиях ограниченной видеопамяти, или это удел серверных стоек.
Тестирование проводилось на нестандартном, но доступном сетапе: мини-ПК NUC с 64 ГБ ОЗУ и видеокартой NVIDIA RTX 3090 (24 ГБ) через интерфейс Thunderbolt под управлением Windows 11 и WSL2. Цель была практической — найти модель для повседневной работы: от быстрого написания скриптов для инфраструктуры Proxmox и объяснения сложных научных терминов до извлечения данных из документов с помощью RAG (Retrieval-Augmented Generation). Выбор пал на Nemotron-Cascade-2, модель с каскадной архитектурой, которая теоретически должна лучше справляться с распределением нагрузки между памятью и вычислительными ядрами.
Успешный запуск такой модели на потребительском GPU сигнализирует о сдвиге в доступности больших AI-моделей. Это снижает порог входа для разработчиков и исследователей, которым нужны мощные локальные инструменты без аренды облачных ресурсов. Однако тест ставит под сомнение необходимость гнаться за самыми большими параметрами для всех задач, предлагая оценить компромисс между размером модели, скоростью ответа и качеством результатов в конкретных сценариях использования.