Сколько vRAM нужно для обучения и инференса ИИ
НазадВ мире HPC и AI есть жесткое правило: если ваша модель не влезает в видеопамять (vRAM), производительность вашего GPU не имеет значения. Как только вычисления «вываливаются» в оперативную память (RAM) через шину PCIe, скорость падает в сотни раз.
Для коммерческого директора или CTO выбор железа — это баланс между «модель не запустилась» (OOM — Out Of Memory) и «мы переплатили 3 миллиона за память, которая простаивает».
Разберем, как рассчитать необходимый объем vRAM, где можно сэкономить через квантование, и когда 24 ГБ превращаются в тыкву.
Вес модели
Первое, что нужно понимать: Параметры модели — это не абстракция, это гигабайты.
В стандартном режиме (FP16, половинная точность) каждый параметр нейросети занимает 2 байта. Простая арифметика для популярных моделей (Llama 3, Mistral, Qwen):
- Модель 7B (7 млрд параметров): 7 × 2 = 14 ГБ vRAM
- Модель 13B: 13 × 2 = 26 ГБ vRAM
- Модель 70B: 70 × 2 = 140 ГБ vRAM
Вывод №1: На стандартной карте RTX 4090 (24 ГБ) вы «впритык» запускаете модель 13B в FP16. Модель 70B даже не загрузится.
Инференс и обучение - это две большие разницы
Потребление памяти зависит от задачи.
1. Инференс (Просто запуск)Вам нужно место под веса модели + «KV-кэш» (контекст диалога) + буфер для активаций.
- Запас: К "чистому весу" модели добавляйте 10-20% на контекстное окно.
Правило большого пальца: Для полноценного обучения (Full Fine-Tuning) требуемый объем vRAM = Вес модели × 4.
То есть для обучения Llama 7B (14 ГБ веса) вам потребуется около 50–60 ГБ vRAM. Одна карта на 24 ГБ или 48 ГБ эту задачу не вытянет.
Квантование: Как впихнуть невпихуемое
Если бюджет не позволяет купить сервер с 8x A100 (80GB), инженеры используют квантование — снижение точности весов с FP16 (16 бит) до INT8 (8 бит) или INT4 (4 бита).
- FP16 (Стандарт): 2 байта на параметр.
- INT8: 1 байт на параметр. (Потребление памяти падает в 2 раза).
- INT4: 0.5 байта на параметр. (Потребление падает в 4 раза).
Практический пример: Модель Llama-3-70B в стандарте требует 140 ГБ. В квантовании 4-bit (GGUF/AWQ) она займет около 40–42 ГБ.
Вывод №2: С квантованием INT4 вы можете запустить огромную модель 70B на одной карте RTX 6000 Ada (48 ГБ) или на двух RTX 4090 (24+24 ГБ). Качество ответов упадет незначительно, а экономия на железе — колоссальная.
Градации оборудования: Что покупать?
Исходя из задач, мы в Forsite делим сборки на три класса.
Уровень 1. «Песочница» (32 - 282 GB)- Решение: Forsite Devbox RackStation.
- Железо: RTX 5080 - RTX 5090 или RTX 6000 Ada - H200.
- Что может: Инференс моделей до 13B (FP16) или до 30-40B (INT4). LoRA-обучение маленьких моделей.
- Ограничение: Нельзя объединить память двух карт в один пул без потерь (нет NVLink).
- Решение: Forsite Devbox AI.
- Железо: RTX 5080 - RTX 5090 или RTX 6000 Ada - H200
- Что может: Инференс тяжелых моделей (70B в 4-бит). Полноценное обучение моделей 7B-13B.
- Особенность: Критически важна плотность памяти на один слот.
- Решение: Сервер высокой плотности Devbox Scale (страница в разработке)
- Железо: RTX 5090 32GB или RTX PRO 6000 Blackwell 96GB (Кластеры из 4-х или 8-ми GPU)
- Проблема: В обычных корпусах узким местом становится процессор (CPU Bottleneck).
- Технология: Мы используем P2P (Peer-to-Peer). Карты обмениваются данными напрямую. Это позволяет загрузить в память единую модель объемом 190 ГБ (например, Falcon 180B) и получить быстрый инференс.

Чек-лист перед закупкой
Не покупайте «герцы», покупайте объем памяти под задачу.
- Определите задачу: Только запускать (Инференс) или учить (Fine-tuning)?
- Выберите модель: 8B, 70B или специфическая?
- Посчитайте vRAM: (Кол-во параметров × Точность) + 20% буфер.
- Проверьте мульти-GPU: Если одной карты мало, убедитесь, что сервер поддерживает P2P-режим, иначе вторая карта даст прирост скорости всего в 10–15%.
В Forsite мы помогаем перевести эти расчеты в конкретную спецификацию оборудования, которое окупится быстрее, чем годовая подписка на облако.