Сколько vRAM нужно для обучения и инференса ИИ

Назад

В мире HPC и AI есть жесткое правило: если ваша модель не влезает в видеопамять (vRAM), производительность вашего GPU не имеет значения. Как только вычисления «вываливаются» в оперативную память (RAM) через шину PCIe, скорость падает в сотни раз.

Для коммерческого директора или CTO выбор железа — это баланс между «модель не запустилась» (OOM — Out Of Memory) и «мы переплатили 3 миллиона за память, которая простаивает».

Разберем, как рассчитать необходимый объем vRAM, где можно сэкономить через квантование, и когда 24 ГБ превращаются в тыкву.



Вес модели

Первое, что нужно понимать: Параметры модели — это не абстракция, это гигабайты.

В стандартном режиме (FP16, половинная точность) каждый параметр нейросети занимает 2 байта. Простая арифметика для популярных моделей (Llama 3, Mistral, Qwen):

  • Модель 7B (7 млрд параметров): 7 × 2 = 14 ГБ vRAM
  • Модель 13B: 13 × 2 = 26 ГБ vRAM
  • Модель 70B: 70 × 2 = 140 ГБ vRAM

Вывод №1: На стандартной карте RTX 4090 (24 ГБ) вы «впритык» запускаете модель 13B в FP16. Модель 70B даже не загрузится.



Инференс и обучение - это две большие разницы

Потребление памяти зависит от задачи.

1. Инференс (Просто запуск)

Вам нужно место под веса модели + «KV-кэш» (контекст диалога) + буфер для активаций.

  • Запас: К "чистому весу" модели добавляйте 10-20% на контекстное окно.
2. Fine-Tuning (Дообучение)
Здесь требования вырастают кратно. Кроме весов модели, видеопамять нужна для градиентов, состояний оптимизатора (AdamW) и активаций.

Правило большого пальца: Для полноценного обучения (Full Fine-Tuning) требуемый объем vRAM = Вес модели × 4.

То есть для обучения Llama 7B (14 ГБ веса) вам потребуется около 50–60 ГБ vRAM. Одна карта на 24 ГБ или 48 ГБ эту задачу не вытянет.



Квантование: Как впихнуть невпихуемое

Если бюджет не позволяет купить сервер с 8x A100 (80GB), инженеры используют квантование — снижение точности весов с FP16 (16 бит) до INT8 (8 бит) или INT4 (4 бита).

  • FP16 (Стандарт): 2 байта на параметр.
  • INT8: 1 байт на параметр. (Потребление памяти падает в 2 раза).
  • INT4: 0.5 байта на параметр. (Потребление падает в 4 раза).

Практический пример: Модель Llama-3-70B в стандарте требует 140 ГБ. В квантовании 4-bit (GGUF/AWQ) она займет около 40–42 ГБ.

Вывод №2: С квантованием INT4 вы можете запустить огромную модель 70B на одной карте RTX 6000 Ada (48 ГБ) или на двух RTX 4090 (24+24 ГБ). Качество ответов упадет незначительно, а экономия на железе — колоссальная.



Градации оборудования: Что покупать?

Исходя из задач, мы в Forsite делим сборки на три класса.

Уровень 1. «Песочница» (32 - 282 GB)
  • Решение: Forsite Devbox RackStation.
  • Железо: RTX 5080 - RTX 5090 или RTX 6000 Ada - H200.
  • Что может: Инференс моделей до 13B (FP16) или до 30-40B (INT4). LoRA-обучение маленьких моделей.
  • Ограничение: Нельзя объединить память двух карт в один пул без потерь (нет NVLink).
Уровень 2. «Рабочая лошадка» (64 - 564 GB)
  • Решение: Forsite Devbox AI.
  • Железо: RTX 5080 - RTX 5090 или RTX 6000 Ada - H200
  • Что может: Инференс тяжелых моделей (70B в 4-бит). Полноценное обучение моделей 7B-13B.
  • Особенность: Критически важна плотность памяти на один слот.
Уровень 3. «Тяжелая артиллерия» (256 - 768 GB)
  • Решение: Сервер высокой плотности Devbox Scale (страница в разработке)
  • Железо: RTX 5090 32GB или RTX PRO 6000 Blackwell 96GB (Кластеры из 4-х или 8-ми GPU)
  • Проблема: В обычных корпусах узким местом становится процессор (CPU Bottleneck).
  • Технология: Мы используем P2P (Peer-to-Peer). Карты обмениваются данными напрямую. Это позволяет загрузить в память единую модель объемом 190 ГБ (например, Falcon 180B) и получить быстрый инференс.



Чек-лист перед закупкой

Не покупайте «герцы», покупайте объем памяти под задачу.

  1. Определите задачу: Только запускать (Инференс) или учить (Fine-tuning)?
  2. Выберите модель: 8B, 70B или специфическая?
  3. Посчитайте vRAM: (Кол-во параметров × Точность) + 20% буфер.
  4. Проверьте мульти-GPU: Если одной карты мало, убедитесь, что сервер поддерживает P2P-режим, иначе вторая карта даст прирост скорости всего в 10–15%.

В Forsite мы помогаем перевести эти расчеты в конкретную спецификацию оборудования, которое окупится быстрее, чем годовая подписка на облако.