Как настроить NVIDIA GPU для OpenClaw и локальных моделей

Средне 6 мин 2026-05-10

OpenClaw сам по себе GPU не использует — это лёгкий Node.js-демон, ему достаточно CPU. Но если вы запускаете локальную LLM-модель через Ollama или vLLM рядом с OpenClaw на одном сервере, GPU NVIDIA ускорит инференс модели в 5–20 раз по сравнению с CPU-only режимом. Эта статья — про правильную настройку связки.

Когда нужна GPU. Только если вы держите локальную модель (Llama, Qwen, Gemma, Mistral, DeepSeek). Если используете только облачные API (Claude, GPT, GigaChat, YandexGPT) — никакая GPU не нужна, обычный CPU-VPS справляется.

Какая GPU подходит. Минимум для 7B–8B моделей в FP16 — 12–16 ГБ VRAM (RTX 3060 12GB, RTX 4060 Ti 16GB, RTX 4070 Ti). Для 13B–14B моделей — 24+ ГБ VRAM (RTX 3090, RTX 4090, A4000). Для 70B+ моделей — несколько GPU или серверные карты A100/H100. Альтернатива — квантизация (Q4, Q5): тогда 7B помещается в 6–8 ГБ VRAM, 13B — в 10–12 ГБ.

Подготовка системы (Linux). Установите официальные NVIDIA-драйверы и CUDA Toolkit (минимум 12.x). На Ubuntu это делается через apt с репозитория nvidia.com. После установки проверьте через nvidia-smi — должны увидеть GPU с её VRAM и текущим использованием.

Для Docker — NVIDIA Container Toolkit. Если OpenClaw и Ollama запускаете в Docker, обязательно поставьте nvidia-container-toolkit. Без него контейнер не увидит GPU. После установки команда docker run --gpus all даёт контейнеру доступ к карте.

Настройка Ollama. Ollama сама определяет наличие GPU и использует её автоматически. Проверка — после ollama run mistral команда nvidia-smi должна показать процесс ollama_runner с занятой VRAM. Если процесс есть, но VRAM не растёт — модель упала на CPU из-за нехватки памяти. Решение: меньшая модель или квантизация.

Связка с OpenClaw. OpenClaw не знает и не должен знать про GPU — он общается с Ollama по обычному openai-совместимому HTTP-эндпоинту. Настройка в openclaw.json — стандартная: baseUrl http://localhost:11434/v1 в блоке models.providers. GPU-ускорение даёт Ollama, а не OpenClaw.

Проверка ускорения. Запустите простой запрос через openclaw chat и параллельно следите за nvidia-smi. На GPU 7B-модель отвечает за 1–3 секунды (стримом), на CPU — 15–60 секунд. Разница ощутимая.

Apple Silicon (M1/M2/M3/M4/M5). Здесь NVIDIA-драйверы не нужны — Metal-ускорение Ollama использует автоматически. На MacBook с 16+ ГБ unified memory можно запускать Gemma 4 и Mistral 7B без отдельной GPU. Подробнее — в нашей статье про Gemma 4 + Ollama на Mac.

Cloud-варианты. Если своей GPU нет, но локальная модель нужна — арендуйте GPU-VPS у Selectel GPU-Cloud, Cloud.ru, Hetzner GEX или специализированных провайдеров (Vast.ai, Runpod). Цена — от 5 000 ₽/мес за RTX 3060 до 50 000+ ₽/мес за RTX 4090 / A100 в России.

Подводные камни. Ollama по умолчанию ограничивает num_ctx (размер контекста) для экономии VRAM — для длинных диалогов задавайте параметр явно через Modelfile или флаг --num-ctx. Также: на гибридных системах (CPU + интегрированная Intel + дискретная NVIDIA) Ollama иногда выбирает не ту GPU — фиксируется через переменную окружения CUDA_VISIBLE_DEVICES.

bash

# Проверка драйверов и видимости GPU
nvidia-smi

bash

# Ubuntu — установка NVIDIA Container Toolkit для Docker
distribution=$(. /etc/os-release; echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | \
  sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo systemctl restart docker

bash

# Проверка GPU-ускорения в Ollama
ollama run mistral &
nvidia-smi  # должен быть процесс ollama_runner с VRAM

bash

# Зафиксировать конкретную GPU, если их несколько
export CUDA_VISIBLE_DEVICES=0
ollama serve

Как настроить NVIDIA GPU для OpenClaw и локальных моделей

Связанные вопросы

Не хотите разбираться сами?