Gemma 4 + Ollama + OpenClaw: локальный AI на Mac за 15 минут

Гайд OpenClaw Install 2026-05-10 8 мин

Из этой статьи:

Установка Gemma 4 8B на Mac занимает 15 минут через две команды: brew install --cask ollama-app для Ollama и ollama pull gemma4 для модели весом 9.6 ГБ
Минимум железа: Mac на Apple Silicon M1/M2/M3/M4/M5 с 16 ГБ unified memory — Metal GPU подхватывается автоматически и берёт на себя 86% вычислений
Контекстное окно 131 072 токена (128K) — хватает на анализ договоров, целых кодовых баз и длинных переписок без обрезания истории
Подключение к OpenClaw — три строки JSON: baseUrl http://localhost:11434/v1, api openai-completions, model gemma4:latest. API-ключ не требуется
Гибридная схема через subagents: главный агент на Claude Sonnet делегирует простые задачи локальной Gemma — экономия на API-токенах с приватностью данных

Из этой статьи:

Установка Gemma 4 8B через Ollama: одна команда brew install --cask ollama-app + ollama pull gemma4.
Минимум железа: Mac на Apple Silicon (M1/M2/M3/M4/M5) и 16 ГБ unified memory — модель занимает ~9.6 ГБ при загрузке.
Контекстное окно — 131 072 токена (128K), хватает на большие переписки и кодовые базы.
Конфиг OpenClaw — 3 строчки JSON для подключения локального Ollama-эндпоинта http://localhost:11434/v1.
На Apple Silicon Ollama сама использует Metal GPU — ollama ps показывает разделение 14% CPU / 86% GPU.

Зачем Gemma 4 локально

Gemma — семейство открытых моделей от Google DeepMind. Версия 4, вышедшая в 2026, стала первой, где 8B-модель уверенно тянет 128K контекст и при этом помещается в 16 ГБ оперативки на Mac. Это редкая комбинация: раньше длинный контекст требовал либо мощной GPU, либо облака.

Локальный Gemma 4 в OpenClaw закрывает три сценария:

Конфиденциальная переписка. Данные не уходят с ноутбука — критично для юристов, врачей, финансистов.

Работа без интернета. В поезде, в самолёте, в командировке — агент продолжает отвечать.

Нулевая стоимость токенов. После установки за модель не платите никому, ни Сберу, ни Anthropic.

В апреле 2026 года ребята из haimaker.ai опубликовали пошаговый гайд по этой связке. Ниже — разбор шагов с поправкой на типичные ошибки на Mac.

Что нужно из железа

Гайд явно указывает требования:

Mac на Apple Silicon — M1, M2, M3, M4 или M5. Intel Mac не годится.
Минимум 16 ГБ unified memory. Модель в загруженном виде занимает ~9.6 ГБ — на 16 ГБ остаётся «headroom», на 8 ГБ свободного RAM не хватит.
macOS с установленным Homebrew.

Если у вас Mac с 8 ГБ — Gemma 4 8B не запустится комфортно. Альтернатива — взять модель меньше (gemma4:2b, если она доступна в Ollama-реестре) или оставаться на mistral 7B.

Шаг 1. Установка Ollama

Самый чистый способ на Mac — через Homebrew Cask:

bash

brew install --cask ollama-app

После установки запустите приложение:

bash

open -a Ollama

Ollama сидит в menu bar и поднимает локальный API на порту 11434. Это тот же эндпоинт, что и при ручной установке через curl ... | sh — но Cask-вариант ставит в /Applications и автоматически добавляет в автозагрузку.

Проверьте, что демон работает:

bash

curl http://localhost:11434/api/tags

Если в ответе пустой массив models: [] — всё ок, просто моделей пока не скачано.

Шаг 2. Скачивание Gemma 4

bash

ollama pull gemma4

Команда скачает модель Gemma 4 8B (по умолчанию) — около 9.6 ГБ. На обычном домашнем интернете это 10–30 минут.

Проверка:

bash

ollama run gemma4:latest

Должен запуститься интерактивный чат прямо в терминале. Задайте вопрос, убедитесь, что отвечает осмысленно. Выйти — Ctrl+D или /bye.

Шаг 3. Проверка GPU-ускорения

Ключевая фишка Apple Silicon — Metal GPU. Ollama должна использовать его автоматически. Проверка:

bash

ollama ps

В строке с gemma4:latest будет колонка PROCESSOR с разбивкой вида 14%/86% CPU/GPU. Это означает, что 86% вычислений идёт на GPU — именно то, что нужно. Если у вас все 100% на CPU — что-то пошло не так с Metal: перезапустите Ollama и Mac.

Шаг 4. Подключение к OpenClaw

В openclaw.json добавьте провайдера:

json

{
  "models": {
    "providers": {
      "ollama-local": {
        "baseUrl": "http://localhost:11434/v1",
        "api": "openai-completions",
        "models": [
          { "id": "gemma4:latest", "name": "Gemma 4" }
        ]
      }
    }
  }
}

Три ключевых поля:

baseUrl: http://localhost:11434/v1 — Ollama выставляет OpenAI-совместимый эндпоинт по адресу /v1.
api: openai-completions — говорит OpenClaw использовать стандартный протокол.
models[].id: gemma4:latest — то же имя, что и в ollama list.

Api-ключ не нужен — Ollama не требует авторизации на локальном порту.

Шаг 5. Назначение Gemma агенту

Дальше — стандартная история OpenClaw. В блоке agents указываете модель:

json

{
  "agents": {
    "list": [
      {
        "id": "local",
        "name": "Local",
        "emoji": "🌱",
        "model": "ollama-local/gemma4:latest",
        "workspace": "/Users/<you>/.openclaw/agents/local/workspace"
      }
    ]
  }
}

Если это первый агент — openclaw onboard подскажет, как создать workspace и подключить канал. Для Telegram-бота нужен токен от @BotFather, для iMessage — соответствующий канал из 22 встроенных в OpenClaw (см. сравнение OpenClaw vs Hermes).

Использование 128K контекста

Главная сильная сторона Gemma 4 — окно в 131 072 токена. Для понимания: это примерно 350 страниц текста или средний кодовый репозиторий целиком. Что это даёт на практике:

Анализ длинных документов. Загрузить целый договор, спросить о рисках.
Работа с кодом. Загрузить весь репозиторий через скилл, попросить найти баг.
Длинная переписка. Бот в Telegram помнит весь разговор за неделю без обрезания контекста.

Важный нюанс: Ollama по умолчанию может ограничивать num_ctx меньшим значением, чтобы экономить RAM. Если вы хотите полные 128K — задайте параметр явно:

bash

ollama run gemma4:latest --num-ctx 131072

Или через Modelfile:

FROM gemma4:latest
PARAMETER num_ctx 131072

Имейте в виду: чем больше контекст, тем больше памяти ест модель. На 16 ГБ Mac безопасно держать ~32K–64K, на 32 ГБ — все 128K.

Гибридная схема: локально + облако

Локальная модель не обязана быть единственной. В OpenClaw можно держать несколько провайдеров и роутить по типу задачи:

json

{
  "agents": {
    "list": [
      {
        "id": "main",
        "model": "anthropic/claude-sonnet-4-5",
        "subagents": { "allowAgents": ["local"] }
      },
      {
        "id": "local",
        "model": "ollama-local/gemma4:latest"
      }
    ]
  }
}

Главный агент на Claude Sonnet берёт сложные задачи, а простые делегирует локальной Gemma — экономит на API-токенах. Для российских команд это можно расширить ещё и GigaChat/YandexGPT через прокси.

Частые проблемы

Симптом	Причина	Решение
`connection refused` на 11434	Ollama не запущена	`open -a Ollama` или перезапуск
Все 100% на CPU, ноль на GPU	Metal не подхватился	Перезапустить Ollama, проверить версию macOS
`out of memory` при длинном контексте	Не хватает RAM на 128K	Снизить `num_ctx` до 32768 или 16384
OpenClaw видит модель, но ответа нет	Неверный `baseUrl` (без `/v1`)	Точно `http://localhost:11434/v1`
Долгий первый ответ	Модель прогревается в RAM	Норма — последующие ответы быстрее

Когда нужна помощь профессионала

Поставить Ollama на Mac — это 15 минут. Поднять связку OpenClaw + локальная Gemma + Telegram-бот, который стабильно работает 24/7, переживает перезагрузки Mac, не течёт по памяти и автоматически бэкапит MEMORY.md — это уже несколько часов настройки systemd-аналогов под macOS (launchd), мониторинга и тестов.

Сервис OpenClaw Install настраивает локальный AI-стек на ваших серверах: Ollama + Gemma 4 / Llama 3 / Qwen, OpenClaw с готовой конфигурацией под Telegram, автозапуск через launchd или systemd, бэкапы памяти. Если хочется получить готовое решение, а не разбираться самому — установка от 4000 ₽ разово, @openclawinstallru_bot.

Итог

Gemma 4 + Ollama + OpenClaw на Mac — это полностью бесплатный (после установки) локальный AI-агент с приличным качеством и большим контекстом. Установка укладывается в 15 минут плюс время на скачивание ~9.6 ГБ модели:

✅ brew install --cask ollama-app + ollama pull gemma4
✅ Apple Silicon Metal GPU автоматически (86% вычислений на GPU)
✅ 128K контекстного окна
✅ Подключение к OpenClaw — три строки JSON
✅ Гибридная схема: Claude в облаке + Gemma локально через subagents
⚠️ 16 ГБ RAM минимум; полный 128K контекст комфортно — на 32 ГБ

Для рабочего ноутбука разработчика, юриста или аналитика — это близко к идеальной отправной точке в локальный AI.

Источник

Статья основана на материале «How to Set Up Gemma 4 with OpenClaw Using Ollama (2026 Guide)» (haimaker.ai, апрель 2026).

Дмитрий Мочалов

Основатель OpenClaw Install. Помогаем настроить AI-ассистентов для бизнеса и личных задач.

@openclawinstallru_bot

Gemma 4 + Ollama + OpenClaw: локальный AI на Mac за 15 минут

Зачем Gemma 4 локально

Что нужно из железа

Шаг 1. Установка Ollama

Шаг 2. Скачивание Gemma 4

Шаг 3. Проверка GPU-ускорения

Шаг 4. Подключение к OpenClaw

Шаг 5. Назначение Gemma агенту

Использование 128K контекста

Гибридная схема: локально + облако

Частые проблемы

Когда нужна помощь профессионала

Итог

Источник

Дмитрий Мочалов

Читайте также

AI-офис на OpenClaw: команда виртуальных сотрудников в Telegram

Какой VPS выбрать для OpenClaw в 2026: разбор провайдеров

OpenClaw vs Hermes: два подхода к личной AI-инфраструктуре