OpenClaw Install

Gemma 4 + Ollama + OpenClaw: локальный AI на Mac за 15 минут

Gemma 4 + Ollama + OpenClaw: локальный AI на Mac за 15 минут
Из этой статьи:
  • Установка Gemma 4 8B на Mac занимает 15 минут через две команды: brew install --cask ollama-app для Ollama и ollama pull gemma4 для модели весом 9.6 ГБ
  • Минимум железа: Mac на Apple Silicon M1/M2/M3/M4/M5 с 16 ГБ unified memory — Metal GPU подхватывается автоматически и берёт на себя 86% вычислений
  • Контекстное окно 131 072 токена (128K) — хватает на анализ договоров, целых кодовых баз и длинных переписок без обрезания истории
  • Подключение к OpenClaw — три строки JSON: baseUrl http://localhost:11434/v1, api openai-completions, model gemma4:latest. API-ключ не требуется
  • Гибридная схема через subagents: главный агент на Claude Sonnet делегирует простые задачи локальной Gemma — экономия на API-токенах с приватностью данных

Из этой статьи:

  • Установка Gemma 4 8B через Ollama: одна команда brew install --cask ollama-app + ollama pull gemma4.
  • Минимум железа: Mac на Apple Silicon (M1/M2/M3/M4/M5) и 16 ГБ unified memory — модель занимает ~9.6 ГБ при загрузке.
  • Контекстное окно — 131 072 токена (128K), хватает на большие переписки и кодовые базы.
  • Конфиг OpenClaw — 3 строчки JSON для подключения локального Ollama-эндпоинта http://localhost:11434/v1.
  • На Apple Silicon Ollama сама использует Metal GPU — ollama ps показывает разделение 14% CPU / 86% GPU.

Зачем Gemma 4 локально

Gemma — семейство открытых моделей от Google DeepMind. Версия 4, вышедшая в 2026, стала первой, где 8B-модель уверенно тянет 128K контекст и при этом помещается в 16 ГБ оперативки на Mac. Это редкая комбинация: раньше длинный контекст требовал либо мощной GPU, либо облака.

Локальный Gemma 4 в OpenClaw закрывает три сценария:

  • Конфиденциальная переписка. Данные не уходят с ноутбука — критично для юристов, врачей, финансистов.
  • Работа без интернета. В поезде, в самолёте, в командировке — агент продолжает отвечать.
  • Нулевая стоимость токенов. После установки за модель не платите никому, ни Сберу, ни Anthropic.
  • В апреле 2026 года ребята из haimaker.ai опубликовали пошаговый гайд по этой связке. Ниже — разбор шагов с поправкой на типичные ошибки на Mac.

    Что нужно из железа

    Гайд явно указывает требования:

    • Mac на Apple Silicon — M1, M2, M3, M4 или M5. Intel Mac не годится.
    • Минимум 16 ГБ unified memory. Модель в загруженном виде занимает ~9.6 ГБ — на 16 ГБ остаётся «headroom», на 8 ГБ свободного RAM не хватит.
    • macOS с установленным Homebrew.
    Если у вас Mac с 8 ГБ — Gemma 4 8B не запустится комфортно. Альтернатива — взять модель меньше (gemma4:2b, если она доступна в Ollama-реестре) или оставаться на mistral 7B.

    Шаг 1. Установка Ollama

    Самый чистый способ на Mac — через Homebrew Cask:

    bash
    brew install --cask ollama-app

    После установки запустите приложение:

    bash
    open -a Ollama

    Ollama сидит в menu bar и поднимает локальный API на порту 11434. Это тот же эндпоинт, что и при ручной установке через curl ... | sh — но Cask-вариант ставит в /Applications и автоматически добавляет в автозагрузку.

    Проверьте, что демон работает:

    bash
    curl http://localhost:11434/api/tags

    Если в ответе пустой массив models: [] — всё ок, просто моделей пока не скачано.

    Шаг 2. Скачивание Gemma 4

    bash
    ollama pull gemma4

    Команда скачает модель Gemma 4 8B (по умолчанию) — около 9.6 ГБ. На обычном домашнем интернете это 10–30 минут.

    Проверка:

    bash
    ollama run gemma4:latest

    Должен запуститься интерактивный чат прямо в терминале. Задайте вопрос, убедитесь, что отвечает осмысленно. Выйти — Ctrl+D или /bye.

    Шаг 3. Проверка GPU-ускорения

    Ключевая фишка Apple Silicon — Metal GPU. Ollama должна использовать его автоматически. Проверка:

    bash
    ollama ps

    В строке с gemma4:latest будет колонка PROCESSOR с разбивкой вида 14%/86% CPU/GPU. Это означает, что 86% вычислений идёт на GPU — именно то, что нужно. Если у вас все 100% на CPU — что-то пошло не так с Metal: перезапустите Ollama и Mac.

    Шаг 4. Подключение к OpenClaw

    В openclaw.json добавьте провайдера:

    json
    {
      "models": {
        "providers": {
          "ollama-local": {
            "baseUrl": "http://localhost:11434/v1",
            "api": "openai-completions",
            "models": [
              { "id": "gemma4:latest", "name": "Gemma 4" }
            ]
          }
        }
      }
    }

    Три ключевых поля:

    • baseUrl: http://localhost:11434/v1 — Ollama выставляет OpenAI-совместимый эндпоинт по адресу /v1.
    • api: openai-completions — говорит OpenClaw использовать стандартный протокол.
    • models[].id: gemma4:latest — то же имя, что и в ollama list.
    Api-ключ не нужен — Ollama не требует авторизации на локальном порту.

    Шаг 5. Назначение Gemma агенту

    Дальше — стандартная история OpenClaw. В блоке agents указываете модель:

    json
    {
      "agents": {
        "list": [
          {
            "id": "local",
            "name": "Local",
            "emoji": "🌱",
            "model": "ollama-local/gemma4:latest",
            "workspace": "/Users/<you>/.openclaw/agents/local/workspace"
          }
        ]
      }
    }

    Если это первый агент — openclaw onboard подскажет, как создать workspace и подключить канал. Для Telegram-бота нужен токен от @BotFather, для iMessage — соответствующий канал из 22 встроенных в OpenClaw (см. сравнение OpenClaw vs Hermes).

    Использование 128K контекста

    Главная сильная сторона Gemma 4 — окно в 131 072 токена. Для понимания: это примерно 350 страниц текста или средний кодовый репозиторий целиком. Что это даёт на практике:

    • Анализ длинных документов. Загрузить целый договор, спросить о рисках.
    • Работа с кодом. Загрузить весь репозиторий через скилл, попросить найти баг.
    • Длинная переписка. Бот в Telegram помнит весь разговор за неделю без обрезания контекста.
    Важный нюанс: Ollama по умолчанию может ограничивать num_ctx меньшим значением, чтобы экономить RAM. Если вы хотите полные 128K — задайте параметр явно:
    bash
    ollama run gemma4:latest --num-ctx 131072

    Или через Modelfile:

    FROM gemma4:latest
    PARAMETER num_ctx 131072

    Имейте в виду: чем больше контекст, тем больше памяти ест модель. На 16 ГБ Mac безопасно держать ~32K–64K, на 32 ГБ — все 128K.

    Гибридная схема: локально + облако

    Локальная модель не обязана быть единственной. В OpenClaw можно держать несколько провайдеров и роутить по типу задачи:

    json
    {
      "agents": {
        "list": [
          {
            "id": "main",
            "model": "anthropic/claude-sonnet-4-5",
            "subagents": { "allowAgents": ["local"] }
          },
          {
            "id": "local",
            "model": "ollama-local/gemma4:latest"
          }
        ]
      }
    }

    Главный агент на Claude Sonnet берёт сложные задачи, а простые делегирует локальной Gemma — экономит на API-токенах. Для российских команд это можно расширить ещё и GigaChat/YandexGPT через прокси.

    Частые проблемы

    СимптомПричинаРешение
    connection refused на 11434Ollama не запущенаopen -a Ollama или перезапуск
    Все 100% на CPU, ноль на GPUMetal не подхватилсяПерезапустить Ollama, проверить версию macOS
    out of memory при длинном контекстеНе хватает RAM на 128KСнизить num_ctx до 32768 или 16384
    OpenClaw видит модель, но ответа нетНеверный baseUrl (без /v1)Точно http://localhost:11434/v1
    Долгий первый ответМодель прогревается в RAMНорма — последующие ответы быстрее

    Когда нужна помощь профессионала

    Поставить Ollama на Mac — это 15 минут. Поднять связку OpenClaw + локальная Gemma + Telegram-бот, который стабильно работает 24/7, переживает перезагрузки Mac, не течёт по памяти и автоматически бэкапит MEMORY.md — это уже несколько часов настройки systemd-аналогов под macOS (launchd), мониторинга и тестов.

    Сервис OpenClaw Install настраивает локальный AI-стек на ваших серверах: Ollama + Gemma 4 / Llama 3 / Qwen, OpenClaw с готовой конфигурацией под Telegram, автозапуск через launchd или systemd, бэкапы памяти. Если хочется получить готовое решение, а не разбираться самому — установка от 4000 ₽ разово, @openclawinstallru_bot.

    Итог

    Gemma 4 + Ollama + OpenClaw на Mac — это полностью бесплатный (после установки) локальный AI-агент с приличным качеством и большим контекстом. Установка укладывается в 15 минут плюс время на скачивание ~9.6 ГБ модели:

    • brew install --cask ollama-app + ollama pull gemma4
    • ✅ Apple Silicon Metal GPU автоматически (86% вычислений на GPU)
    • ✅ 128K контекстного окна
    • ✅ Подключение к OpenClaw — три строки JSON
    • ✅ Гибридная схема: Claude в облаке + Gemma локально через subagents
    • ⚠️ 16 ГБ RAM минимум; полный 128K контекст комфортно — на 32 ГБ
    Для рабочего ноутбука разработчика, юриста или аналитика — это близко к идеальной отправной точке в локальный AI.

    Источник

    Статья основана на материале «How to Set Up Gemma 4 with OpenClaw Using Ollama (2026 Guide)» (haimaker.ai, апрель 2026).

    Дмитрий Мочалов

    Основатель OpenClaw Install. Помогаем настроить AI-ассистентов для бизнеса и личных задач.

    @openclawinstallru_bot

    Читайте также