Gemma 4 + Ollama + OpenClaw: локальный AI на Mac за 15 минут
- Установка Gemma 4 8B на Mac занимает 15 минут через две команды: brew install --cask ollama-app для Ollama и ollama pull gemma4 для модели весом 9.6 ГБ
- Минимум железа: Mac на Apple Silicon M1/M2/M3/M4/M5 с 16 ГБ unified memory — Metal GPU подхватывается автоматически и берёт на себя 86% вычислений
- Контекстное окно 131 072 токена (128K) — хватает на анализ договоров, целых кодовых баз и длинных переписок без обрезания истории
- Подключение к OpenClaw — три строки JSON: baseUrl http://localhost:11434/v1, api openai-completions, model gemma4:latest. API-ключ не требуется
- Гибридная схема через subagents: главный агент на Claude Sonnet делегирует простые задачи локальной Gemma — экономия на API-токенах с приватностью данных
Из этой статьи:
- Установка Gemma 4 8B через Ollama: одна команда
brew install --cask ollama-app+ollama pull gemma4. - Минимум железа: Mac на Apple Silicon (M1/M2/M3/M4/M5) и 16 ГБ unified memory — модель занимает ~9.6 ГБ при загрузке.
- Контекстное окно — 131 072 токена (128K), хватает на большие переписки и кодовые базы.
- Конфиг OpenClaw — 3 строчки JSON для подключения локального Ollama-эндпоинта
http://localhost:11434/v1. - На Apple Silicon Ollama сама использует Metal GPU —
ollama psпоказывает разделение 14% CPU / 86% GPU.
Зачем Gemma 4 локально
Gemma — семейство открытых моделей от Google DeepMind. Версия 4, вышедшая в 2026, стала первой, где 8B-модель уверенно тянет 128K контекст и при этом помещается в 16 ГБ оперативки на Mac. Это редкая комбинация: раньше длинный контекст требовал либо мощной GPU, либо облака.
Локальный Gemma 4 в OpenClaw закрывает три сценария:
В апреле 2026 года ребята из haimaker.ai опубликовали пошаговый гайд по этой связке. Ниже — разбор шагов с поправкой на типичные ошибки на Mac.
Что нужно из железа
Гайд явно указывает требования:
- Mac на Apple Silicon — M1, M2, M3, M4 или M5. Intel Mac не годится.
- Минимум 16 ГБ unified memory. Модель в загруженном виде занимает ~9.6 ГБ — на 16 ГБ остаётся «headroom», на 8 ГБ свободного RAM не хватит.
- macOS с установленным Homebrew.
gemma4:2b, если она доступна в Ollama-реестре) или оставаться на mistral 7B.
Шаг 1. Установка Ollama
Самый чистый способ на Mac — через Homebrew Cask:
brew install --cask ollama-app
После установки запустите приложение:
open -a Ollama
Ollama сидит в menu bar и поднимает локальный API на порту 11434. Это тот же эндпоинт, что и при ручной установке через curl ... | sh — но Cask-вариант ставит в /Applications и автоматически добавляет в автозагрузку.
Проверьте, что демон работает:
curl http://localhost:11434/api/tags
Если в ответе пустой массив models: [] — всё ок, просто моделей пока не скачано.
Шаг 2. Скачивание Gemma 4
ollama pull gemma4
Команда скачает модель Gemma 4 8B (по умолчанию) — около 9.6 ГБ. На обычном домашнем интернете это 10–30 минут.
Проверка:
ollama run gemma4:latest
Должен запуститься интерактивный чат прямо в терминале. Задайте вопрос, убедитесь, что отвечает осмысленно. Выйти — Ctrl+D или /bye.
Шаг 3. Проверка GPU-ускорения
Ключевая фишка Apple Silicon — Metal GPU. Ollama должна использовать его автоматически. Проверка:
ollama ps
В строке с gemma4:latest будет колонка PROCESSOR с разбивкой вида 14%/86% CPU/GPU. Это означает, что 86% вычислений идёт на GPU — именно то, что нужно. Если у вас все 100% на CPU — что-то пошло не так с Metal: перезапустите Ollama и Mac.
Шаг 4. Подключение к OpenClaw
В openclaw.json добавьте провайдера:
{
"models": {
"providers": {
"ollama-local": {
"baseUrl": "http://localhost:11434/v1",
"api": "openai-completions",
"models": [
{ "id": "gemma4:latest", "name": "Gemma 4" }
]
}
}
}
}Три ключевых поля:
baseUrl: http://localhost:11434/v1— Ollama выставляет OpenAI-совместимый эндпоинт по адресу/v1.api: openai-completions— говорит OpenClaw использовать стандартный протокол.models[].id: gemma4:latest— то же имя, что и вollama list.
Шаг 5. Назначение Gemma агенту
Дальше — стандартная история OpenClaw. В блоке agents указываете модель:
{
"agents": {
"list": [
{
"id": "local",
"name": "Local",
"emoji": "🌱",
"model": "ollama-local/gemma4:latest",
"workspace": "/Users/<you>/.openclaw/agents/local/workspace"
}
]
}
}Если это первый агент — openclaw onboard подскажет, как создать workspace и подключить канал. Для Telegram-бота нужен токен от @BotFather, для iMessage — соответствующий канал из 22 встроенных в OpenClaw (см. сравнение OpenClaw vs Hermes).
Использование 128K контекста
Главная сильная сторона Gemma 4 — окно в 131 072 токена. Для понимания: это примерно 350 страниц текста или средний кодовый репозиторий целиком. Что это даёт на практике:
- Анализ длинных документов. Загрузить целый договор, спросить о рисках.
- Работа с кодом. Загрузить весь репозиторий через скилл, попросить найти баг.
- Длинная переписка. Бот в Telegram помнит весь разговор за неделю без обрезания контекста.
num_ctx меньшим значением, чтобы экономить RAM. Если вы хотите полные 128K — задайте параметр явно:
ollama run gemma4:latest --num-ctx 131072
Или через Modelfile:
FROM gemma4:latest PARAMETER num_ctx 131072
Имейте в виду: чем больше контекст, тем больше памяти ест модель. На 16 ГБ Mac безопасно держать ~32K–64K, на 32 ГБ — все 128K.
Гибридная схема: локально + облако
Локальная модель не обязана быть единственной. В OpenClaw можно держать несколько провайдеров и роутить по типу задачи:
{
"agents": {
"list": [
{
"id": "main",
"model": "anthropic/claude-sonnet-4-5",
"subagents": { "allowAgents": ["local"] }
},
{
"id": "local",
"model": "ollama-local/gemma4:latest"
}
]
}
}Главный агент на Claude Sonnet берёт сложные задачи, а простые делегирует локальной Gemma — экономит на API-токенах. Для российских команд это можно расширить ещё и GigaChat/YandexGPT через прокси.
Частые проблемы
| Симптом | Причина | Решение |
|---|---|---|
connection refused на 11434 | Ollama не запущена | open -a Ollama или перезапуск |
| Все 100% на CPU, ноль на GPU | Metal не подхватился | Перезапустить Ollama, проверить версию macOS |
out of memory при длинном контексте | Не хватает RAM на 128K | Снизить num_ctx до 32768 или 16384 |
| OpenClaw видит модель, но ответа нет | Неверный baseUrl (без /v1) | Точно http://localhost:11434/v1 |
| Долгий первый ответ | Модель прогревается в RAM | Норма — последующие ответы быстрее |
Когда нужна помощь профессионала
Поставить Ollama на Mac — это 15 минут. Поднять связку OpenClaw + локальная Gemma + Telegram-бот, который стабильно работает 24/7, переживает перезагрузки Mac, не течёт по памяти и автоматически бэкапит MEMORY.md — это уже несколько часов настройки systemd-аналогов под macOS (launchd), мониторинга и тестов.
Сервис OpenClaw Install настраивает локальный AI-стек на ваших серверах: Ollama + Gemma 4 / Llama 3 / Qwen, OpenClaw с готовой конфигурацией под Telegram, автозапуск через launchd или systemd, бэкапы памяти. Если хочется получить готовое решение, а не разбираться самому — установка от 4000 ₽ разово, @openclawinstallru_bot.
Итог
Gemma 4 + Ollama + OpenClaw на Mac — это полностью бесплатный (после установки) локальный AI-агент с приличным качеством и большим контекстом. Установка укладывается в 15 минут плюс время на скачивание ~9.6 ГБ модели:
- ✅
brew install --cask ollama-app+ollama pull gemma4 - ✅ Apple Silicon Metal GPU автоматически (86% вычислений на GPU)
- ✅ 128K контекстного окна
- ✅ Подключение к OpenClaw — три строки JSON
- ✅ Гибридная схема: Claude в облаке + Gemma локально через
subagents - ⚠️ 16 ГБ RAM минимум; полный 128K контекст комфортно — на 32 ГБ
Источник
Статья основана на материале «How to Set Up Gemma 4 with OpenClaw Using Ollama (2026 Guide)» (haimaker.ai, апрель 2026).