На мастер-классе для аналитиков, который мы провели недавно, поднимался вопрос: многие компании не могут позволить сотрудникам использовать ИИ-инструменты — мол, небезопасный иностранный сервис.
Тем не менее, облачные и on-premise сервисы Сбера и Яндекса действуют в российском правовом поле и на территории России, проходят аудит и несут соответствующую ответственность перед клиентами. Для инфобеза многих компаний этого должно быть достаточно, чтобы подключить ИИ-инструменты своим сотрудникам.
В прошлой статье я разбирал, как аналитику при помощи связки Roo Code + Qwen3-Coder-Flash снять с себя значительную рутину. В этой статье разберу, как в этой связке заменить Qwen на Sber GigaChat.
Как это будет работать
Итак, мы уже настроили Roo Code и получили с ним какие-то результаты. Для работы с API Сбера надо создать новый профиль. В нём выбрать OpenAI Compatible. Но какой endpoint и какой ключ?

У Сбера есть утилита для проксирования OpenAI-запросов в GigaChat. Она запустится локально на вашей машине или на какой-нибудь виртуалке в сети. От Roo Code она будет принимать запросы в формате OpenAI (как в ChatGPT) и перенаправлять в облако Сбера (или on-premise модель, развёрнутую в вашей компании) в формате, оптимальном для Сбера.
Roo Code → локальный прокси gpt2giga → GigaChat API
Шаг 1: Ставим прокси
Нам понадобятся pip и python, возможно виртуалка с линуксом (потыкайте в своих сисадмина и безопасника).
Linux / macOS
sudo apt install python3-venv
python3 -m venv .venv
source .venv/bin/activate
pip install gpt2giga
Windows (PowerShell)
python -m venv .venv
.venv\Scripts\Activate.ps1
pip install gpt2giga
Если что-то пошло не так — проверьте, что Python добавлен в PATH (галочка при установке с python.org).
Docker
docker run -p 8000:8000 --env-file .env ai-forever/gpt2giga
Шаг 2: Конфигурация
В файл .env кладём конфиг, предлагаемый Сбером по умолчанию (пример на GitHub):
# Proxy settings
GPT2GIGA_HOST=0.0.0.0
GPT2GIGA_PORT=8000
GPT2GIGA_USE_HTTPS=False
GPT2GIGA_LOG_LEVEL=DEBUG
GPT2GIGA_ENABLE_API_KEY_AUTH=False
GPT2GIGA_API_KEY=123
# GigaChat Settings
GIGACHAT_SCOPE=GIGACHAT_API_PERS
GIGACHAT_CREDENTIALS=[[[[[MYCREDS]]]]]
GIGACHAT_PROFANITY_CHECK=False
GIGACHAT_MODEL=GigaChat-2-Max
GIGACHAT_VERIFY_SSL_CERTS=False
GIGACHAT_TIMEOUT=70000
Почти всё готово к запуску. Раз мы будем подключаться к облаку Сбера, не хватает его ключа.
Идём на developers.sber.ru/studio. Регистрируемся, оплачиваем пакет токенов (есть бесплатные для тестов), создаём ключ. Этот ключ подставляем вместо [[[[[MYCREDS]]]]].
NB для разговора с ИБ: эта же утилита позволяет ходить не только в облако Сбера, но и в модель, развёрнутую у вас в закрытом контуре. Покопавшись в документации, можно разыскать подобное:
Параметр |
Облако Сбера |
On-Premise |
|---|---|---|
GIGACHAT_BASE_URL |
по умолчанию gigachat.devices.sberbank.ru |
ваш внутренний сервер |
GIGACHAT_AUTH_URL |
по умолчанию ngw.devices.sberbank.ru |
ваш сервер OAuth или не нужен |
GIGACHAT_CREDENTIALS |
обязательно |
зависит от настроек |
Шаг 3: Запуск
В консоли, где мы делали source .venv/bin/activate, запускаем:
gpt2giga
Смотрим, что в логе не было ошибок. Процесс должен подхватить настройки из .env. Если видите "Uvicorn running on http://0.0.0.0:8000" — всё хорошо.
Теперь на вашей машине запущен прокси, который слушает запросы к localhost:8000 в формате OpenAI, конвертирует их в формат Сбера и отправляет в облако с вашим ключом.
Если что-то пошло не так
Симптом |
Причина |
Что делать |
|---|---|---|
401 Unauthorized |
Неверный ключ |
Проверьте GIGACHAT_CREDENTIALS |
Connection refused |
Прокси не запущен |
Запустите |
SSL error |
Сертификаты |
Убедитесь, что GIGACHAT_VERIFY_SSL_CERTS=False |
Шаг 4: Настройка Roo Code
Возвращаемся в Roo Code. Создаём профиль OpenAI Compatible и прописываем:
Base URL:
http://localhost:8000/API Key: тот же ключ, что и MYCREDS выше (или любой, если auth отключен)
Model:
GigaChat-2-Max
GigaChat Ultra в облаке на данный момент ещё не развёрнута, но может ваша организация будет одной из первых.
Сохраняем настройки, можно работать ??♂️
Проверяем работоспособность
Для пробы вводим наивный промт из прошлой статьи, чтобы оценить работоспособность. В логах gpt2giga (если у вас открыта консоль) видим, что запросы проходят.

А стоит ли игра свеч?
Получаем некий вывод, как и от Qwen в прошлой статье, но что-то режет глаз. В левом углу — Qwen3-Coder-Flash, в правом углу — GigaChat 2 Max. В качестве рефери я использовал Claude Opus 4.5 — скормил ему промт и вывод (requirements.md) обеих моделей.
Вердикт, который я получил — не в пользу Гигачата:
Практическая ценность
Модель 1: документ можно сразу использовать как основу для дальнейшей работы, вопросы готовы для отправки клиенту
Модель 2: документ требует существенной доработки, вопросы неконкретны — клиент не поймёт, что именно нужно уточнить
Оценка: М1 ≈ 7/10, М2 ≈ 4/10
Заставляет задуматься, правда?
На самом деле — стоит. С правильными промтами картина меняется:
Модель |
Без оптимизации |
С промт-инжинирингом |
|---|---|---|
Qwen3-Coder-Flash |
7/10 |
8.5/10 |
GigaChat-2-Max |
4/10 |
8/10 |
А какими приёмами промт-инжиниринга я добился такого результата — расскажу в следующей статье!
Вопросы по настройке? Пишите в комментариях — разберём типовые проблемы.