Зачем это обывателю?

Кейсов на самом деле не мало, как минимум это бесплатно и дает возможность запускать AI без облака, чтобы ничего не отправлялось в интернет (приватность, скорость), 

ну и на случай если упадет интернет как например у нас было в Испании когда все электричество пропало, хорошо бы иметь умного ИИ с которым можно будет пообщаться)

Еще можно использовать как офлайн переводчик или объяснялку без интернета, помощника по учебе и изучения чего либо.

Для профессионалов это вообще оогромная область, от исследования как это работает до разного рода кастомизаций и применений.

Доступных LLM OSS (Open Source Software) офлайн, которые можно скачать к себе на компьютер, огромное количество,

вот некоторые

OpenAI (создатели ChatGPT)

gpt-oss:120b - 61 gb - не потянул мой компуктер, на запустил

gpt-oss:20b - 12gb - свой локальный мини чатгпт, мне показалось одна из лучших моделей но я пока мало экспереминтировал

Qwen3 (Alibaba, китайский амазон у которого свои облака типа aws и тд)

qwen3-coder:30b - 18gb - в рейтингах лучшая для офлайн кодинга на 23 ноября 2025 года

qwen3:32b - 20gb - более универсальная

Gemma3 (Google, локальная версия gemini)

gemma3:27b - 17gb - лучшая модель из иностранных для русского языка


Надо много памяти!

Гигабайты означают не только место на диске, а еще место в оперативной памяти, например у меня MacBook Pro M1 Max 2021 с 64GB, но он не сможет тянуть gpt-oss:120b, которой надо 61gb, запустить удалось, так как памяти хватает, но эффективность нулевая, все залагало и работать с этим невозможн, так как нужна же память еще для самой системы, для фоновых процессов для разных операций и тд, это даже не впритык а overмного.

Нат текущий день есть две популярные тулы для экспериментов с LLM (arge language model) офлайн, это 

 1️⃣ Ollama (от бывших инженеров докер и гитхаб), начиналась как терминальная тула (CLI), сейчас есть UI близкий к chatgpt - Рекомендую программистам. Каталог моделей https://ollama.com/library/ 

установить chatgpt например просто командой и потом в UI Ollama можно общаться с привычными папками и создание окон чата или в терминале

ollama run gpt-oss:20b

2️⃣ LM Studio  

сразу начиналась как UI user friendly тула для работы с LLM офлайн, Рекомендую НЕ программистам, которые просто хотят использовать как ChatGPT (просто для общения с моделью), модели можно скачать через UI.

Если просто пообщаться 

то просто ставите любой инструмент Ollama/LM Studio и там в UI можно выбрать любую модельку которая вам понравится и подходит по ресурсам вашего компьютера

условно gemma3:1b (1ГБ) заработает на большинстве современных компьютеров без проблем (но сильно будет заметна разница по умности с облачными, скорее подойдет чисто для тестов), 

а вот gpt-oss:20b будет супер уже, но надо чтобы у вас было либо в оперативке либо в видеокарте 20gb, реально локальный офлайн чатгпт (июня 2024 года).

Для кодинга

Можно либо генерировать код прям в LM Studio/Ollama, либо перейти в IDE, например VSCode и в окне огента выбрать Manage Models, там выбрать провайдера Ollama и там уже будут доступны модели которые вы скачали, и можно как обычно работать в агентском моде, либо через расширения типа Continue/Kilo code.

Только для кодинга в настройках Ollama/LM Studio надо увеличить контекстное окно, по дефолту в обоих 4k, для кодинга лучше выкрутить на максимум до 256k

Свою идеальную модель для кодинга, общения или чего то другого можно найти только экспериментируя) возможно сайт Обнимающее Лицо https://huggingface.co, в этом может помочь, это как гитхаб для ИИ-моделей, датасетов и других инструментов.

Офлайн ИИ заметно слабее своих облачных собратьев, плюс очень требователен к железу (зато можно погреться зимой от компьютера, а то с облачным стоит тихонечко себе), но все еще можно найти кейсы и адаптировать для своих повседневных задач ? Больше про испанию и айти в моем тг канале

#СезонИИвразработке

Комментарии (9)


  1. Kuzmiin
    28.12.2025 11:38

    nanbeige/Nanbeige4-3B-Base небольшая модель которая может быть лучше крупных


    1. Spearton
      28.12.2025 11:38

      И чем?


    1. FainFortRana
      28.12.2025 11:38

      Смотря в чем , щас народ делает узкоспециализированные 3b модели под конкретные задачи по типу вызова команд или похода в веб , но они все равно туповаты . Из того что я видел если у тебя не железобетонная задача под которую модель тренировалась , минимум нужно 7 миллиардов параметров. Меньше она просто не поймет что ты от нее хочешь и сделает как требуешь но совершено не то .


  1. FainFortRana
    28.12.2025 11:38

    Еще года два назад пробовал играть с LMStudio , но это чисто игрушка ничего нормально без хорошего железа из нее не выдавишь , а это главный ботелнек , если через года полтора все эти двухцветные ракетчики загнутся со своими дата-центрами возможно на рынок попрут h200 и подобные , вот сними уже можно попытаться что то локальное изобразить . Даже возможно агента себе сделать , на замену гпт и остальным .


  1. MxMaks
    28.12.2025 11:38

    Про gpt-oss:120b - 61 gb даже не знал, спасибо за инфу


  1. Tdaa1
    28.12.2025 11:38

    Уже пару лет работаю через kobold cpp с gguf моделями. Ту же gemma 12b запустить на 3060 и 32оперативки.


  1. koshkoshka2
    28.12.2025 11:38

    А ручками кодить?


    1. Filonov404
      28.12.2025 11:38

      меня начальство ждать не будет пока я ручками буду кодить, они все понимают что сейчас происходит и ты должен делать с x3 -x5 скоростью новые фичи, им надо чтобы это работало, а красивость кода они не смогут оценить. Да это чертова реальность, и это очень грустно((


      1. koshkoshka2
        28.12.2025 11:38

        А если на отладку ИИ кода нужно в 2-3 раза больше времени, чем напишешь сам?