Предисловие: точка невозврата
Всё началось с неприятного ощущения, которое нарастало постепенно. Я, как и многие разработчики, активно использую Claude, ChatGPT и Gemini в повседневной работе. Эти инструменты стали частью моего профессионального арсенала — как IDE или Git. Но в какой-то момент я поймал себя на мысли: а что будет, когда это закончится?
Не в смысле «закончится хайп» — нет, ИИ никуда не денется. Закончится дешёвый и доступный ИИ. Закончится возможность отправлять свой код в чёрный ящик, не думая о последствиях. Закончится иллюзия, что мы, разработчики, — равноправные пользователи, а не сырьё для обучения следующих моделей.
Я прочитал несколько книг, которые перевернули моё представление о Кремниевой долине и о том, куда движется индустрия. И понял: история с супердешёвым ИИ в кармане в виде чатов типа Claude, ChatGPT и Gemini рано или поздно кончится чем-то не очень хорошим. Причём для всех нас.
Часть первая. Идеологический фундамент: что на самом деле строят в Кремниевой долине
Книга первая: «The Code» — государство как стартап-акселератор
Маргарет О’Мара в своей книге «The Code: Silicon Valley and the Remaking of America» (2019) проделала колоссальную работу. Она работала в администрации Клинтона в первые дни коммерческого интернета и увидела изнутри, как глубоко Кремниевая долина была переплетена с федеральным правительством.
О’Мара показывает, что история успеха Кремниевой долины — это не история одиноких гениев-предпринимателей, а история мощных институтов, создавших фундамент для инноваций: от Пентагона до Стэнфордского университета. ARPANET, первые микропроцессоры, интернет-протоколы — всё это финансировалось государством. Сообщество, которое начиналось как однородное и тесно связанное, сохранило эту закрытость, а его вера в собственную мифологию (мы — свободные гении, мы — disruptors) переросла в коллективную гордыню, которая привела как к триумфам, так и к разрушительным последствиям.
Ключевая мысль: Кремниевая долина обязана своим существованием государству. Это не история свободного рынка — это история государственно-частного партнёрства, которое создало технологическую элиту. И эта элита никогда не забывала, кто платит за их игрушки.
Книга вторая: «The Technological Republic» — моральный долг и милитаризация
В 2025 году вышла книга «The Technological Republic: Hard Power, Weak Faith, and the Future of the West» за авторством Алекса Карпа (генерального директора Palantir) и Николаса Замиски. И вот здесь становится по-настоящему тревожно.
Карп открыто заявляет: Кремниевая долина должна «вернуть моральный долг» государству и принять участие в защите нации. Инженерная элита, по его словам, обязана не только участвовать в обороне, но и «формулировать национальную идею — что такое эта страна, каковы наши ценности и за что мы стоим».
Вот что ещё он пишет в своей книге (и это уже звучит совсем иначе, чем просто «технологии для блага»):
«Послевоенная кастрация Германии и Японии должна быть отменена. Разоружение Германии было чрезмерной коррекцией, за которую Европа теперь платит высокую цену. Аналогичная и весьма театральная приверженность японскому пацифизму, если её сохранить, также угрожает сместить баланс сил в Азии».
Перевод с языка дипломатии: Карп предлагает перевооружить Германию и Японию. И это не просто слова — это прямой экономический интерес Palantir, потому что половина доходов компании уже идёт от контрактов с правительствами США и их союзников.
Карп также пишет, что эпоха ядерного сдерживания уходит, а на её место приходит сдерживание на основе ИИ:
«Мы строим программное обеспечение, которое может стать оружием массового поражения. Потенциальная интеграция ИИ с вооружениями создаёт риски, особенно если программы обретут самосознание и собственные намерения. Но призыв остановить разработку ошибочен. Наши противники не будут тратить время на театральные дебаты о достоинствах разработки технологий, стратегически важных для военной безопасности».
Palantir, компания Карпа, уже поставляет свой ИИ-продукт израильской армии, который, по данным критиков, помогает генерировать «списки на уничтожение» в Газе.
И это не просто один чудак
Карп — не маргинал. Он один из самых влиятельных людей в технологической индустрии США. Публицист Оливье Теске в книге «Apocalypse Nerds» прямо называет это «техно-фашизмом» — «реакционным модернизмом», который использует инструменты технологической современности для борьбы с политической современностью.
Влияние этой идеологии уже очевидно. Карп инвестировал 1 миллион долларов в инаугурацию Трампа, а Palantir работает с ICE над программами массовой депортации. Его компания помогает администрации собирать огромные объёмы данных об американцах, что даёт президенту «невиданную силу слежки».
Исследовательский центр AI Now Institute отмечает: сегодня федеральное правительство и крупнейшие технологические компании, строящие ИИ, заключают эксклюзивные контракты, чтобы сохранить власть в руках немногих игроков. OpenAI, Oracle и Meta добиваются долгосрочных партнёрств с администрацией Трампа для строительства дата-центров и расширения своих рынков.
Часть вторая. Рынок облачных LLM: как это выглядит в 2026 году
Теперь соединим эти факты с тем, что происходит на рынке облачных LLM.
Хроника событий (лето 2026):
Дата |
Событие |
|---|---|
8 июля 2026 |
Anthropic вводит KYC для Claude — нужно загружать паспорт и делать селфи |
Июль 2026 |
Облачные ИИ-сервисы резко подорожали |
Август 2026 |
Copilot Pro повышает мультипликаторы: Claude Opus — с 3x до 27x, Sonnet — с 1x до 9x |
Август 2026 |
Бесплатный GPT-4o перестаёт быть таковым |
Почему это происходит?
Карп и его единомышленники не скрывают, что видят свою миссию в контроле над ИИ-инфраструктурой. Они не будут продавать вам дешёвый ИИ — они будут собирать ваши данные, чтобы обучать свои модели и укреплять свою власть. Субсидирование подписок и дешёвый доступ к ИИ — это просто способ собрать данные и нарастить модели, пока они не станут достаточно мощными, чтобы полностью контролировать информационное пространство.
Исследователи из AI Now прямо пишут: администрация США не заинтересована в децентрализации власти в экосистеме ИИ. Напротив, они консолидируют её, «всё за счёт конкуренции, пользовательского опыта и потенциального роста малых ИИ-фирм».
Вывод для разработчика:
Облачный ИИ станет либо дорогим, либо потребует полной идентификации, либо и то и другое.
Данные, которые мы отправляем в эти сервисы, используются не просто для улучшения продукта — они становятся частью инфраструктуры, которая, как говорит Карп, должна служить «защите нации».
Цены будут расти, а доступ для частных пользователей — сужаться.
Работодатели и заказчики уже ждут от вас производительности, как будто вы используете лучший ИИ. Мы уже не можем просто отказаться от ИИ — слишком высокая цена проигрыша в продуктивности. Но мы можем выбирать, какой ИИ использовать: облачный, контролируемый корпорациями, или локальный, принадлежащий нам.
Часть третья. Моё приключение с локальным ИИ: хардкорный гайд
И я решил: пора разбираться, что можно сделать своими руками. Для эксперимента я взял свой домашний компьютер и настроил его для работы с локальными ИИ-моделями. Весь процесс я задокументировал.
Железо
Компонент |
Модель |
Примечание |
|---|---|---|
Процессор |
Intel Core i9-14900HX |
16 ядер / 24 потока |
Оперативная память |
32 ГБ DDR5 |
Для 27B модели в 2-bit квантизации хватило впритык |
Видеокарта |
NVIDIA GeForce RTX 4060 |
8 ГБ VRAM — узкое горлышко |
ОС |
Linux Mint 22 |
Свежая установка, X11 |
Глава первая: ад с драйверами NVIDIA
Это была самая нервная часть. В Linux Mint драйвер NVIDIA (версия 550) отказывался работать из-за Secure Boot. Ошибка «Key was rejected by service» преследовала меня несколько дней.
Решение:
Установить драйвер через
apt(не через .run файл!)Перезагрузиться, попасть в MOK (Machine Owner Key) менеджер
Выбрать “Enroll MOK” → “Continue” → “Yes” → ввести пароль
Подписать драйвер цифровым ключом прямо на синем экране при загрузке
Profit
После этого nvidia-smi наконец показал заветную карту, а не сообщение о том, что драйвер не загружен.
Глава вторая: выбор модели
Поскольку я стал увлекаться смарт-контрактами и аудитом Solidity-кода, мне нужна была модель с глубоким пониманием этого языка.
Перебор вариантов:
Модель |
Размер |
Качество по Solidity |
Что получилось |
|---|---|---|---|
Qwen 2.5-Coder 7B |
7B |
Среднее |
Влезает в VRAM, 35–45 ток/с |
DeepSeek-Coder 6.7B |
6.7B |
Хорошее |
Влезает, но хуже понимает контекст |
Qwen 3.6 Solidity 27B (IQ3) |
27B |
Отличное (5 этапов обучения на Solidity) |
Не влезает в 8 ГБ → CPU+RAM, 0.5–2 ток/с |
Что такое IQ3 (квантизация)?
В двух словах: квантизация — это сжатие весов модели с плавающей запятой (FP16/BF16) до целочисленных форматов (INT8, INT4, даже INT2). Это позволяет хранить модель в меньшем объёме памяти, но за счёт потери точности.
Для 27B модели я использовал 2-битную квантизацию (IQ2_XS). Почему?
В 8 ГБ VRAM модель не влезает даже в 4-bit (требует ~13 ГБ)
В 2-bit она занимает около 7 ГБ, но на моей карте остаётся место только для контекста
В итоге я запускал её на CPU + RAM, а VRAM использовал для небольших моделей
Итоговый выбор для повседневной работы:
Основная модель:
qwen2.5-coder:7b— 35–45 токенов в секунду на GPU, отличная для автодополнения и простых задачДля сложного аудита:
batai/qwen3.6-27b:iq3— медленно, но глубоко. Запускаю на CPU, когда нужен тщательный разбор
Глава третья: инструментарий
Ollama — самый простой способ запускать локальные модели. Установка через curl, запуск через ollama run <model>.
Но для реальной работы я использую связку Ollama + Continue в VS Code.
Настройка ~/.continue/config.json:
{ "models": [ { "title": "Qwen Coder 7B (быстрый)", "provider": "ollama", "model": "qwen2.5-coder:7b" }, { "title": "Qwen 27B Solidity (медленный, но умный)", "provider": "ollama", "model": "batai/qwen3.6-27b:iq3" } ] }
Схема работы:
Автодополнение кода и быстрые вопросы → 7B модель на GPU
Аудит смарт-контракта, рефакторинг, сложная логика → 27B модель на CPU (терпение, 2–3 минуты на ответ)
Глава четвёртая: тест-драйв
Я дал локальной модели реальную задачу: написать сложный смарт-контракт с аукционом, защищённым от повторного входа (reentrancy).
Вот что выдала модель (я привожу полный код, чтобы было видно качество):
// SPDX-License-Identifier: MIT pragma solidity ^0.8.17; import "@openzeppelin/contracts/security/ReentrancyGuard.sol"; import "@openzeppelin/contracts/access/Ownable.sol"; contract SecureAuction is ReentrancyGuard, Ownable { uint256 public endBlock; uint256 public highestBid; address public highestBidder; mapping(address => uint256) public pendingReturns; event NewHighestBid(address indexed bidder, uint256 amount); event AuctionEnded(address winner, uint256 amount); constructor(uint256 _duration) { endBlock = block.number + _duration; } function bid() external payable nonReentrant { require(block.number < endBlock, "Auction already ended"); require(msg.value > highestBid, "Bid too low"); if (highestBidder != address(0)) { pendingReturns[highestBidder] += highestBid; } highestBid = msg.value; highestBidder = msg.sender; emit NewHighestBid(msg.sender, msg.value); } function withdraw() external nonReentrant returns (bool) { uint256 amount = pendingReturns[msg.sender]; require(amount > 0, "Nothing to withdraw"); pendingReturns[msg.sender] = 0; (bool success, ) = msg.sender.call{value: amount}(""); require(success, "Transfer failed"); return success; } function endAuction() external onlyOwner { require(block.number >= endBlock, "Auction not ended"); payable(owner()).transfer(address(this).balance); emit AuctionEnded(highestBidder, highestBid); } }
Качество кода:
Использован
ReentrancyGuard— защита от повторного входаПаттерн Checks-Effects-Interactions соблюдён (сначала обновляем состояние, потом делаем внешний вызов)
Использованы
eventsдля прозрачностиФункция
withdrawреализована по принципу pull-over-push (безопаснее)
Для модели, которая бежит на CPU с 2 токенами в секунду, это впечатляющий результат. Да, она медленнее ChatGPT. Но она моя.
Часть четвёртая. Сравнительная таблица: облако vs локальный ИИ
Параметр |
Облачные LLM (Claude/GPT) |
Локальный ИИ (мой сетуп) |
|---|---|---|
Цена |
$20–60/мес + плата за токены |
0 (разовое железо) |
Скорость |
50–100 ток/с |
0.5–45 ток/с (зависит от модели) |
Конфиденциальность |
Данные уходят в облако |
Данные остаются на вашем диске |
KYC |
Требуется паспорт (с 2026) |
Не требуется |
Зависимость |
От сервиса и интернета |
От вашего железа |
Контроль модели |
Нулевой |
Полный (выбираете любую модель) |
Актуальность |
Всегда последняя версия |
Вы сами решаете, когда обновлять |
Сложность настройки |
5 минут на регистрацию |
От нескольких часов до нескольких дней |
Часть пятая. Что я понял в итоге
1. Локальный ИИ — это суверенитет. И это главное. Модель — это просто файл (в случае Ollama — несколько гигабайт), который действительно принадлежит вам. Вы не отправляете свой код в чужой дата-центр, где он может быть использован для обучения следующей версии модели.
2. Навык настройки становится конкурентным преимуществом. В условиях, когда облачные провайдеры меняют правила игры в одностороннем порядке (вспомните повышение мультипликаторов Copilot Pro), умение развернуть собственную инфраструктуру становится активом, который ценится не меньше, чем знание фреймворка.
3. Технологическая элита не на нашей стороне. Карп, Тиль и их единомышленники не скрывают — они строят инфраструктуру для государства, а не для нас. Их ИИ — это оружие и инструмент контроля. Наша задача — создать свои инструменты, которые не требуют ни паспорта, ни подписки, ни отправки данных в систему, которая может быть использована против нас.
4. Качество локальных моделей уже достаточно для работы. Мой опыт с Qwen показал: для рутинных задач (написание кода, рефакторинг, объяснение сложных концепций) локальные модели дают результат, сравнимый с облачными. Да, медленнее. Но не хуже.
Заключение: что дальше?
Мой эксперимент показал: локальный ИИ на типичном домашнем компьютере — это реально. Он работает, даёт качественный код (хоть и медленнее облачных аналогов) и не требует ни паспорта, ни дорогого тарифа.
Конечно, это не серебряная пуля. Для быстрого прототипирования облачные сервисы всё ещё удобнее. Но когда речь заходит о работе с чувствительными данными или о долгосрочной стратегии — локальные модели выходят на первый план.
Рано или поздно каждый разработчик окажется перед выбором: оставаться в облачной экосистеме, которая всё больше напоминает инструмент государственного контроля, или обрести цифровой суверенитет.
Я свой выбор сделал. И, судя по всему, не жалею.
Что можно сделать прямо сейчас (чек-лист)
Поставьте Ollama —
curl -fsSL https://ollama.com/install.sh | shСкачайте модель —
ollama pull qwen2.5-coder:7bУстановите Continue в VS Code — бесплатный плагин
Настройте конфиг — укажите модели в
~/.continue/config.jsonПопробуйте — напишите простую функцию и попросите модель её улучшить
Для сложных моделей (27B+):
Убедитесь, что у вас > 32 ГБ RAM — иначе модель просто не запустится
Используйте квантизацию —
:q4_0или:iq3суффиксы при pullБудьте готовы к скорости 1–2 ток/с — это нормально для экспертных моделей
Вместо послесловия
Когда я писал эту статью, я снова запустил Qwen 27B на CPU и попросил её объяснить, как работает механизм MOK в Linux. Модель выдала подробный ответ, включая историю возникновения Secure Boot и архитектурные решения UEFI. Через 4 минуты.
Это медленно. Но это мой медленный ИИ. Мой. И он не требует моего паспорта.
P.S. Если у вас есть вопросы по настройке или вы нашли более эффективную конфигурацию — пишите в комментарии, обсудим. Мы все сейчас учимся жить в мире, где ИИ становится не просто инструментом, а полем битвы за контроль над данными.
Комментарии (14)

economist75
20.06.2026 10:06Согласен с автором, локальные модели должны быть у каждого современного пользователя ПК и тем более у кодеров. Уровень ПК-грамотности так низок, что ниже некуда. Например четверть офисных респондентов не может набрать все символы латиницы за 2 минуты теста. Куда им до консоли. Они же - основные ИИ-скептики.
Облачные llm постоянно и незаметно вытягивают из всех нас не только наши прорывные идеи и перс. данные, но и служебную, налоговую, коммерческую (уверен - и гостайну).
Многолетнее отгораживание от мира своими мониторами сыграло с айтишниками злую шутку: они полностью и безоглядно доверяют своим инструментам, забыв что они облачные. И ткнуть их с это некому, кроме как самим это осознать. Приходит время заговорить об этом открыто. Главное не начать запрещать. Зеркала huggingface, github, pypi должны быть созданы давным давно, их социальная реклама должна проесть мозжечок каждому. Но нет этого ничего.

Anton_Timofeev
20.06.2026 10:06Вот с таким конфигом гоняю локальную qwen3.6 MTP на 3070 8GB + 12900k 64GB. Выдаёт около 40 t/s
llama.cpp/build/bin/llama-server \ --model llama.cpp/models/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \ --parallel 1 \ - один пользователь за раз --host 127.0.0.1 --port 8080 \ --offline \ - не лазить в интернет --no-mmap \ --n-gpu-layers 99 \ - постараться как можно больше засунуть в ГПУ --cpu-moe \ - все эксперты - на ЦПУ --threads 8 \ - 8 потоков на ЦПУ --batch-size 512 --ubatch-size 128 \ --ctx-size $((64*1024)) \ - контекст, сколько влезет --cache-ram 16000 \ - на всякий случай --flash-attn on \ - куда ж без flash attention --cache-type-k q8_0 --cache-type-v q8_0 \ - квантование KV кеша --no-kv-unified \ - не объединять кеш --temperature 0.0 \ - отключаем "креативность" --top-k 1 \ - жадно берём один токен --repeat-last-n 0 \ - не штрафуем за повторы --reasoning off \ - тут по вкусу --spec-type draft-mtp \ - минисетка для предсказания токенов --spec-draft-n-min 0 \ - разрешаем ничего не брать --spec-draft-n-max 16 \ - ограничиваем цикл опроса минисетки --spec-draft-p-min 0.75 \ - уверенность, ниже которой больше не опрашиваем --spec-draft-type-k q8_0 --spec-draft-type-v q8_0 - квантуем уже кеш минисетки
vasyan_podpivkovich
20.06.2026 10:06Может быть немного мимо темы, но в условиях ограниченного vram бюджета, также обратите внимание на возможность организовать видеовывод на iGPU, а инференс и прочий gpu-heavy workload подавать через offload на дискретку. Это может быть неактуально для систем без gui вроде серверных, но в ином случае это может помочь, лично меня жаба душила когда иксы и браузеры отжирали 2-3 Гб на свои нужды даже при чуть большем объёме видеопамяти.

Anton_Timofeev
20.06.2026 10:06Я пробовал. К сожалению драйвера nvidia переводят карту в On-Demand состояние, и инференс падает до 10t/s. А если насильно выставить режим Performance - GUI переезжает обратно) Так и не смог добиться, чтобы видеокарта работала на полную силу, если через неё не выводится изображение. Но система не то чтобы много объедает ~600Мб VRAM

Anselm_nn
20.06.2026 10:06И как оно? Просто большинство локальных моделей для простых задач, они все же сильно тупее облачных. Основной аргумент "данные обрабатываются локально", но вот про качество обычно как-то скромнее умалчивают

vasyan_podpivkovich
20.06.2026 10:06Также соглашусь с автором.
И ведь помимо национальных интересов определенных групп, как кажется или так и является текущая ценовая доступность облачных "frontier" моделей обусловлена субсидиями с целью сбора данных, но рано или поздно этот праздник жизни должен закончиться. И тем паче наблюдать за коллегами, что выстраивают свои "платформы" на обвязке готовых продуктов вроде Claude code / codex и т.п.
Агентную "платформу" вроде Claude code ещё можно заменить в области оркестрации, т.к. имеются открытые аналоги. Но лично для себя строю систему тулинга с которой и взаимодействуют агенты. Ведь тот же Claude предоставляет не только пакетный доступ к LLM, но и много инструментов вроде поиска в сети, проверки найденных данных, ведь можно затянуть к себе "вредоносные" тексты в том числе и с инъекциями. Например, так получилось полностью затянуть в закрытый периметр этого инструмента все закрытые библиотеки с документацией, обвесить их автоматически анализаторами и всякими tree-sitter для навигации через mcp.
Но, уж извините, хоть и растекся мыслью, как мне кажется важно иметь аналог для всего стека, которым пользуетесь учитывая такие настроения у техногигантов да и как-то доносить это до "бизнеса".

vasyan_podpivkovich
20.06.2026 10:06Также посмотрите в сторону моделей с динамической квантизацией. Например, unsloth. Может помочь выжать чуть больше качества из узких рамок.

egranty
20.06.2026 10:06То, что нас используют для улучшения ИИ даже не подлежит сомнению. Они обкатывают его на практических задачах и параллельно собирают данные об используемых решениях и кто чем занимается.
Но есть и обратная сторона этой медали. Изоляция ИИ от публичного доступа - это его развитие в закрытой экосистеме, которая будет постепенно терять связь с действительностью. Галапагосские острова - классический пример закрытой островной экосистемы, где эволюция потеряла связь с остальным миром.
В целом - согласен, монополию ИИ надо разрушать ещё в зародыше, причём не только на уровне гос.регулирования, но и на уровне “локального цифрового сопротивления” - перестать бесплатно поставлять им данные. Особо упоротым вендорам ИИ - поставлять искаженные данные. Правда, тогда мы не сможем доверять их ИИ, но мы и так не можем доверять прориетарному ИИ, закрытому от публичного тестирования (кто знает, каких закладок он нам навставляет).
Нас много, мы можем голосовать не словом, а делом.

jojozuka
20.06.2026 10:06Qwen 3.6 27B 5bit это не отличное, а едва терпимое. Всё остальное просто убогое. Увы, полновесным моделям они не конкуренты вообще никак
alexhu
Цену (которая у вас "ноль") посчитайте как стоимость всего железа на время плюс стоимость электроэнергии не по льготному тарифу.
И раз вы сделали идеологическое введение - то слово "фашизм" настолько часто употребляется в прессе и средствах массовой информации, что его заездили и вытрепали смысл. Техногиганты строят не фашизм, а нацизм.
Контракты с правительством это в первую очередь ВПК - так всегда и было. Кто то в мемуарах этому сильно удивляется - наверное никогда не увлекались своей же историей. Тесная связь промышленности и правительства - так у них выстроено законодательство, они хотят что так и было.
BlackMokona
Нацизм?
В каком месте у техногигантов есть нация на первом месте когда они все ТНК.
Или может там социализм у них завёлся?
Да и Фашист там например Сандерс со своим предложением отнять в пользу государства 50% акций всех крупных корпораций. Ведь это как раз слияние бизнеса с государством. А сами техногиганты хотят чтобы правительства было как можно меньше, а правительственные интересы стояли на последнем месте
alexhu
Совершенно не важно кто чего хочет и что думает. У всех техногигантов юрисдикция США и они выполняют законы США.
Есть несколько крупных фирм, которые не находятся напрямую под действием законов США в силу их расположенности в других странах. Только им тоже нужен рынок США, нужны гарантии США по инвестициям, нужна платёжная валюта США и ещё много-много всего разного связанного с США или союзниками США. И они тоже будут выполнять законодательство США.
По поводу нацизма - такова в настоящий момент преобладающая идеология правящей верхушки США. Такие идеи они транслируют на общество, это поддерживает население путём голосования на выборах. Они этого не стесняются, открыто об этом заявляют. Мага - это нацизм в чистом виде.
BlackMokona
Есть куча техногигантов из Европы и Китая. Есть ребята и из Южной Кореи с Японией. Есть с Тайваня.
Таки если США будут слишком душить, то уйдут с рынка
В данный момент намного ближе к нацизму демократы, Респы вообще в мегапарсеке от этого