Привет, Хабр!
Продолжаю делиться материалами живых дискуссий, которые идут на телеграм-канале Dev Q&A. На этот раз тема — выбор между open source и коммерческими LLM для корпоративных задач. Получилось собрать практиков, которые каждый день решают эту дилемму: Андрея Кувалдина («Транссеть»), Сергея Олькова («Диасофт»), Максима Семёнкина (CodeInside), Артема Панькова (Secret Agents), Владислава Кудинова (Veai), Константина Глазкова (СП.АРМ), Лорана Джейкобса (iPavlov AI-Systems) и Виталия Попова («Софтлайн Решения»).
Обсудили главные болевые точки: почему почти все корпоративные заказчики требуют он-прем, как узкоспециализированные модели обходят универсальные решения, насколько реален GPU-дефицит для практических задач. И честно поговорили о рисках — от ресурсного неравенства между госкорпорациями и СМБ до угрозы отключения от зарубежных моделей.
Собрал ключевые мысли в статью в виде цитат из прямой речи. Кому интересна полная версия — запись доступна на канале. Вопросы и свой опыт (особенно если он отличается от того, что здесь описано) — welcome в комментарии или в Dev Q&A.
Когда «швейцарский нож» проигрывает набору отвёрток
Коммерческие LLM позиционируются как универсальное решение. Огромное контекстное окно, впечатляющие бенчмарки, способность справляться с любыми задачами. Но универсальность имеет свою цену. Чем шире возможности инструмента, тем меньше он оптимизирован под конкретную задачу.
«Коммерческие модели можно рассматривать как швейцарский нож: красивые, универсальные — якобы умеют всё. Хочется написать один большой промпт, закинуть контекст задачи и ждать, что она всё решит. Но результат у них не всегда выходит таким хорошим и предсказуемым, — говорит Максим Семёнкин, CEO CodeInside. — Поэтому наш подход — не пытаться решить всё с помощью языковой модели, а смотреть на задачу и выделять: что можно сделать классическим инженерным подходом, через классический пайплайн, а что уже нельзя без языковых моделей. В итоге на большие языковые модели уходит, наверное, процентов десять. Всё остальное — классические инженерные методы. Поэтому итоговое решение оказывается гораздо менее зависимым от того, какую языковую модель мы выберем — open source или коммерческую, — и куда больше зависит от качества самого инженерного пайплайна».

Практика показывает: разницу между open source и коммерческими моделями можно нивелировать за счёт работы с контекстом и промптами. Причём речь не о каких-то хаках или обходных путях — это системный инженерный подход.
«Изначально в рекламе это подаётся так, будто всё лучшее — в платной модели, а бесплатно — пользуйтесь как получится. Наши замеры показывают: да, качество отличается, но не критично, — объясняет Сергей Ольков, руководитель управления «Диасофт». — Это может потребовать дополнительной кастомизации промптов, инструментов, более аккуратно оптимизированного контекста. Там, где большая коммерческая модель с безграничным контекстом — та же Gemini с миллионом токенов — может избаловать пользователя тем, что он просто закинул туда всё и получил какой-то ответ, нам приходится оптимизировать. Это инженерный подход: заранее продумывать, что именно мы отправим в LLM, в каком формате, какой ответ хотим получить, разбивать задачу на части. Есть и мультиагентный подход, когда каждый агент решает свою конкретную подзадачу. Всё это вместе в итоге нивелирует разницу. При таком подходе, когда мы оптимизируем промпт и структуру решения, далеко не всегда коммерческая модель выдаёт лучший результат — качество тоже может плавать».

«Коммерческие модели хороши именно как завершённый продукт. Но как только мы начинаем писать действительно продуманные промпты и подавать качественный контекст, их преимущества как готового решения постепенно стираются, — отмечает Артём Паньков, генеральный директор Secret Agents. — Поэтому наш коммерческий продукт на основе open source-моделей на самом деле может почти не уступать по качеству, а местами д��же превосходить».
«Большой контекст сам по себе не гарантирует хорошее качество ответа. Гораздо лучше, когда мы как разработчики и интеграторы держим контекст в разумных пределах — иначе модель только чаще ошибается, — предупреждает Артём Паньков. — И, конечно, есть вопрос к метрикам, по которым сравнивают коммерческие модели. Не факт, что именно они сыграют решающую роль в конкретном продукте или проекте у клиента. На них тоже нужно смотреть — и обязательно с критическим мышлением».
А тезис о безоговорочном превосходстве коммерческих моделей вообще требует проверки.
«Утверждение, что коммерческие модели якобы значительно лучше, чем open source, технически в корне неверно. Это просто не так. Если сравнить параметры, в ряде случаев технические показатели даже лучше у open source, — утверждает Лоран В. Джейкобс, основатель iPavlov AI-Systems (ГК «Максима»). — Когда вы внедряете решения в промышленность, как делаем мы для российских заказчиков, open source неизбежен: крупные компании закупают GPU, потому что им прежде всего важны независимость и суверенитет. У open source и коммерческих моделей разные цели, задачи и рынки. Поэтому грубое сравнение “пункт за пунктом” просто некорректно».

Он-прем — не философия, а необходимость?
«У нас часть клиентов работает по требованиям ЦБ, и там жёсткие ограничения на хранение чувствительной информации и обработку персональных данных, — говорит Сергей Ольков, руководитель управления «Диасофт». — Поэтому выбор довольно простой: мы рассматриваем в основном он-прем модели. Внешние и коммерческие используются только для разработки, отладки и тестирования, а в промышленной эксплуатации — это в основном open source разных типов и масштабов, но развёрнутые либо на арендованных мощностях, либо полностью во внутреннем контуре. Здесь есть своя специфика — выбор без выбора. Гарантировать, что коммерческая модель где-то во внешнем контуре сможет обеспечить все требования, невозможно — верить ей на слово в таких вещах нельзя».
Но регуляторика — только часть картины. Есть ещё операционная устойчивость.
«Вопрос безопасности нужно отделять от вопроса искусственного интеллекта. Почему у нас востребованы он-прем модели на инфраструктуре заказчиков? Потому что когда идёт шквальная DDoS-атака на компанию, самым эффективным способом решить этот вопрос является выключить внешний контур. Гасишь рубильник — отключаешься от интернета, и у тебя прекращаются все DDoS-атаки, — объясняет Андрей Кувалдин из компании «Транссеть». — Но когда твои ИИ-сервисы находятся во внешней среде, отключившись от внешнего интернета, ты отключаешься от использования искусственного интеллекта. Он-прем модель, которая находится внутри на инфраструктуре заказчика, решает этот вопрос. Она работает без интернета. И мы естественным образом приходим к тому, что все будут пользоваться open source моделями».

«Что касается отечественных моделей — у нас была интеграция с GigaChat. Некоторым клиентам мы её предлагали, некоторые сами просили: мол, хотим поработать со Сбером. Но в итоге реальных запросов не поступило — сейчас все говорят одно и то же: мы хотим разворачивать свою модель в закрытом контуре, — делится опытом Константин Глазков. — Если речь о медицинских данных, за чувствительную информацию отвечает сама медсистема, которая работает с нейросетью. И если она не передаёт наружу никаких чувствительных данных, то, на мой взгляд, не так уж важно, open source это решение или коммерческая модель — можно хоть за границу отправлять, если в данных нет ничего критичного. Здесь можно ориентироваться на 152-й федеральный закон, чтобы понимать, какие данные считаются чувствительными».

«Когда мы говорим о безопасности, я, по крайней мере, не видел какого-то отдельного стандарта именно для ИИ. Какие-то ГОСТы вроде появлялись, но в целом для безопасности инфраструктуры, включая ИИ-системы, существуют понятные механизмы. И если их не применять, то, извините, будь у тебя ИИ или что угодно ещё — проблемы с безопасностью всё равно будут, — говорит Виталий Попов, директор департамента «Софтлайн Решения». — Должна быть классификация данных, понятные технические меры, выстроенная архитектура, организационные меры — всё, что положено. Здесь не может быть так, что использование условного GigaChat само по себе “безопасно”. Нет, решение о безопасности принимают специально обученные специалисты по информационной безопасности — и только они могут сказать, безопасно это или нет».
Он-прем подходит не для всех сценариев.
«Важно отметить, что при необходимости можно использовать и облачные open source-модели — они есть и в Яндекс.Облаке, и в Selectel. Ограничиться только он-премом сложно, если речь о внешнем сервисе: маркетинг может запустить новую акцию, а мы не успеем быстро докупить железо для обслуживания потока пользователей, — говорит Артём Паньков. — Мы как компания в основном разрабатываем решения для конечных пользователей — публичные чат-боты и подобные сервисы. Основная сложность здесь — угроза DDoS-атак, когда конкуренты начинают флудить бот вопросами. Если мы используем облачный сервис, это может просто “съедать” баланс. Поэтому мы стремимся к он-прем решению, но его главный недостаток — отсутствие гибкого масшт��бирования. Приходится искать баланс между безопасностью и масштабируемостью».
И главный риск — не ресурсы, а зависимость от чужих технологий.
«Сегодня нужно говорить об угрозе отключения от моделей — вот это реальный риск, — предупреждает Лоран В. Джейкобс, основатель iPavlov AI-Systems (ГК «Максима»). — Эти модели значительно опережают Сбер и Яндекс — просто несопоставимы по уровню, потому что объём инвестиций несоизмерим: если у нас вкладывают миллион долларов, там — десять миллиардов. И это создаёт серьёзную национальную угрозу. Для нас, частных коммерческих разработчиков, это действительно огромный риск, и он никак не решён. У нас нет собственной базы, нет своих моделей — и не появится, пока государство не определится: оно вкладывается в нас или в себя, а двойного бюджета нет. Нужно огромное количество частных инвестиций, чтобы мы могли разрабатывать свои модели, а не рассчитывать на Сбер и Яндекс, у которых масса собственных интересов».
Что остаётся делать
«Сценарий отключения я бы, честно говоря, всерьёз не рассматривал. Даже если взять Китай с его великим файрволлом — люди всё равно прекрасно его обходят, — говорит Артём Паньков, генеральный директор Secret Agents. — Звучало, что у Китая проблемы с GPU, но мы знаем об этом только из новостей. DeepSeek, Qwen, облачные версии — всё работает быстро и без перебоев. Никаких реальных следов дефицита видеокарт мы не наблюдаем. Похоже, это больше медийная история».

«Мы все упёрлись в GPU, но помимо видеокарт нужно ещё много чего: электричество, ЦОДы с охлаждением и гарантированным питанием — целая инженерная инфраструктура. И ещё мы забываем про человеческие ресурсы: за специалистов тоже идёт битва, мы все можем друг у друга переманивать инженеров и разработчиков, — напоминает Виталий Попов, директор департамента «Софтлайн Решения». — Сейчас уже есть проблема с оперативной памятью, будут проблемы с серверными мощностями в целом. Мы вошли в этап тестирования китайского оборудования, потому что Nvidia дорогая, её иногда сложно привезти, а в перспективе за ней будет очередь. Нужно смотреть альтернативы — вышло уже несколько десятков аналогов. С ресурсами точно будет проблема, и не только с физическими — с человеческими и финансовыми тоже».
«Пока такой проблемы не видно, по крайней мере, мы с ней ��лотно не сталкивались, — говорит Сергей Ольков, руководитель управления «Диасофт». — Мне кажется, это больше хайп вокруг коммерческих моделей, которые строят ЦОДы на сотни тысяч GPU. Для прикладных клиентов это неактуально: им не нужно обслуживать десятки миллионов пользователей. Даже самые крупные заказчики — это несколько тысяч пользователей, масштабы совсем другие».
«Гонка не останавливается, и с учётом скоростей внедрения в энтерпрайз это, возможно, рабочий подход: пилоты и прототипы делаются под текущие топовые модели, а пока энтерпрайз закупит, протестирует, внедрит — open source как раз догонит, и можно будет масштабировать в продакшн, — рассуждает Владислав Кудинов. — Единственная компания в России, которая делает свою модель с нуля, — Сбербанк. У одной компании хватает денег, и это радует: всё-таки это школа, это мозги. Мы периодически пробуем их модели как базис. Пока GigaChat сильно отстаёт от open source, но мы активно следим за развитием».

«Нужно думать в первую очередь о заказчике: какие цели он ставит, какие задачи решает, — и только потом выбирать инструменты, — говорит Андрей Кувалдин. — Нужна ли ему высокая точность? Какая скорость вычислений требуется? Если требования к точности невысокие, можно использовать квантизацию: точность снижается нелинейно, зато экономятся вычислительные ресурсы. А когда нужно проверить гипотезу, сделать MVP без реальных данных — вполне подойдёт платная модель, чтобы потом сделать правильную реализацию на своих мощностях».
«Если мы окажемся в условиях жёстких ресурсных ограничений по GPU, придётся нарабатывать практики жизни в этих ограничениях, — говорит Максим Семёнкин, CEO CodeInside. — Мы будем вынуждены использовать ограниченные модели, наработаем подходы — и с этими практиками сможем выходить в другие страны, которые сталкиваются с похожими проблемами. Возможно, в этом для нас откроется новая перспектива».
А что думаете вы? Поделитесь своим мнением в комментариях.