Привет, Хабр! На связи Just AI, и сегодня мы собрали для вас непопулярные мнения экспертов индустрии на тему genAI. Зачем? Потому что новости о прорывных технологиях, многомиллиардных инвестициях и стартапах появляются почти каждый день – сложно не утонуть в этом потоке и понять, где реальная ценность, а где просто хайп. Критическое мышление – наше все!

В нашем телеграм-канале мы устроили челлендж «pov/real» и попросили авторитетных авторов, AI-практиков и техно-энтузиастов развеять некоторые мифы о genAI и поделиться своей точной зрения. Предлагаем задуматься над выводами вместе, а возможно и где-то поспорить!

LLM и ML — стоит ли вписываться в гонку?

Павел Рыков

Автор tg-канала Pavel Zloi

pov:

Вкатываться в ML уже поздно, все интересное уже случилось, все написано, модели обучены, рынок перегрет

real:

Мы только подходим к самой насыщенной фазе, а именно —  этапу внедрения. Основы заложены, а теперь начинается самое интересное!

А именно: интеграция ML вообще и LLM в частности в реальные продукты, их адаптация под бизнес-процессы, проектирование устойчивых флоу, оптимизация пользовательских интерфейсов. Даже начинающий специалист может успеть впрыгнуть в этот процесс.

Нужны не только исследователи архитектур и авторы статей, но и разработчики, которые умеют превращать прототип в рабочую систему. Сейчас востребованы навыки адаптации моделей под конкретные задачи, дообучения, построения агентских систем, настройки inference-серверов, тонкой настройки под потребности пользователя.

Хайп может утихнуть, а вот внедрение займет еще много лет, так что именно здесь открываются реальные возможности.

Чтобы эффективно работать с LLM и ML в 2026 году, полезно освоить следующие направления:

  • IDE для вайб-кодинга: Cursor, Firebase Studio

  • Фреймворки интеграции и оркестрации моделей: LangChain, Haystack, LangGraph, LlamaIndex, NeMo Guardrails

  • Работа с моделями и их обучение: HuggingFace Transformers, PyTorch, llama.cpp, Ollama, LM Studio

  • Работа с API популярных моделей: Qwen, DeepSeek, OpenAI, Anthropic, GigaChat

  • Инженерия и DevOps: Docker, Kubernetes, CI/CD

  • Облачные и API-сервисы: AWS SageMaker, Google Cloud AI Platform, Azure Machine Learning Studio

Про бенчмарки и их эволюцию

Роман Куцев

Основатель LLM Arena

pov: 

LLM-модели выходят каждый день, никто не понимает, что лучше, а текущие бенчмарки baised и не отражают действительность

real: 

Бенчмарки развиваются так же быстро, как и новые LLM, позволяя объективно оценивать модели по различным типам задач

В «живой» Chatbot Arena уже накопилось 2,8 млн парных голосований по 150+ моделям; таблица меняется еженедельно. Но пока все смотрят на эти ранги, сообщество всё чаще оценивает не голые LLM, а целые LLM‑системы — агенты, RAG‑стэки, инструменты с внешней памятью.

Под любую новую способность тут же выходит профильный тест: NeedleBench проверяет «иголку» в миллион‑токенных текстах, AgentBench гоняет LLM‑агентов в восьми интерактивных средах, RAGBench разбирает на части Retrieval‑Augmented‑цепочки. Поэтому важно помнить, что каждая цифра говорит о своем: Arena — болталка, MMLU — экзамен, AgentBench — действия, RAGBench — качество извлечения и использования контекста.    

Классические бенчмарки тоже эволюционируют: MMLU‑CF удаляет утечки обучающих данных, а Global‑MMLU выравнивает культурный дисбаланс на 42 языках. Из‑за этого цифры 2023 года уже трудно сопоставить с результатами 2025‑го — правила стали строже, и прогресс моделей виден честнее.

Нужен ли Fine-Tuning?

Кожевников Александр

CEO ZeroAgency, руководитель разработки онлайн-платформы Школково

pov: 

Бизнес может автоматизировать ИИ, взяв уже готовые модели, fine-tuning — это не нужно, сложно и дорого

real: 

Правильная адаптация LLM под русский язык сильно упрощает как fine-tuning, так и эксплуатацию. Для небольшого тюнинга достаточно даже потребительского железа, а итоговый перфоманс и надежность модели будет выше

RAG и Context engineering — это хорошие подходы, которые не требуют дообучения LLM. Однако небольшой fine-tuning на правильных данных дает неплохие результаты, особенно в комбинации с правильным RAG, хорошими контекстами и продуманными промптами.

Несмотря на то, что нейросети учат новую информацию в основном на стадии претрена — SFT-тюнинг на русских датасетах позволяет моделям расставить акценты на языке и даже выучить несколько новых трюков. Именно этот подход применялся при разработке большинства моделей VikhrModels, его же используем и мы при разработке Zero-Mistral. 

Мы составили и предобработали большой датасет из 3 млн примеров. Обучение Mistral-Small-24B на этом датасете в 2 эпохи на арендованном сервере с 8xH200 обошлось всего лишь в $1000, не считая предварительных экспериментов. Полученная модель показывает более быструю и хорошую сходимость и стабильность при дальнейших тюнингах на бизнес-данных. В результате бизнес может делать fine-tuning даже на RTX 4090, а занимать это будет считанные часы.

Если решаете бизнес-задачу с ИИ на русском языке, попробуйте решить её с помощью уже доступных адаптированных под русский язык открытых небольших моделей. А главное — не бойтесь делать небольшие fine-tuning адаптеры под ваши задачи. Это не так дорого и сложно, как кажется. Совмещайте это с RAG и Context engineering и, скорее всего, вы сэкономите кучу ресурсов и времени уже на старте!

О выборе GPU

Николай Карпенко

Автор tg-канала DigitalFortress & GPU Lab

pov: 

При выборе GPU для работы с большими нейронными моделями часто встречаются такие крайности: купить самый дешевый GPU или потратить максимальный бюджет на одну самую крутую карту. Выбору сопутствуют заблуждения: чем дороже или новее GPU, тем быстрее он будет работать, а старые GPU совсем не стоит покупать.

real: 

Удивительно, что устаревшие модели GPU типа TESLA P40 24 GB (2016 год) все еще способны помочь с инференсом LLM. Правда цены выросли с 25 до 40 тыс. рублей, что уже не так привлекательно.

Сравним скорость Llama 3.1 8B в 4 бита в 1 поток на Ollama:

GPU

Стоимость, руб

Генерация, токен/с

TESLA P40 24 GB

40 тыс.

40

Б/у RTX 3090 24 GB

70 тыс.

90

RTX 4060 TI 16 GB

60 тыс.

44

RTX 4070 Ti 16 GB

120 тыс.

77

RTX 4090 24 GB

250 тыс.

144

RTX A6000 48 GB

500 тыс.

100

RTX 6000 Ada 48

900 тыс.

130

A100 PCIe 80 GB

2 млн

120

H100 PCIe 80 GB

3 млн

150

Где подвох? На первый взгляд P40 не плох в инференсе с 4-битной квантизацией, но у него отсутствуют тензорные ядра. Новые GPU с большим числом тензорных ядер достигают большей степени параллелизма, поэтому в multi-gpu конфигурациях будет еще более существенный отрыв.  

А как на счет генерации изображений? По данным SD WebUI Benchmark Data на TESLA P40 выдает 1-3 итераций/секунду. RTX 2080 TI – до 15 ит/с, RTX 3090 – до 25 ит/с, RTX 4090 – до 50 ит/с. Как видно, отрыв новых поколений карт уже существеннее.

Еще один факт, что P40 в трейне LLM может отставать в десять и более раз по сравнению с новыми архитектурами.

Почему дорогие карты, в частности серии A100, A6000, H100 не дают такого кратного прироста, как разница в их стоимости? Ответы лежат в комбинации факторов: поддержка новейшего ПО и ML-библиотек, оптимизация использования VRAM, энергоэффективность, система теплоотвода, компактность, масштабируемость в GPU-кластера, увеличенная мощность в FP32/FP64, высокая пропускная способность в параллельной работе, повышенная надежность под высокой нагрузкой 24/7 (более качественная компонентная база).

Важно подбирать GPU согласно потребностям: инференс или трейн, с каким масштабом нейронок работать, для одного пользователя или на множество, расположение GPU сервера (дома или в серверной), какие перспективы увеличения количества GPU.

Прежде чем покупать GPU – лучше проанализировать бенчмарки или протестировать их в аренде на том классе задач, которые вам предстоит решать. Явное преимущество в большом объеме VRAM на плате не всегда оправдывается ценой.

Про внедрение LLM в бизнес

Валерий Ковальский

Head of AI red_mad_robot, сооснователь gptdaisy.com

pov:

Многие думают, что внедрение LLM в бизнес — это всегда дорого, сложно и долго. Компании боятся высоких затрат на оборудование и разработку, а также утечки данных.

real:

Благодаря готовым моделям, квантизации и RAG-архитектуре, внедрение LLM становится доступным и эффективным для любого бизнеса, обеспечивая высокую производительность и конфиденциальность данных.

При правильной декомпозиции любой задачи и детальном планировании метрик на старте проекта, внедрение LLM становится доступным для бизнеса любого масштаба. Современный рынок предлагает множество готовых открытых моделей, оптимизированных для запуска даже на бюджетном оборудовании. Технологии квантизации позволили сократить требования к железу в 4-8 раз без существенной потери качества. А с правильно настроенной RAG-архитектурой даже компактные модели показывают результаты, сравнимые с дорогостоящими облачными решениями, но при этом сохраняют конфиденциальность данных.  

LLM на помощь в образовании

Мария Тихонова

Руководитель направления SberAI, доцент ВШЭ, руководитель курсов ML/NLP в OTUS

pov:

С LLM можно за минуту сгенерировать учебные материалы: презентации, конспекты, тесты, причем высокого качества и в любом объеме.

real:

Материалы действительно создаются за минуты, но часто оказываются достаточно шаблонными, поверхностными и неполными объяснениями.

В образовании использование GenAI для создания учебных материалов кажется идеальным решением.

В теории модель способна за считанные минуты подготовить конспекты, презентации, тесты и практические задания по любой теме. Это экономит часы работы преподавателя и позволяет быстро адаптировать курс под новые запросы.

Но на практике обнаруживаются ограничения. Генерируемые материалы часто слишком поверхностные и шаблонные: важные детали опускаются, примеры повторяются, а формулировки иногда искажают смысл. 

Например, при подготовке практических материалов по агентам даже GPT-5 путает детали, связанные с использованием специфичных моделей, и плохо адаптирует код под конкретные кейсы. И несмотря на то, что мы получаем хорошую заготовку, все равно приходится тратить время на доработку и исправления.

Это не делает технологию бесполезной, но показывает, что сегодня LLM в образовании лучше использовать как черновой инструмент — для полной автоматизации создания учебных материалов он не подойдет. Но кто знает, что ждет нас через несколько лет!

О стартапах и сложностях на пути к успеху

Кирилл Петров

Сооснователь Just AI

pov:

После GPT-бума на рынке появилось множество стартапов на базе genAI. Кажется, что стартапы на базе новых технологий часто улетают в космос и собирают большие раунды

real:

Инвесторы очень осторожно относятся к стартапам в этой сфере. Технологии быстро меняются — то, что сегодня кажется классной идеей продукта, завтра становится базовой функцией ChatGPT или офисного пакета Microsoft

Даже для стартапов технологии меняются слишком быстро. В Финляндии, на Slush 2023, через год после появления ChatGPT я насчитал всего 20 из 2000 стартапов, у которых в описании встречалось «Generative AI». Конечно, сегодня таких намного больше. В США появились стартапы, которые меньше чем за год становятся единорогами, например, Safe Superintelligence Ильи Суцвекера, который был оценен в $32 млрд, несмотря на отсутствие сайта и логотипа. Но это скорее исключение.

В основном Инвесторы не спешат вкладываться в стартапы в этой сфере. Многие функции, которые разрабатываются как отдельные продукты, быстро становятся встроенными возможностями крупных платформ. Например, Microsoft активно интегрирует Copilot во все свои офисные приложения, делая многие стартап-решения неактуальными.

Парадокс сегодняшнего рынка genAI в том, что при колоссальном потенциале самой технологии, стартапам в этой сфере приходится действовать в условиях беспрецедентной технологической турбулентности. Это не означает, что стартапы в этой сфере не могут быть успешными, но к ним требуется особый подход: фокус на узкие ниши, где крупные игроки не смогут быстро реализовать аналогичное решение, и высокую скорость адаптации к изменениям. 

О маленьких и больших компаниях

Мик Вайсман

Основатель WaiWai, автор tg-канала Wiseman Talks

pov:

Только в крупных корпорациях и лабораториях возможны прорывы, связанные с AI

real:

В OpenAI в 2017 году работало всего 45 человек. И поэтому компания могла позволить себе то, что, например, Google делать бы не стала, а именно — вывести на рынок сырой продукт и экспериментировать с ним. Так и запустили ChatGPT.

Ещё в 1995 году Клейтон Кристенсен ввёл понятие «Disruptive Innovations» — о том, что небольшие команды способны побеждать гигантов за счет прорывных решений и возможности позволить себе то, на что корпорации не способны. Сегодня, с развитием ИИ, наступает время расцвета Disruptive Innovations и стартапов. Это эпоха не только Renaissance Developers — которые «в одно лицо» могут затащить целый большой проект, но и Renaissance Makers — стартаперов с небольшими командами, которые наконец способны находить и реализовывать возможности там, где корпорации буксуют.

Яркий примеры такого проекта с российскими корнями — Recraft, обгоняющий ведущие AI-стартапы по генерации изображений. Небольшая команда экс-сотрудницы Яндекса Анны Дорогуш создала продукт, который привлек уже свыше 4 млн пользователей и бросает вызов признанным лидерам — Adobe и Canva. Инвестиции в него составили $42 млн.

Важно помнить, что без метрик ИИ в бизнесе не имеет смысла. Стоит оценивать не только прямые бизнес-результаты — рост продаж, скорость ответа в поддержке или продуктивность разработчиков, — но и технические параметры: точность ответов, уровень галлюцинаций, производительность и экономическую эффективность. Это универсальное требование для любого рынка, которое объясняет растущий спрос на инструменты оценки эффективности решений и маркетплейсы со встроенными метриками.

Комментарии (1)


  1. Bardakan
    06.11.2025 07:40

    Сравним скорость Llama 3.1 8B в 4 бита в 1 поток на Ollama:

    1)у вас какая-то таблица странная (или старая). 5060 ti сейчас стоит ~43 тыс руб новая и по производительности значительно лучше 4060 ti, а у вас в таблице видеокарты 5-й серии даже не упоминаются
    2)есть ли смысл сравнивать производительность видеокарт в одном потоке, если у них производительность достигается за счет использования параллельных вычислений?