Поведение разных моделей при вайбкодинге / forpes.ru

Главная
Поведение разных моделей при вайбкодинге

Поведение разных моделей при вайбкодинге +2

14.07.2025 15:58

peresvets12 11 6300 Источник

Это стоит обсудить на фоне прошлого того, как Cursor попытался сделать хитрый финт, чтобы собрать кучу денег с подписчиков, но у него не получилось.
По сути, у нас не так-то много качественных вариантов.

Claude Opus 4 — это царь. Но самый дорогой. Есть вариант thinking.

Он умеет планировать, дебажить и работать над сложными задачами.
Ему лучше всего давать какую-то комплексную задачу или список задач.
Стоит сразу указать файлы и папки, с которыми ему предстоит работать + добавить нужное в контекст, хотя в целом он сам неплохо ищет — просто каждый поиск стоит денег.
Он доведёт список задач до самого конца, попытавшись максимально точно разложить задачу. Идеально — если у него ещё и таск-лист есть.
При этом он хорошо следует инструкции и редко добавляет отсебятину.
Контекст — до 200 тыс. токенов.

Claude Sonnet 4 — это рабочая лошадка. Недорого и всё ещё хорошо. Есть вариант thinking.

Он умеет работать над достаточно сложными задачами, неплохо дебажит, хотя иногда не может найти первопричину.
К нему применимы все те же советы, что и к Opus. Он также старается довести дело до конца. Просто немного поглупее. Однако это можно считать базовой моделью для любой разработки.
Также достаточно редко добавляет отсебятину. Любит тестировать результат и очень любит создавать отчёты-гайды.
Контекст — до 200 тыс. токенов.

GPT-o3 / o3 pro — снайпер. o3 — стал на уровне Sonnet по цене, а o3 pro — как Opus. Обе — только thinking.

Планирует плохо. Превосходно дебажит: если Claude не справляется и ходит кругами — o3 может помочь. Создаёт новые фичи неплохо, но чересчур лаконично.
Поставишь ему несколько задач — а он часто вместо того, чтобы выполнить их за 1 запрос, делает по 1 запросу на каждую. Это неудобно и дороже.
Когда не нужно, чтобы модель что-то додумывала — o3 подходит идеально. Она даже рассуждения свои не показывает, только отчёт в конце.
С её помощью всё ещё можно создавать что-то, хотя и менее эффективно. Она в среднем глупее Claude.
Контекст — до 200 тыс. токенов.

Gemini 2.5-pro — это стратег. По цене достаточно дешёвый. Только thinking.

Очень хорошо планирует — с ним можно обсуждать будущий функционал. Из-за того, что он графоманит, получается очень подробный план или классное многостроннее обсуждение. Он старается учесть всё. Но это и его недостаток.
Он плохо находит реальные баги и во многих местах пытается лишний раз перестраховаться.
При создании фичей постоянно додумывает и создаёт лишний код, который его не просили.
Считаю его не очень эффективной моделью для написания кода, но для планирования или анализа кодовой базы — очень хорош!
Контекст — до 1 млн токенов.

Grok-4 code — перспективный новичок. По цене как Sonnet. Thinking-модель.

Только-только появился, показал себя только чуть лучше остальных только в кодинге 2д/3д игры
В целом можно использовать как рабочую модель наравне с Sonnet, но на мой взгляд у него меньше системности.

Контекст - 256 тыс токенов.

Я не буду говорить про DeepSeek R1/v3.1, GPT-4.1, Codestral и других — они тоже неплохие, но даже до Gemini по качеству не дотягивают. Их можно использовать только в несложных задачах.

Ещё только-только вышла Kimi-2 - вроде бы и опен-сорс, и дешёвый, но пока вокруг него не так много сложенного опыта от коммьюнити.

А какой у вас опыт в этом?

Мой тг-канал по ии-стартапам и вайб-коду

Комментарии (11)

ukmsz
14.07.2025 16:35
#28570994
По моему опыту это сильно зависит от задачи, языка программирования, используемых библиотек и языка запросов (англ/рус). Gemini лучше справляется с проектированием и последующим написанием много-оконного приложения на десктоп. Claude4 путается и косячит постоянно. Однако например отдельный простенький компонент работающий на ГПУ, ему был не по зубам а вот Claude починил его писанину и сделал минимальный рабочий каркас хотя бы.
1. peresvets12 Автор
  14.07.2025 16:35
  #28571096
  Спасибо за дополнение! Я пишу на js и ruby, соотвественно это больше применительно к ним. Gemini также лучше пишет на java и kotlin, что я слышал от других

cmyser
14.07.2025 16:35
#28571120
Ожидал увидеть мнение на практике

А не список
1. peresvets12 Автор
  14.07.2025 16:35
  #28571162
  вот тут моё мнение на практике в целом https://habr.com/ru/articles/927668/
  тут да, тут общее описание

dron88
14.07.2025 16:35
#28571882
Есть ощущение, что Антропики скоро свою IDE сделают. Судя по их упорству в сторону моделей, которые в программировании просто разрывают. А вообще я приловчился и пишу проекты в проектах, кто знает тот поймет, за 200$ я ни разу не влетал в лимиты, только опус и только думающий. И никаких курсоров.

rPman
14.07.2025 16:35
#28571918
Помимо модели, нужно говорить какие агенты использовались? Речь идет об использовании cursor с этими моделями?

DanielKross
14.07.2025 16:35
#28572932
По поводу того, что дипсик "даже до гемини не дотягивает", я б поспорил. Гемини, на мой взгляд, вообще малополезный кусок того самого. У меня он подписочный если что. Клауде лучший для кода, это факт.

georgiy08
14.07.2025 16:35
#28575394
"Характеристики" моделей, я так понимаю, писал также один из чат ботов (легендарные списки и "нотки человечного" [рабочая лошадка, перспективный новичок, снайпер, царь]).

Если обсудить смысл статьи, то вполне соглашусь с автором. Чаще пользуюсь Claude, он пока для меня лучший ассистент для работы с кодом (особенно если дело доходит до работы со стилями - там он хотя бы визуально красиво делает). Но прелести урезаны количеством сообщений.

mckokos
14.07.2025 16:35
#28576244
Все копаю локальный кодер как написать. На минимальных моделях + вебсерч... пока никак
1. rPman
  14.07.2025 16:35
  #28576344
  На минимальных моделях
  
  скорее всего не получится
  
  Есть теория, что если разработать очень сложного агента, в котором заложить процесс разработки пошагово, то может что то получиться.
  
  Как пишут код топовые модели - они выдают сразу результат символ за символом, т.е. мощным моделям нужно быть на столько сложными, что бы внутри себя уже сразу построить готовый ответ.
  
  Люди же не делают так, в голове есть только общая идея, шаг за шагом идея делится на подзадачи, причем с приблизительным осознанием, каждая из которых снова на подзадачи, процесс рекурсивный и итеративный одновременно, происходит это таким образом что бы на каждой итерации был рабочий код. Итерация за итерацией код дополняется новым функционалом, меняется предыдущий. Плюс, каждый раз происходит отладка (не обязательно в среде разработки, возможно логирование), и программист сравнивает логи с ожидаемом поведением. Каждый раз, когда нужно решить какую то подзадачу, человек лезет в документацию,..
  
  ИИ Агент должен делать все то же самое. При этом большое контекстное окно не требуется (точнее оно будет полностью забито инструкциями), бессмысленно помещать в него весь код, человек на такое в принципе не способен, зачем вынуждать ИИ, который создавался как копия человеческого, делать так.

vitiok78
14.07.2025 16:35
#28581182
Из моего личного опыта новичка в AI, но неплохого программиста, Sonnet 4 чаще решает мои задачи, чем Gemini 2.5 pro, который очень долго думает, постоянно переделывает всё заново, и в итоге либо заходит в тупик, либо делает полную какашку. А вот если эту же модель использовать просто как чат, то она вдруг становится умнее Sonnet 4.

Поведение разных моделей при вайбкодинге +2

Комментарии (11)

peresvets12 Автор

peresvets12 Автор