# Vibe Coding под прицелом: Claude Opus 4.5 против китайского GLM-4.7 в бою за транскрибацию GigaAM / forpes.ru

Главная
# Vibe Coding под прицелом: Claude Opus 4.5 против китайского GLM-4.7 в бою за транскрибацию GigaAM

# Vibe Coding под прицелом: Claude Opus 4.5 против китайского GLM-4.7 в бою за транскрибацию GigaAM +31

28.01.2026 23:22

kitbit 48 26000 Источник

Vibe Coding под прицелом: Claude Opus 4.5 против китайского GLM-4.7 в бою за транскрибацию GigaAM

Ссылка на мой итоговый проект: https://github.com/yaruslove/DialogScribe
Ссылка на модель транскрибации GigaAM
https://github.com/salute-developers/GigaAM?ysclid=mkykba7jfr389110914

Преамбула: хаос выбора

В нашей компании каждую неделю проходят десятки внутришних синхров и встреч с заказчиками под NDA. По согласованию сторон мы записываем эти созвоны, извлекаем аудиодорожки и прогоняем через LLM, чтобы автоматически получать чек-листы задач и протоколы. Проблема в одном: внешние сервисы транскрибации - это потенциальная утечка чувствительных данных. Когда на столе переговоры о контрактах на миллионы или внутренние roadmap'ы, отправлять записи в облако стороннему вендору даже под видом "безопасной обработки" - перебор.

Поэтому я решил замкнуть цепочку на своей инфраструктуре: поднять локальный транскрайбер с диаризацией (автоматическим разделением речи по спикерам), прогонять аудио через собственный GPU-сервер и выдавать готовый текст для аналитики. Заодно, раз уж писать код придется с нуля, решил провести чистый эксперимент: возьму два разных инструмента вайб-кодинга и посмотрю, кто из них справится лучше.

Спойлер: с нуля до рабочего прототипа с двумя реализациями ушел один рабочий вечер.

Сейчас на рынке AI-инструментов для разработки настоящий зоопарк. Cursor, Claude Code, open-code, Windsurf, GitHub Copilot, Cline, Kilo, RooCode... каждый день появляется новый "убийца" с фичей, которая обещает кодить за тебя. Под капотом у них крутятся десятки моделей: GPT-5.2-codex, Claude 4.5 Opus, GLM-4.7, Kimi K2.5 и десяток других.

Выбрать стек превратилось в кошмар. Особенно когда речь идет не о простых скриптах, а о полноценном проекте с архитектурой, обработкой ошибок и продакшен-кодом. Я решил провести чистый эксперимент: взять один и тот же сложный промпт и реализовать его в двух разных средах vibe coding.

Промт это важно!

Промт как техническое задание. Оба проекта стартовали с одного и того же детального описания, которое я выстраивал итеративно: изучил open-source решения для транскрибации, сравнил точность моделей на русском языке и остановился на GigaAM. Прописал четкие ограничения: строгий запрет по типу - на генерацию фич вне описанного скоупа, детализировал входные форматы, ожидаемые артефакты на выходе и схематично описал архитектуру с указанием паттернов.
После получения базового кода работа не закончилась. Я продолжал в режиме vibe coding: итеративно натравливал агента на найденные баги, уточнял граничные случаи и добивался, чтобы каждый проект выдавал валидный файл транскрибации без критических ошибок.

Задача была амбициозной: создать систему автоматической транскрибации аудио и видео на базе российской модели GigaAM с опциональной диаризацией спикеров через pyannote. Промпт был детализированным, с ограничениями по архитектуре, требованиями к CLI и обработке ошибок. По сути, заказ на production-ready библиотеку.

Сначала о боли: реальность Claude Opus 4.5

Прежде чем перейти к сравнению, нужно поговорить об слоне в комнате. Claude Opus 4.5 на момент написания статьи - это топовая модель Anthropic для сложных задач программирования и архитектурного проектирования. Но есть нюансы.

Цена вопроса. На OpenRouter токены Opus 4.5 стоят совершенно космических денег. Это самый дорогой вариант среди всех доступных моделей для кодирования.

Лимиты. Если покупать подписку напрямую на anthropic.com, получаешь смехотворные лимиты. Тариф Pro дает настолько скудные объемы, что при активной разработке хватает буквально на 6-7 больших промптов или 2 часа непрерывной работы в чате. После этого начинается танец с ручным обновлением страницей и ожиданием сброса квоты. Многие разработчики жалуются в сетях: привыкаешь к качеству кода, но невозможно работать в потоке, постоянно приходится считать токены, делать оптимизации, открывать новые чаты чтоб не съедать контекст.

Я решил сравнить этот "премиум" с китайским аналогом, который предлагает GLM-4.7 через офицальный сайт https://z.ai/subscribe предлагается Coding Plan.

Участники битвы

Claude Code + GLM-4.7 - консольный агент от Anthropic, но с подменой мозгов на китайскую модель GLM-4.7 (подписка Coding Plan). Стоит в 7 раз дешевле, при этом дает в 3 раза больше лимитов на использование. Хитрая комбинация!

)

Cursor + Claude Opus 4.5 - IDE с нативной интеграцией, топовая подписка с флагманской моделью.

Оба проекта получили одинаковый исходный промпт. Результат - два репозитория с транскрайбером, которые на выходе выдавали один и тот же результат. Дальше пошла техническая оценка.

Сравнительный анализ: архитектура, код, баги

Общий обзор

Характеристика	Claude Code + GLM-4.7	Cursor + Claude Opus 4.5
Язык документации	Английский	Русский
Общий объем кода	~1400 строк	~2100 строк
Модульность	9 файлов	9 файлов
Целевая аудитория	Международная	Русскоязычная

1. Архитектура и дизайн (макс. 20 баллов)

Claude Code + GLM-4.7: 14/20

Плюсы есть: четкое разделение ответственности, статические методы в AudioProcessor для простоты, базовый паттерн Facade. Но проблемы серьезные. Нет контекстного менеджера в основном классе, тяжелые модели грузятся прямо в конструкторе без lazy loading, неверное именование FileNotFoundErrorCustom (конфликт со встроенным исключением). Фабричных функций для удобного создания объектов нет.

Cursor + Opus 4.5: 18/20

Здесь картина другая. Полноценный Facade с lazy loading через @property. Рабочий контекстный менеджер (__enter__/__exit__) с корректным cleanup GPU памяти. Есть фабричная функция create_transcriber(). Graceful degradation при отсутствии HF_TOKEN. Глобальные синглтоны для процессоров (get_audio_processor()). Минус только в том, что синглтоны усложнят юнит-тестирование, и есть небольшая избыточность в методах-алиасах.

2. Обработка ошибок (макс. 15 баллов)

Claude Code + GLM-4.7: 9/15

Есть иерархия исключений с базовым TranscriberError, но всё базово. Исключения без контекста (нет пути к файлу, нет причины ошибки). Сообщения на английском, что менее информативно для русскоязычной аудитории. Критично: сохранение имени FileNotFoundErrorCustom, которое конфликтует со встроенным Python-исключением.

Cursor + Opus 4.5: 14/15

Совсем другой уровень. Богатый контекст в исключениях:

class AudioProcessingError(TranscriberError):
    def __init__(self, message: str, file_path: str = None, cause: Exception = None):
        self.file_path = file_path
        self.cause = cause
        full_message = f"Ошибка обработки аудио"
        if file_path:
            full_message += f" ({file_path})"
        full_message += f": {message}"
        if cause:
            full_message += f" (причина: {cause})"
        super().__init__(full_message)

Есть специфичные исключения (HFTokenMissingError, FFmpegNotFoundError), инструкции по исправлению прямо в сообщении, обработка пустого аудио (EmptyAudioError). Единственный минус - все еще переопределение built-in FileNotFoundError в одном месте.

3. Качество кода и читаемость (макс. 15 баллов)

Claude Code + GLM-4.7: 10/15

Хорошие docstrings в Google-стиле, консистентность. Но есть критический баг:

@property
def duration(self) -> float:
    return self.end - start  # ОШИБКА: должно быть self.start!

Плюс неиспользуемые импорты result и дублирование кода форматирования между models.py и formatters.py.

Cursor + Opus 4.5: 13/15

Чистый код, отличные type hints (включая Path | str), логические секции разделены комментариями. Критических багов не обнаружено. Минус: некоторые методы можно было бы разбить, и есть дублирование метода _resolve_device() в нескольких классах.

4. Функциональность (макс. 20 баллов)

Claude Code + GLM-4.7: 13/20

Базовая транскрипция audio/video, pyannote диаризация, hybrid диаризация, форматы txt/json/srt/vtt, batch обработка, CLI на click. Нет потоковой транскрипции, нет расширенных форматов вывода.

Cursor + Opus 4.5: 18/20

Все то же, плюс: потоковая транскрипция (transcribe_stream), дополнительные форматы (markdown, screenplay, table), фильтрация по спикеру, preload моделей для ускорения, get_model_info() для интроспекции, batch с progress callback, CLI с баннером и прогресс-баром.

5. CLI и UX (макс. 10 баллов)

Claude Code + GLM-4.7: 6/10

Функциональный CLI с подкомандами (transcribe, batch, check), unicode-нормализация путей. Но вывод минималистичный, нет визуального прогресса, нет цвета.

Cursor + Opus 4.5: 9/10

Красивый баннер, emoji-статусов нет (используется текстовая индикация), цветной вывод, прогресс-бар, тихий режим (--quiet), информативная статистика. Кстати если проект или статья написанны LLM то это легко палиться если в ней есть много emoji или длинные тире «-» берите на заметку. Минус: DummyProgressBar - можно было использовать contextlib.nullcontext.

6. Работа с внешними зависимостями (макс. 10 баллов)

Claude Code + GLM-4.7: 7/10

Lazy imports для torch/numpy, проверка зависимостей в check_dependencies(). Но жесткая зависимость от конкретной версии pyannote API, нет fallback при ошибках загрузки.

Cursor + Opus 4.5: 9/10

Попытка загрузки нескольких версий моделей pyannote, поддержка старого и нового API (token vs use_auth_token), детальные инструкции при ошибках доступа к gated models, fallback методы (_get_duration_fallback).

7. Тестируемость (макс. 10 баллов)

Claude Code + GLM-4.7: 5/10

Жесткие зависимости усложняют мокирование, статические методы сложнее тестировать, нет dependency injection.

Cursor + Opus 4.5: 7/10

Dependency injection через конструктор, lazy loading позволяет тестировать без загрузки моделей, get_model_info() для проверки состояния. Глобальные синглтоны усложняют изоляцию тестов, нет интерфейсов для мокирования.

Сводная таблица оценок

Критерий	Вес	Claude Code + GLM-4.7	Cursor + Opus 4.5
Архитектура и дизайн	20	14	18
Обработка ошибок	15	9	14
Качество кода	15	10	13
Функциональность	20	13	18
CLI и UX	10	6	9
Внешние зависимости	10	7	9
Тестируемость	10	5	7
ИТОГО	100	64	88

Выводы

Цифры говорят сами за себя: проект на Cursor + Opus 4.5 набрал 88 баллов против 64. Он ближе к production-ready решению: лучшая архитектура с полноценным lazy loading, rich error handling с контекстом, продвинутый UX в терминале, поддержка потоковой обработки и гибкая работа с зависимостями.

Но важен другой контекст. Claude Opus 4.5 стоит в 7 раз дороже при том, что дает в 3 раза меньше лимитов. И это ощутимо: когда ты платишь за каждый токен, каждый промпт превращается в финансовое решение. GLM-4.7 при такой ценовой разнице показывает результат "удовлетворительно" и вполне может стартовать MVP.

Если бюджет не ограничен и нужен production-код с первой итерации - Cursor + Opus 4.5 остается топовым выбором для сложной архитектуры. Если нужно прототипировать быстро и дешево, не боясь потратить дневной лимит на 5 минутах работы - китайские альтернативы подбираются вплотную.

Multi-model pipeline: распределяем роли между LLM
Зная ценовую диспропорцию (Opus в 7 раз дороже GLM), здравый смысл требует дифференцировать их использование. Работайте по принципу Principal vs Middle: Opus 4.5 назначьте роль архитектора - principal engineer для системного дизайна и планирования приложения, а рутинную реализацию middle и junior уровня отдавайте GLM.

Современные инструменты вроде open-code позволяют реализовать эту стратегию буквально в рамках одного проекта, переключаясь между моделями на лету: один чат-агрегатор маршрутизирует ваши запросы - от стратегического планирования кода в Opus до массовой генерации функций в GLM, сохраняя общий контекст диалога и историю изменений.

Для монструозного legacy на миллионы строк, где стандартные IDE обрезают контекст, используйте shotgun_code - инструмент, который интеллектуально упаковывает локальную кодовую базу и отправляет её напрямую в LLM API, минуя ограничения встроенных ассистентов.

Критически важен размер контекстного окна: Gemini 3 Pro предлагает 1 миллион токенов против 200k у Opus и GLM. Это позволяет выстраивать сложные цепочки: Gemini выполняет one-shot RAG, "проглатывая" огромную кодовую базу для извлечения фактов; Opus на их основе проектирует архитектуру и нарезает задачи; GLM решает их итеративно в цикле обратной связи. Такой конвейер превращает недели анализа легаси в часы работы, сохраняя бюджет на массовой разработке

В конце января 2026 года стало очевидно: индустрия пересекла точку невозрата. Лично я нахожусь в состоянии легкого шока. За один вечер я реализовал транскрибер, на который раньше ушел бы целый месяц. На выходных буквально "промтил" многостраничный фронтенд со сложной логикой, не заглядывая в документацию по TypeScript, который никогда не изучал системно. Ощущение себя киборгом со вторым мозгом, когда скорость разработки умножается на десять, а за спиной словно стоит команда архитекторов и фронтендеров, сложно передать словами.

Помните мемы в ТГ-каналах начала 2025 года про "по промтил и в прод"? Тогда vibe coding казался позорным читерством для тех, кто не умеет в Python. Сейчас, в конце января 2026-го, я как data scientist открыто заявляю: я vibe-кодер. И мне не стыдно!

Это не замена инженерному мышлению, а эволюция инструмента. Как ассемблер уступил место высокоуровневым языкам, так и написание кода строка за строкой уступает место описанию намерений. Но за этой простотой кроется сложность: нужно знать архитектуру контекстных окон, техники инжиниринга промптов, быстрые команды IDE и ограничения каждой модели. Vibe coding - это навык, которому придется учиться всем, кто хочет остаться в профессии.

При этом классические инженеры никуда не исчезнут - в cron-задачах и маркетинговых лендингах может и правда останется один архитектор с LLM, но в системах, где цена ошибки непозволительно высока, человеческий аудит останется критичным. Запуск ракет, медицинские импланты, ядро банковских транзакций - там, где баг стоит жизней или миллиардов, deep expertise и ручное ревью кода сохранятся. Однако общая потребность в «простых кодерах» явно сократится, индустрия трансформируется, и граница между разработчиком и продуктологом размоется окончательно.

А теперь вопрос к корпоративным лидерам: вы уже задумались, как внедрять эти инструменты в production? Какую LLM выбрать - одну универсальную или оркестрацию специализированных? Платить за подписку, покупать токены по API или инвестировать в свои A100? И главное - ограничится ли это ассистированием разработчиков или нужно бустить еще и аналитику, продажи?

Те, кто сейчас отвечает на эти вопросы, завтра зададут темп рынка. Остальные будут догонять, перечитывая старые мемы про "настоящих программистов".

Этот опыт совпадает с метаморфозой, которую описал Андрей Карпати. Еще осенью он скептически относился к агентам, но к концу года совершил разворот на 180 градусов, признав фазовый сдвиг: перешел от "80% ручного кода и 20% агента" к обратному соотношению, где модель пишет код, а человек только корректирует. Карпати пишет, что наблюдать, как агент 30 минут упорно решает задачу, где человек давно бы отложил проблему на потом, это ощущение присутствия AGI. Я разделяю этот восторг и тревогу: мы наблюдаем, как меняется сама природа программирования, и это одновременно вдохновляет и леденит душу.

P.S. На горизонте маячит Kimi 2.5 от Moonshot AI, которая обещает переписать правила игры в плане контекстного окна и стоимости, но в рамках этого эксперимента я ее не тестировал. Возможно, следующая битва будет еще интереснее.

Комментарии (48)

K0Jlya9
28.01.2026 23:50
#29449856
За один вечер я реализовал транскрибер, на который раньше ушел бы целый месяц.

Мелкая утилитка на 1500 строк на питоне? Причем большая часть кода - копипаста и вообще ненужные на таком мелком проекте вещи - тесты, обработка ошибок итп? Целый месяц?

https://habr.com/ru/articles/979038/#comment_29311836
1. kitbit Автор
  28.01.2026 23:50
  #29449874
  …и да, видимо, 2100 строк, по два таких одновременно проекта, в двух разных ide с diarization=“pyannote”, num_speakers, merge_same_speaker, min_segment_gap и progress callback в batch-режиме для кого-то действительно выглядят как «1500 строк копипасты».
  
  Статья про сравнение двух LLM-инструментов, а проект — побочный артефакт эксперимента.
  
  Открывать репо — это слишком сложно, проще сразу в комментариях раздать экспертное мнение. Уважаю такой подход 8) Доктор Шаус
  1. fermentum
    28.01.2026 23:50
    #29453424
    Очень похоже, что вы тестировали на типовой задаче, которую сетки уже не раз решали.
    
    Я буквально тоже самое на днях делал в Perplexity Labs, который сходу выдал рабочий скрипт с разделением по спикерам с помощью модели Whisper Large v3 turbo. Больше времени заняли настройки зависимостей, чувствительных к версиям других модулей.
1. kiff2007200
  28.01.2026 23:50
  #29454878
  У вас слишком большие ожидания от сотрудников сбера.

powerman
28.01.2026 23:50
#29449882
А почему именно Opus? Sonnet вроде бы не принципиально слабее, но в разы дешевле. Было бы интересно сравнить и его тоже - высока вероятность, что получим 80+ очков при стоимости сравнимой с GLM-4.7.
1. MrBrooks
  28.01.2026 23:50
  #29451960
  Принципиально слабее)
  
  Самый простой пример. Соннет слился, когда я его попросил посчитать количество новых строк кода в 5 коммитах за весь день в Plastic CSM (Unity VS). Он просто не смог понять, как с ним работать и постоянно переключался на попытки найти в проекте гит.
  
  При этом опус догнал сам, что это пластик, не мог найти к нему подхода и пошел искать справку в инете. Выяснил, как надо спрашивать за команды пластика и начал, Карл, в консоли гонять команды и спрашивать, как они работают.
  
  Потом составил список команд, прошёлся по коммитам, собрал всю инфу и выкатил ее.
1. MrZorg
  28.01.2026 23:50
  #29451968
  Соннет прямолинейнее в части "сделаю что сказали, похожим на код рядом". Например впихнуть транзакцию в простую функцию с select потому что в функциях до и после она была. Если прописывать детально или, как и тут упоминалось, планировать с Opus то потом приемлемо.

RedWolf
28.01.2026 23:50
#29449898
Слишком много ненужных громких и пафосных слов в конце, не имеющих отношения к статье.

itmind
28.01.2026 23:50
#29449962
Вам не хватило подписки Claude за 100$ или за 200$? Если агент заменяет разработчика с зп 2000$, то это экономия на ФОТ компании в 10 раз
1. Robyn_rock
  28.01.2026 23:50
  #29450498
  Судя по тексту за 20. За 100 высадить за 6 промптов подписку невозможно.
  1. kitbit Автор
    28.01.2026 23:50
    #29450762
    Для сравнения использовал Claude Opus4.5 в Cursor, Cursor - платная подписка. В целом Ckaude использую в режиме чата подписка 20$, но знакомые рассказывают что даже за 200$/мес упираются так-же в лимиты. Поэтому посчитал необходимым проверять другие инструменты. GLM4.7 за свои 3$ в месяц очень достойно + можно вставлять ключь в claude-code, использовать там не упираясь в лимит.
    
    inetstar
    28.01.2026 23:50
    #29451048
    А как вы добились того, что у вас на Опус в Курсор появились обновляемые лимиты? Я после высаживания лимита за несколько часов потом не наблюдаю обновления лимитов.
    
    kitbit Автор
    28.01.2026 23:50
    #29451792
    Если честно сам не понимаю политику Cursor в плане лимитов, когда они обновляются, что будет если я истратил при годовой подписке. Нужна пояснительная бригада.
    
    В то время как у GLM понятная механика, есть понятный прогресс бар лимитов - на 5 часовую квоту, все прозрачно.
    
    wolframko
    28.01.2026 23:50
    #29458256
    У Cursor ситуация хуже, чем у Claude Code. Cursor предлагает три варианта подписки: за 20, 60 и 200 долларов в месяц, и гарантирует 20, 70, 400 долларов пользования соответственно. На практике же пользование выходит в два раза выше, то есть 40, 150-200, 800-1000 долларов соответственно. От Claude за те же деньги пользы значительно больше: там лимиты привязаны к скрытому количеству токенов на каждые 5 часов и на неделю. У Cursor же лимит жестко ограничен суммой на месяц. Если потратить всё в первый день, то до конца месяца придется либо отдыхать, либо переплачивать по тарифам on-demand. Судя по приложенной мною второй ссылке, claude code дает 163, 1354, 2708 долларов пользования за три тира подписки, если выжимать лимиты в максимум.
1. Tsimur_S
  28.01.2026 23:50
  #29452048
  Если агент заменяет разработчика с зп 2000$
  
  Тут как в том анекдоте:
  
  - Папа, я бежал за трамваем и сэкономил пять копеек на проезд!
  
  - Дурак, лучше бы бежал за такси и сэкономил два рубля!
  
  а) ЗП это параметр варьируемый, во всяких кремниевых долинах вам за $2000 даже в кофе не плюнут не то что разрабатывать что-то там.
  
  б) Навык разработчиков за $2000 это параметр тоже сильно варьируемый, а Опус он везде Опус.

Jacov911
28.01.2026 23:50
#29450338
А просто взять подписку за 100 и наводить за час не позволила жаба?

И зачем использовать опус, если нет денег, свежий соннет решил бы эту простую задачу не хуже, и в рамках стандартного тарифа за 20. И из claude code. (Да там не обязательно платить за токегы, можно расходовать лимиты подписки)

Lashadkach
28.01.2026 23:50
#29450450
Спасибо автору за изучение альтернатив. При системном использовании нейронок цена действительно космическая, приходится сокращать количество промптов и исправлять местами код ручками, не хватает альтернатив подешевле как воздуха

FSmile
28.01.2026 23:50
#29450616
Нейрослоп статья

Сравнение Так себе.

Altair2021
28.01.2026 23:50
#29450764
Кстати если проект или статья написанны LLM то это легко палиться если в ней есть много emoji или длинные тире «-» берите на заметку.

Автор, не надо гнать на LLM за то, что они знают правила пунктуации в русском языке. И то, что стоит в Вас в качестве тире -- никак не "тире", а дефис, который должен стоять только между словами, без пробелов. На хабре уже не раз статьи были на эту тему, например Тире минус дефис. Или размер имеет значение / Хабр .

Замечу, что если Вам лень ставить тире -- можно поставить несколько дефисов подряд (два-три). Некоторые редакторы текста по дефолту заменяют их на тире. Если не заменяют -- то даже так куда правильнее, чем пихать везде дефис.

Ну и у Вас в этом же предложении еще несколько ошибок:
- нужна запятая после "кстати"
- нужна запятая перед "то"
- нужна запятая перед "если в ней"
- палиться (что сделать?) -> палится (что делает?)
- нужно длинное тире перед "берите на заметку"
- написанны -> написаны
Признак сгенерированного LLM текста не само наличие длинных тире, а использование их без пробелов (первый попавшийся под руку пример: "...disturbance in the Force—the awakening of a Dyad..."). Не надо говорить на грамотный текст, что он сгенерирован LLM, только потому, что там правильная пунктуация\грамматика.
1. MountainGoat
  28.01.2026 23:50
  #29451674
  не само наличие длинных тире, а использование их без пробелов
  
  Причём это тоже не ошибка, а правило типографики. Только не Российской.
1. 2medic
  28.01.2026 23:50
  #29452102
  А также присутствует вежливость, хороший слог и стиль.
1. kitbit Автор
  28.01.2026 23:50
  #29452594
  Делал эту статью в том числе с помощью ллм, мои мысли, мой эксперимент сравнения двух инструментов, причесанные ллм-кой)
  1. kostoms
    28.01.2026 23:50
    #29452806
    Всё правильно в этом плане сделали, не слушайте придурков-свидетелей LLM :)
  1. Altair2021
    28.01.2026 23:50
    #29454560
    К самому исследованию никакаих претензий -- все очень познавательно, спасибо) Основная претензия -- ко мнению "если текст написан грамотно (хотя бы пунктуационно), то явно сгенерирован LLM". Довольно странный тренд последнего времени (может быть, года?) в статьях/комментариях к статьям, который, по сути, пытается обесценить знания правил русского языка.
1. Pontific
  28.01.2026 23:50
  #29454214
  Не отбивать тире пробелами — это американский стиль. Видимо, нейронки пытаются весь мир к такому стиль приучить.
  1. Altair2021
    28.01.2026 23:50
    #29454524
    Не знал и не обращал внимания, спасибо) Слишком привык к русскому варианту.
    
    А ведь действительно: на русском LLMки выделяют тире пробелами!
    
    Вывод один: LLMки в плане пунктуации текст пишут лучше большинства из нас. Разве что орфография на русском у некоторых хромает.

CurlyBoy
28.01.2026 23:50
#29450786
Пожалуйста продолжайте юзать не правильные инструменты и писать статьи что всё плохо и дорого! Это нам очень помогает
1. kitbit Автор
  28.01.2026 23:50
  #29450806
  Какие инструменты есть правильные?
  1. Calculater
    28.01.2026 23:50
    #29452464
    Очевидно, это тайное знание, исключительно для посвященных /s

dibu28
28.01.2026 23:50
#29450994
Сравните, пожалуйста, ещё Codex от OpenAI и Gemini 3 Pro от Google.

blackyblack
28.01.2026 23:50
#29451322
Можно было просто использовать Github Copilot агента и получить 100 запросов к Opus 4.5 за 100 баксов в год (примерно 8 долларов в месяц). Сразу за эти деньги получили бы код ревью, автокомплит в IDE и выбор из трех десятков моделей.
1. kitbit Автор
  28.01.2026 23:50
  #29451586
  100 запросов каждый месяц или всего 100 в год?
  1. blackyblack
    28.01.2026 23:50
    #29452024
    100 каждый месяц. Точнее 300 каждый месяц, но опус жрет 3Х запросы.
1. lacost21
  28.01.2026 23:50
  #29451612
  Прикол Claude еще и в cli, используя ее через api она не будет такой эффективной
  1. blackyblack
    28.01.2026 23:50
    #29452066
    Есть какие-то пруфы, что Claude CLI эффективнее? У копилота тоже есть CLI (правда я не пробовал его), а также сразу из коробки MCP Playwright и Github.
    
    lacost21
    28.01.2026 23:50
    #29452078
    По опыту могу сказать cli эффективнее. Расписывать плюсы и минусы не хочется

andrew4x
28.01.2026 23:50
#29451582
Интересное сравнение, ещё бы добавил в обзор один важный момент - как модель справляется с добавлением фич в готовый код. Тут многие, тот же codex-max, да и opus не безгрешен, в какой-то момент начинают чудить и делать совершенно глупые ошибки, типа той функции со start, оставлять артефакты в кодe, "забывать", зачем был сделан предыдущий фикс, пытаться многократно исправить то, что и так уже работает. К примеру, в одном случае Opus выкинул целиком из приложения библиотеку отрисовки графиков и переписал под другую, потому что думал, что она не работает, хотя его же тесты показывали прямо обратное
1. Qwest_Prozto
  28.01.2026 23:50
  #29452676
  Мне кажется, что даже если модель умная и умеет что-либо делать, лучше не оставлять ее без подробного запроса и четких рамок, что мы делаем вот прямо сейчас, когда нужно остановиться. У всех Клаудов тем более есть проблемки по контекстному окну и RAG, в сравнении с той же Gemini где это почти бесконечно.

Vedomir
28.01.2026 23:50
#29452252
А не рассматривали Qwen3-max-thinking? У них недавно обновление вышло, в котором они заявляют, что очень близки к Chat-GPT и Claude или даже немного превосходят, ну и в целом вроде серьезная модель.
1. yrub
  28.01.2026 23:50
  #29459588
  раньше пользовался Qwen2.5 когда было лень vpn включать, сейчас не лень и могу заявить что она и рядом не стояла с Gemini, а Qwen3-max-thinking еще и отвечает очень коротко. в общем только для самых простых задач

kostoms
28.01.2026 23:50
#29452834
Не понял смысла тестировать "Claude Code + GLM-4.7" vs "Cursor + Opus 4.5": почему не использовать Claude Code c Claude Opus? Или хотя бы обе с одной IDE.

Существует поверье, что среда от разработчика LLM лучше работает с его моделями, чем IDE сторонних производителей.
1. Noizefan
  28.01.2026 23:50
  #29453778
  и не только поверье, а и элементарная логика - в любом агенте или IDE есть свой огромный (и это - отдельный недостаток почти всех существующих решений) системный промпт, который очень нехило влияет на итоговый результат.
  
  Любого рода подобные необъективные сравнения демонстрируют лишь навык автора добиваться от LLM того, чего он хочет, уж никак не качества самих LLM или обёрток над ними.

PKLab
28.01.2026 23:50
#29453188
glm(api.z.ai) часто проксипасит запросы напрямую в клауде, возможно вы просто сравнивали Claude с Claude
1. 4external
  28.01.2026 23:50
  #29453230
  а где подробнее про это прочитать?
  1. PKLab
    28.01.2026 23:50
    #29453240
    хз, это что я наблюдаю последние 4 дня. 27го glm стал слать мусор в think и через пару минут модель стала 1к1 по поведению и выводу как кладе. толь это дисциляция на клиентских запросах, либо А\Б тест такой, не знаю. я искал упоминания о таком в интернете, на редите не нашел

stolbus
28.01.2026 23:50
#29455436
ПромПт.

coms20
28.01.2026 23:50
#29457650
На горизонте маячит Kimi 2.5 от Moonshot AI

Почему маячит? Я уже его изучаю с точки зрения работы с кодом

Точная дата релиза:
- 26 января 2026 — публикация весов на Hugging Face и NVIDIA Build
- 27 января 2026 — официальный анонс Moonshot AI и запуск в веб-интерфейсе kimi.com
1. coms20
  28.01.2026 23:50
  #29459976
  Нормально работает, только сильно медленно и не умеет работать в консоли.
  
  Понятно, что не такая крутая, как Опус, но черновую работу на неё можно скинуть без проблем

# Vibe Coding под прицелом: Claude Opus 4.5 против китайского GLM-4.7 в бою за транскрибацию GigaAM +31

Vibe Coding под прицелом: Claude Opus 4.5 против китайского GLM-4.7 в бою за транскрибацию GigaAM

Преамбула: хаос выбора

Промт это важно!

Сначала о боли: реальность Claude Opus 4.5

Участники битвы

Сравнительный анализ: архитектура, код, баги

Общий обзор

1. Архитектура и дизайн (макс. 20 баллов)

2. Обработка ошибок (макс. 15 баллов)

3. Качество кода и читаемость (макс. 15 баллов)

4. Функциональность (макс. 20 баллов)

5. CLI и UX (макс. 10 баллов)

6. Работа с внешними зависимостями (макс. 10 баллов)

7. Тестируемость (макс. 10 баллов)

Сводная таблица оценок

Рекомендации по улучшению

Выводы

Комментарии (48)

kitbit Автор

kitbit Автор

kitbit Автор

kitbit Автор

kitbit Автор

kitbit Автор