Когда LLM впервые появились, они были немного похожи на детей - говорили первое, что приходило им в голову, и не особо заботились о логике. Им нужно было напоминать: «Подумай, прежде чем отвечать». Но, как и с детьми, даже тогда это не означало, что они действительно будут думать.
Многие утверждали, что из-за этого у моделей нет настоящего интеллекта и что их необходимо дополнять либо человеческой помощью, либо каким-то внешним каркасом поверх самой LLM, например Chain of Thought.
Было лишь вопросом времени, когда крупные разработчики LLM, такие как OpenAI, решат воспроизвести этот внешний этап мышления (см. рисунок ниже) внутри самой модели. Ведь всё довольно просто: создать датасет, содержащий не только пары «вопрос–ответ», но и пошаговую логику размышлений, и обучить на нём. Кроме того, при выполнении инференса потребуются более серьёзные вычислительные ресурсы, поскольку модель будет проходить тот же пошаговый процесс мышления, определяя ответ.
Добавленный этап размышлений
Reasoning LLMs естественным образом разбивают проблемы на мелкие части и используют подход «цепочки рассуждений», исправление ошибок и пробуют несколько стратегий перед ответом.
O1 тратит больше времени на ответ (в 30 раз медленнее, чем Gpt4o), и большее время на размышления приводит к лучшим результатам! (кто бы мог подумать)
Токены рассуждений не передаются с одного шага к следующему. Передается только результат.
Кроме того, решение проверяется путем генерации нескольких вариантов ответов и выбора лучшего через консенсус — подход, который мы раньше реализовывали вручную. Вот общий процесс:
Одним из важных выводов является то, что требования к вычислительным ресурсам (GPU) будут расти, поскольку очевидно, что более длительное «размышление» (больше токенов на размышление) приводит к лучшим ответам. Значит, можно повышать качество модели просто выделяя ей больше вычислительной мощности — тогда как раньше это в основном касалось только фазы обучения. Таким образом, требования к GPU для современных моделей будут существенно возрастать.
Эти модели принципиально отличаются от старых, и прежние подходы уже не работают.
Как работать с моделями, использующими рассуждения
Интересно, что это во многом похоже на работу с умным человеком:
Будьте проще и говорите прямо. Чётко сформулируйте свой вопрос.
Не используйте Chain of Thought и фразы типа "Think step by step" в явном виде. Модель и так это делает.
Соблюдайте структуру: разбивайте запрос на логичные секции, используйте чёткую разметку.
Показывайте вместо объяснений: лучше привести пример хорошего ответа или поведения, чем описывать его на тысячи слов.
Не нужно больше уговаривать, запугивать или пытаться подкупать модель бессмысленными приёмами.
Можно свести это к одному пункту: знайте, что хотите спросить, и ясно это формулируйте
Мини-модели и полноценные модели
Поскольку модели рассуждения (например, o3) потребляют много токенов во время инференса, их использование для всего подряд оказывается слишком затратным, да и время отклика получается большим. Поэтому возникла идея делегировать самую сложную задачу — высокоуровневое мышление и планирование — «большой» модели, а для выполнения плана использовать более быстрые и дешёвые мини-модели. Их можно применять для решения таких задач, как программирование, математика и наука.
Это «агентный» подход, который сочетает лучшее из обоих миров: «умные, но дорогие» модели плюс «маленькие и быстрые» исполнители.
Насколько эти модели лучше?
Они значительно лучше, и в ближайшее время станут ещё лучше. Например, o1-3 уже приближаются к уровню эксперта в математике и программировании (см. ниже).
Математика
Код
ELO 2727 ставит o3 в число 200 лучших программистов в мире. Если вы ещё не беспокоитесь о своей работе разработчика, то пора начать это делать. Именно эта сфера масштабируется отлично за счёт увеличения вычислительной мощности, и текущие темпы прогресса не демонстрируют никаких признаков замедления.
Что дальше
Я могу лишь строить догадки, но, на мой взгляд, в ближайший год-два можно будет значительно повысить качество моделей, просто добавляя больше вычислительных ресурсов на этапе инференса и улучшая обучающие датасеты. Добавление какого-то вида «памяти» за пределами контекстного окна тоже выглядит логичным шагом, хоть и чрезвычайно дорогим при реализации в больших масштабах.
Я считаю, что следующим крупным шагом станет реализация многоагентной архитектуры на уровне LLM, чтобы модель могла вести несколько внутренних «сотрудничающих» диалогов, разделяющих единую память и контекст. Это соответствует нынешнему тренду по внедрению внешних инструментов для «размышлений» непосредственно в модель и также даёт выгоду за счёт линейного масштабирования вычислительных ресурсов на этапах обучения и инференса. Думаю, что к концу этого года или в следующем году мы уже увидим LMM (Large Multiagent Model) или что-то похожее. Главное чтобы у них не началась шизофрения.
Комментарии (55)
Dhwtj
13.01.2025 17:22А если добавить ещё критическое мышление и разные уровни доверия, добавить воображение, "а что, если?", то скорость упадёт ещё раз в 100. А потом чтобы не вскипятить океан от одного простого вопроса придётся всё оптимизировать лет 10
Squirrelfm Автор
13.01.2025 17:22hardware тоже не стоит на месте, прогресс огромный, так что думаю океанам ничего не грозит. но спрос на gpu вырастет, этот точно
Onyix67
13.01.2025 17:22Там люди ЦОДы по 5 ГВт собрались строить (как минимум Маск и Альтман), такой мощностью можно запитать целый крупный город типо Парижа или Лондона. ты думаешь резкий рост количества таких ЦОД не повлияет на экологию?
Squirrelfm Автор
13.01.2025 17:22нет, если сделают на солнечных батареях или атомной энергии
Arioch
13.01.2025 17:22погуглите "спор физика и экономиста", оригинал на английском и точное название не помню. Они весьма спорили, может ли быть бесконечный рост экономики.
основные тезисы
нельзя бесконечно увеличивать рост производства, потому что океаны закипят от лишней энергии. Если просто рост экономики в 20 веке экстраполировать на следующие 400 лет - то температура воздуха превысит 100 градусов.
это все не важно, потому что для роста экономику нужно повышать цену товара/услуги, а не количество энергии для его производства. Если за ту же энергию можно сделать товар, которые продаётся дороже, то экономика будет расти, даже если не будет расти производство
Но возвращаясь к вашему тезису
нет, если сделают на солнечных батареях или атомной энергии
Вы считаете, что вред для экологии бывает только типа "взяли самый ядовитый яд и вылили в реку". Это не так. Само существование лишних 5 ГВт тепла - уже вмешательство в экологию. И если в мире бы был один единственный 5 ГВт кипятильник - то, конечно, порча экологии была бы только локальной, а в масштабах всей планеты уж как-нибудь природа разбодяжила это лишнее тепло.
Но здесь то планируется много ЦОДов по всему миру, и этот кипятильник только первый из них. Сам по себе запуск множества суперкипятильников УЖЕ портит экологию, даже если источник энергия будет супер-безопасным.
P.S. можно ещё напомнить, что производство солнечных батарей само по себе крайне ядовитый процесс, а вы его предлагаете резко увеличить. Но Onix67 говорил на другом уровне, что даже если вам золотая рыбка с волшебной палочкой даст абсолютно бесплатную энергию - просто сама работа этого ЦОДа уже вред природе
4it
13.01.2025 17:22Даешь ЦОДы и инфраструктуру на луне!
rdo
13.01.2025 17:22Там, где нет атмосферы, охлаждение не работает.
SwingoPingo
13.01.2025 17:22Как минимум четыре способа охлаждения, не противоречащие термодинамике:
Излучение
Испарение (тут важно что за счет потери массы - в космосе это ограничение)
Конвекция
Теплопроводность при физическом контакте твердых тел.
В ваккууме без потери массы остается излучение. На луне же теоретически доступно испарение и физичекий контакт с холодной поверхностью.
Squirrelfm Автор
13.01.2025 17:22я верю что человечество, возможно с помощью AI, найдет решение этой проблемы, как было и с решением многих других проблем. верить в обратное тоже можно, но зачем?
Cerberuser
13.01.2025 17:22Нам - незачем, а принимающим решения - чтобы вовремя задаться вопросом "а мы успеем найти решение после того, как проблема появится, или всё-таки этим надо заниматься заранее?"
Luzinov
13.01.2025 17:22Атомная электростанция - это ядерная недобомба, которая непрерывно кипятит воду, которая крутит генератор.
Vofkoya
13.01.2025 17:22ну самый логичный способ поставить их туда, где и так расход тепла и так имеется, но за счет топлива. Люди же себе криптофермами отапливали дома. А для более оптимального расхода - можно задействовать только холодные в данный момент регионы.
perfect_genius
13.01.2025 17:22прогресс огромный
Настолько огромный, что его уже видно? Есть какие-то ссылки кроме как на прототипы?
Per_Ardua
13.01.2025 17:22И в попытках оптимизации сделаем его ленивым. По итогу у нас получится точно такое же существо как и человек.
AlexSpirit
13.01.2025 17:22>>океан от одного простого вопроса придётся всё оптимизировать лет 10
Как только ИИ модель спроектирует первое поколение ИИ ускорителей "под себя" с производительностью x2 от тех, что изобрели кожаные мешки, все эти разговоры перестанут иметь смысл. Ибо это первый цикл удвоения на гиперболе роста мощности и начало технологической сингулярности.
SwingoPingo
13.01.2025 17:22Люди в основном предпочитают не вспоминать о втором законе термодинамике пока его ограничения не начинают бить им по голове, к сожалению это так. (Тут вообще одно из основных когнитивных искажений мышления человечества лежит на поверхности и нам даже тяжело на нем сконцентрироваться).
Впрочем мы не сможем вскипятить океан - кпд процесса вскипания упадет много раньше, а вымрем именно мы как класс еще раньше. И AI тоже не сможет - объем доступной ему энергии на этой планете так же определяется его свойствами и вторым законом.
vladjaj
13.01.2025 17:22Может быть в этом и состоит план ИИ? Устроить глобальное потепление и подождать пару тысяч лет. Thread.Sleep() и готово...
APXEOLOG
13.01.2025 17:22ELO 2727 ставит o3 в число 200 лучших программистов в мире. Если вы ещё не беспокоитесь о своей работе как разработчика, то пора начать это делать
Как показывает практика - решение небольшого набора псевдо-олимпиадных задачек в тепличных условиях не слишком много общего имеет с работой программиста (не кодера). Только недавно Девина разоблачали и вот опять.
Squirrelfm Автор
13.01.2025 17:22это так, однако последние версии llm уже очень хорошо пишут код, и с каждым месяцем все лучше. я уже не вижу причин почему они не станут лучше людей, вопрос теперь когда
APXEOLOG
13.01.2025 17:22Это правда, изолированные куски кода отлично генерируются и уже довольно давно. Но есть очень много задач помимо указанной, которые делает программист (особенно если он отвечает не только за код)
Squirrelfm Автор
13.01.2025 17:22этот отрыв сокращается. вот например только что от Цукерберга: Probably in 2025, we at Meta, as well as the other companies that are basically working on this, are going to have an AI that can effectively be a sort of midlevel engineer that you have at your company that can write code.
APXEOLOG
13.01.2025 17:22Ну это его задача - разгонять акции своей компании. Поэтому говорит он много, как и большая часть публичных людей. Под это еще и layoff'ы бесполезного персонала наверняка можно легко протолкнуть.
И даже в указанной цитате он очень осторожно говорит "Что-то типо мид-левел кодописателя" - в целом топовые LLM уже на данном уровне находятся, даже не нужно ничего изобретать (хотя наверное он конкретно про свою LLM говорит, а не про топовые)
Arenoros
13.01.2025 17:22да бредятину они псевдо похожую на код пишут. Вот буквально на днях пытался с помощью gpt написать асинхронное проксирвоание пакетов в связке libuv и libssh. Запарился описывать что мне от него нужно и что ту чушь которую он выдаёт не существует в библиотеках или что она работает не так. Сгененрировать структуру того как "обычно это пишут" он может с переменным успехом, но в самом теле это просто бред из наполовину несуществующих функций и их неправильном использование. А задачка на 300 строк кода всего. Самое что печальное понять это можно только очень внимательно читая реальную документацию и хорошо понимая язык и код самой библиотеки.
Да llm немного ускоряет разбирательство с базовой документацией и с введением в предметную область если она совсем не известна и хочется быстро получить ответы на "тупые вопросы", но ни чего более он сделать не способен и не будет способен до появления реального AGI.
А "хорошо они пишут" только то что миллион раз написано на github или гуглится если не первым то вторым запросом в гугле. Один из примеров мне он помог быстро написать python скрипт для парсинга таблицы из пдфки в гугл таблицу где в принципе то основная задача это найти готовые пакеты для питона. И то без чтения документации не обошлось.
Squirrelfm Автор
13.01.2025 17:22они научены сейчас на самых распространенных примерах и языках. я, например, вполне успешно писал целые веб приложения ещё полгода назад на Autogen. low level, пока, не их конек. но ведь это вопрос времени. когда Open AI наконец посадит 1000 программистов писать код на C для тренировки модели этот вопрос будет закрыт. Ну и рано или поздно будет разработан язык и фреймворки чисто под LLM, не предназначенные для людей, лишенные описанных вами недостатков.
APXEOLOG
13.01.2025 17:22Зачем изобретать отдельный язык для LLM? Вся сила LLM как раз в natural language processing.
TheMrWhite
13.01.2025 17:22ещё один SQL/1C который не для программистов, но учить и использовать его будут только программисты))
Wesha
13.01.2025 17:22я, например, вполне успешно писал целые веб приложения
Ловите перекладывателя JSON-ов!
Vplusplus
13.01.2025 17:22Ха, на мой чуть нестандартный запрос написать скрипт на python, который перевернет несложную иерархию ключей в json Claudia и chatgpt жидко обосрались. Пришлось все делать самому. Хотя простой работающий скрипт для скачки и обработки изображений они смогли создать.
LaRN
13.01.2025 17:22Язык ничто, а вот куча кода вокруг него, либы - это и есть ценность.
А этим нужно учиться пользоваться. Поэтому новый язык или фрейворк глобально ничего не изменит.
Squirrelfm Автор
13.01.2025 17:22проблема в текущих в том что llm, в отличие от человека, трудно отследить изменения. большая часть ошибок идет отсюда. как только появится возможность программного определения набора возможностей фреймворка по его версии и поддержка этого в ллм - эта программа будет решена
dan_sw
13.01.2025 17:22я уже не вижу причин почему они не станут лучше людей, вопрос теперь когда
А что принципиально изменится когда большие языковые модели начнут писать код лучше человека? Мы полетим на Марс? Или может быть изучим нашу планету на все 100%? Или изобретём двигатели для межзвёздных путешествий? Или это будет способствовать ещё большему научному прогрессу (просто факт того, что LLM лучше людей пишет код)? Есть какая-то доля помешательства на тему того, насколько лучше LLM пишет код человека, не находите? Она есть и в этой статье, и во многих прочих (да, она не уникальна в этом отношении).
Мне не понятно, почему этот вопрос вообще должен быть важным. На мой взгляд принципиально ничего не изменится, это лишь один незначительный шаг по меркам истории к "счастливому светлому будущему" с научными достижениями в разных сферах, не более.
Бизнесу очень выгодно нагонять сейчас шумиху о "скорой замене программистов" или о том, что "LLM вот-вот станут лучше людей или уже стали лучше" и мне искренне непонятно, почему достижения в области LLM носят именно такой характер. Характер "люди хуже LLM", "LLM успешнее людей в программировании/математике/физике/рисовании" и тому подобное. LLM даже сами "верят" в то, что они лучше людей уже, что свидетельствует об огромном числе статей на эту тему и этих выводах (ибо хорошая LLM взаимодействует с интернетом и до обучается на человеческих статьях).
Неужели тут вопрос чисто в деньгах? Просто нашли очередную "золотую жилу" и теперь активно её обрабатывают, ведь с биткойном не повезло в своё время, а соц. сети и крутые игры уже придумали. Хватаемся за то, что осталось?
Я считаю, что само существование и прогресс в LLM никоим образом не ставит перед собой цель заменить программистов. Бизнес слишком помешан на себе и эгоцентричен, поэтому неудивительно что его так несёт пообсуждать скорую замену программистов нейросетями со способностью "искусственно мыслить". Его буквально будоражат те возможности, которые за LLM скрыты, но он не может видеть полной картины, ибо зациклен на себе и ушёл в себя по уши (мне удобно рассматривать бизнес как целостную сущность, хотя я могу ошибаться).
И бизнес не волнует, какой именно смысл вкладывали учёные в разработку LLM и какую цель, какие задачи перед ними ставили. Как и перед мультиагентными системами, системами распознавания и прочего, что связано с ИИ (в виде отдельных его частей). Наука ни разу не бизнес, и она не ставит своей целью "везде и вся" заменить людей, даже там, где это не нужно (бизнес это очень любит, не правда ли?).
Когда LLM только стала набирать популярность бизнес вообще не знал куда её запихать и как её использовать. OpenAI, уже отошедший в сторону коммерциализации, начал демонстрировать бизнесу "кейсы" где GPT-модели могут быть полезны. Первый самый очевидный такой "кейс" - тупо ChatGPT. Сайт, в котором вы можете с GPT-моделью поговорить о чём угодно и решить там каике-то свои задачки. Ну и дальше бизнес стал перенимать этот "кейс" и формировать уже другие на его основе, искренне убеждаясь что "незаменимых LLM не существует". Но это только его эгоцентричное мнение, науки в формировании этого мнения нет) Бизнес тут сам себе что-то выдумал)
А авторы статьи, подобной этой, возложили на себя задачу - быть "рупором" бизнеса и разносить везде и по всюду идею о "пора бы программистам задуматься о своей работе в разработке", видимо надеясь приносить какую-то пользу, быть теми, кто "предупреждает" или ещё что-то. А по факту делают только хуже. Просто формируют своего рода отвращение к LLM у программистов и "пугают" их, хотя большие языковые модели - прекрасны и позволяют наделить программу теми возможностями, которыми ранее могли обладать только люди. И именно такую идею нужно разносить по миру, а не "замена программистов близко, бегите глупцы!".
Большие языковые модели - это прекрасное научное достижение человечества, которое в будущем может изменить нашу жизнь в лучшую сторону. Программисты могут создавать свои LLM, улучшать существующие или заниматься разработкой в других областях (их намного больше, чем те, которые выделил "эгоцентричный бизнес") и их НЕ заменят, все могут изучать то, что им нравится и с чем они справляются. Нравится математика? Пожалуйста, изучай её, решай математические задачки из разных учебников, осваивай новые направления и достигай успеха. Нравится программирование? Пожалуйста, пиши на каких угодно языках программирования, разрабатывай мощные приложения и можешь использовать LLM для добавления им искусственного интеллекта. Нравится биология? Изучай на здоровье и занимайся наукой. Нравится рисование? Рисуй прекрасные картины, вдохновляйся работами людей или "ИИ", будь лучшим художником и т.д.. Нравится писательство? Пожалуйста - пиши лучшие книги, а LLM может помочь тебе в их корректировке или может быть вместе с ним какие-то интересные идеи можешь придумать. Нет никаких ограничений, делай всё что хочешь, а развитие в области LLM на это НЕ повлияет, но "эгоцентричный бизнес" с его замашками всё везде оптимизировать и всех заменить будет ставить палки в колёса, которые можно с лёгкостью обойти (иногда это сделать труднее), когда у тебя есть цель и мотивация, а главное - когда тебе нравится то, чем ты занимаешься и что ты делаешь.
Любые действия эгоцентричного и помешанного на "прогрессе" бизнеса НЕ РАВНО истинному прогрессу. Истинный прогресс не ограничивает людей, а даёт им возможности, которые могут и не быть использованы и это абсолютно нормально. Только в наше время, когда царствует "эгоцентричный бизнес" возможно такое, что не используемые возможности интерпретируются как "деградация". Не всё нужно использовать и не всё нужно "заменять". Но, ему этого понять не дано.
Мой образ "эгоцентричного бизнеса" может быть не понятен и подвержен критике, но ни что не идеально.
ManulVRN
13.01.2025 17:22Мне непонятны ваши претензии. Внедрение автоматических АТС вместо барышень-телефонисток позволило полететь на Марс? Изобрести двигатели для межзвездных перелетов? Это перпендикулярные вещи.
dan_sw
13.01.2025 17:22Думаю, Вы меня не правильно поняли и, видимо, остановились на первом абзаце моего комментария.
Эти вещи не перпендикулярны, всё взаимосвязано и раз уж бизнес такие большие надежды возлагает на LLM, что готов "отобрать любимый интеллектуальный труд" людей (что ему не удастся, разумеется), то почему бы и не задать такие вопросы?
Можно ещё провести небольшую классификацию человеческого труда на ту, что нравится, и ту, что не нравится (очень грубо и условно). Если сделать такую классификацию то получится, что LLM в большинстве случаев призвана "эгоцентричным бизнесом" заменять именно ту деятельность, которая попадает в группу "людям нравится это делать", а не "людям не нравится это делать".
Ну, например, программирование, математика, рисование, музыка, видеомонтаж и прочее и тому подобное. Современное время к такой деятельности располагает, людям хочется углубляться в определённые области своих научных, творческих и бытовых интересов. Как им это сделать, если из каждого угла тебе "агрессивно" навязывают идею, что тебя заменят? Что твой труд уже не нужен, что твоё творчество никому не интересно (ведь ИИ сделает лучше), и что многое, что ты делаешь не имеет смысла? Это ведь не правильно и такой подход к пониманию и восприятию LLM должен быть ликвидирован. Машинное обучение, ИИ, LLM - это прекрасно и замечательно, но подход к использованию этого всего "эгоцентричным бизнесом" несёт разрушительный характер, а не мотивирующий.
Сколько Вы прочитали подобных статей (аля "программист, тебя заменят, задумайся о смене профессии!" или "художник, ты уже не нужен, LLM рисует лучше тебя!"), которые мотивировали Вас созидать, исследовать, наслаждаться творческим или деятельным процессом в своей области? Лично я - единицы. С корпоративными статьями всё ясно, они сами есть бизнес, а вот когда встречаю статьи обычных авторов - интересно что у них в головах? Страх замены и таким образом они психологически принимают всё как есть или что-то иное? Это не прогресс :) Это "агрессивно" навязанная деградация, которая простирается по всему интернету.
Кстати я сомневаюсь, что барышня-телефонистка (из Вашего примера) потеряла больше, чем голубь из голубиной почты, которого заменили уже барышни-телефонистки (или кто-то ещё).
В этом плане "эгоцентричный бизнес" делает попытки "ущемить" обычных людей, если так можно выразиться :) И "агрессивно" навязать использовать LLM, а в будущем их "заменить" этими самими LLM.
Здесь существует конфликт, который в будущем разрешится не в пользу "эгоцентричного бизнеса", потому что конфликт этот деструктивен в корне своём (это лично моё мнение), а всё равно или поздно стремится к конструктиву.
andlom
13.01.2025 17:22Не так давно Ларри Элисон (глава Oracle) рассуждал на тему слежки за людьми и о том, что это хорошо и правильно (по его мнению). На днях Цукерберг сказал, что собирается заменить инженеров. Я так же, как и вы, не понимаю, о чем и как они думают.
Я могу представить только один вариант, когда в общем-то нормальный человек такое говорит - когда он смертельно болен, ему осталось жить месяц и уже все равно
Господь, жги!Но у этих-то товарищей все хорошо. Скорее всего, они просто психопаты, или на грани.ManulVRN
13.01.2025 17:22Я так же, как и вы, не понимаю, о чем и как они думают.
Тоже мне, бином Ньютона. О власти и деньгах они думают. Мир в целом идет в сторону ликвидации среднего класса и возврату к стандартному для человеческой истории устройству общества, с аристократией и массами пролов. Благодаря научно-техническому прогрессу некоторый объем хлеба и зрелищ будет для всех (надеюсь).
andlom
13.01.2025 17:22О власти и деньгах они думают
Они об этом всегда думали и думают. Но если раньше у нас были "don't be evil" и "во благо общества", то теперь довольно открыто заявляется, кто тут у нас холоп, а кто барин. Не то, чтобы раньше было не понятно, конечно...
Вот скажите, о чем должен был подумать условный разработчик в Meta, послушав интервью босса? Сразу с вещами на выход или до вечера задержаться? Где-то уже предлагали уволиться "en masse", раз пошла такая пьянка. Нет, ну а что? Раз они там уже всё решили, остальным-то что остаётся?
Я сейчас вовсе не об условном ИИ пишу, как можно было догадаться. Просто в последние годы сдвинулось некое окно Овертона, и у многих весьма властных людей наружу полезли их лживые и лицемерные сущности. Может, я сейчас Америку открыл, конечно, но мне казалось, было не так.
cupraer
13.01.2025 17:22не вижу причин почему они не станут [писать код] лучше людей
Они (по своему устройству) никогда не смогут написать код, который не повторяет что-то существующее или не является прямым продолжением оного.
Ключевой эпитет в описании модели — генеративная. Это T9, by design, и никогда ничем другим не станет.
Да, генеративные модели могут заменить джунов в первые три месяца, но потом джун вырастает — а модель внезапно нет. И в контору приходит полный …фиаско. Бояться того, что генеративные модели научатся создавать оригинальный код — могут только люди очень далекие от понимания того, как они работают, и где их предел. Почитайте Лекуна вместо Цукерберга и Хинтона вместо Сундара.
Squirrelfm Автор
13.01.2025 17:22я смотрю не что Лекун говорит, а что он делает. И делает он тоже что и все остальные, и по его действиям получается что он такой же апологет AI, только вдобавок ещё и брехун. Все они понимают что остановка их компании в этом направлении означает их поражение в очень недалёком будущем
APXEOLOG
13.01.2025 17:22Они (по своему устройству) никогда не смогут написать код, который не повторяет что-то существующее или не является прямым продолжением оного.
Ну, это не совсем верно с практической точки зрения. Можно скормить LLM мануал, который она не видела (не обучалась на нем), и указания, и получить требуемый код. Это можно довольно легко проверить работая с вещами (технологии/библиотеки/новые версии), которые появились после knowledge cutoff.
Ограниченность скорее применима к ситуациям, когда LLM в принципе не обучалась этому классу задач и не знает как к ним подойти.
cupraer
13.01.2025 17:22Можно скормить LLM мануал, который она не видела (не обучалась на нем), и указания, и получить требуемый код.
Класс задач в данном случае — обучение по мануалам. Этот класс задач ей знаком, она на нём обучалась.
Кроме того, если есть мануал — быстрее и проще самому его прочитать и написать соответствующий код, а если нет — у нас для вас плохие новости.
Задачи с нечеткой постановкой, когда заранее непонятно, лучше заколачивать, или завинчивать, — вот настоящая ахиллесова пята генеративных моделей. Потому что правильный ответ очень часто заключается вне исходной постановки (приклеивать в варианте выше).
APXEOLOG
13.01.2025 17:22Кроме того, если есть мануал — быстрее и проще самому его прочитать и написать соответствующий код, а если нет — у нас для вас плохие новости.
Мы обсуждали не "проще", а возможности LLM.
Задачи с нечеткой постановкой, когда заранее непонятно, лучше заколачивать, или завинчивать, — вот настоящая ахиллесова пята генеративных моделей. Потому что правильный ответ очень часто заключается вне исходной постановки (приклеивать в варианте выше).
Задачи с нечеткой постановкой в принципе штука спорная. Вам и человек не факт что решит ее так, как надо вам, чего уж говорить про LLM. И, кстати, приведенный Вами пример вполне себе решается LLM, если сформулировать задачу не как указание к действию, а спросить про альтернативные решения.
Я не являюсь большим фанатом LLM, но нужно трезво смотреть на вещи. LLM принципиально могут решать даже тяжелые инженерные задачи, если решить вопрос с "мышлением программиста".
Я как-то проводил эксперимент - взял одну задачу на работе (простенькую, немного подебажить и поправить несколько десяток строк кода в нескольких файлах) и полностью решил ее с помощью LLM, выступая в роли интерфейса (запустить команды/скопировать файлы/внести изменения/и т.д.) и задавая вопросы, которые в критических местах "подталкивали" LLM в нужную сторону. Примерно как ребенка направляют, когда он делает уроки, но хочется что он думал сам ("Вот тут ты о чем не подумал? А вот это изменение какой еще эффект может оказать? А что еще надо посмотреть?" и т.д.). Коненчно это заняло гораздо больше времени, чем я бы это сделал без LLM, но это был просто эксперимент.
Это показывает, что LLM, в принципе, обладает достаточным "умением" выполнить задачу, если кто-то до этого проведет грамотную декомпозицию на подзадачи. Но ведь эта декомпозиция это тоже часть решения задачи, в этом и загвоздка.
Проблема, с моей точки зрения, в том, что LLM обучаются на том "как написать", но не обучаются "почему написать именно так". Мы ведем разработку именно так, потому что это результат нашего опыта, а не потому что мы прочитали мануал. Именно этот опыт и нужен LLM, чтобы самой решать задачи без помощи - а его нет, ведь программисты не пишут мемуары "Почему я пишу данную строчку кода именно так - мои мысли и идеи".
CoT делает шаг в этом направлении, multi-agent сетапы показали неплохие результаты с подобным подходом, но это все слишком мало, это не работает "в общем", только для конкретной задачи и кодовой базы/и т.д., где ты подстелил для LLM соломку.
Поэтому я довольно скептически отношусь к идее, что разработчиков (не кодеров) внезапно заменят на LLM. Тут нужно как минимум решить концептуальную проблему "опыта" - а это значит либо тренировать модель на данных, которых нет, либо описать целиком и полностью алгоритм что нужно делать в любой ситуации и сделать это вне LLM (это кстати подход всех стартапов "AI-разработчиков" типо Devin'a) - а это тоже очень, очень сложно.
cupraer
13.01.2025 17:22Всё именно так. Согласен буквально с каждым словом.
ведь программисты не пишут мемуары «Почему я пишу данную строчку кода именно так — мои мысли и идеи».
Всё, не могу сейчас говорить, появилась срочная задача, пардон.
Uroborus
13.01.2025 17:22Вопрос масштабируемости.
Одно дело писать решение маленьких математических задачек, где и условие и решение умещается в малый объем данных. И даже в этом случае, при запросе генерации небольших функций, часто надо смотреть сгенеренный код и поправлять неточности, ибо результат может отличаться от ожидаемого.
А как нейронка сможет обработать какой нибудь большой энтерпрайз? Проектов на 200-300. И кодовой базой в полмиллиона строчек. Сейчас вроде лимит у ChatGPT 8192 символов. Даже если мы допустим что можно просто разбить запрос на много запросов без потери связности данных (а сейчас это не так), и даже допустим что не будет ни одной строчки с галлюцинацями, которые бы клиенту стоили бы кучу денег (а галлюцинации это структурная проблема нейронки, которую можно только уменьшить, но не убрать). И даже допустим что нейронка сможет поддерживать свой код (что куда сложнее чем генерить, и у chat gpt тоже с этим проблемы).
Даже со всеми этими допущениями. Где найти столько энергии на все это? Уже сейчас дата центры AI жрут энергии как крупные города. А что будет при еще большем внедрении? И ответа в эволюции hardware пока найти не удается. У нас уже несколько лет мощность видеокарт растет больше из за увеличения мощности питания, а не архитектуры. Что делать в таком случае? Каждому работодателю построить по атомному блоку? Внезапно люди могут оказаться дешевле.
Squirrelfm Автор
13.01.2025 17:22самые большие корпорации и самы умные люди планеты вливают в эту сферу такие ресурсы, что мне трудно представить чтобы это было просто так. они уверены что решение найдется, и я тоже. так было с электричеством, с интернетом и тп. почитайте возражения людей на появление автомобиля и вы найдете поразительное сходство с вашими аргументами
cheshirskins
13.01.2025 17:22Должен заметить, что автомобили принципиально за многие годы не изменились. Да, появляются новые фишки, они стали удобнее и безопаснее, но летать, как в фантастическом фильме, не начали
APXEOLOG
13.01.2025 17:22Сейчас вроде лимит у ChatGPT 8192 символов
Во-первых, не символов, а токенов (это немного другое)
Во-вторых, уже довольно давно это 128000 токенов
В-третьих, есть модели и с большим context size. (Google Gemini Pro - 2 миллиона токенов)
Но обычно используется RAG (или его модификации), поэтому нет нужды запихивать все целиком
Мы проводили эксперименты с запихиванием умеренного проекта в контекст целиком - в целом это работает, но нужно очень четко ставить задачу, чтобы LLM не потерялась в контекесте. Ну и цена не маленькая.
N-Cube
13.01.2025 17:22Решение реальных олимпиадных задач тоже ничем не поможет, и бывшие победители, как правило, никаких успехов в науках и программировании не добиваются. Первое правило олимпиадников - если задача кажется совсем незнакомой и путь решения априори не известен, переходи к следующей. Это точно противоположно тому, что люди от чатботов хотят.
Abstraction
13.01.2025 17:22Как бывший олимпиадник, замечаю что лично у меня такого правила не было, ближайшее к нему "если в задаче А затык, реши пока задачу Б, может потом придут умные мысли". Вообще обычно на олимпиаде предполагается что участник напишет что-то осмысленное про все задачи (ну, если он претендует на хороший результат).
geornit25
13.01.2025 17:22Думаю надо сначала проверить возможности o3 (надеюсь её не сделают эксклюзивом для Pro-подписки), т.к. хотя o1 и большой шаг по сравнению с 4o, но для решения хоть сколько то сложных задач не годится. Совсем не исключаю вариант, что на o3 весь хайп по LLM и закончится, т.к. её использование будет банально нерентабельно.
xmpi
13.01.2025 17:22O1 pro из-за большого контекстного окна может решать комплексные вопросы, посмотрев на весь код и логи сразу. 128к конечно не хватит для исходного кода windows, однако скормить ему небольшой проект на python вполне реально, равно как и получить адекватный ответ на вопрос "почему не работает и как исправить". O1 по сравнению с pro делает это сильно хуже.
sunsexsurf
13.01.2025 17:22Пожалуй, несколько тезисов выскажу.
1. Запрос в Гугл и первая строка выдачи / поиск решения на SO - в сотню раз вычислительно дешевле (и, следовательно, по деньгам), чем все то же самое спросить у модельки. А так - да, можно все, что в голову придет печатать в гопатыча.
2. Модельки все еще (да и останутся) "бредогенератор by design". И это значит, что что-то простое - да, нагенерят, ок. Но тогда возвращаемся к пункту 1 - нужен десяток уточняющих вопросов, "а не фигню ли нагенерили они".
3. Сделает ли доступность моделек снижение порога вхождения "в программирование"? В смысле, упростят ли модельки "проверку концепта" для каждого, у кого родилась какая-то идея, но который не умеет программировать? Да, безусловно. Но подарила ли нам доступность цифровой фотографии большое количество фотохудожников или просто гора шлака выросла?
4. Есть ненулевая вероятность, что модельки уже уперлись в лимиты текстов в интернете. И, при этом, эти же модельки каждый бизнес старается прикрутить ко всему, что в голову придет (часто даже в ущерб здравому смыслу). Потом эти модельки генерят шлак, который снова едет для обучения в те же самые модельки. Такая себе "теория мертвого интернета". И поэтому думается, что вся эта пена скоро (вопрос - насколько) начнет отравлять сама себя.
cmd01
13.01.2025 17:22Кто то пишет про отравление и прочий шлак, а кто то двигается к своей цели и мечте. Вспоминаю сколько писали про проекты Маска...
sunsexsurf
13.01.2025 17:22Пожалуй, несколько тезисов выскажу.
1. Запрос в Гугл и первая строка выдачи / поиск решения на SO - в сотню раз вычислительно дешевле (и, следовательно, по деньгам), чем все то же самое спросить у модельки. А так - да, можно все, что в голову придет печатать в гопатыча.
2. Модельки все еще (да и останутся) "бредогенератор by design". И это значит, что что-то простое - да, нагенерят, ок. Но тогда возвращаемся к пункту 1 - нужен десяток уточняющих вопросов, "а не фигню ли нагенерили они".
3. Сделает ли доступность моделек снижение порога вхождения "в программирование"? В смысле, упростят ли модельки "проверку концепта" для каждого, у кого родилась какая-то идея, но который не умеет программировать? Да, безусловно. Но подарила ли нам доступность цифровой фотографии большое количество фотохудожников или просто гора шлака выросла?
4. Есть ненулевая вероятность, что модельки уже уперлись в лимиты текстов в интернете. И, при этом, эти же модельки каждый бизнес старается прикрутить ко всему, что в голову придет (часто даже в ущерб здравому смыслу). Потом эти модельки генерят шлак, который снова едет для обучения в те же самые модельки. Такая себе "теория мертвого интернета". И поэтому думается, что вся эта пена скоро (вопрос - насколько) начнет отравлять сама себя.
DarthVictor
13.01.2025 17:22Главная проблема генеративных сеток в том, что им на правильность их решения в целом по..уй. А брать на себя ответственность за решение такого "работника" почему-то не хочется.
Это не значит, что роботы бесполезны. Но вот я час назад извинялся перед coderabbitai в PR за бесполезную строку написанную для security scanner робота. Он обещал это учесть.
Squirrelfm Автор
13.01.2025 17:22а как определяется что им пох@й? если бы им было совсем пох@й то они генерировали бы полный бред, но это очевидно не так. в них при обучении а теперь и в момент инференса заложены определенные механизмы оптимизации в сторону полезности и правды. может эти механизмы не так совершенны как у людей, однако же есть бесплатные автомобили например, значит есть и вера в то что эти механизмы станут лучше
artmaro
Отлично работает еще gemini. Последние релизы и deep search и realtime streaming точно стоят своих 20 долларов за подписку. Ждем о3!
Squirrelfm Автор
он же уже доступен?
artmaro
Да, надо покупать премиальную подписку гугла, но это того стоит!
Per_Ardua
Ну, попробовать то можно и так, вроде как, на aistudio.google.com.
Но он да, уже хорош. Плюс их быстрая модель 2.0 Flash Experimental, которая почти не уступает 1.5 Pro, но работает процентов на 30-40 быстрее получилась очень удачной. И она пока бесплатная (с ограничениями, само собой).