о3 теснит программистов? Как OpenAI снова всех удивила / forpes.ru

Главная
о3 теснит программистов? Как OpenAI снова всех удивила

о3 теснит программистов? Как OpenAI снова всех удивила +43

25.12.2024 08:37

Artezio_team 104 14000 Источник

Привет, Хабр! Меня зовут Владимир Крылов. Я профессор математики, научный консультант Artezio и автор телеграм-канала Ai4Dev. Наша команда внимательно следит за развитием технологий ИИ и их влиянием на разработку ПО. Последний анонс OpenAI заставил меня написать о новых технологиях по горячим следам. Обычно я предпочитаю дожидаться реальных результатов тестирования. Однако презентация с последнего дня рождественского мероприятия OpenAI сломала все барьеры.

В ожидании чуда

Объявление о новых моделях OpenAI о3/о3-mini — это не просто следующий шаг в развитии Foundation Models, не очередное SOTA, а сообщение о прыжке на следующий уровень, который вряд ли будет достигнут конкурентами в ближайшее время. Заголовки публикаций по мотивам мероприятия звучат так: «Модель OpenAIo3 — это послание из будущего: забудьте все, что вы, как вам кажется, знаете об ИИ». Новые модели заметно отличаются от своих ныне самых успешных собратьев в вопросах кодирования и математики уровня докторов наук. Одним из значимых тестов, в котором модели совершили прорыв, является ARC- AGI. Впервые он был представлен исследователем методов глубокого обучения Франсуа Шолле как набор задач, которые интуитивно просты для людей, но удивительно сложны для нейронных сетей. Лучший результат на сегодняшний момент достигнут людьми и составляет около 75%. o3-mini показывает схожие цифры, а o3 демонстрирует 87,5%, что намного выше человека.

Но здесь я не буду обсуждать математические способности и уровень логических рассуждений о3, а проанализирую только оценку тестирования на задачах программной инженерии на SWE-bench, которую называют SWE-bench Verified, и каков ELO-рейтинг новой модели как участника соревнований по программированию Codeforces.

Вот как выглядит эволюция accuracy на SWE-bench в 2024 году. Это количественная оценка того, насколько хорошо могут системы ИИ видеть ошибки в коде и исправлять их.

Впервые новая модель сразу показала прирост в 20% и 40% за полгода. За этим процентом кроется тот факт, что способность o3 решать проблемы из реальных репозиториев GitHub ведет к тому, что модель не просто может помочь программистам в отладке и реализации функций эффективнее, чем другие средства разработки ПО. o3 порождает новые парадигмы в разработке ПО, где ИИ выступает в качестве полноправного помощника, а не просто инструмента.

Теперь обратимся к результатам рейтингования по спортивному программированию.

ELO 2727 ставит o3 в число 200 лучших конкурентоспособных программистов в мире. Это выше, чем рейтинг Chief Scientist OpenAI, равный 2665.

Кстати, многие спрашивают, что означает затемненная часть рейтинга. Сплошные столбцы показывают точность «прошел с первого раза», а затемненная показывает результат большинства голосов (консенсус) на 64 попытках.

Более того, ELO 2727 говорит о том, что o3 находится в пределах 99,7 процентиля всех участников, то есть превосходит примерно 99,7% всех участников Codeforces, что иллюстрирует ее статус в сообществе спортивного программирования. Этот процентильный рейтинг позволяет понять, насколько редким является такой высокий результат среди тысяч конкурентов. Оценка o3 по результатам консенсусного голосования составляет 2727, что ставит его на уровень международного гроссмейстера и примерно в двадцатку лучших конкурентоспособных программистов-людей на планете. o3-mini превосходит o1. При этом o3-mini существенно дешевле, что, учитывая тенденции, позволит ей стать наиболее эффективной моделью, используемой массами. А стоимость использования о3 пока просто заоблачная. Я не нашел нигде точных оценок, но известно, что o3-mini тратит 17-20 долларов на задачу, в то время как модель o3 – “примерно 172x” от стоимости o3-mini. Иными словами, 2,5-3 тыс. долларов за задачу и ошеломляющий 1 млн долларов за весь набор задач. При этом ожидается, что расходы будут снижаться по мере появления более энергоэффективных чипов и оптимизированного ПО.

Ну и, наверное, интересующий многих читателей вопрос, а как удалось достигнуть таких результатов? Изменилась ли архитектура модели, и как она была обучена? Очевидно, что узнать это именно об о3 вряд ли когда удастся. Будем ждать похожих опенсорсных моделей. Но вот какие догадки удалось сделать. Основным механизмом o3, по-видимому, является поиск и выполнение программ на естественном языке в пространстве токенов: во время тестирования модель выполняет поиск в пространстве возможных цепочек мыслей (CoT), описывающих шаги, необходимые для решения задачи, способом, возможно, не слишком отличающимся от поиска по дереву Монте-Карло в стиле AlphaZero. В случае o3 поиск, по-видимому, управляется некой отдельной моделью для оценивания. Ведущий разработчик OpenAI Nat McAleese написал в Х: «o3 работает на основе дальнейшего масштабирования RL за пределы o1, и мощности полученной модели весьма впечатляют». Опираясь на исследования Sasha Rush и Daniel Ritter, это одно из возможных направлений систем обучения в OpenAI. Sasha Rush изучает четыре вероятных подхода:

предположи + проверь,
обработка вознаграждений,
поиск / AlphaZero,
обучение исправлять.

Первый и последний вариант подтверждает комментарий из блога компании: «При обучении моделей рассуждению мы сначала думали использовать записи человеческих размышлений как обучающие данные. Но когда попробовали обучить модель самостоятельно выстраивать логические цепочки через обучение с подкреплением (RL), результаты превзошли человеческие. Это открытие стало поворотным моментом в масштабировании технологии».

С точки зрения архитектуры, есть предположения, что добавленный слой в o3, который, вероятно, разбивает незнакомые проблемы на части, и является прорывом. Модели o3 используют то, что OpenAI называет «частной цепочкой мыслей», когда модель делает паузу, чтобы изучить свой внутренний диалог и спланировать заранее, прежде чем ответить. Это можно назвать «имитацией рассуждений» (SR) – формой ИИ, которая выходит за рамки базовых больших языковых моделей (LLM). о3, как и о1, учится оттачивать свою цепочку рассуждений, совершенствовать используемые стратегии, распознавать и исправлять свои ошибки, разбивать сложные шаги на более простые, а также пробовать другой подход решения задачи, если первоначальный не сработал. Исправления и поиск других стратегий чем-то напоминает процесс DPO. Ключевое отличие в том, что управление не обязательно должно происходить на каждом шаге – может быть некоторый набор шагов, которые проверяются только при достижении неверного окончательного ответа.

В любом случае, мы лишь получили подтверждение того, что, исчерпав все возможности масштабирования LLM по размерам и объему вычислений для обучения, разработчики открыли новый формат в масштабировании моделей: от LLM к LRM (большая модель рассуждений). И это измерение есть вычислительные затраты на вывод (Inference Compute).

Итак, что все это означат для нас? Буквально через пару-тройку лет в мире следует ожидать изменения спроса на ряд должностей белых воротничков — от дизайна веб-сайтов до кодирования. Уже любой, кто выполняет в основном повторяющуюся работу, будет в шатком положении или уволен. В то же время я уверен, что будут созданы и другие рабочие места, требующие иных умений и знаний. Изменятся цели, но компании по-прежнему будут конкурировать, и мы довольно далеки от точки, когда люди вообще не будут нужны.

Хорошо это или плохо? Думаю, что любое изменение, которое повышает производительность, открывает новые знания и возможности — это здорово. Именно так наша цивилизация достигла того, что есть у нас сейчас. История не была благосклонна к обществам, которые сопротивлялись таким изменениям, поэтому лучше быть готовыми к этому процессу и попытаться отнестись к нему с позитивом.

Комментарии (104)

codachyo
25.12.2024 08:49
#27711486
Классная статья! Скорее всего, в будущем, большинство IT-специальностей будут еще более тесно связаны с управлением нейросетями и будут активно интегрировать их в свою работу. Но не стоит забывать, что нейросеть - это всего лишь инструмент, а не работник, хотя бы пока что... Нам остается только плыть по течению и смотреть что будет в завтрашнем дне.
1. WebPeople
  25.12.2024 08:49
  #27712914
  Статья говорит о том, что нейросеть уже превосходит большинство людей. И называть ее инструментом мы можем лишь в моменте. Потому что ещё нет критической массы ии-агентов для выполнения всех необходимых задач. Грубо говоря, мозги уже есть (хоть и дорогие очень), "рук и ног" пока не хватает.
  
  Но уже определенно точно можно говорить о том, что пройдет совсем небольшое количество времени, например, лет 5, как мы увидим масштабную трансформацию многих отраслей. Процесс уже идет. Если честно, мне очень тревожно из-за этого. И думаю у многих людей такие чувства.
  1. Light2046
    25.12.2024 08:49
    #27713302
    Если честно, мне очень тревожно из-за этого
    
    На самом деле тревога должна смениться скорее на панику. Это будет самая масштабная перестройка уклада жизни за всю историю человечества. Эта революция приведёт к более глубоким последствиям, чем сельское хозяйство, изобретение электричества и ДВС вместе взятые. Обычная биологическая жизнь подходит к концу, эволюция по Дарвину завершена. Случайные мутации ДНК уступают место целенаправленному разуму.
    
    1755
    25.12.2024 08:49
    #27714478
    Позвольте поинтересоваться, а в чем будет крах, революция и на чём основанны такие далеко идущие выводы?
    
    petsernik
    25.12.2024 08:49
    #27714544
    Если ИИ будет делать всё лучше людей, то зачем нужны люди? Вот как пример возможной революции, если что-то вдруг пойдёт не так.
    
    yatanai
    25.12.2024 08:49
    #27715426
    Именно ДЕЛАТЬ. Пока нету инструментов изучения новой физики и разработки новых теорий, а человеческие руки дешевле машинных, даже в потенциальном будущем. (Я имею ввиду универсальных машин, специализированные уже давно всех обогнали)
    
    Так что в текущем укладке мира средний класс должны сожрать, а остальные никуда не денутся.
    
    Alex-Freeman
    25.12.2024 08:49
    #27715856
    а человеческие руки дешевле машинных
    
    Стоит немного изменить фразу "пока человеческие руки дешевле машинных"
    
    evtomax
    25.12.2024 08:49
    #27715930
    Автоматизация приводит к снижению трудозатрат, снижение трудозатрат приводит к снижению цен, снижение цен проводит к том, что люди соглашаются работать за меньшие зарплаты, и человеческие руки снова дешевле машинных.
    
    avshkol
    25.12.2024 08:49
    #27719624
    Но и товары в таком мире производятся все более массово и дёшево, поэтому уровень жизни большинства растёт.
    
    yppro
    25.12.2024 08:49
    #27721410
    Поскольку, по определению, прибавочная стоимость создаётся из присвоенного труда, то если людей заменят машины, не будет прибавочной стоимости. А значит, не будет прибыли.
    
    С другой стороны, образуется товарная инфляция (когда количество товара превышает количество денег) и возникает затоваривание. Следствием последнего является закрытие производств, так как работать «на склад» неинтересно.
    
    А так как автоматизация слишком привлекательна, чтобы от неё отказаться, то система будет колебаться, пока не сбалансируется на каком-то уровне, дающим а) извлекать прибыль, б) поддерживать низкую себестоимость, в) не терять платёжеспособный спрос.
    
    То есть, автоматизированы будут либо какие-то отдельные сегменты рынка, либо определённый процент производства. Например, в химпроме автоматизировано около 20% производства, и эта цифра не растёт.
    
    Плюс, прогресс ведёт к усложнению производства, то есть, создаёт новые профессии. Так что не стоит паниковать, работы хватит на всех.
    
    Kanut
    25.12.2024 08:49
    #27721424
    Поскольку, по определению, прибавочная стоимость создаётся из присвоенного труда, то если людей заменят машины, не будет прибавочной стоимости. А значит, не будет прибыли.
    
    А вам никогда не приходило в голову что тут просто определение кривое?
    
    yppro
    25.12.2024 08:49
    #27721446
    Приходило. Но потом ушло.
    
    «Демократия — наихудшая форма правления, если не считать всех остальных» (Уинстон Черчилль)
    
    Kanut
    25.12.2024 08:49
    #27721450
    Приходило. Но потом ушло.
    
    А зря. Тем более сейчас, когда видно что оно совсем уже не работает.
    
    yppro
    25.12.2024 08:49
    #27721468
    Сомнительное утверждение. Но спорить не стану, этому спору скоро двести лет, так что ничего нового мы с вами не скажем, раз нобелевские лауреаты не могут договориться.
    
    Kanut
    25.12.2024 08:49
    #27721474
    В каком месте нобелевские лауреаты не могут договориться что конкретно это определение кривое?
    
    1755
    25.12.2024 08:49
    #27716960
    Если, например брать производство программ, хотите сказать, что собстевнники бизнеса будут с удовольствием разбираться как выбрать подходящую модель под нужную ситуацию, как правильно составить достаточно детальную спецификацию для ИИ, как ее корректировать, чтобы не сломалось что-то другое, как проверять итоговую систему, как дебажить и в целом, как оценить качество получившейся системы?
    
    Подозреваю, что просто снова делегируют это инженерам.
    
    Это больше похоже на переход с условного ассемблера на условный питон.
    
    avshkol
    25.12.2024 08:49
    #27719662
    Да, с учетом того, что на питоне и его библиотеках написание кода для обработка условного датасета занимает 4 часа, а на ассемблере это была бы задача на недели.
    
    Так и здесь - ИИ набросает тебе код, дальше вы будете его шлифовать, и задача вместо 4 часов займёт полтора.
    
    То есть эффект от ИИ будет, но не такой масштабный в относительном сокращении человеко-часов, как от вычислений на бумаге к ассемблеру и от ассемблера к питону.
    
    1755
    25.12.2024 08:49
    #27721786
    Ага, эволюция, а не революция
    
    proxy3d
    25.12.2024 08:49
    #27717608
    Отлично, я сейчас занимаюсь анализом речи животных. Современные LLM могут лишь анализировать мои решения чтобы указать на слабые места в их анализе. Но сами по себе, они не смогли родить ни одной новой идеи в сложной области. Только личный анализ, который опирается множество вещей.
    
    Таким образом, накидать код построения графика он может быстрее хотя и допустить ошибки в логике.
    
    А вот несмотря на огромный массив обученных данных, абстрагировать на уровень выше чтоб найти взаимосвязи не может. Только когда указываешь ему на них.
    
    Если вы спросите его как к примеру распознать слова и речь дельфинов и всю цепочку почему именно так. То он просто выдаст тоже, что модно найти в поисковике, но более лаконично. Предложит общий подход, но подход без понимания почему так делаем, откуда такая гипотеза, ни абстрагирования.
    
    Современные llm лишь инструмент и наличие агентов будет улучшать его и усложнять. Но это не перевод мышления на новый уровень абстрагирования накопленных знаний из одной области в другую.
    
    WebPeople
    25.12.2024 08:49
    #27717932
    Вы про какую модель говорите? Вы использовали хотя бы o1? Статья же вообще про o3. Которую пока никто не потрогал даже. Известны лишь результаты тестов по ней - и значительный шаг вперед по сравнению с o1.
    
    Относительно речи дельфинов - вы сначала скормите такой модели (хотя бы o1) массив данных. Звуки "речи" дельфинов, существующие интерпретации, наработки, наблюдения. Научные работы и т.п. А потом уже работайте с ней.
    
    Также - нейросеть это не всеведующая штука. И с ней тоже надо уметь работать. Например, промптинг. Хотите чтобы нейросеть помогла вам задавать правильные вопросы? Попросите ее задавать вам вопросы, если она посчитает, что ей не хватает данных.
    
    Не верите, что нейросеть может явления и знания из одной области переносить в другую? А вы попробуйте, дайте ей такую установку в промте. Я когда в учебе использую нейросеть, иногда использую следующий прием - прошу нейросеть объяснить мне интересующий вопрос "как для школьника", "как для студента", "как для домохозяйки" и т.д. Это позволяет упростить сложное определение, найти аналогию в других явлениях.
    Ничто не мешает вам сделать также.
    
    Только не надо бесплатные и устаревшие нейросети использовать. Последние поколения ушли далеко вперед. Хотя они тоже умеют в "асбтракцию", просто значительно хуже.
    
    А наличие агентов - очень сильно влияет на возможности нейросетей. Они могут распределить нагрузку по расчету "типовых" вещей. Например, андроид может перемещаться за счет одной нейросети, а общаться за счет другой, а третья нейросеть будет управляющей, четвертая нейросеть будет отвечать за руки, пятая за зрение, шестая за звук и т.д. Это так называемые ансамбли из нейросетей.
    
    Аналогично можно сделать и для вашей работы по анализу речи животных. Например, для обработки видео со звуком. Сначала обучить одну нейросеть на звуки дельфинчиков. Чтобы впоследствии она могла искать патерны в любом звуковом файле (распознавание слов). Пока не нужна интепретация. Просто шаблоны. Другая нейросеть разбирает видеоряд для распознавания движений дельфина. Третья нейросеть распознает объекты (один дельфин, два, косяк рыбы, акула, водоросли и т.п). Четвертая нейросеть работает с расстояниями и положением объектов относительно друг друга. Пятая нейросеть сопоставляет распознанные движения, объекты и т.п. с русскими словами. Шестая нейросеть сопоставляет по таймкоду звуки и данные всех других нейросетей. Чтобы определить, что после вот этого звука другой дельфин приблизился. А вот от этого звука он отдалился. А вот от этого звука его положение в пространстве опять изменилось. А вот на этот звук произошло дрожание плавников, другой дельфин ответил тем же. И т.д. Кароче, это сложнейшая задача для ИИ-разработчиков и ученных. Но вполне решаемая, скорее всего уже в ближайшие годы.
    
    AlexZ7Z
    25.12.2024 08:49
    #27719198
    Для начала это приведет к 3й мировой, если и когда весь этот ИИ окажется в руках запада. Потому что вся эта наука прежде всего попадет там в руки военных, а реальная власть, несмотря на возвращение Трампа, на западе пока принадлежит военным корпорациям, которые с радостью используют науку для расширения своего жизненного пространства и уничтожения неугодных. Вот о чем надо паниковать для начала. Но тут конечно о таких "мелочах", понятно, не думают от слова вообще.
  1. Kanut
    25.12.2024 08:49
    #27715152
    Статья говорит о том, что нейросеть уже превосходит большинство людей.
    
    Калькулятор тоже. Разве из-за этого калькулятор перестаёт быть инструментом?
  1. dv0ich
    25.12.2024 08:49
    #27715944
    нейросеть уже превосходит большинство людей
    
    Без способности к целеполаганию и самостоятельной деятельности всё их превосходство ничего не стоит в контексте замещения людей.
    
    уже определенно точно можно говорить о том, что пройдет совсем небольшое количество времени, например, лет 5, как мы увидим
    
    Вас самих ещё не тошнит от этого буллшитного штампа из едва ли не каждой аналитической статьи на любую тему?
    
    Рассуждающим про революции и замещение людей нейросетями предлагаю простой мысленный эксперимент. Вы владелец/директор IT-компании, перед вами стоит выбор, кого нанять.
    
    Первый кандидат - середнячок, не шибко смыслит в глубокой математике и кишках ОС и компиляторов, но инициативен и упорен, постоянно учится и активно добывает знания, в решении проблем пробует разные варианты, чувствует аудиторию и баланс между техническими и потребительскими качествами продукта.
    
    Второй кандидат - гений информатики, быстро ловит глубоко запрятанные баги, досконально знает устройство ОС и компиляторов, может выдавать люто оптимизированный код... но абсолютно несамостоятелен и безынициативен, без подробного указания неспособен написать даже простейшую функцию - попросту ничего не делает без указаний, постоянно выпадает из контекста и сбивается на чистые абстракции, а потребительские качества вашего продукта и потребности бизнеса, особенно плохо формализуемые, для него вообще тёмный лес.
    
    Вот второй кандидат - это нейронка. Возьмёте её на работу вместо первого кандидата?
    
    Alex-Freeman
    25.12.2024 08:49
    #27716068
    постоянно выпадает из контекста и сбивается на чистые абстракции
    
    А по подробнее? А то не сталкивался за последний год с таким. Не, если написать криво промт, то можно узнать как космические корабли бороздят просторы Большого. Но это проблема того, кто запрос составил, как говорится с дуру можно и ... сломать
    
    Вы владелец/директор IT-компании, перед вами стоит выбор, кого нанять.
    
    Это что за IT-компания из одного середнячка, который и архитектор и QA и тд?).
    Для большинства бизнесов смысла в джунах или "середнячок, не шибко смыслит в глубокой математике и кишках ОС" нет. На джуна нужно потратить время, а после он захочет больше деняг или свалит в закат. Лучше взять сразу мидла и ИИ
    
    Анализ вакансий как бы на это намекает, что джуны особенно и не нужны.
    
    Pshir
    25.12.2024 08:49
    #27716880
    Но это проблема того, кто запрос составил, как говорится с дуру можно и ... сломать
    
    А люди, которые умеют правильно составить запрос и определить, что ответ не представляет собой рассказ о космических кораблях, бороздящих Большой Театр, бесплатно прилагаются к нейросетям? Или их надо отдельно искать и платить им зарплату?
    
    proxy3d
    25.12.2024 08:49
    #27717650
    Какой код вы пишите? У меня все llm люта начинают глючить при конвертации больших sql процедур, причем порой зацикленно.
    
    Да даже элементарно, недавно для доп анализа решил вместо praat дополнительно проанализировать данные просто lpc из librosa. Скормил ей функцию выполняющую эти действия в praat и попросил аналогичную на lpc. Так она выкинула часть данных, вместо массива вернула единичные значения. Ладно я понимаю в чем ошибки и могу исправить или указать (в итоге сам исправил ее код), но что если это рабочая программа?
    
    А что за дичь она мне выдавала, когда я писал функции сдвига частоты или усиления ее.
    
    Да, код для игры на unity простой для обработки действия, или сохранения данных в pandas делает. Но что то сложное и все, тупая как пробка.
    
    avshkol
    25.12.2024 08:49
    #27720008
    Как раз нейросети будут ускорять написание некритичных (но трудоемких) кусков кода и обработку данных. Например, я закидываю таблицу в pdf и прошу выбрать данные в хитро структурированный json. Руками это часы нудной работы. А потом из него в датафрейм с определёнными полями - раз, готово. И вот у меня уже готовые к обработке данные, которые раньше и мысли не возникало перенести в датафрейм - ибо трудоёмкость и нуднота.

rznELVIS
25.12.2024 08:49
#27711586
Эх, если бы еще на груминги эти модели можно было звать :)

А так ждем новых и более удобных плагинов для популярных IDE c элементами ИИ. Кстати если у кого есть список плагинов для VS, VS Code, intellij idea и прочих, то буду признателен на ссылку
1. Den_CH
  25.12.2024 08:49
  #27711662
  Cursor.ai попробуйте.

bak
25.12.2024 08:49
#27711652
o1 preview и так решает 99% задач встречающихся в реальной работе. На практике больше бы пригодилась возможность индексации больших проектов (дообучение) чтобы модель сама находила куда именно дописывать фичу
1. Elegar
  25.12.2024 08:49
  #27714426
  Cursor это умеет

Conung_ViC
25.12.2024 08:49
#27711670
Со всем этим развитием генеративных моделек, у меня всё больше развивается паранойя, что некоторые статьи и некоторые камменты пишутся АИ ботами чисто для рейтинга....

Скоро придем к тому, что только боты будут комментить статьи написанные ботами.... И найти что-то адекватное в этом потоке "контента" станет нереально. Пичалько, короче.
1. kadmy
  25.12.2024 08:49
  #27711858
  Пойду причиню вред человеку, чтобы доказать, что я не робот
  1. Okeu
    25.12.2024 08:49
    #27712526
    ты можешь и сам себе его причинить беспричинно, тоже докажешь нам всем ху ис ху)
1. magdavius
  25.12.2024 08:49
  #27712408
  Мертвый интернет всё ближе
  1. Hlad
    25.12.2024 08:49
    #27715562
    Скорее - не "мёртвый интернет", а мир, описанный в "Disco Elisium". В котором есть островки живой цивилизации, между которыми - Серость.
1. estat1k
  25.12.2024 08:49
  #27714950
  У меня на сайтах уже комментарии пишет модуль с ии, опираясь на текст и заданные промпты
1. proxy3d
  25.12.2024 08:49
  #27717658
  У меня другая параноя развивается. А точно ли все люди обладают интеллектом, что даже в таких глюченных llm они увидели равный интеллект. /sarcasm

dodpal
25.12.2024 08:49
#27711690
Бред какой-то!

Вытеснить не сможет ещё очень долга, будет как помощник!

Обычные задачи будет решать, но писать полноценную программу нет!
1. Alex-Freeman
  25.12.2024 08:49
  #27711766
  Вы немного отстали) небольшие программы уже пишет. И вполне годные. У меня джуны хуже пишут и тратят в разы (во много-много раз больше времени). Да, большой проект она не напишет, но если сделать нормальную декомпозицию и потом немного доработать напильником, то получается достаточно сносно. И это я говорю про о1.
  
  Конечно это зависти от задач, но в данный момент более перспективно использовать о1 вместо джунов. Часто LLM дает решения на уровне хорошего мидла.
  1. woodiron
    25.12.2024 08:49
    #27711870
    Забавно получается, джуны не выгодны и не нужны, но если не будет джунов, то спустя некоторое время не будет ни мидлов, ни сеньоров.
    
    Ard33
    25.12.2024 08:49
    #27711908
    Если о1 это джун, о3 наверное уже мидл. И дальше всё? Развития ИИ не будет и о3 (мидл) будет ждать джуна несколько лет пока у нее новый сеньор появится?
    
    Alex-Freeman
    25.12.2024 08:49
    #27712162
    Если не врут и AGI будет не позднее 2030, то на ближайшие 5 лет еще точно есть сеньоры. Ну а потом и человеки не особенно то нужны будут
    
    Ard33
    25.12.2024 08:49
    #27712374
    Есть подозрения что намного быстрее чем в 2030. (Если брать текущие темпы). о3 ещё не заменит полностью а вот какая то о5 очень вероятно.
    
    Pshir
    25.12.2024 08:49
    #27716970
    С учётом темпа в потреблении энергоресурсов, какая-то о5 будет потреблять энергии (а значит, денег) существенно больше, чем соответствующего уровня специалисты. Где-то будет достигнут баланс. Думаете, почему даже в самых развитых странах до сих пор существуют такие чисто механические профессии, как дворник, например?
    
    Frohman
    25.12.2024 08:49
    #27713186
    Сначала заменит джунов, потом мидлов, а потом уже и за сеньоров возмётся :)
    
    michael108
    25.12.2024 08:49
    #27713476
    Похоже, в конечном счете программирование сведется к команде "Сделай как я хочу" + фотка начальника ))
    
    k1ngsterr
    25.12.2024 08:49
    #27713988
    За это время, пока джуны становятся мидлами или сеньорами ИИ тоже обучается
    
    seniorjoker
    25.12.2024 08:49
    #27714462
    Сфера IT не растёт, только скукоживается. Я думаю, они и в будущем нужны не будут
  1. amazingname
    25.12.2024 08:49
    #27711984
    Ничего она не напишет. Я пересматриваю все что делал за 25 лет назад и не могу найти ни-одной задачи, где AI существенно мог бы мне помочь.
    Потому, что типичная задача программиста, это:
    
    - здесь это как-то было сделано, но тот кто это задумал уже уволился, попробуй поспрашивать у ребят в чате;
    
    - мы хотели бы прикрутить этот функционал, мы не уверены что это получится и что игра стоит свеч, но вот есть пару фреймворков на эту тему, которые сделаны конечно не совсем под этот кейз, но попробуй их использовать;
    - мы хотим реализовать стриминг видео/IP телефонию/... на этом одноплатном компе с линуксом, есть какие-то либы c++ и пару упоминаний о них на stackoverflow, может быть тебе удастся их собрать и оживить в этом окружении.
    - в нашей программе на миллион строк кода и 100 разработчиками мы чего-то поменяли и автотест упал; поэкспериментируй с ней, поищи что не так и потом по истории гит где что меняли и почему накосячили, потом найдешь этих людей, согласуй как пофиксить.
    
    - мы собрали замечательную поддержку ворк-флоу в нашем продукте; давай ты попробуешь добавлять новые json для новых девайсов, используя эти воркфлоу, разберись пожалуйста как проверить что все заработало и по ходу мы разберемся чего еще не хватает в этом нашем коде для воркфлоу.
    
    - мы хотим создать супер интеллектуальный алгоритм для автоматического управления этим процессом, но х.з. какую входную информацию он должен использовать и что должно быть на выходе; зато мы наняли инженера, который работал с этим процессом, он вообще без понятия об IT и у него совершенно не рабочие идеи, но ты с ним поговори и попробуй запрограммировать некий вариант для начала.
    
    - мы хотим создать систему которая будет воспроизводить объявления и показывать анимированные картинки с информацией; нам понадобится встроить в нее красивый удобный редактор для сообщений и картинок c движком для рендеринга и воспроизведения... или х.з., может пускай это просто будет браузер и html...
    
    Любую из этих задач вы можете решать что с AI, что без него, времени уйдет примерно одинаково.
    
    Alex-Freeman
    25.12.2024 08:49
    #27712152
    Вот только это задачи не для джуна, ну кроме "поспрашивать у ребят в чате")
    
    amazingname
    25.12.2024 08:49
    #27712268
    IT по своей природе ничем не отличается от других инженерных областей или науки. Джун-конструктор или джун-ученый, это нонсенс, от него всегда будет больше вреда чем пользы. То же самое в IT. Но джуны все равно окупаются, потому что один из них окажется умным, быстро вырастет и не так быстро уйдет в другую компанию. В итоге он отобьет своей работой убыток от остальных.
    
    Тогда зачем нужен AI-джун, который никогда не станет синьором?
    
    Ситуация, когда разработку пытаются превратить в тривиальный процесс, вроде укладки кирпичей, в который можно пристроить любого, она временная и ненормальная. Она была обусловлена только временным избытком денег в отрасли, когда любой пожар пытались тушить деньгами и количеством людей. При отсутствии легких денег никаких других людей, кроме способных решать сложные и неопределенные задачи в отрасли не будет. Т.е. они будут, но только на время обучения, как в исследовательских институтах или конструкторских бюро.
    
    Iknwpwd
    25.12.2024 08:49
    #27717982
    Вы и правы и не правы слегка. Есть целые конторы, которые пилят условные сайты-визитки, и называют себя айти компанией, но чаще там в названии слово студия ещё, и у них даже есть грейды внутри такие же, как у нормальных контор, типа самый быстрый визиткодел - Синьор, самый вдумчивый- мидл, студент, он же сын бухгалтерши - джун. И вот таким ребятам реально кранты ибо это и есть условные кирпичи/пирожки...
    
    Combinator_30
    25.12.2024 08:49
    #27712298
    Любую из этих задач вы можете решать что с AI, что без него, времени уйдет примерно одинаково.
    
    А как на счёт денег работодателя?)
    
    amazingname
    25.12.2024 08:49
    #27712384
    Времени человека уйдет одинаково. Значит и денег.
    
    Combinator_30
    25.12.2024 08:49
    #27712418
    Вроде как, время нужно считать для двоих людей - условный джун и условный мидл/синьор?
    
    amazingname
    25.12.2024 08:49
    #27712468
    Так джун в подчинении у синьора работу в целом не ускорит, скорее замедлит, но деньги джун проест. С синьором+AI будет примерно то же самое, но деньги AI не проест. Зато в первом случае мы получаем обучение джуна, который может стать синьором в перспективе. И того, AI никого не заменяет, только облегчает работу всем.
    
    Combinator_30
    25.12.2024 08:49
    #27712552
    Не логичнее ли с самого начала учить джуна писать правильные промпты, чем учить его вымирающей профессии - писать низкоуровневый код? Это примерно как если бы мы начинали обучение машинистки с уроков каллиграфии, имхо.
    
    amazingname
    25.12.2024 08:49
    #27712802
    Что такое "низкоуровневый код" и где он живет?
    
    Не существует такой профессии - писать код. Превращать в код некие задуманные алгоритмы умеет любой школьник через две недели после первых попыток программирования.
    
    Хороший программист на пике проекта в хорошем случае создает за день 100 строк кода, которые пойдут в продакшн. Физически написать кода он мог бы гораздо больше, но время уходит на обдумывание концепций, изучение лучших практик использования текущих фреймворков и так далее. Обратить все это в код вручную обычно даже проще чем с помощью промптов.
    
    Грубый пример, если я пишу функцию для валидации чего-то, то основное время тратится на то, чтобы осознать что именно нужно проверять в этом приложении, какие ситуации являются неприемлемыми и как они будут обрабатываться в приложении. По ходу как правило выясняется, что эта валидация не нужна вообще, или нужна не здесь или нужна здесь, но надо поправить еще логику вовне, чтобы исключить определенные ситуации. Собственно сам кодинг сводится к тому что пишется несколько "if", и тут если писать промпты типа "функция должна проверять что..." или писать эти if-ы вручную, разницы нет. Второе даже проще. Промптами удобно пользоваться в довольно редких случаях, когда локально в одном месте нужен некий достаточно хитрый алгоритм, над которым лень ломать голову. Но после промпта все равно придется изучать замысел GPT в сгенерированном коде, чтобы убедиться что это то что нужно. Еще промптами удобно пользоваться когда не помнишь синтаксис фреймворка. Но опять таки, проверка и понимание предложенного кода необходима.
    
    Combinator_30
    25.12.2024 08:49
    #27713016
    В общем, подождём 2-3 года, время нас рассудит.)
    
    k4ir05
    25.12.2024 08:49
    #27714592
    правильные промпты
    
    Так они будут избыточней кода в виду неотъемлемых свойств естественных языков.
    
    низкоуровневый код
    
    Так его уже давно почти не пишут.
    
    rookonroad
    25.12.2024 08:49
    #27713670
    так рассуждаете, что кажется, как будто бы AI модель способная по запросу работодателя создать продукт, обойдется работодателю бесплатно
    
    victor_1212
    25.12.2024 08:49
    #27712540
    возможно для верификации программ AI может оказаться полезным, типа старая идея о доказательстве правильности программы, когда невозможно полностью тестирование выполнить, типа тандемом с человеком - такое было бы интересно сделать
  1. WebPeople
    25.12.2024 08:49
    #27712934
    Вам минусы лепят, потому что такие комментарии пугают обычных людей. Я с вами согласен. И от этого не по себе.
    
    victor_1212
    25.12.2024 08:49
    #27714412
    какая разница, может людям легче, пусть за компанию :)
  1. igorp1024
    25.12.2024 08:49
    #27715778
    Постоянно говрится, что очередная нейронка хорошо пишет программы. Но основная работа программиста - поддерживать ранее написанное. Причём, масштабное и весьма сложное.

Kergan88
25.12.2024 08:49
#27711830
Зачем во всех статьях повторяют маркетинговый булшит опенаи про новую модель? о1 о3 - все те же самые старые модели с небольшим файнтьюном, которые работают точно так же и не показывают ни какого роста перформанса сами по себе, просто поверх них работает простенький скрипт, который в лупе крутит cot промпт. Такую "новую думающую модель" можно сделать из любой другой модели - хоть из селфхостед лламы, запустив ее с тем же скриптом.

Что само по себе кстати натуральный выстрел в ногу со стороны опенаи, так как существенно обесценивает модельки самой опенаи для бизнеса.

Более того, ELO 2727 говорит о том, что o3 находится в пределах 99,7 процентиля всех участников, то есть превосходит примерно 99,7% всех участников Codeforces

Обычный калькулятор обгоняет все 99.999% участников codeforces. Непонятно, какой из этого должен следовать вывод

Ну и, наверное, интересующий многих читателей вопрос, а как удалось достигнуть таких результатов?

Брутфорс. О3 генерит на тестовый вопрос десятки тысяч токенов - то есть сотня-две страниц печатного текста рассуждений. Таких ответов она генерит 1024 штук на задачу и выбирает лучший.

Кстати, обычная 4о (как и другие крупные модели) работающая по такому же сценарию даёт примерно такой же перформанс без "размышлений" и сопутствующих затрат. А месяц-два назад 60% на этом тесте выбили обычной 8б моделькой (на карточку потребительского уровня влезет) при помощи ттт. Без подобного жёсткого брутфорса, к слову. И без файнтьюнинга, который применяли в о3
1. Filipp42
  25.12.2024 08:49
  #27713630
  Инетересно. А как конкретно это сделать? Я был бы рад, если бы у меня был такой скрипт.
1. Filipp42
  25.12.2024 08:49
  #27713658
  Что такое ттт?
  1. torjec
    25.12.2024 08:49
    #27714946
    TTT (Test-Time Training) или обучение во время тестирования - это метод адаптации языковых моделей, который позволяет настраивать модель непосредственно в момент решения конкретной задачи.
  1. Kergan88
    25.12.2024 08:49
    #27717570
    Аббревиатуру ниже расшифровали. Вкратце о том, как это работает - если задача формулируется в виде "есть N примеров, теперь сделай с Х так же, как в этих примерах" (arc agi как раз так и устроен - даются примеры преобразования картинок, и дальше надо так же преобразовать еще одну картинку), то можно вместо того, чтобы просто давать промпт с примерами, сделать финт ушами - использовать данные примеры в качестве обучающей выборки. Т.е. дообучить модель на этих примерах, обновив веса. Дальше, после дообучения, модели с новыми весами предъявляется Х, над которым нужно произвести действия как в примерах - она дает ответ, и после этого веса скидываются обратно, к исходной модели. Берется следующая задача - для нее свой набор примеров, дообучаем модель уже на них... etc.

Combinator_30
25.12.2024 08:49
#27712252
Такую "новую думающую модель" можно сделать из любой другой модели - хоть из селфхостед лламы, запустив ее с тем же скриптом.

В принципе, можно, наверное, и, скорее сего, над этим уже работают. Тут основная проблема, как я понимаю, в стоимости ответов на запросы. Но оптические чипы рано или поздно должны выйти в серию, а покамест, наилучшим применением о3, на мой взгляд, будет её использование для аннотирования (разметки) сложных данных при обучении более дешёвых в эксплуатации моделей.
1. Vytian
  25.12.2024 08:49
  #27712456
  Электрон сильно меньше фотона, поэтому плотной интеграции оптических чипов ждать долго, а раз нет плотной интеграции, то и потери большие, то есть энергоэффектиность плохая. Вот "тупые" сильно-параллельные блоки ускорителей, в том числе сеток, на базе голографии и/или квантовых симуляторов -- это пожалуйста. Удивительно, что до сих пор нет коммерческих решений, все никак из лабораторий не выходит. Видимо, пока до конкурентоспособной сложности не доходит.
  1. Combinator_30
    25.12.2024 08:49
    #27712534
    Собственно, я и не имел в виду полную интеграцию, а именно реализацию архитектуры глубоких сетей на основе оптических чипов. В последнее время на эту тему довольно много публикаций, в том числе, в журналах уровня Nature. Что в итоге выйдет на практике - посмотрим.

bossalex
25.12.2024 08:49
#27712402
Не хрена не понял, но очень интересно. Как мне программеру с 40 летним стажем поможет какая-то нейроматрица с весовыми коэфициенами, которая реализует ту или иную модель? Вот если бы она мне помогала быстро находить ответы на вопросы той или иной сложности? Но и тут как и любой ноукодинг сложный конструктор, требует понимания как он работает, а создовать ноукодинг ИИ консультанта это агрегация всех аспектов конструктора. А если он само развивающийся само обучающийся, то написать ноукодинг конструктор со своeй AI моделью, хотя бы в парадигме ООП это технически возможно. Но уровень оператора который будет ставить задачи АI ИИ должен быть на уровне архитектора или full синьор аналитика. И в итоге я также буду делать новую задачу за то же время что с конструктором, что без используя low code или тот же hard coding что с AI ИИ, что без. Ибо это я уже пробовал. Но используя полноценный фреймворк я буду более гибким, чем какой-то сложный конструктор. Так как я всегда буду стремится создовать свой конструктор для более узкой задачи пытаясь сделать его исходя из временных ограничений более или менее универсальным. И этот процесс будет бесконечным. Так как знания они бесконечны. Исходя из этого ресурсы на создание ИИ с их А I моделями будут пожирателя немеренно. И в итоге мы создадим монстра который будет потреблять всё больше и больше и в момент эволюции его сожрут болле мелкие хищники, и умрут всё ваши ИИ и AI не выдержав давления экосистемы отрасли или ИИ АI генеза.

geornit25
25.12.2024 08:49
#27712576
известно, что o3-mini тратит 17-20 долларов на задачу, в то время как модель o3 – “примерно 172x” от стоимости o3-mini. Иными словами, 2,5-3 тыс. долларов за задачу

Если предположить, что o3-mini находится где-то на уровне o1 (которой явно недостаточно для стабильной работы без постоянного контроля и перепроверки), то получается, что имеет смысл рассматривать только o3. То есть надо ориентироваться на $3k за задачу. И это, насколько можно понять, на синтетических тестах, где задачи явно хорошо сформулированы. По сути, это означает, что требуется деятельное участие аналитика-постановщика задач, а сам ИИ находится где-то на уровне джуна, т.к. самостоятельно не в состоянии уточнить условия задачи, поднять вопрос на совещании и т.д. Далее, условная задача с LeetCode, на которой вероятно и проводили замеры, навряд ли будет требовать более чем 5-8 часов на решение. Получается, что стоить такой ИИ-джун будет $3k за рабочий день, почти $400 в час. Очень дорого, даже для какой-нибудь Кремниевой долины.
1. akakoychenko
  25.12.2024 08:49
  #27714440
  так а смысл это сейчас считать?
  первый звонок с первого мобильного телефона тоже золотым вышел, если учесть стоимость его сборки, и стоимость обслуживания первой в мире базовой станции
  
  очевидно, что первая задача - понять, а что оно может в лабораторных условиях, задать бенчмарк, а потом уже, поняв, что оно что-то может, что кому-то нужно, оптимизировать, находя оптимум, который опимизирует две переменные - отставание от бенчмарка, и цену. Возможно, таких оптимумов будет много (один для кастомизации сайтов визиток с $0.1 за задачу, второй - для интеграций корпоративных систем за $25 за задачу, а третий - для написания драйверов и оптимизации наносекунд в биржевых роботах, за $10K за задачу, ибо, в отличии от литкода, еще и придется по многу раз тесты гонять)
  
  да и вообще, опенаи все правильно делает. Прямо сейчас доводить цену до приемлимой зачем? Чтобы денежный поток получить (который все равно не сравнится с рекламными потоками меты и гугла)? А это зачем? Как это приближает к абсолютной победе в новом мире?
  1. rg_software
    25.12.2024 08:49
    #27714552
    Смысл в том, что даже первый золотой мобильный телефон был ориентирован на тех, кто это мог себе позволить, и генерировал производителю и оператору прибыль. Напротив, OpenAI тратит примерно в 2.5 раза больше, чем зарабатывает, и кроме общих рассуждений вроде тех, что вы предлагаете ("продукт станет лучше, цена ниже"), никаких конкретных идей о том, как изменить траекторию, нет.
    
    Понятно, что в OpenAI заинтересованы "продать корову", но мы же можем смотреть не вещи несколько более рационально. У них уже давно есть продукт, который по разным меркам обходит то выпускников, то джунов, то ещё кого. Однако же им до сих пор не удалось его прилично монетизировать с учётом текущих цен и текущих возможностей этого продукта. Как так, что должно измениться? Цена ещё понизиться или продукт стать круче? Пока мы видим, что крутизна обходится очень дорого, а мы не знаем, сколько потребители за неё готовы платить реально.
    
    Таким образом, подобные статьи действительно подхватывают рекламный нарратив OpenAI, но при всём оптимизме можно всё-таки хотя бы мелким шрифтом добавить дисклеймер: мы не знаем, что оно на практике будет уметь, сколько это будет стоит, сколько клиенты за эти навыки будут готовы заплатить, и получится ли при этом выйти на прибыль.
  1. geornit25
    25.12.2024 08:49
    #27717272
    У меня, честно говоря, вообще есть сомнения, а сможет ли это стать в принципе полноценной заменой программисту, в том случае, если экстенсивно разивать текущие технологии ИИ. По ощущениям, уже где-то близко видится некий "стеклянный потолок", выше которого на текущей архитектуре нейросетей не подняться. Ближайший пример - казалось бы безудержный рост частоты процессоров в конце 90-х - начале 2000-х. По факту, выше 10 GHz так ничего и не вышло сделать.
    
    akakoychenko
    25.12.2024 08:49
    #27717380
    Так а чего не хватает?
    
    К примеру, вчера, я сам использовал о1, чтобы с 0 написать скрипт, который синзронизирует апи с БД по довольно нетривиальному алгоритму. Дал нейронке схему апи на примере, попросил сделать ddl для бд, потом скрипт, указав, что данные могут быть коррапчены, и надо их заменить на дефолтное значение, потом попросил переписать скрипт под батчи, потом добавить логгирование. И, вот, готовый сервис, где я не написал ни строчки кода.
    
    Да, матерые программисты с опытом корпораций любят напоминать о том, что разовый скрипт то да, но, вот махровый энтерпрайз, где только своих библиотек 100500, и где миллион строк кода в проекте, быстро поставит нейронку на место. Но, и тут тоже проблема выглядит решаемой. Да, вот прямо сейчас взять и втоклкнуть нс в такой проект может и не выйти. Но, как человек, видевший достаточно много смрадного энтерпрайзного кода, могу сказать и то, что он, как правило, переусложнен, и невозможность при помощи НС поддерживать такой проект выходит не из сложности бизнес-логики/сферы/требований, а из-за того, что за 10 лет нагородили инженеры, придумывая себе брейн-тизеры, и внедряя лучшие практики, которые в моде в этом сезоне. Мой прогноз, что, если специальным образом разработать архитектуру и среду разработки под ИИ (например, хранить историю промптов вместе с кодом, иметь возможность перегенерировать фрагменты кода, подобно компиляции, иметь готовые шаблоны архитектуры под конкретные инлустрии, правильно кормить ИИ примерами подобных задач при решении следующей, и так далее), то можно и заменить полностью. То есть, в текущей точке уже не нужны научные прорывы. Скурпулезный инженерный труд позволит заменить программиста на уже сделанных открытиях
    
    geornit25
    25.12.2024 08:49
    #27717476
    Сейчас задачу для ИИ надо детально разжевывать, а это не то, чтобы стандартный подход в индустрии. Обычно задача ставится на бизнес уровне: "нужна фича A в продукте B, за деталями интеграции надо обратиться к команде C". Для сеньора и пожалуй части миддлов этого будет вполне достаточно. Для ИИ, как и для джунов - увы нет. Нужен промежуточный уровень. Возможно, с помощью максимально глубокой интеграции ИИ в среды разработки ПО эту проблему удасться как то смягчить. Чтобы у ИИ был максимально возможный контекст.
    
    Так а чего не хватает?
    
    На мой взгляд - особенно не хватает обратной связи от ИИ. Ты ставишь очевидно неполную задачу, а ИИ бросается её выполнять ничего даже не уточнив. Разумеется на выходе может быть далеко не то, что требуется. И приходится бесконечно уточнять что и как надо сделать. Самостоятельно погружаться в задачу, по итогу. Хотелось бы, чтобы ИИ сначала уточнил все детали, даже те, о которых пользователь даже и не задумывался ранее. И только потом, подготовив по сути ТЗ - начал что-то делать.
1. Alex-Freeman
  25.12.2024 08:49
  #27715926
  Вы не правильно считаете. Как я понимаю вы не работали с о1/GPT4. Если правильно поставлены условия (промт) то типичную джуновскую задачу они решают за несколько секунд. Речь не идет о создании сразу полноценной программы. Делается декомпозиция, потом отдается LLM в виде промтов. Получаем код, собираем в кучу, просим LLM покрыть тестами конечную сборку, если вылезает косяк, правим ручками или сообщаем LLM что в ее фрагменте кода проблема. В результате на работу которая занимала неделю у мясных и требовала 2-3 человека, выполняет один мидл/сеньор за пару часов.
  
  Как вы думаете сколько из сокращенных десятков тысяч вакансий связанны с замены части персонала различного рода copilot?
  1. geornit25
    25.12.2024 08:49
    #27717372
    Так я ровно про это и писал, что требуется детально описывать условия задачи, что именно надо сделать. Для o1 зачастую это превращается в постоянный набор уточнений. Можно сказать аналог метапрограммирования в свободной текстовой форме. Причем зачастую ловишь себя на мысли, что быстрее самому сделать, чем постоянно уточнять, что и где надо исправить. На мой взгляд - этого явно недостаточно для чего то в продакшене. Для быстрого прототипирования - наверное да, пойдет. Для o3 же - ожидаю, что этих уточнений потребуется вносить меньше и в итоге системный аналитик сможет самостоятельно ставить задачи нейросети и контролировать их выполнение. Оттуда и расчет стоимости именно для o3.
    
    Как вы думаете сколько из сокращенных десятков тысяч вакансий связанны с замены части персонала различного рода copilot?
    
    Не думаю, что это непосредственно связано с ИИ. Скорее просто спад после предыдущего роста.

Gonchar_POTT
25.12.2024 08:49
#27713210
"Привет, Хабр! Меня зовут Владимир Крылов. Я профессор математики, научный консультант Artezio"

А подписана статья Александром Николайчуком. Проделки ИИ?

Извините за офф-топ.
1. AndyKy
  25.12.2024 08:49
  #27714230
  sudo -u Владимир Владимирович Post_на_Habr
  
  Все верно подмечено, Владимир Владимирович не заводил себе аккаунт на Хабре, запостили от его имени
  1. Quarc
    25.12.2024 08:49
    #27718402
    sudo: unknown user: Владимир

ilih
25.12.2024 08:49
#27713406
В программирование ИИ очень успешен в саботировании open-source проектов: поток некачественных сообщений об уязвимостях в коде, которые с виду похожи на реальные проблемы и требуют времени на проверку.

acsent1
25.12.2024 08:49
#27713684
Интересно, ИИ уже умеет задавать уточняющие вопросы? Кмк вот в этом направлении должно быть развитие, чтобы могла быть речь о замене.

Хотя как продвинутый синтаксис помощник вполне нормальный инструмент уже сейчас. Я например каждый раз радуюсь (до чегож техника долшла), когда кодеиум угадывает, что я хотел написать
1. GrigorGri
  25.12.2024 08:49
  #27713760
  Если допишешь в конце: "задай 5 уточняющих вопросов", то он их и задаст. Сам пользуюсь этим иногда чтобы убедиться что запрос правильно написан.
1. volkahowl
  25.12.2024 08:49
  #27714224
  Да. На lmarena.ai некоторая модель попросила меня скинуть нехватающего класса, чтобы решить задачу. Не помню какая именно была к сожалению, их там больше 80ти
1. PeterFukuyama
  25.12.2024 08:49
  #27714418
  Интересно, ИИ уже умеет задавать уточняющие вопросы?
  
  Там, где не уточняет, хватает сохранения контекста. Например, mistral способен переписать код с использованием другой библиотеки или подхода.
1. proxy3d
  25.12.2024 08:49
  #27717730
  Да, может порой. Я всегда в таких случаях пишу в конце "с чем ты не согласна?". В этом случае модель описывает минусы и временами спрашивает " Как вы планируете решить...? "

gun_dose
25.12.2024 08:49
#27713834
Перцентили и accuracy - это всё очень хорошо. Но оно может так, чтобы ты в этот оЗ копируешь текст таски из джиры, а оно тебе в ответ делает пулл-реквест в репу, у которого все пайплайны зелёные и клиент перетаскивает задачу в Done?
1. funca
  25.12.2024 08:49
  #27714234
  Думаю, здесь вопрос не столько про LLM, сколько - инфраструктуру и коммуникации. Как в случае беспилотных автомобилей проблема в том, что все это слишком сильно заточено под людей.
  
  Сейчас разработчики тратят массу времени не на сам кодинг, а на борьбу с инструментами, которыми обвешан SDLC: Confluence, Jira, запуск и оладка локально, git, Gerrit, CI, CD, e2e тесты за которые отвечает отдельная команда и т.п. Здесь на стыках находится масса ручной работы и переписки в каких-то каналах, как в каменном веке).
  
  Автоматизация идёт с двух сторон. Во-первых это генерация текстов - код, статусы, репорты и т.п. Это нужно, чтобы встроить AI-агентов в существующую бюрократию. Во-вторых - классическая автоматизация, где LLM в подходящий момент вызывают инструменты. Здесь ещё масса работы, но прогресс идёт.
1. AndyKy
  25.12.2024 08:49
  #27714244
  Не исключено, что уже довольно скоро сможет. Попытки таких агентов сделать уже есть (Devin, SWE Agent, Amazon Q и т.д.), пока еще не очень работает, но кажется что уже вот-вот может поменяться

jukipuk
25.12.2024 08:49
#27714902
Я вообще слаб в теме ИИ, но если я не ошибаюсь, то эти языковые модели обучались на различных текстах из интернета и в том числе на текстах из leetcode и codeforses. Это значит, что в обойму попадали как текст задач, так и десятки-сотни текстов с решениями. Насколько тогда оправдано оценивать модель решением задачи из этих сайтов? У меня есть сомнения.

pontgleb
25.12.2024 08:49
#27715220
Очередная новейшая и умнейшая модель, которая заменит вообще всех. Никогда такого не было и вот опять.

Alex-Freeman
25.12.2024 08:49
#27715948
Читая комментарии в этой статье, у меня складывается ощущение, что большинство из тех кто пишет "я программист ... ИИ нас не заменит, потому что ..." . Не работали в реальности с тем же о1 и все выводы делают на основании косвенной информации.
1. amazingname
  25.12.2024 08:49
  #27717080
  Ну конечно. Программисты они люди серые и инертные, ничего нового никогда не попробуют.
  
  В основном у всех куплен за 20$ GPT, даже у джуниоров и первое что используется для любой задачи - это ChatGPT, как раньше был StackOverflow. Но пока количество кейзов в которых можно нагенерировать код оно эпизодическое.
1. Konstantinx5
  25.12.2024 08:49
  #27719200
  С релиза использую o1. Но не вижу прям прорыва по задачам. Чаще для обычного кода проще и быстрей использовать sonnet. Но для различных ресерчей очень даже круто. Поэтому странно читать, что o3 кого-то там заменит. Мне кажется важнее дождаться, когда запрос к нейронке будет сильно дешевле, быстрее и с неограниченным контекстом, чем собственно качество и точность ответа. Что бы можно было плодить различные агенты и сжигать миллиарды токенов для решения задач.

Quiensabe
25.12.2024 08:49
#27718406
известно, что o3-mini тратит 17-20 долларов на задачу, в то время как модель o3 – “примерно 172x” от стоимости o3-mini. Иными словами, 2,5-3 тыс. долларов за задачу

Что-то я не понял откуда такие оценки o3-mini?

Насколько помню, на презентации o3 говорилось, что o3-mini удалось сильно оптимизировать и ее использование выходит гораздо дешевле o1. При этом за подписку в 20$ дают 50 запросов в неделю к o1.

Т.е. себестоимость запроса o3-mini точно должна быть меньше 10 центов (понятно, что не каждый выбирает всю квоту, но все же). А вероятно сильно меньше, ведь компания и другие услуги оказывает, налоги платит да и просто зарабатывает. Это же подтверждается и ценами на API, где средний запрос на 1000 токенов к o1 обходится в те же 10 центов.

Конечно сложная задача может включать не один запрос, но ведь не 170 запросов на одну задачу...

В оценке результатов есть "среднее за 64 попытки" - и это уже выглядит более адекватным. Решение задачи 64 раза подряд - может потянуть на 17-20$ хотя вопросы остаются даже так. Но тогда никак нельзя эту цифру масштабировать дальше на другие задачи, модели и условия.

infitum
25.12.2024 08:49
#27718476
конечно развитие вычислительных мощностей будет изменять кадровый состав, также как развитие любых технологий и подходов в производстве. Кроме рекламы новых моделей ИИ статья не содержит новой информации.

avshkol
25.12.2024 08:49
#27720156
Сэкономит массу человеко-часов на трудоемких, но относительно простых задачах. Как питон с его библиотеками экономит массу времени на самописный код.

Однако, человек, не понимающий в написании кода, не сможет работать с LLM, ибо, получив очередную порцию кода, не сможет оценить, то это и так ли работает и встроится ли корректно в дальнейший код.

Ни и это не всё - теперь программист, намеревающийся оптимизировать скорость работы, будет вынужден становиться ещё и менеджером - давать задания, контролировать, уточнять, корректно формулировать задачу... И это новый пласт знаний, и не все готовы этим заниматься (что видно по комментам - "попросил то-то, получил фигню, больше не буду ". А разъяснить, уточнять, давать примеры пробовали? А если бы вместо LLM был джун - вы после первой написанной им фигни разве говорите - "увольняйте этого, буду сам всё делать"?.."

Kden2019
25.12.2024 08:49
#27720810
У меня такое ощущение, что кто то не договаривает и в полную использует AI. Типа я не такой... и ИИ не для меня.