Вчера в 20:00 по московскому времени OpenAI в прямом эфире показали свою революционную модель GPT-4o. Общаться с ней можно голосом и даже по видео, при этом вообще без задержек. А еще GPT-4o понимает тон голоса, может шутить, отвечать с (почти) человеческой интонацией, переводить в режиме реального времени и даже петь.

При всем этом модель дешевле, чем ее предшественница, GPT-4 Turbo, во всем уступающая GPT-4o. Как такое может быть, что прямо сейчас умеет модель и почему GPT-4o на самом деле первая настоящая мультимодальная разработка OpenAI? Со всем этим разберемся в статье, а еще расскажем про все‑все самые интересные пасхалки Альтмана...

Что умеет GPT-4o?

Перед презентацией CEO OpenAI Сэм Альтман и некоторые из его инженеров активно разжигали интерес аудитории и оставляли в соц.сетях пасхалки на предстоящий релиз. В основном это были всяческие намеки на фильм «Она», в котором главный герой влюблен в ИИ‑систему. И действительно, GPT-4o очень похожа на ту самую Саманту из фильма, которая умела разговаривать с «живыми» интонациями, имела чувство юмора и отвечала со скоростью человека. С GPT-4o действительно можно поверить, что разговариваешь с живым собеседником.

Жутковато? Да, немного.

При этом GPT-4o может выступать не только собеседником, но и переводчиком. Разработчики значительно улучшили способности модели в диалогах на отличных от английского языках, теперь она поддерживает более 50 языков. К тому же, была улучшена память модели: теперь она будет запоминать все беседы с пользователем и знать о вас больше. Опять жутко, да?

Что касается английского языка и кода, в релизном блог‑посте написано, что GPT-4o соответствует производительности GPT-4 Turbo. Но тут они определенно поскромничали. То, что модель будет зверем в программировании, было ясно еще неделю назад. Но не будем забегать вперед. Для начала небольшая историческая справка.

В течение нескольких предыдущих недель на главном LLM‑лидерборде LMSYS одна за одной появлялись загадочные модели «gpt2», «im‑a-good‑gpt2-chatbot» и «im‑also‑a-good‑gpt2-chatbot». Компания‑производитель не была указана, но по отсылкам в Твиттере Сэма Альтмана все было ясно.

Пользователи были шокированы качеством ответов таинственных моделей. Последняя могла без проблем создать полноценную игру: у юзеров получилось за считанные минуты создать полный клон Flappy Birds, 3D-шутер и аркаду.

Конечно, теперь мы понимаем, что все это была замаскированная GPT-4o. Сейчас на Chatbot Arena по сравнению с конкурентами она показывает отрыв в 57 ELO на общих языковых задачах и в 100 ELO на коде. Это поразительный результат. Кроме этого, модель использует для ответов не только свои знания, но и информацию из Интернета.

И, кстати, теперь еще у модели еще будет режим стриминга для MacOS. Подключаете приложение, выделяете прямо на экране код, модель его обрабатывает на месте. 

Но и это еще не все! С картинками и видео модель теперь тоже работает намного лучше:

  • Синтез объектов в 3D

  • Продвинутый анализ графиков, диаграмм, таблиц и рукописного текста.

  • Умеет не просто генерировать картинки, а запоминать внешность персонажей. За счет этого можно сгенерировать полноценный комикс!

Получается, у нас в руках новая супер‑мощная GPT-4o, умеющая работать с текстом, голосом, картинками и видео. Но ведь это не первая мультимодальная модель компании? GPT-4 Turbo тоже умел анализировать и генерировать картинки и слушать голос. И все‑таки оказывается, что это совсем «разные» мультимодальности. Давайте разберемся.

Почему GPT-4o - первая настоящая мультимодальная модель?

Буква 'o' в названии GPT-4o означает «omni», то есть «универсальная». До ее появления тоже можно было отсылать боту картинки и использовать голосовой режим. Однако задержка ответа была в районе 3 секунд. Теперь модель отвечает со скоростью человека.

Дело в том, что до этого «мультимодальность» находилась не внутри одной модели, а была рассеяна на три отдельных:

  1. Speech‑to‑Text модель переводила аудио в текст;

  2. Затем GPT-3.5 или GPT-4 обрабатывала уже транскрибированный текст, как если бы вы его напечатали, и генерировала ответ;

  3. Последняя модель переводила текст обратно в аудио.

Таким образом, модель не умела понимать настроение и тон людей, не могла имитировать интонации или другие звуки.

Теперь все изменилось. GPT-4o обучена сразу на трех модальностях одновременно — текст, аудио, изображения. Теперь они все «живут» и работают вместе. Поэтому GPT-4o можно называть первой настоящей мультимодальной моделью компании.

Если она так хороша, почему она такая дешевая?

Для бесплатных юзеров бота модель будет не просто дешевой, а бесплатной. По API обработка токена станет в 2 раза дешевле, чем в GPT-4 Turbo. Получается, новая модель и умнее, и быстрее, и дешевле. Разве так бывает?

Да, бывает. Вообще-то цена и раньше снижалась, это можно увидеть на графике:

В этот раз косты удалось снизить в основном за счет нового мультиязычного токенизатора, который лучше «сжимает» вход. Для некоторых языков теперь требуется в 3–4 раза меньше токенов, соответственно и стоит обработка промпта теперь меньше. Например, для русского языка она будет обходится в среднем в 3.5 раза дешевле.

И все это уже можно попробовать?

Ну, не совсем. OpenAI, как всегда, выкатывают анонсированные обновления постепенно. Модель уже доступна разработчикам по API, доступы для генерации текста с GPT-4o для обычных пользователей тоже начали понемногу выдавать.

В остальном, в боте пока сохраняется подход с тремя разными моделями. Показанный на презентации голосовой режим из фильма «Her» пока не включили. Он будет доступен для подписчиков Plus и раскатится в ближайшие недели. Видео‑возможности пока что вообще дают только ограниченным группам пользователей.

Также OpenAI пообещала выпустить приложение для ПК.

Больше новостей, мемов и пасхалок из мира ML в нашем тг‑канале. Подпишитесь, чтобы ничего не пропустить.

Комментарии (77)


  1. SciStalk
    14.05.2024 09:39
    +3

    А как вы поняли, что это теперь не франкенштейн из нескольких моделей, а одна?


    1. DataSecrets Автор
      14.05.2024 09:39
      +4

      Выдержка из поста:

      Prior to GPT-4o, you could use Voice Mode to talk to ChatGPT with latencies of 2.8 seconds (GPT-3.5) and 5.4 seconds (GPT-4) on average. To achieve this, Voice Mode is a pipeline of three separate models: one simple model transcribes audio to text, GPT-3.5 or GPT-4 takes in text and outputs text, and a third simple model converts that text back to audio. This process means that the main source of intelligence, GPT-4, loses a lot of information—it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.

      With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.


    1. darthmaul
      14.05.2024 09:39
      +1

      Да это логично. Как обеспечить такую резвую реакцию на голос если бы распознаванием занималась отдельная система? Обычно это работает так: фраза записывается (этот этап довольно сложный т.к. надо определить конец фразы при попмощи традиционного алгоритма, а не нейростети), передаётся в распознавлку, а потом текст - в нейронку. Т.е. работа нейросети не может начаться до того как пользователь закончит фразу.


      1. Dron007
        14.05.2024 09:39
        +1

        Вообще-то делали быструю реакцию на голоса умельцы, но это, конечно, всё равно не полноценное аудиовосприятие. Я вот не совсем понял, что с видео, обучали ли её именно на видео или только на картинках. От этого будет многое зависеть, сможет ли естественным образом увязывать аудио и видео, оценивать скорость разных явлений и так далее.


        1. TommyG
          14.05.2024 09:39

          Она вполне может брать например десять первых ключевых кадров из видео, их рендерить и на основе этого плюс аудио транскрипта строить внутренюю картину видео.

          Понятно что полностью видео просматривать не будет, это на столько ресурсоёмкая задача, что в системах общего назначения ещё очень долго не будет сделано (плюс тут у гугла как владельца ютюба преимущество, когда они процессинг видео делают, они и категоризацию его заодно могут сделать).

          По идее можно наверное отдельно запилить модель которая будет достаточно точно описывать видео текстом, ну а потом уже по этому тексту делать анализ.


          1. Dron007
            14.05.2024 09:39
            +1

            Если описывать видео текстом, то будет такая же ерунда как с преобразованием голоса в текст и обратно. Саманту (Her) так не склепаешь. Вот, как раз по этой теме Джим Фан пишет, что нет там полноценной обработки видео, как он предположил вначале и отмечает, что в Gemini закладывается полноценная работа с видео. А он там вообще отдельный видео кодек предлагает. В общем, будет ещё чем заняться в ближайшие месяцы и годы. У человека на вход идёт поток от всех сенсоров сразу, а также ещё и внутренние всякие датчики, не все выносимые на уровень сознания. Конечно, это побочки биомеханизма, не всё нужно нейросети, больше для роботов актуально, но полноценный ввод был бы полезен, можно ещё и с ИК-датчиками, магнитного поля, новостными лентами. Это будет что-то интересное.


            1. TommyG
              14.05.2024 09:39

              На данный момент наиболее важным направлением является повышение уровня интелекта. Всё остальное это удобство и вполне может быть прикручено сверху, а не интегрированно.

              Тем более ресурсов для работы с видео, аудио и изобрадениями надо на порядки больше чем с текстом.


              1. Dron007
                14.05.2024 09:39
                +3

                Я думаю, это как раз связанные вещи. Откуда берётся интеллект? Из одних лишь текстов не выковырять полноценной картины мира. Все наши абстракции восходят к самым базовым ощущениям, которые мы получает из чувственного опыта, вспоминая свои детские падения и открытия. Ещё в детстве мы строим модель мира исходя из физического восприятия и на неё нанизываем всё остальное. В нейросеть же запихивают тексты и она даже может себе представить по ассоциациям, как выглядит единорог, к примеру, но насколько больше она получает увязывая его с изображением или глядя на падающий лист, из чего может сформировать даже закон гравитации. Та же Sora это не просто система для генерации видео, она сформировала представления о массе физических явлений - трение, вязкость жидкости, преломление лучей, потому что обучалась на видео и упаковывала массу данных, находя закономерности.

                Интеллект это не только работа с текстом. ИИ должны будут решать массу задач на работу с пространством и на понимание времени. Не так давно читал работу, в которой обнаружили, что такие задачи намного лучше решаются если ИИ думает картинками, сохраняя промежуточные результаты "внутреннего взора". Мы тоже так решаем задачи, формируя какой-то внутренний образ, даже если преобразовываем его в текст.


                1. rPman
                  14.05.2024 09:39
                  +1

                  Не думаю что у интеллекта есть требование наличия мультимодальности.

                  Главная причина того что исследователи работают в этом направлении - имеющейся текстовой информации недостаточно, а значит информацию нужно собирать отовсюду, до куда дотянемся, и самое простое - это аудио-видео.


                1. Shannon
                  14.05.2024 09:39

                  Та же Sora это не просто система для генерации видео, она сформировала представления о массе физических явлений - трение, вязкость жидкости, преломление лучей, потому что обучалась на видео и упаковывала массу данных, находя закономерности.

                  Так как Sora диффузионная модель, то она и правда находила закономерности, но не те, что вы перечислили.

                  Диффузионные модели во время обучения получают картинку и начинают её зашумлять, чтобы потом научится из шума восстанавливать изображение.
                  А чтобы восстанавливать что-то конкретное, нужно текстовое описания картинки - этим занимается модель трансформер (в данном случае GPT-4 Vision), которая очень подробно описывает кадр. По их словам, прорыв произошел когда вместо краткого описания в 1-2 строки для обучения они начали генерировать 4-5 строк текста с максимально подробным описанием.
                  Тут нет реального понимания физики процесса воды, просто куча кадров как она текла и комбинирование этого в зависимости от получившегося при генерации рельефа.

                  Поэтому, в не специально отобранных удачных видео для презентации, будет много артефактов и "анти-физики", о чем создатели сами и говорят, что модель может путать лево и право, запутаться со сложной физикой и у неё проблемы с понимаем причинно-следственных связей.


                  1. rPman
                    14.05.2024 09:39
                    +1

                    НЕТ! Это именно постройка модели.

                    Понимание = постройка модели. Мало того, мы можем построить модель без понимания (например квантовая физика, отлично работает пока ты просто считаешь, не пытаясь понять как это внутри устроено)

                    Как работают диффузионные модели генерации? мы ставим нейронную сеть в такие условия, делаем один промежуточный скрытый слой значительно меньше по объему чем каждые последующие, вид она принимает такой 'вход >-< выход', подавая одно и тоже на вход и выход, что у нее не остается выбора как разобраться что же на входе. Затем мы выкидываем то что в начале, а входом становится вот эта узкий перешеек, тот слой с малым количеством весов. Вектор этих весов становится описанием картинки на каком-то выдуманном нейросеткой языке. Шум в этих весах нарисует случайную но правдоподобную картинку, а дальше мы на основе другой нейросетки пытаемся понять, то что нужно нарисовала нейросеть или нет, если нет - подправляем и снова проверяем... там чуть сложнее но идея именно такая

                    Когда начинаешь изучать, как же выглядят веса в слоях, то там именно признаки, чем глубже слой тем сложнее признак (сначала просто линии и градиенты, затем геометрические фигуры, потом буквально носы, усы, лапы, шерстинки).. заглянуть глубже в сложные нейронные сети мы не можем (там сотни миллиардов параметров) но экстраполируя можно предположить что там и дальше происходит именно то что мы имеем в виду - модель начинает понимать, как мир устроен, строит его модель.

                    И да, на первых порах она упрощает, модель не совершенная, с глюками, это нормальное следствие выбора инструмента. Просто другого у нас нет.


                    1. darthmaul
                      14.05.2024 09:39

                      Интересно, а возможен ли ИИ, "понимающий" смысл весов нейросети? Очень бы помог т.к. пока что вся работа над ИИ сводится к тряске чёрного ящика с кучей информации и выборе более-менее удачной образовавшейся структуры.


                      1. rPman
                        14.05.2024 09:39

                        есть и такие попытки, исследователи строят слабую gpt2 и используя более сильную версию пытаются что то разобрать


                  1. alex50555
                    14.05.2024 09:39
                    +2

                    Да анти-физика есть и в тех видео, что нам показали. Есть момент, где на стройплощадке погрузчик задевает человека и при этом отпрыгивает сам погрузчик, а человек как стоял так и стоит)


                    1. rPman
                      14.05.2024 09:39

                      погрузчик задевает человека

                      в обучающей выборке таких событий не было или недостаточное количество, сеть не знает что произойдет дальше.

                      это кстати очень плохой недостаток, когда сетка будет размышлять образами, она не поймет чем это опасно!


                      1. Wesha
                        14.05.2024 09:39

                        в обучающей выборке таких событий не было или недостаточное количество,

                        В моей обучающей выборке точно не было события "карьерный самосвал "БЕЛАЗ" наталкивается на антилопу гну" — да, готов поспорить, что и в Вашей тоже. Однако тем не менее и я, и Вы сможем со стопроцентной точностью предсказать, кто из них поедет дальше.


                      1. rPman
                        14.05.2024 09:39

                        Ваша обучающая выборка на несколько порядков объемней той что кормили нейронке. Не уверен, использовали ли сны для формирования SORA, но по уму должны. Вы, благодаря интернету, видели сотни и тысячи событий как одна машина врезается в другую, и смогли экстраполировать. Плюс, скорее всего ваши знания подкреплены текстовыми описаниями родителей с эмоциональной окраской...


                      1. Wesha
                        14.05.2024 09:39

                        Вовсе нет. Просто я понимаю, что для вычисления объёма красного резинового мячика мне не нужен справочник объёмов красных резиновых мячей — я умею обобщать. А вот с этим у нейросетей пока что неплохой такой швах.


                  1. Dron007
                    14.05.2024 09:39
                    +1

                    Я согласен, что там нет понимания физики в привычном нам аналитическом виде, на уровне формул. Но для того, чтобы сформировать латентное пространство вмещающее все возможные варианты действий, например, с жидкостью, ей нужно в глубоких слоях сохранить какие-то абстракции, описывающие состояние жидкости, в том числе и вязкость. Далее, при присоединении текстового корпуса, она уже может и увязать эту абстракцию со словом. Но в дальнейшем, решая разного рода формальные и бытовые задачи, та нейросеть, у которой в векторном пространстве не только буковки, а ещё и визуальное представление того, что это за понятие, сможет быть намного более эффективной. Например, робот, знающий по видео о свойствах материалов, может наступить на бетонную плиту через яму, но избегать картонных листов. Или, там, предупредить Аннушку, что масло разлито. Конечно, он может это получить и в процессе обучения, угрохав себя сотню раз, например. Но вот человек как-то по-другому обучается, не на миллионах смертей, потому что строит в голове модель. Так и выжил в процессе эволюции.

                    Вот, небольшой эксперимент. Прочитайте фразу "эта жидкость была очень вязкой". Что у вас происходит в голове для её понимания? Отловить этот момент можно когда мы о чём-то задумались и читаем текст, не воспринимая его смысл. Потом сосредотачиваемся и бах, что-то произошло. Что? Или допустим, кто-то спросит у вас "что такое вязкость"? Что появляется в голове в первую очередь? Уверен, визуальный образ тягучей жидкости, возможно, даже ощущения и ощущения-ожидания её поведения. То есть вот сейчас я её буду лить, а она льётся не так как вода. У вас не появляется формул вязкости или определений из учебника. Понимание я определяю как привязка нового объекта к существующей у нас ассоциативной сети. Понимание - основополагающая часть интеллекта. Для искусственных нейросетей понимание - размещение объекта в векторном пространстве в том месте, где рядом будут располагаться ассоциативные понятия. И вот если мы расширяем это векторное пространство визуальными данными и пониманием поведения объекта, интеллектуальные возможности возрастают.

                    Update: Да, и ещё такой момент. Многие если не все наши образы завязаны на окружающие нас явления, на наши ощущения. Мы переносим понятия из одной сферы в другую. Они становятся как бы новыми красками в нашей палитре выражения и проявления возможностей. Например, представьте себе того же ИИ-психолога, которому человек говорит "я как будто плаваю в патоке". Конечно, нейросеть поймёт его на каком-то уровне, как мы изучаем английские идиомы, даже не погружаясь в их происхождение. Но намного более глубоким, на уровне "ощущений" будет понимание если нейросеть видела и понимает что такое вязкая жидкость, видела мошек, попавших в мёд, а может быть и в виде ощущений, полученных от роботов сама плавала в густой жидкости, наливала мёд и так далее. Этот физиологический опыт может быть в неё подгружен от роботов, думаю. Нейросети же можно объединять. Так вот, обладая настолько расширенным понятийным аппаратом, она глубже поймёт состояние собеседника и в итоге возможно даст более качественный совет. Это и будет проявление более развитого интеллекта.


                1. darthmaul
                  14.05.2024 09:39

                  Всё логично, но есть контраргумент: люди, слепые с рождения, каким-то образом имеют интеллект, сравнимый со здоровыми, хотя их мозг недополучил львиной доли информации для обучения. Хотя проводя аналогию с неросетью, даже мозг новорождённого не является пустышкой (врождённые инстинкты и т.д) когда неросеть без обучения - просто матрица с нулями.


                  1. Dron007
                    14.05.2024 09:39

                    Да, аргумент весомый, тоже о таком думал. У них, как известно, роль зрения берёт на себя слух, осязание. В детстве много времени уходит на адаптацию. Визуальные свойства предметов они оценят косвенно, физические тактильно, через слух. Поэтому они всё равно ближе к мультимодальным нейросетям. Ну, и насчёт развитости, читал, что они слабее развиты как из-за отсутствия зрения, так и из-за других бытовых и социальных проблем в детстве и не только. Кроме того, от них не требуется решать визуальные задачи или как-то учитывать визуальные параметры, что может потребоваться от нейросети.


        1. Inkor
          14.05.2024 09:39

          С видео непонятно, в прес релизе заявлены текст, аудио и изображения, то есть она теперь их может как понимать, так и генерировать. Про видео не говорится. Но в одном из примеров была показана генережка 3D объекта. Так что диапазон модальностей там возможно больше. Эмпирически пока не проверить, выкатили пока только возможности с текстом и принятием изображений, остальное пока тестят на безопасность.


  1. avshkol
    14.05.2024 09:39
    +1

    Пробовал вчера вечером через сервис vsegpt.ru (платно), скорость и качество ответов на профессиональные вопросы удивили - не ожидал такого роста к gpt4, при том, что это не версия 5, а всего-то дообученная gpt4...


    1. Aniro
      14.05.2024 09:39
      +9

      Это не дообученая gpt4, это совершенно новая модель. Достаточно того что там новый токенизатор - если он меняется, меняется все. Раз модель на новой архитектуре, она обучена с нуля.
      Четверка в названиии это видимо чтоб от нее не ждали чудес и не говорили "гпт-5 не продвинулся по сравнению с гпт-4, акции open-ai пора сливать" )


      1. Eggsiname
        14.05.2024 09:39
        +1

        Так у них же там договор мол не создавать модели выше gpt-4 (могу ошибаться)


        1. BlackMokona
          14.05.2024 09:39
          +3

          Маск предлагал остановится на текущем уровне развития ИИ до выработки правил, но все только посмеялись над идеалистом.


          1. VADemon
            14.05.2024 09:39

            Есть версия, что эта волна "ИИ всех погубит" -- работа на политиков, лоббизм регуляторов. 10мин, англ. https://www.youtube.com/watch?v=5NUD7rdbCm8


            1. BlackMokona
              14.05.2024 09:39
              +1

              Маск гонит волну ИИ всех погубит уже очень давно, он основал ОпенАИ именно под таким лозунгом. Что нужна компания которая создаст общедоступный, свободный ИИ. С созданием передового ИИ компания отлично справилась, а вот контроль над ней Маск не удержал, от чего она продалась Микрософту провалив своё назначение.


            1. MountainGoat
              14.05.2024 09:39
              +1

              Есть версия, что эта волна - работа самих ИИ корпораций, которые очень хотят, чтобы на всех наложили правила, которые соблюдать могут только они. А то получится, как с рисующими ИИ, где opensource уже без разговоров обошёл всех.


    1. Eggsiname
      14.05.2024 09:39

      Используют модели с каких-то рандомных сайтов, а потом плачут мол модель говно xD


    1. MAXHO
      14.05.2024 09:39

      Пробовал через сервис https://arena.lmsys.org/
      В целях "просто посмотреть" и сравнить - сервис идеален.
      Даже написал "творческий проект" школьника. Вполне вменяемо. Пару ошибок в коде исправил и всё работает.

      Но, разумеется если много запросов, то сервис выдаст бан. Это именно для попробовать.{Ну а нехорошие люди, использующие не по назначению,. могут чистить историю и прятать IP}


    1. MountainGoat
      14.05.2024 09:39
      +1

      Спасибо за рекомендацию сервиса. Прикрутил их API себе к VSCode (через Continue), ибо не царское это дело — тесты писать.


    1. MountainGoat
      14.05.2024 09:39

      КОНИ СТОП!

      У этих горных ... по умолчанию включена опция перенаправлять запросы к GPT-4o на GPT-4-Turbo. Выключается в общих настройках аккаунта.


  1. excoder
    14.05.2024 09:39

    А где про синтез 3д-объектов? Я не засёк в материалах, но многие говорят.


    1. DataSecrets Автор
      14.05.2024 09:39

      Вот тут демо можно посмотреть, их показывали на презентации: https://x.com/estebandiba/status/1790285228981862720


      1. Dron007
        14.05.2024 09:39

        Это и у них на сайте есть в группе текстово-графических примеров. Кстати, там есть пример где создаётся монета и потом просят звук монеты создать. Вот тут интересно насколько это управляемо и параметризуемо. Учитывая, что она поёт на ходу меняя скорость, высоту голоса, то вполне может оказаться, что там уже есть всё для генерации музыки и тогда она просто заменит Suno и Udio. Может быть её на музыке не обучали, конечно, но кто знает.


  1. 0x6b73ca
    14.05.2024 09:39

    Использую от сегодня по апи ключу, я поражён, это много лучше чем 4


  1. martein
    14.05.2024 09:39

    Ну что ж, революции не случилось, а лишь спровоцировал Шлёма ускорение наступления AI-зимы.


  1. Dron007
    14.05.2024 09:39
    +3

    Меня впечатлило и заставило задуматься то, как она реагирует на собаку, например, или как оценивает причёску человека. Все люди реагировали бы по-разному, с разными эмоциями и выбор именно определённой эмоции индивидуализирует ИИ. Текстовое общение по умолчанию ведь шло просто по фактам. Да, можно задать любой промпт, но всё равно текст человек начал воспринимать какие-то несколько сотен лет назад, он не закрепился глубоко в эволюционных механизмах и не влияет на нас так уж сильно в отличие от тона речи, эмоций. К чему это всё приведёт сложно сказать, может и как в том самом Her, вполне возможны какие-то даже психологические травмы, кто-то обязательно покончит с собой из-за ИИ. Много необычного нас ждёт.


  1. Georrg
    14.05.2024 09:39

    Отличные новости! Чем быстрее мы оккнемся в новую реальность тем быстрее к ней адаптируемся. Жить с домокловым мечем не хочется


  1. assdestr0yer
    14.05.2024 09:39

    Думаю развитие ИИ приведёт к тому, что многие потеряют работу, но для нормальных стран это не проблема. Введут базовый доход, люди будут заняты в других сферах, будут открывать свои бизнесы работать на себя и точно так же использовать ИИ, которые будут заменять им секретаря и бухгалтера например. Производительность труда и качество жизни вырастет.

    Другое дело что будет в странах СНГ ? Сомневаюсь, что у нас введут базовый доход.


    1. arantar
      14.05.2024 09:39
      +6

      ИИ не существует, исходя из этого остальное не имеет смысла.


      1. Wesha
        14.05.2024 09:39
        +2

        Просто там второе "И" не от того слова, от которого думают.

        ИИ - искусственный идиот.


        1. MountainGoat
          14.05.2024 09:39
          +1

          Если искусственный идиот может вытеснить естественных, это всё равно означает повальную безработицу.


      1. DarkSold
        14.05.2024 09:39

        Да, ИИ пока не существует, но сейчас модель 'умнее' среднестатистического человека. Единственное, пока не может взаимодействовать с физическим миром. Но и это решат какой-нибудь моделью RobotGPT (нечто похожее уже есть, осталось пару поколений...), который будет отвечать за взаимодействие с физическим миром. И все. Дальше будет вопрос экономики, где дешевле будет - поставить робота или человека. Будущее пока за интеллектуальным трудом.


        1. BlackMokona
          14.05.2024 09:39
          +3

          Да, ИИ пока не существует, но сейчас модель 'умнее' среднестатистического человека

          Бегство от ИИ достигло уровня лишающего титула ЕИ большей части человечества. Интересно бегство продолжиться когда ИИ превзойдет лучших людей в интеллекте?

          Типо да, ГПТ-10 создал теорию всего, единое мировое государство, вылечил все болезни и создал гипердрайв за первые пять секунд после включения. Но это не ИИ это лишь чутка глупых вычислений


          1. kuza2000
            14.05.2024 09:39
            +2

            ГПТ-10 создал теорию всего, единое мировое государство, вылечил все болезни и создал гипердрайв за первые пять секунд после включения...

            ...Потом открыл портал и ушел в него. Больше его никто не видел. Сидим думаем - жить без ИИ или попробовать создать другого?


            1. Wesha
              14.05.2024 09:39

              Потом открыл портал и ушел в него. Больше его никто не видел.

              По этому сценарию кино уже сняли. Не продадите.


        1. rPman
          14.05.2024 09:39
          +3

          В тот момент когда робот сможет собирать и обслуживать таких же роботов, появится технология самопроизводства, экономика станет другой.

          Главными станут (в порядке уменьшения ценности) - производители чипов для ИИ (или скопом - электроники) + производители софта и самого ИИ (большая часть их стоимости те же чипы для ИИ) + производители энергии + по мелочи (реально наименьшая доля) материальная часть (металы, пластики, масла и т.п.)

          Повторяю - как только ИИ сможет заниматься самообслуживанием, людям тупо больше нечего будет делать. Если заранее к этому не подготовиться, будет катастрофическая безработится, голод и т.п.


          1. kuza2000
            14.05.2024 09:39

            Голода-то избежать можно. Если они себя будут делать, то и нам еду смогут сделать)

            Тут другая проблема. Я бы сформулировал его не "людям тупо больше нечего будет делать", а "люди тупо станут не нужны"...


          1. Eggsiname
            14.05.2024 09:39

            1. rPman
              14.05.2024 09:39

              собрать на самом деле фигня (можно так спроектировать что собирать их проще) проблема в диагностике и починке.


              1. Eggsiname
                14.05.2024 09:39

                По диагностике - они сами себя могут проверять (пример с машинами к которым ноутбук с ПО подключаешь и он все данные выводит, что сломано, что поменять и тд)
                По починке - не вижу смысла чинить робота, когда можно просто собрать нового.


        1. arantar
          14.05.2024 09:39

          Всё как легко и просто у вас, пару поколений и всё будет решено.
          И что значит это "умнее"?


          1. Apxuej
            14.05.2024 09:39

            Полагаю "умнее" в данном случае значит - сравнительно лучшие результаты, относительно медианных показателей людей в различных задачах, таких, которые ИИ может потенциально решить с учётом ограничений интерфейсов взаимодействия его с миром. Приоритетом в бесконечном множестве подобных задач будут те, которые способны принести пользу максимальному числу людей и могут быть потенциально решены относительно большим числом людей. Т.е. никаких расчётов свёртывания белков, расчёта квантовых полей, вычислений оптимальных форм болида f1.


            1. Eggsiname
              14.05.2024 09:39
              +1

              Уже давно есть ИИ, то-что люди неспособны это принять не отменяет того что ИИ нет. ИИ принято делить на слабый и сильный. Если с слабым ИИ вопросов нет, то про сильный ИИ можно поспорить. Как по мне тот же ChatGPT (gpt-4 модель) больше похож на сильный ИИ, но с некоторыми ограничениями.


      1. Eggsiname
        14.05.2024 09:39

        В плане "ИИ не существует"? А как же gpt, midjourney, sora? Все они выполняют творческую функцию...


        1. arantar
          14.05.2024 09:39

          Эти модели обладают интеллектом по вашему? Они ничего не выполняют сами, человек дает задание - они делают.


          1. TommyG
            14.05.2024 09:39

            intellect is the ability of the human mind to reach correct conclusions about what is true and what is false in reality; and includes capacities such as reasoning, conceiving, judging, and relating.

            При чём тут "ничего не выполняют сами"?


            1. arantar
              14.05.2024 09:39

              Я считаю, что одним из признаков наличия интеллекта это наличие самопобуждения, саморазвития и прочих "само-", на что пока не способны эти псевдо-ИИ.
              Это как машина без двигателя, её можно только толкать самому.


              1. TommyG
                14.05.2024 09:39

                Это как машина без двигателя, её можно только толкать самому.

                Все эти "само" не включаются в определение интелекта. По идее бы надо быть точнее с определениями, а то ваши собеседники имеют сильно отличный контекст от вашего и каждый разговаривает о своём.


                1. arantar
                  14.05.2024 09:39

                  Все эти "само" не включаются в определение интелекта.

                  Чего вы взяли, что существует какое-то единственно правильное определение этого слова? В той же вики об этом прямо пишется.
                  И в вашем определении, например, идет речь только про человеческий разум.

                  Также можно немного вникнуть в работу этих моделей и потом задаться вопросом, а можно ли это называть интеллектом?
                  https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/


                  1. TommyG
                    14.05.2024 09:39

                    Чего вы взяли, что существует какое-то единственно правильное определение этого слова?

                    Я не говорю что существует единственно правильного, но лично я не помню чтобы "само" было необходимой частью интелекта.

                    С моей точки зрения, это скорее имеет отношение к "сознанию", а не к "интелекту".

                    можно ли это называть интеллектом

                    Тут вопрос не то как оно сделано, а "выглядит как утка, крякает как утка и если ведёт себя как утка" - то вполне возможно назвать это "уткой".

                    Вот интересная статейка, почитайте https://arxiv.org/pdf/2303.12712

                    Недавно видел интересный вопрос - "обладает ли пятилетний ребёнок интелектом? Превзойдёт ли каой-нибудь chatgpt его в уровне ителекта?"


              1. Eggsiname
                14.05.2024 09:39

                1. Это лишь твоём мнение, и оно никоем образом не совпадает с реальностью.
                  2. Если считать по твоему определению "Они ничего не выполняют сами" - то по сути ты тоже не имеешь интеллекта, т.к. задачи тебе ставятся из вне.
                  3. Я процитирую своё сообщение выше: "Уже давно есть ИИ, то-что люди неспособны это принять не отменяет того что ИИ нет. ИИ принято делить на слабый и сильный. Если с слабым ИИ вопросов нет, то про сильный ИИ можно поспорить. Как по мне тот же ChatGPT (gpt-4 модель) больше похож на сильный ИИ, но с некоторыми ограничениями."

                  Edit: P.S. Теперь gpt может обучать роботов (лучше чем человек) для взаимодействия с физической реальность > https://eureka-research.github.io/dr-eureka/


                1. arantar
                  14.05.2024 09:39
                  +1

                  1. Оно совпадает с реальностью настолько, насколько и твоё. Это мнение и оно субъективно.

                  2. Ставятся кем/чем? Кто тебе поставил задачу написать ответ на мой комментарий? Голоса в голове, бог и т.д.?

                  3. Что такое "сильный ИИ"? Что за ограничения?

                  Я пользуюсь ChatGPT почти с запуска их браузерной версии, а платной версией с самого начала и до сих пор продолжаю использовать в работе и в жизни, и от слова совсем не понимаю речей про замену человека, потерю многими работы и прочим бредом.
                  Он упрощает некоторую работу? Да.
                  Он помогает в поиске решения? Да.
                  Он предлагает решения? Да.
                  Может он делать за меня мою работу? Даже близко нет, более того за ним самим нужно тщательно следить, а следовательно хоть немного разбираться в этой теме. Не говоря уже о том, что нужно составлять ТЗ для него, что уже немаловажная часть работы и требует понимания предметной области.


                  1. Eggsiname
                    14.05.2024 09:39


                    1. Чем бы не было твоё мнение - это не более чем мнение. (мусор, шум, бесполезной информации (без обид))
                    2. Стимул - реакция (увидел коммент - ответил). Без комментария не было бы другого комментария.
                    3. Сильный ИИ (Общий) - имитация возможностей человеческого мозга включая аналитическое мышление и другие интеллектуальные способности что даёт возможность в решении общих задач, без заранее запрограммированных моделей для решения этой задачи.

                    Хз почему ты решил про замену человека и потерю многими работы заговорить, но прямо сейчас уже кучу людей поувольняли, тот-же пример с увольнениями Илона Маска с завода по производству Tesla. И всё это реальность а не какая-то выдумка или теория заговора. Будет автоматизация (что уже как давно возможна, даже без gpt), автоматизация повлечет за собой безработицу, безработица к невозможности купить банально еду. Невозможность людей купить еду повлечёт массовые беспорядки, воровство и т.д. и т.д.
                    Почему будет автоматизация? Это тебе к понимаю того как работает экспоненциальный рост + принципы бизнеса (масштабирование, уменьшение расходов и т.д).

                    "Может он делать за меня мою работу?" - смотря о какой работе идёт речь. Раньше думали что программистов нельзя заменить, а щас тот-же gpt пишет код лучше джунов, а даже иногда лучше мидлов.
                    "нужно составлять ТЗ для него " - это можно автоматизировать с помощью того-же gpt. Создай примерный шаблон тз, сохрани его, и по этому шаблону, своим языком объясни что нужно сделать и он тебе составит ТЗ.


                    1. arantar
                      14.05.2024 09:39

                      del


  1. datacompboy
    14.05.2024 09:39
    +1

    "меньше цены" или "меньше ценности"?


    1. datacompboy
      14.05.2024 09:39
      +1

      ок, дошло, где ударение в слове. :D


  1. oleg_rico
    14.05.2024 09:39

    Везде в новостях трубят что бесплатные юзеры получат к ней доступ. У меня есть бесплатный аккаунт но как получить доступ к этой модели так и не понял:)


    1. Fell-x27
      14.05.2024 09:39

      Возможно, на бесплатных еще не раскатали.


    1. h45h47
      14.05.2024 09:39
      +4

      Она сама включается вместо 3.5, но спустя примерно 5-7 запросов вылезло окошко, что бесплатные токены кончились, и появятся только через два часа, а пока опять 3.5.

      К слову, код пишет круто! 3.5 о криптографии на эллиптических кривых в SageMath было бессмысленно спрашивать, а 4о с первого раза рабочий код выдаёт, поясняет красиво.


      1. Aniro
        14.05.2024 09:39

        Как это выглядит в интерфейсе? Вам похоже повезло с ранним включением, у меня пока нету:

        Это точно все тотже 3.5. Вот ответы 4о для сравнения:

        В коддинге, кстати, улучшения заметны только если с 3.5 сравнивать. По сравнению с 4-турбо улучшения спорные. По первым впечатления - ошибок меньше, код качествнней, но при этом плохо следует инструкциям, просто игнорируя те, которые не нравятся. Похоже надо ждать следующую платную версию. (i-am-good-gpt2-chatbot на арене был сильно лучше чем релиз 4o)


    1. Eggsiname
      14.05.2024 09:39

      Даже в твоём тексте написано "ПОЛУЧАТ" - будущее время.
      Доступ к gpt-4o получают постепенно (кто-то уже получил, кто-то позже получит)


  1. sota-placeholder
    14.05.2024 09:39

    Попробовал поговорить с обновой, и первое впечатление осталось очень даже позитивное. Немного разочаровало, что модель не учитывает предыдущую историю переписок и общаться с ней надо начинать с заново. Однако, она на лету конспектирует и запоминает необохдимую инфу - факты о юзере, контекст беседы, задачи, цели и т.д.

    Очень хочется попробовать её в качестве переводчика.


  1. edogs
    14.05.2024 09:39
    +1

    Попробовали, первое впечатление было хорошее, а вот потом...
    Кратко: есть ощущение, что 4-омни стал "человечнее". И это минус. Вместо информации и корректного ответа зачастую получаем мнение и неточности.
    Есть четкий чек-лист шагов какого-то процесса, он вместо выдачи этого чек-листа, опять же, по человечески догадывается что должно делаться в ходе этого процесса, выбить из него формальный чек-лист нереально. Спрашиваешь кому принадлежит цитата, он анализирует ее смысл и делает вывод кому она могла бы принадлежать, кому она на самом деле принадлежит - ему по фиг, надо специально уточнять.
    Точность и достоверность ответов стала ниже, а вот спекуляций и рассуждений стало больше. В принципе в тех областях, где точного ответа нет, это плюс. Но там где он нужен - омни просто неюзабелен, использовали 4-турбо в результате.


  1. DorianKon
    14.05.2024 09:39

    Не пойму, зачем автор так врёт? Вот что мне написала новая модель без платной подписки: "К сожалению, я не могу рисовать изображения. Однако, я могу предложить описания или помочь найти инструменты, которые помогут тебе нарисовать кота. Хочешь, чтобы я помог с этим?"